{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 209.0, "eval_steps": 500, "global_step": 78375, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.02666666666666667, "grad_norm": 9.25, "learning_rate": 5.399999999999999e-06, "loss": 1.0637, "step": 10 }, { "epoch": 0.05333333333333334, "grad_norm": 8.25, "learning_rate": 1.14e-05, "loss": 1.0494, "step": 20 }, { "epoch": 0.08, "grad_norm": 4.84375, "learning_rate": 1.74e-05, "loss": 1.0261, "step": 30 }, { "epoch": 0.10666666666666667, "grad_norm": 1.1171875, "learning_rate": 2.34e-05, "loss": 0.9926, "step": 40 }, { "epoch": 0.13333333333333333, "grad_norm": 0.99609375, "learning_rate": 2.94e-05, "loss": 0.9774, "step": 50 }, { "epoch": 0.16, "grad_norm": 0.875, "learning_rate": 3.539999999999999e-05, "loss": 0.9531, "step": 60 }, { "epoch": 0.18666666666666668, "grad_norm": 0.71484375, "learning_rate": 4.14e-05, "loss": 0.9159, "step": 70 }, { "epoch": 0.21333333333333335, "grad_norm": 0.5234375, "learning_rate": 4.7399999999999993e-05, "loss": 0.8883, "step": 80 }, { "epoch": 0.24, "grad_norm": 0.54296875, "learning_rate": 5.339999999999999e-05, "loss": 0.8364, "step": 90 }, { "epoch": 0.26666666666666666, "grad_norm": 0.46875, "learning_rate": 5.94e-05, "loss": 0.7873, "step": 100 }, { "epoch": 0.29333333333333333, "grad_norm": 0.3125, "learning_rate": 6.539999999999999e-05, "loss": 0.7557, "step": 110 }, { "epoch": 0.32, "grad_norm": 0.21484375, "learning_rate": 7.139999999999999e-05, "loss": 0.7321, "step": 120 }, { "epoch": 0.3466666666666667, "grad_norm": 0.271484375, "learning_rate": 7.74e-05, "loss": 0.7241, "step": 130 }, { "epoch": 0.37333333333333335, "grad_norm": 0.265625, "learning_rate": 8.34e-05, "loss": 0.7289, "step": 140 }, { "epoch": 0.4, "grad_norm": 0.1376953125, "learning_rate": 8.939999999999999e-05, "loss": 0.7268, "step": 150 }, { "epoch": 0.4266666666666667, "grad_norm": 0.1142578125, "learning_rate": 9.539999999999999e-05, "loss": 0.7145, "step": 160 }, { "epoch": 0.4533333333333333, "grad_norm": 0.2158203125, "learning_rate": 0.0001014, "loss": 0.7186, "step": 170 }, { "epoch": 0.48, "grad_norm": 0.1865234375, "learning_rate": 0.00010739999999999998, "loss": 0.7153, "step": 180 }, { "epoch": 0.5066666666666667, "grad_norm": 0.1494140625, "learning_rate": 0.00011339999999999999, "loss": 0.7115, "step": 190 }, { "epoch": 0.5333333333333333, "grad_norm": 0.09765625, "learning_rate": 0.0001194, "loss": 0.6966, "step": 200 }, { "epoch": 0.56, "grad_norm": 0.1904296875, "learning_rate": 0.00012539999999999999, "loss": 0.705, "step": 210 }, { "epoch": 0.5866666666666667, "grad_norm": 0.2080078125, "learning_rate": 0.0001314, "loss": 0.7021, "step": 220 }, { "epoch": 0.6133333333333333, "grad_norm": 0.1826171875, "learning_rate": 0.0001374, "loss": 0.7011, "step": 230 }, { "epoch": 0.64, "grad_norm": 0.1298828125, "learning_rate": 0.0001434, "loss": 0.6889, "step": 240 }, { "epoch": 0.6666666666666666, "grad_norm": 0.30078125, "learning_rate": 0.0001494, "loss": 0.6945, "step": 250 }, { "epoch": 0.6933333333333334, "grad_norm": 0.1865234375, "learning_rate": 0.00015539999999999998, "loss": 0.6997, "step": 260 }, { "epoch": 0.72, "grad_norm": 0.1904296875, "learning_rate": 0.0001614, "loss": 0.6889, "step": 270 }, { "epoch": 0.7466666666666667, "grad_norm": 0.1728515625, "learning_rate": 0.0001674, "loss": 0.6743, "step": 280 }, { "epoch": 0.7733333333333333, "grad_norm": 0.2294921875, "learning_rate": 0.00017339999999999996, "loss": 0.6687, "step": 290 }, { "epoch": 0.8, "grad_norm": 0.287109375, "learning_rate": 0.00017939999999999997, "loss": 0.6447, "step": 300 }, { "epoch": 0.8266666666666667, "grad_norm": 0.48828125, "learning_rate": 0.00018539999999999998, "loss": 0.6309, "step": 310 }, { "epoch": 0.8533333333333334, "grad_norm": 0.13671875, "learning_rate": 0.0001914, "loss": 0.6308, "step": 320 }, { "epoch": 0.88, "grad_norm": 0.19921875, "learning_rate": 0.0001974, "loss": 0.616, "step": 330 }, { "epoch": 0.9066666666666666, "grad_norm": 0.23046875, "learning_rate": 0.00020339999999999998, "loss": 0.6208, "step": 340 }, { "epoch": 0.9333333333333333, "grad_norm": 0.1748046875, "learning_rate": 0.00020939999999999997, "loss": 0.6243, "step": 350 }, { "epoch": 0.96, "grad_norm": 0.150390625, "learning_rate": 0.00021539999999999998, "loss": 0.6198, "step": 360 }, { "epoch": 0.9866666666666667, "grad_norm": 0.5859375, "learning_rate": 0.0002214, "loss": 0.6235, "step": 370 }, { "epoch": 1.0, "eval_loss": 0.6113528609275818, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.0988, "eval_samples_per_second": 1.584, "eval_steps_per_second": 0.099, "step": 375 }, { "epoch": 1.0133333333333334, "grad_norm": 0.1552734375, "learning_rate": 0.00022739999999999997, "loss": 0.613, "step": 380 }, { "epoch": 1.04, "grad_norm": 0.30859375, "learning_rate": 0.00023339999999999998, "loss": 0.6216, "step": 390 }, { "epoch": 1.0666666666666667, "grad_norm": 0.427734375, "learning_rate": 0.0002394, "loss": 0.6229, "step": 400 }, { "epoch": 1.0933333333333333, "grad_norm": 0.349609375, "learning_rate": 0.00024539999999999995, "loss": 0.613, "step": 410 }, { "epoch": 1.12, "grad_norm": 0.515625, "learning_rate": 0.0002514, "loss": 0.6115, "step": 420 }, { "epoch": 1.1466666666666667, "grad_norm": 0.10693359375, "learning_rate": 0.00025739999999999997, "loss": 0.6322, "step": 430 }, { "epoch": 1.1733333333333333, "grad_norm": 0.5859375, "learning_rate": 0.00026339999999999995, "loss": 0.61, "step": 440 }, { "epoch": 1.2, "grad_norm": 0.296875, "learning_rate": 0.0002694, "loss": 0.6103, "step": 450 }, { "epoch": 1.2266666666666666, "grad_norm": 0.58203125, "learning_rate": 0.00027539999999999997, "loss": 0.612, "step": 460 }, { "epoch": 1.2533333333333334, "grad_norm": 0.3828125, "learning_rate": 0.00028139999999999996, "loss": 0.6018, "step": 470 }, { "epoch": 1.28, "grad_norm": 0.2734375, "learning_rate": 0.00028739999999999994, "loss": 0.6077, "step": 480 }, { "epoch": 1.3066666666666666, "grad_norm": 0.302734375, "learning_rate": 0.0002934, "loss": 0.5906, "step": 490 }, { "epoch": 1.3333333333333333, "grad_norm": 0.4453125, "learning_rate": 0.00029939999999999996, "loss": 0.6005, "step": 500 }, { "epoch": 1.3599999999999999, "grad_norm": 0.3515625, "learning_rate": 0.00029999999989326596, "loss": 0.6028, "step": 510 }, { "epoch": 1.3866666666666667, "grad_norm": 0.39453125, "learning_rate": 0.0002999999995243089, "loss": 0.5956, "step": 520 }, { "epoch": 1.4133333333333333, "grad_norm": 0.236328125, "learning_rate": 0.00029999999889181124, "loss": 0.5882, "step": 530 }, { "epoch": 1.44, "grad_norm": 0.1728515625, "learning_rate": 0.0002999999979957728, "loss": 0.5923, "step": 540 }, { "epoch": 1.4666666666666668, "grad_norm": 0.1435546875, "learning_rate": 0.0002999999968361936, "loss": 0.5985, "step": 550 }, { "epoch": 1.4933333333333334, "grad_norm": 0.2138671875, "learning_rate": 0.00029999999541307376, "loss": 0.5878, "step": 560 }, { "epoch": 1.52, "grad_norm": 0.24609375, "learning_rate": 0.0002999999937264132, "loss": 0.587, "step": 570 }, { "epoch": 1.5466666666666666, "grad_norm": 0.1416015625, "learning_rate": 0.00029999999177621184, "loss": 0.5771, "step": 580 }, { "epoch": 1.5733333333333333, "grad_norm": 0.12255859375, "learning_rate": 0.00029999998956246985, "loss": 0.5678, "step": 590 }, { "epoch": 1.6, "grad_norm": 0.265625, "learning_rate": 0.00029999998708518715, "loss": 0.5659, "step": 600 }, { "epoch": 1.6266666666666667, "grad_norm": 0.14453125, "learning_rate": 0.00029999998434436374, "loss": 0.5446, "step": 610 }, { "epoch": 1.6533333333333333, "grad_norm": 0.1376953125, "learning_rate": 0.0002999999813399996, "loss": 0.5666, "step": 620 }, { "epoch": 1.6800000000000002, "grad_norm": 0.11865234375, "learning_rate": 0.0002999999780720948, "loss": 0.5615, "step": 630 }, { "epoch": 1.7066666666666666, "grad_norm": 0.349609375, "learning_rate": 0.00029999997454064936, "loss": 0.5576, "step": 640 }, { "epoch": 1.7333333333333334, "grad_norm": 0.1884765625, "learning_rate": 0.0002999999707456632, "loss": 0.5802, "step": 650 }, { "epoch": 1.76, "grad_norm": 0.201171875, "learning_rate": 0.00029999996668713633, "loss": 0.5764, "step": 660 }, { "epoch": 1.7866666666666666, "grad_norm": 0.2451171875, "learning_rate": 0.0002999999623650689, "loss": 0.5754, "step": 670 }, { "epoch": 1.8133333333333335, "grad_norm": 0.3046875, "learning_rate": 0.00029999995777946073, "loss": 0.56, "step": 680 }, { "epoch": 1.8399999999999999, "grad_norm": 0.349609375, "learning_rate": 0.00029999995293031193, "loss": 0.5677, "step": 690 }, { "epoch": 1.8666666666666667, "grad_norm": 0.2099609375, "learning_rate": 0.00029999994781762247, "loss": 0.5564, "step": 700 }, { "epoch": 1.8933333333333333, "grad_norm": 0.330078125, "learning_rate": 0.0002999999424413924, "loss": 0.5461, "step": 710 }, { "epoch": 1.92, "grad_norm": 0.34765625, "learning_rate": 0.0002999999368016218, "loss": 0.5634, "step": 720 }, { "epoch": 1.9466666666666668, "grad_norm": 0.2197265625, "learning_rate": 0.0002999999308983105, "loss": 0.5511, "step": 730 }, { "epoch": 1.9733333333333334, "grad_norm": 0.1640625, "learning_rate": 0.0002999999247314586, "loss": 0.5605, "step": 740 }, { "epoch": 2.0, "grad_norm": 0.185546875, "learning_rate": 0.0002999999183010661, "loss": 0.5486, "step": 750 }, { "epoch": 2.0, "eval_loss": 0.5647158026695251, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.7822, "eval_samples_per_second": 1.636, "eval_steps_per_second": 0.102, "step": 750 }, { "epoch": 2.026666666666667, "grad_norm": 0.2294921875, "learning_rate": 0.00029999991160713305, "loss": 0.5642, "step": 760 }, { "epoch": 2.0533333333333332, "grad_norm": 0.2578125, "learning_rate": 0.00029999990464965945, "loss": 0.5692, "step": 770 }, { "epoch": 2.08, "grad_norm": 0.205078125, "learning_rate": 0.00029999989742864524, "loss": 0.5634, "step": 780 }, { "epoch": 2.1066666666666665, "grad_norm": 0.1767578125, "learning_rate": 0.00029999988994409055, "loss": 0.5492, "step": 790 }, { "epoch": 2.1333333333333333, "grad_norm": 0.185546875, "learning_rate": 0.0002999998821959953, "loss": 0.5613, "step": 800 }, { "epoch": 2.16, "grad_norm": 0.306640625, "learning_rate": 0.00029999987418435957, "loss": 0.5597, "step": 810 }, { "epoch": 2.1866666666666665, "grad_norm": 0.33203125, "learning_rate": 0.00029999986590918334, "loss": 0.5467, "step": 820 }, { "epoch": 2.2133333333333334, "grad_norm": 0.2734375, "learning_rate": 0.00029999985737046657, "loss": 0.5505, "step": 830 }, { "epoch": 2.24, "grad_norm": 0.240234375, "learning_rate": 0.0002999998485682093, "loss": 0.5472, "step": 840 }, { "epoch": 2.2666666666666666, "grad_norm": 0.37109375, "learning_rate": 0.00029999983950241166, "loss": 0.5492, "step": 850 }, { "epoch": 2.2933333333333334, "grad_norm": 0.13671875, "learning_rate": 0.0002999998301730736, "loss": 0.541, "step": 860 }, { "epoch": 2.32, "grad_norm": 0.390625, "learning_rate": 0.000299999820580195, "loss": 0.5435, "step": 870 }, { "epoch": 2.3466666666666667, "grad_norm": 0.1494140625, "learning_rate": 0.0002999998107237761, "loss": 0.5546, "step": 880 }, { "epoch": 2.3733333333333335, "grad_norm": 0.2451171875, "learning_rate": 0.0002999998006038168, "loss": 0.5503, "step": 890 }, { "epoch": 2.4, "grad_norm": 0.220703125, "learning_rate": 0.0002999997902203171, "loss": 0.5423, "step": 900 }, { "epoch": 2.4266666666666667, "grad_norm": 0.1669921875, "learning_rate": 0.00029999977957327704, "loss": 0.5461, "step": 910 }, { "epoch": 2.453333333333333, "grad_norm": 0.1552734375, "learning_rate": 0.00029999976866269666, "loss": 0.5513, "step": 920 }, { "epoch": 2.48, "grad_norm": 0.1953125, "learning_rate": 0.00029999975748857595, "loss": 0.5532, "step": 930 }, { "epoch": 2.506666666666667, "grad_norm": 0.1953125, "learning_rate": 0.00029999974605091496, "loss": 0.547, "step": 940 }, { "epoch": 2.533333333333333, "grad_norm": 0.23828125, "learning_rate": 0.00029999973434971375, "loss": 0.5383, "step": 950 }, { "epoch": 2.56, "grad_norm": 0.294921875, "learning_rate": 0.0002999997223849722, "loss": 0.5375, "step": 960 }, { "epoch": 2.586666666666667, "grad_norm": 0.25390625, "learning_rate": 0.0002999997101566904, "loss": 0.5307, "step": 970 }, { "epoch": 2.6133333333333333, "grad_norm": 0.298828125, "learning_rate": 0.0002999996976648685, "loss": 0.5155, "step": 980 }, { "epoch": 2.64, "grad_norm": 0.2158203125, "learning_rate": 0.00029999968490950635, "loss": 0.518, "step": 990 }, { "epoch": 2.6666666666666665, "grad_norm": 0.267578125, "learning_rate": 0.000299999671890604, "loss": 0.539, "step": 1000 }, { "epoch": 2.6933333333333334, "grad_norm": 0.26171875, "learning_rate": 0.0002999996586081615, "loss": 0.5208, "step": 1010 }, { "epoch": 2.7199999999999998, "grad_norm": 0.384765625, "learning_rate": 0.0002999996450621789, "loss": 0.5389, "step": 1020 }, { "epoch": 2.7466666666666666, "grad_norm": 0.2109375, "learning_rate": 0.0002999996312526562, "loss": 0.5422, "step": 1030 }, { "epoch": 2.7733333333333334, "grad_norm": 0.154296875, "learning_rate": 0.0002999996171795935, "loss": 0.5498, "step": 1040 }, { "epoch": 2.8, "grad_norm": 0.236328125, "learning_rate": 0.0002999996028429907, "loss": 0.5356, "step": 1050 }, { "epoch": 2.8266666666666667, "grad_norm": 0.1923828125, "learning_rate": 0.0002999995882428479, "loss": 0.5313, "step": 1060 }, { "epoch": 2.8533333333333335, "grad_norm": 0.26953125, "learning_rate": 0.00029999957337916507, "loss": 0.5375, "step": 1070 }, { "epoch": 2.88, "grad_norm": 0.28515625, "learning_rate": 0.00029999955825194224, "loss": 0.5209, "step": 1080 }, { "epoch": 2.9066666666666667, "grad_norm": 0.427734375, "learning_rate": 0.00029999954286117947, "loss": 0.5268, "step": 1090 }, { "epoch": 2.9333333333333336, "grad_norm": 0.2392578125, "learning_rate": 0.0002999995272068768, "loss": 0.5294, "step": 1100 }, { "epoch": 2.96, "grad_norm": 0.119140625, "learning_rate": 0.0002999995112890343, "loss": 0.5262, "step": 1110 }, { "epoch": 2.986666666666667, "grad_norm": 0.5234375, "learning_rate": 0.00029999949510765183, "loss": 0.5403, "step": 1120 }, { "epoch": 3.0, "eval_loss": 0.5400508046150208, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.0742, "eval_samples_per_second": 1.588, "eval_steps_per_second": 0.099, "step": 1125 }, { "epoch": 3.013333333333333, "grad_norm": 0.216796875, "learning_rate": 0.0002999994786627296, "loss": 0.5269, "step": 1130 }, { "epoch": 3.04, "grad_norm": 0.1953125, "learning_rate": 0.00029999946195426755, "loss": 0.5475, "step": 1140 }, { "epoch": 3.066666666666667, "grad_norm": 0.2294921875, "learning_rate": 0.00029999944498226573, "loss": 0.54, "step": 1150 }, { "epoch": 3.0933333333333333, "grad_norm": 0.451171875, "learning_rate": 0.0002999994277467241, "loss": 0.5373, "step": 1160 }, { "epoch": 3.12, "grad_norm": 0.375, "learning_rate": 0.00029999941024764284, "loss": 0.5319, "step": 1170 }, { "epoch": 3.1466666666666665, "grad_norm": 0.2353515625, "learning_rate": 0.00029999939248502187, "loss": 0.5417, "step": 1180 }, { "epoch": 3.1733333333333333, "grad_norm": 0.1953125, "learning_rate": 0.00029999937445886123, "loss": 0.528, "step": 1190 }, { "epoch": 3.2, "grad_norm": 0.212890625, "learning_rate": 0.00029999935616916096, "loss": 0.5285, "step": 1200 }, { "epoch": 3.2266666666666666, "grad_norm": 0.259765625, "learning_rate": 0.0002999993376159211, "loss": 0.528, "step": 1210 }, { "epoch": 3.2533333333333334, "grad_norm": 0.193359375, "learning_rate": 0.0002999993187991417, "loss": 0.5237, "step": 1220 }, { "epoch": 3.2800000000000002, "grad_norm": 0.18359375, "learning_rate": 0.0002999992997188228, "loss": 0.535, "step": 1230 }, { "epoch": 3.3066666666666666, "grad_norm": 0.18359375, "learning_rate": 0.00029999928037496436, "loss": 0.5154, "step": 1240 }, { "epoch": 3.3333333333333335, "grad_norm": 0.255859375, "learning_rate": 0.0002999992607675665, "loss": 0.532, "step": 1250 }, { "epoch": 3.36, "grad_norm": 0.1640625, "learning_rate": 0.0002999992408966292, "loss": 0.5363, "step": 1260 }, { "epoch": 3.3866666666666667, "grad_norm": 0.2490234375, "learning_rate": 0.00029999922076215255, "loss": 0.5266, "step": 1270 }, { "epoch": 3.413333333333333, "grad_norm": 0.283203125, "learning_rate": 0.0002999992003641365, "loss": 0.526, "step": 1280 }, { "epoch": 3.44, "grad_norm": 0.15234375, "learning_rate": 0.0002999991797025811, "loss": 0.532, "step": 1290 }, { "epoch": 3.466666666666667, "grad_norm": 0.1796875, "learning_rate": 0.0002999991587774865, "loss": 0.5403, "step": 1300 }, { "epoch": 3.493333333333333, "grad_norm": 0.291015625, "learning_rate": 0.0002999991375888526, "loss": 0.5313, "step": 1310 }, { "epoch": 3.52, "grad_norm": 0.265625, "learning_rate": 0.00029999911613667955, "loss": 0.5282, "step": 1320 }, { "epoch": 3.546666666666667, "grad_norm": 0.2197265625, "learning_rate": 0.00029999909442096726, "loss": 0.5223, "step": 1330 }, { "epoch": 3.5733333333333333, "grad_norm": 0.2734375, "learning_rate": 0.00029999907244171594, "loss": 0.5182, "step": 1340 }, { "epoch": 3.6, "grad_norm": 0.298828125, "learning_rate": 0.00029999905019892543, "loss": 0.5138, "step": 1350 }, { "epoch": 3.626666666666667, "grad_norm": 0.1796875, "learning_rate": 0.0002999990276925959, "loss": 0.4966, "step": 1360 }, { "epoch": 3.6533333333333333, "grad_norm": 0.212890625, "learning_rate": 0.0002999990049227274, "loss": 0.5187, "step": 1370 }, { "epoch": 3.68, "grad_norm": 0.29296875, "learning_rate": 0.0002999989818893199, "loss": 0.5107, "step": 1380 }, { "epoch": 3.7066666666666666, "grad_norm": 0.302734375, "learning_rate": 0.00029999895859237344, "loss": 0.5109, "step": 1390 }, { "epoch": 3.7333333333333334, "grad_norm": 0.2734375, "learning_rate": 0.00029999893503188807, "loss": 0.5325, "step": 1400 }, { "epoch": 3.76, "grad_norm": 0.2265625, "learning_rate": 0.00029999891120786393, "loss": 0.5327, "step": 1410 }, { "epoch": 3.7866666666666666, "grad_norm": 0.2041015625, "learning_rate": 0.00029999888712030093, "loss": 0.5306, "step": 1420 }, { "epoch": 3.8133333333333335, "grad_norm": 0.515625, "learning_rate": 0.0002999988627691992, "loss": 0.5156, "step": 1430 }, { "epoch": 3.84, "grad_norm": 0.34765625, "learning_rate": 0.00029999883815455867, "loss": 0.5235, "step": 1440 }, { "epoch": 3.8666666666666667, "grad_norm": 0.478515625, "learning_rate": 0.00029999881327637956, "loss": 0.5176, "step": 1450 }, { "epoch": 3.8933333333333335, "grad_norm": 0.58984375, "learning_rate": 0.00029999878813466175, "loss": 0.5076, "step": 1460 }, { "epoch": 3.92, "grad_norm": 0.35546875, "learning_rate": 0.00029999876272940535, "loss": 0.5211, "step": 1470 }, { "epoch": 3.9466666666666668, "grad_norm": 0.1982421875, "learning_rate": 0.0002999987370606104, "loss": 0.5123, "step": 1480 }, { "epoch": 3.9733333333333336, "grad_norm": 0.2578125, "learning_rate": 0.000299998711128277, "loss": 0.5238, "step": 1490 }, { "epoch": 4.0, "grad_norm": 0.2041015625, "learning_rate": 0.00029999868493240506, "loss": 0.5122, "step": 1500 }, { "epoch": 4.0, "eval_loss": 0.5266960859298706, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.9024, "eval_samples_per_second": 1.616, "eval_steps_per_second": 0.101, "step": 1500 }, { "epoch": 4.026666666666666, "grad_norm": 0.275390625, "learning_rate": 0.00029999865847299477, "loss": 0.5296, "step": 1510 }, { "epoch": 4.053333333333334, "grad_norm": 0.2470703125, "learning_rate": 0.0002999986317500461, "loss": 0.5363, "step": 1520 }, { "epoch": 4.08, "grad_norm": 0.2265625, "learning_rate": 0.0002999986047635591, "loss": 0.5265, "step": 1530 }, { "epoch": 4.1066666666666665, "grad_norm": 0.2265625, "learning_rate": 0.00029999857751353384, "loss": 0.5187, "step": 1540 }, { "epoch": 4.133333333333334, "grad_norm": 0.470703125, "learning_rate": 0.00029999854999997037, "loss": 0.5247, "step": 1550 }, { "epoch": 4.16, "grad_norm": 0.57421875, "learning_rate": 0.00029999852222286873, "loss": 0.5269, "step": 1560 }, { "epoch": 4.1866666666666665, "grad_norm": 0.345703125, "learning_rate": 0.000299998494182229, "loss": 0.5152, "step": 1570 }, { "epoch": 4.213333333333333, "grad_norm": 0.28125, "learning_rate": 0.0002999984658780511, "loss": 0.5159, "step": 1580 }, { "epoch": 4.24, "grad_norm": 0.23828125, "learning_rate": 0.00029999843731033524, "loss": 0.515, "step": 1590 }, { "epoch": 4.266666666666667, "grad_norm": 0.18359375, "learning_rate": 0.00029999840847908134, "loss": 0.5188, "step": 1600 }, { "epoch": 4.293333333333333, "grad_norm": 0.1796875, "learning_rate": 0.00029999837938428955, "loss": 0.5117, "step": 1610 }, { "epoch": 4.32, "grad_norm": 0.189453125, "learning_rate": 0.00029999835002595993, "loss": 0.5159, "step": 1620 }, { "epoch": 4.346666666666667, "grad_norm": 0.322265625, "learning_rate": 0.00029999832040409247, "loss": 0.5263, "step": 1630 }, { "epoch": 4.373333333333333, "grad_norm": 0.330078125, "learning_rate": 0.0002999982905186872, "loss": 0.5212, "step": 1640 }, { "epoch": 4.4, "grad_norm": 0.357421875, "learning_rate": 0.00029999826036974426, "loss": 0.5149, "step": 1650 }, { "epoch": 4.426666666666667, "grad_norm": 0.244140625, "learning_rate": 0.00029999822995726357, "loss": 0.521, "step": 1660 }, { "epoch": 4.453333333333333, "grad_norm": 0.439453125, "learning_rate": 0.0002999981992812454, "loss": 0.5257, "step": 1670 }, { "epoch": 4.48, "grad_norm": 0.208984375, "learning_rate": 0.0002999981683416896, "loss": 0.5305, "step": 1680 }, { "epoch": 4.506666666666667, "grad_norm": 0.50390625, "learning_rate": 0.0002999981371385963, "loss": 0.5198, "step": 1690 }, { "epoch": 4.533333333333333, "grad_norm": 0.41796875, "learning_rate": 0.00029999810567196553, "loss": 0.5147, "step": 1700 }, { "epoch": 4.5600000000000005, "grad_norm": 0.431640625, "learning_rate": 0.0002999980739417974, "loss": 0.512, "step": 1710 }, { "epoch": 4.586666666666667, "grad_norm": 0.29296875, "learning_rate": 0.0002999980419480919, "loss": 0.5087, "step": 1720 }, { "epoch": 4.613333333333333, "grad_norm": 0.15234375, "learning_rate": 0.00029999800969084914, "loss": 0.4936, "step": 1730 }, { "epoch": 4.64, "grad_norm": 0.197265625, "learning_rate": 0.0002999979771700692, "loss": 0.4966, "step": 1740 }, { "epoch": 4.666666666666667, "grad_norm": 0.1748046875, "learning_rate": 0.00029999794438575203, "loss": 0.5153, "step": 1750 }, { "epoch": 4.693333333333333, "grad_norm": 0.255859375, "learning_rate": 0.00029999791133789776, "loss": 0.4968, "step": 1760 }, { "epoch": 4.72, "grad_norm": 0.23046875, "learning_rate": 0.00029999787802650646, "loss": 0.5156, "step": 1770 }, { "epoch": 4.746666666666667, "grad_norm": 0.208984375, "learning_rate": 0.00029999784445157814, "loss": 0.5193, "step": 1780 }, { "epoch": 4.773333333333333, "grad_norm": 0.28125, "learning_rate": 0.0002999978106131129, "loss": 0.5272, "step": 1790 }, { "epoch": 4.8, "grad_norm": 0.2177734375, "learning_rate": 0.0002999977765111108, "loss": 0.5128, "step": 1800 }, { "epoch": 4.826666666666666, "grad_norm": 0.1748046875, "learning_rate": 0.00029999774214557187, "loss": 0.5092, "step": 1810 }, { "epoch": 4.8533333333333335, "grad_norm": 0.181640625, "learning_rate": 0.0002999977075164962, "loss": 0.5169, "step": 1820 }, { "epoch": 4.88, "grad_norm": 0.703125, "learning_rate": 0.0002999976726238838, "loss": 0.502, "step": 1830 }, { "epoch": 4.906666666666666, "grad_norm": 0.18359375, "learning_rate": 0.00029999763746773483, "loss": 0.5062, "step": 1840 }, { "epoch": 4.933333333333334, "grad_norm": 0.130859375, "learning_rate": 0.00029999760204804925, "loss": 0.5079, "step": 1850 }, { "epoch": 4.96, "grad_norm": 0.244140625, "learning_rate": 0.00029999756636482714, "loss": 0.5061, "step": 1860 }, { "epoch": 4.986666666666666, "grad_norm": 0.1962890625, "learning_rate": 0.0002999975304180686, "loss": 0.5212, "step": 1870 }, { "epoch": 5.0, "eval_loss": 0.5196089148521423, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.1189, "eval_samples_per_second": 1.581, "eval_steps_per_second": 0.099, "step": 1875 }, { "epoch": 5.013333333333334, "grad_norm": 0.2578125, "learning_rate": 0.0002999974942077737, "loss": 0.5085, "step": 1880 }, { "epoch": 5.04, "grad_norm": 0.259765625, "learning_rate": 0.00029999745773394247, "loss": 0.5315, "step": 1890 }, { "epoch": 5.066666666666666, "grad_norm": 0.33203125, "learning_rate": 0.00029999742099657493, "loss": 0.521, "step": 1900 }, { "epoch": 5.093333333333334, "grad_norm": 0.1767578125, "learning_rate": 0.0002999973839956713, "loss": 0.5159, "step": 1910 }, { "epoch": 5.12, "grad_norm": 0.26171875, "learning_rate": 0.0002999973467312315, "loss": 0.5129, "step": 1920 }, { "epoch": 5.1466666666666665, "grad_norm": 0.1572265625, "learning_rate": 0.00029999730920325565, "loss": 0.5224, "step": 1930 }, { "epoch": 5.173333333333334, "grad_norm": 0.3203125, "learning_rate": 0.00029999727141174375, "loss": 0.5098, "step": 1940 }, { "epoch": 5.2, "grad_norm": 0.326171875, "learning_rate": 0.000299997233356696, "loss": 0.5091, "step": 1950 }, { "epoch": 5.226666666666667, "grad_norm": 0.2021484375, "learning_rate": 0.0002999971950381123, "loss": 0.5076, "step": 1960 }, { "epoch": 5.253333333333333, "grad_norm": 0.3359375, "learning_rate": 0.0002999971564559929, "loss": 0.506, "step": 1970 }, { "epoch": 5.28, "grad_norm": 0.21875, "learning_rate": 0.00029999711761033774, "loss": 0.518, "step": 1980 }, { "epoch": 5.306666666666667, "grad_norm": 0.27734375, "learning_rate": 0.0002999970785011469, "loss": 0.4997, "step": 1990 }, { "epoch": 5.333333333333333, "grad_norm": 0.90234375, "learning_rate": 0.00029999703912842054, "loss": 0.5168, "step": 2000 }, { "epoch": 5.36, "grad_norm": 0.66796875, "learning_rate": 0.0002999969994921586, "loss": 0.5201, "step": 2010 }, { "epoch": 5.386666666666667, "grad_norm": 0.341796875, "learning_rate": 0.00029999695959236127, "loss": 0.5091, "step": 2020 }, { "epoch": 5.413333333333333, "grad_norm": 0.2412109375, "learning_rate": 0.0002999969194290285, "loss": 0.5114, "step": 2030 }, { "epoch": 5.44, "grad_norm": 0.380859375, "learning_rate": 0.0002999968790021604, "loss": 0.5168, "step": 2040 }, { "epoch": 5.466666666666667, "grad_norm": 0.24609375, "learning_rate": 0.0002999968383117571, "loss": 0.5251, "step": 2050 }, { "epoch": 5.493333333333333, "grad_norm": 0.26953125, "learning_rate": 0.0002999967973578186, "loss": 0.516, "step": 2060 }, { "epoch": 5.52, "grad_norm": 0.25390625, "learning_rate": 0.00029999675614034507, "loss": 0.511, "step": 2070 }, { "epoch": 5.546666666666667, "grad_norm": 0.1689453125, "learning_rate": 0.0002999967146593365, "loss": 0.5065, "step": 2080 }, { "epoch": 5.573333333333333, "grad_norm": 0.1572265625, "learning_rate": 0.00029999667291479297, "loss": 0.5039, "step": 2090 }, { "epoch": 5.6, "grad_norm": 0.2392578125, "learning_rate": 0.0002999966309067146, "loss": 0.5002, "step": 2100 }, { "epoch": 5.626666666666667, "grad_norm": 0.330078125, "learning_rate": 0.0002999965886351014, "loss": 0.4836, "step": 2110 }, { "epoch": 5.653333333333333, "grad_norm": 0.1826171875, "learning_rate": 0.0002999965460999534, "loss": 0.5049, "step": 2120 }, { "epoch": 5.68, "grad_norm": 0.18359375, "learning_rate": 0.00029999650330127085, "loss": 0.4963, "step": 2130 }, { "epoch": 5.706666666666667, "grad_norm": 0.283203125, "learning_rate": 0.0002999964602390537, "loss": 0.497, "step": 2140 }, { "epoch": 5.733333333333333, "grad_norm": 0.33203125, "learning_rate": 0.000299996416913302, "loss": 0.5173, "step": 2150 }, { "epoch": 5.76, "grad_norm": 0.318359375, "learning_rate": 0.0002999963733240159, "loss": 0.5179, "step": 2160 }, { "epoch": 5.786666666666667, "grad_norm": 0.396484375, "learning_rate": 0.00029999632947119546, "loss": 0.5171, "step": 2170 }, { "epoch": 5.8133333333333335, "grad_norm": 0.283203125, "learning_rate": 0.0002999962853548408, "loss": 0.5014, "step": 2180 }, { "epoch": 5.84, "grad_norm": 0.25, "learning_rate": 0.0002999962409749518, "loss": 0.509, "step": 2190 }, { "epoch": 5.866666666666667, "grad_norm": 0.2353515625, "learning_rate": 0.0002999961963315288, "loss": 0.5061, "step": 2200 }, { "epoch": 5.8933333333333335, "grad_norm": 0.1982421875, "learning_rate": 0.00029999615142457174, "loss": 0.4957, "step": 2210 }, { "epoch": 5.92, "grad_norm": 0.232421875, "learning_rate": 0.0002999961062540807, "loss": 0.5071, "step": 2220 }, { "epoch": 5.946666666666666, "grad_norm": 0.1328125, "learning_rate": 0.0002999960608200558, "loss": 0.4997, "step": 2230 }, { "epoch": 5.973333333333334, "grad_norm": 0.171875, "learning_rate": 0.0002999960151224971, "loss": 0.512, "step": 2240 }, { "epoch": 6.0, "grad_norm": 0.33203125, "learning_rate": 0.00029999596916140467, "loss": 0.4999, "step": 2250 }, { "epoch": 6.0, "eval_loss": 0.5139528512954712, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.7016, "eval_samples_per_second": 1.649, "eval_steps_per_second": 0.103, "step": 2250 }, { "epoch": 6.026666666666666, "grad_norm": 0.376953125, "learning_rate": 0.0002999959229367786, "loss": 0.518, "step": 2260 }, { "epoch": 6.053333333333334, "grad_norm": 0.3125, "learning_rate": 0.000299995876448619, "loss": 0.5242, "step": 2270 }, { "epoch": 6.08, "grad_norm": 0.162109375, "learning_rate": 0.0002999958296969259, "loss": 0.5135, "step": 2280 }, { "epoch": 6.1066666666666665, "grad_norm": 0.203125, "learning_rate": 0.0002999957826816994, "loss": 0.5064, "step": 2290 }, { "epoch": 6.133333333333334, "grad_norm": 0.1953125, "learning_rate": 0.0002999957354029396, "loss": 0.5111, "step": 2300 }, { "epoch": 6.16, "grad_norm": 0.72265625, "learning_rate": 0.00029999568786064654, "loss": 0.5151, "step": 2310 }, { "epoch": 6.1866666666666665, "grad_norm": 0.322265625, "learning_rate": 0.0002999956400548204, "loss": 0.5047, "step": 2320 }, { "epoch": 6.213333333333333, "grad_norm": 0.27734375, "learning_rate": 0.00029999559198546114, "loss": 0.5028, "step": 2330 }, { "epoch": 6.24, "grad_norm": 0.201171875, "learning_rate": 0.00029999554365256893, "loss": 0.5031, "step": 2340 }, { "epoch": 6.266666666666667, "grad_norm": 0.423828125, "learning_rate": 0.0002999954950561438, "loss": 0.5078, "step": 2350 }, { "epoch": 6.293333333333333, "grad_norm": 0.2001953125, "learning_rate": 0.00029999544619618585, "loss": 0.501, "step": 2360 }, { "epoch": 6.32, "grad_norm": 0.162109375, "learning_rate": 0.00029999539707269526, "loss": 0.5044, "step": 2370 }, { "epoch": 6.346666666666667, "grad_norm": 0.412109375, "learning_rate": 0.000299995347685672, "loss": 0.5143, "step": 2380 }, { "epoch": 6.373333333333333, "grad_norm": 0.27734375, "learning_rate": 0.0002999952980351162, "loss": 0.5106, "step": 2390 }, { "epoch": 6.4, "grad_norm": 0.248046875, "learning_rate": 0.0002999952481210279, "loss": 0.5038, "step": 2400 }, { "epoch": 6.426666666666667, "grad_norm": 0.173828125, "learning_rate": 0.0002999951979434073, "loss": 0.5108, "step": 2410 }, { "epoch": 6.453333333333333, "grad_norm": 0.486328125, "learning_rate": 0.00029999514750225434, "loss": 0.5141, "step": 2420 }, { "epoch": 6.48, "grad_norm": 0.205078125, "learning_rate": 0.00029999509679756915, "loss": 0.5192, "step": 2430 }, { "epoch": 6.506666666666667, "grad_norm": 0.439453125, "learning_rate": 0.000299995045829352, "loss": 0.5093, "step": 2440 }, { "epoch": 6.533333333333333, "grad_norm": 0.546875, "learning_rate": 0.00029999499459760267, "loss": 0.5037, "step": 2450 }, { "epoch": 6.5600000000000005, "grad_norm": 0.28515625, "learning_rate": 0.0002999949431023215, "loss": 0.5031, "step": 2460 }, { "epoch": 6.586666666666667, "grad_norm": 0.26171875, "learning_rate": 0.0002999948913435085, "loss": 0.4985, "step": 2470 }, { "epoch": 6.613333333333333, "grad_norm": 0.37890625, "learning_rate": 0.0002999948393211637, "loss": 0.484, "step": 2480 }, { "epoch": 6.64, "grad_norm": 0.28125, "learning_rate": 0.00029999478703528735, "loss": 0.4873, "step": 2490 }, { "epoch": 6.666666666666667, "grad_norm": 0.267578125, "learning_rate": 0.00029999473448587933, "loss": 0.5056, "step": 2500 }, { "epoch": 6.693333333333333, "grad_norm": 0.279296875, "learning_rate": 0.00029999468167293987, "loss": 0.4872, "step": 2510 }, { "epoch": 6.72, "grad_norm": 0.271484375, "learning_rate": 0.0002999946285964691, "loss": 0.5052, "step": 2520 }, { "epoch": 6.746666666666667, "grad_norm": 0.2197265625, "learning_rate": 0.000299994575256467, "loss": 0.51, "step": 2530 }, { "epoch": 6.773333333333333, "grad_norm": 0.1640625, "learning_rate": 0.0002999945216529337, "loss": 0.5176, "step": 2540 }, { "epoch": 6.8, "grad_norm": 0.11767578125, "learning_rate": 0.00029999446778586927, "loss": 0.5028, "step": 2550 }, { "epoch": 6.826666666666666, "grad_norm": 0.1279296875, "learning_rate": 0.0002999944136552739, "loss": 0.4989, "step": 2560 }, { "epoch": 6.8533333333333335, "grad_norm": 0.2216796875, "learning_rate": 0.00029999435926114757, "loss": 0.5076, "step": 2570 }, { "epoch": 6.88, "grad_norm": 0.275390625, "learning_rate": 0.0002999943046034905, "loss": 0.4933, "step": 2580 }, { "epoch": 6.906666666666666, "grad_norm": 0.369140625, "learning_rate": 0.00029999424968230265, "loss": 0.4958, "step": 2590 }, { "epoch": 6.933333333333334, "grad_norm": 0.1611328125, "learning_rate": 0.00029999419449758415, "loss": 0.4988, "step": 2600 }, { "epoch": 6.96, "grad_norm": 0.181640625, "learning_rate": 0.00029999413904933524, "loss": 0.4965, "step": 2610 }, { "epoch": 6.986666666666666, "grad_norm": 0.1806640625, "learning_rate": 0.0002999940833375558, "loss": 0.5124, "step": 2620 }, { "epoch": 7.0, "eval_loss": 0.5085073113441467, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.8821, "eval_samples_per_second": 1.619, "eval_steps_per_second": 0.101, "step": 2625 }, { "epoch": 7.013333333333334, "grad_norm": 0.322265625, "learning_rate": 0.00029999402736224614, "loss": 0.4992, "step": 2630 }, { "epoch": 7.04, "grad_norm": 0.2138671875, "learning_rate": 0.00029999397112340616, "loss": 0.5232, "step": 2640 }, { "epoch": 7.066666666666666, "grad_norm": 0.306640625, "learning_rate": 0.0002999939146210361, "loss": 0.5122, "step": 2650 }, { "epoch": 7.093333333333334, "grad_norm": 0.255859375, "learning_rate": 0.00029999385785513597, "loss": 0.5061, "step": 2660 }, { "epoch": 7.12, "grad_norm": 0.2373046875, "learning_rate": 0.00029999380082570596, "loss": 0.5025, "step": 2670 }, { "epoch": 7.1466666666666665, "grad_norm": 0.263671875, "learning_rate": 0.0002999937435327461, "loss": 0.5125, "step": 2680 }, { "epoch": 7.173333333333334, "grad_norm": 0.255859375, "learning_rate": 0.0002999936859762565, "loss": 0.5008, "step": 2690 }, { "epoch": 7.2, "grad_norm": 0.3046875, "learning_rate": 0.0002999936281562373, "loss": 0.5003, "step": 2700 }, { "epoch": 7.226666666666667, "grad_norm": 0.26171875, "learning_rate": 0.0002999935700726885, "loss": 0.4984, "step": 2710 }, { "epoch": 7.253333333333333, "grad_norm": 0.1796875, "learning_rate": 0.00029999351172561037, "loss": 0.4968, "step": 2720 }, { "epoch": 7.28, "grad_norm": 0.1650390625, "learning_rate": 0.0002999934531150029, "loss": 0.5096, "step": 2730 }, { "epoch": 7.306666666666667, "grad_norm": 0.4296875, "learning_rate": 0.00029999339424086616, "loss": 0.491, "step": 2740 }, { "epoch": 7.333333333333333, "grad_norm": 0.2001953125, "learning_rate": 0.0002999933351032003, "loss": 0.508, "step": 2750 }, { "epoch": 7.36, "grad_norm": 0.431640625, "learning_rate": 0.00029999327570200547, "loss": 0.5109, "step": 2760 }, { "epoch": 7.386666666666667, "grad_norm": 0.2734375, "learning_rate": 0.00029999321603728173, "loss": 0.5009, "step": 2770 }, { "epoch": 7.413333333333333, "grad_norm": 0.203125, "learning_rate": 0.0002999931561090292, "loss": 0.5036, "step": 2780 }, { "epoch": 7.44, "grad_norm": 0.2099609375, "learning_rate": 0.00029999309591724797, "loss": 0.5086, "step": 2790 }, { "epoch": 7.466666666666667, "grad_norm": 0.244140625, "learning_rate": 0.0002999930354619381, "loss": 0.5176, "step": 2800 }, { "epoch": 7.493333333333333, "grad_norm": 0.287109375, "learning_rate": 0.00029999297474309983, "loss": 0.5078, "step": 2810 }, { "epoch": 7.52, "grad_norm": 0.365234375, "learning_rate": 0.00029999291376073316, "loss": 0.5031, "step": 2820 }, { "epoch": 7.546666666666667, "grad_norm": 0.39453125, "learning_rate": 0.00029999285251483814, "loss": 0.4992, "step": 2830 }, { "epoch": 7.573333333333333, "grad_norm": 0.19140625, "learning_rate": 0.00029999279100541504, "loss": 0.4969, "step": 2840 }, { "epoch": 7.6, "grad_norm": 0.31640625, "learning_rate": 0.0002999927292324638, "loss": 0.4917, "step": 2850 }, { "epoch": 7.626666666666667, "grad_norm": 0.435546875, "learning_rate": 0.0002999926671959847, "loss": 0.4774, "step": 2860 }, { "epoch": 7.653333333333333, "grad_norm": 0.2138671875, "learning_rate": 0.0002999926048959777, "loss": 0.4978, "step": 2870 }, { "epoch": 7.68, "grad_norm": 0.1484375, "learning_rate": 0.000299992542332443, "loss": 0.4893, "step": 2880 }, { "epoch": 7.706666666666667, "grad_norm": 0.271484375, "learning_rate": 0.0002999924795053807, "loss": 0.4894, "step": 2890 }, { "epoch": 7.733333333333333, "grad_norm": 0.240234375, "learning_rate": 0.0002999924164147909, "loss": 0.5103, "step": 2900 }, { "epoch": 7.76, "grad_norm": 0.1806640625, "learning_rate": 0.00029999235306067364, "loss": 0.5113, "step": 2910 }, { "epoch": 7.786666666666667, "grad_norm": 0.294921875, "learning_rate": 0.0002999922894430291, "loss": 0.5091, "step": 2920 }, { "epoch": 7.8133333333333335, "grad_norm": 0.3359375, "learning_rate": 0.00029999222556185745, "loss": 0.494, "step": 2930 }, { "epoch": 7.84, "grad_norm": 0.28125, "learning_rate": 0.0002999921614171587, "loss": 0.5013, "step": 2940 }, { "epoch": 7.866666666666667, "grad_norm": 0.2451171875, "learning_rate": 0.000299992097008933, "loss": 0.4989, "step": 2950 }, { "epoch": 7.8933333333333335, "grad_norm": 0.248046875, "learning_rate": 0.00029999203233718047, "loss": 0.4895, "step": 2960 }, { "epoch": 7.92, "grad_norm": 0.251953125, "learning_rate": 0.00029999196740190126, "loss": 0.4999, "step": 2970 }, { "epoch": 7.946666666666666, "grad_norm": 0.228515625, "learning_rate": 0.0002999919022030954, "loss": 0.4928, "step": 2980 }, { "epoch": 7.973333333333334, "grad_norm": 0.2392578125, "learning_rate": 0.000299991836740763, "loss": 0.5055, "step": 2990 }, { "epoch": 8.0, "grad_norm": 0.244140625, "learning_rate": 0.0002999917710149043, "loss": 0.4937, "step": 3000 }, { "epoch": 8.0, "eval_loss": 0.5058842301368713, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.4441, "eval_samples_per_second": 1.532, "eval_steps_per_second": 0.096, "step": 3000 }, { "epoch": 8.026666666666667, "grad_norm": 0.1396484375, "learning_rate": 0.0002999917050255193, "loss": 0.5115, "step": 3010 }, { "epoch": 8.053333333333333, "grad_norm": 0.12890625, "learning_rate": 0.0002999916387726081, "loss": 0.5175, "step": 3020 }, { "epoch": 8.08, "grad_norm": 0.1962890625, "learning_rate": 0.00029999157225617094, "loss": 0.5061, "step": 3030 }, { "epoch": 8.106666666666667, "grad_norm": 0.1767578125, "learning_rate": 0.00029999150547620787, "loss": 0.5004, "step": 3040 }, { "epoch": 8.133333333333333, "grad_norm": 0.1552734375, "learning_rate": 0.000299991438432719, "loss": 0.5034, "step": 3050 }, { "epoch": 8.16, "grad_norm": 0.361328125, "learning_rate": 0.00029999137112570444, "loss": 0.5069, "step": 3060 }, { "epoch": 8.186666666666667, "grad_norm": 0.26953125, "learning_rate": 0.0002999913035551643, "loss": 0.4977, "step": 3070 }, { "epoch": 8.213333333333333, "grad_norm": 0.396484375, "learning_rate": 0.0002999912357210987, "loss": 0.494, "step": 3080 }, { "epoch": 8.24, "grad_norm": 0.359375, "learning_rate": 0.00029999116762350784, "loss": 0.4971, "step": 3090 }, { "epoch": 8.266666666666667, "grad_norm": 0.28515625, "learning_rate": 0.00029999109926239176, "loss": 0.5005, "step": 3100 }, { "epoch": 8.293333333333333, "grad_norm": 0.40234375, "learning_rate": 0.0002999910306377506, "loss": 0.4945, "step": 3110 }, { "epoch": 8.32, "grad_norm": 0.2158203125, "learning_rate": 0.0002999909617495844, "loss": 0.4983, "step": 3120 }, { "epoch": 8.346666666666668, "grad_norm": 0.2890625, "learning_rate": 0.0002999908925978934, "loss": 0.5074, "step": 3130 }, { "epoch": 8.373333333333333, "grad_norm": 0.3515625, "learning_rate": 0.0002999908231826777, "loss": 0.504, "step": 3140 }, { "epoch": 8.4, "grad_norm": 0.2001953125, "learning_rate": 0.00029999075350393745, "loss": 0.4984, "step": 3150 }, { "epoch": 8.426666666666666, "grad_norm": 0.162109375, "learning_rate": 0.00029999068356167263, "loss": 0.5046, "step": 3160 }, { "epoch": 8.453333333333333, "grad_norm": 0.390625, "learning_rate": 0.00029999061335588353, "loss": 0.5083, "step": 3170 }, { "epoch": 8.48, "grad_norm": 0.232421875, "learning_rate": 0.00029999054288657015, "loss": 0.513, "step": 3180 }, { "epoch": 8.506666666666666, "grad_norm": 0.236328125, "learning_rate": 0.0002999904721537327, "loss": 0.5038, "step": 3190 }, { "epoch": 8.533333333333333, "grad_norm": 0.2392578125, "learning_rate": 0.00029999040115737124, "loss": 0.4976, "step": 3200 }, { "epoch": 8.56, "grad_norm": 0.20703125, "learning_rate": 0.000299990329897486, "loss": 0.4967, "step": 3210 }, { "epoch": 8.586666666666666, "grad_norm": 0.23828125, "learning_rate": 0.0002999902583740769, "loss": 0.4925, "step": 3220 }, { "epoch": 8.613333333333333, "grad_norm": 0.21484375, "learning_rate": 0.00029999018658714426, "loss": 0.4784, "step": 3230 }, { "epoch": 8.64, "grad_norm": 0.1533203125, "learning_rate": 0.00029999011453668816, "loss": 0.4819, "step": 3240 }, { "epoch": 8.666666666666666, "grad_norm": 0.2236328125, "learning_rate": 0.0002999900422227087, "loss": 0.4993, "step": 3250 }, { "epoch": 8.693333333333333, "grad_norm": 0.17578125, "learning_rate": 0.00029998996964520594, "loss": 0.4815, "step": 3260 }, { "epoch": 8.72, "grad_norm": 0.2080078125, "learning_rate": 0.0002999898968041802, "loss": 0.4992, "step": 3270 }, { "epoch": 8.746666666666666, "grad_norm": 0.1943359375, "learning_rate": 0.0002999898236996314, "loss": 0.5047, "step": 3280 }, { "epoch": 8.773333333333333, "grad_norm": 0.2197265625, "learning_rate": 0.0002999897503315598, "loss": 0.5119, "step": 3290 }, { "epoch": 8.8, "grad_norm": 0.50390625, "learning_rate": 0.0002999896766999655, "loss": 0.498, "step": 3300 }, { "epoch": 8.826666666666666, "grad_norm": 0.279296875, "learning_rate": 0.0002999896028048486, "loss": 0.4932, "step": 3310 }, { "epoch": 8.853333333333333, "grad_norm": 0.337890625, "learning_rate": 0.00029998952864620924, "loss": 0.5022, "step": 3320 }, { "epoch": 8.88, "grad_norm": 0.4453125, "learning_rate": 0.00029998945422404755, "loss": 0.489, "step": 3330 }, { "epoch": 8.906666666666666, "grad_norm": 0.279296875, "learning_rate": 0.00029998937953836365, "loss": 0.4925, "step": 3340 }, { "epoch": 8.933333333333334, "grad_norm": 0.34765625, "learning_rate": 0.00029998930458915773, "loss": 0.4931, "step": 3350 }, { "epoch": 8.96, "grad_norm": 0.169921875, "learning_rate": 0.00029998922937642987, "loss": 0.4912, "step": 3360 }, { "epoch": 8.986666666666666, "grad_norm": 0.734375, "learning_rate": 0.0002999891539001802, "loss": 0.5072, "step": 3370 }, { "epoch": 9.0, "eval_loss": 0.5036345720291138, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.3651, "eval_samples_per_second": 1.544, "eval_steps_per_second": 0.096, "step": 3375 }, { "epoch": 9.013333333333334, "grad_norm": 0.36328125, "learning_rate": 0.0002999890781604088, "loss": 0.4946, "step": 3380 }, { "epoch": 9.04, "grad_norm": 0.302734375, "learning_rate": 0.000299989002157116, "loss": 0.5175, "step": 3390 }, { "epoch": 9.066666666666666, "grad_norm": 0.2275390625, "learning_rate": 0.0002999889258903017, "loss": 0.5059, "step": 3400 }, { "epoch": 9.093333333333334, "grad_norm": 0.212890625, "learning_rate": 0.0002999888493599662, "loss": 0.501, "step": 3410 }, { "epoch": 9.12, "grad_norm": 0.26953125, "learning_rate": 0.00029998877256610956, "loss": 0.4982, "step": 3420 }, { "epoch": 9.146666666666667, "grad_norm": 0.234375, "learning_rate": 0.0002999886955087319, "loss": 0.5069, "step": 3430 }, { "epoch": 9.173333333333334, "grad_norm": 0.33984375, "learning_rate": 0.00029998861818783344, "loss": 0.4962, "step": 3440 }, { "epoch": 9.2, "grad_norm": 0.3125, "learning_rate": 0.00029998854060341414, "loss": 0.4945, "step": 3450 }, { "epoch": 9.226666666666667, "grad_norm": 0.30078125, "learning_rate": 0.00029998846275547435, "loss": 0.4934, "step": 3460 }, { "epoch": 9.253333333333334, "grad_norm": 0.3203125, "learning_rate": 0.00029998838464401407, "loss": 0.4909, "step": 3470 }, { "epoch": 9.28, "grad_norm": 0.2080078125, "learning_rate": 0.0002999883062690335, "loss": 0.5054, "step": 3480 }, { "epoch": 9.306666666666667, "grad_norm": 0.2216796875, "learning_rate": 0.0002999882276305327, "loss": 0.4859, "step": 3490 }, { "epoch": 9.333333333333334, "grad_norm": 0.2255859375, "learning_rate": 0.00029998814872851193, "loss": 0.502, "step": 3500 }, { "epoch": 9.36, "grad_norm": 0.1494140625, "learning_rate": 0.0002999880695629712, "loss": 0.506, "step": 3510 }, { "epoch": 9.386666666666667, "grad_norm": 0.255859375, "learning_rate": 0.0002999879901339108, "loss": 0.4957, "step": 3520 }, { "epoch": 9.413333333333334, "grad_norm": 0.279296875, "learning_rate": 0.00029998791044133066, "loss": 0.4999, "step": 3530 }, { "epoch": 9.44, "grad_norm": 0.30078125, "learning_rate": 0.0002999878304852311, "loss": 0.5033, "step": 3540 }, { "epoch": 9.466666666666667, "grad_norm": 0.1806640625, "learning_rate": 0.0002999877502656122, "loss": 0.5134, "step": 3550 }, { "epoch": 9.493333333333334, "grad_norm": 0.271484375, "learning_rate": 0.0002999876697824741, "loss": 0.5036, "step": 3560 }, { "epoch": 9.52, "grad_norm": 0.2138671875, "learning_rate": 0.00029998758903581696, "loss": 0.498, "step": 3570 }, { "epoch": 9.546666666666667, "grad_norm": 0.1728515625, "learning_rate": 0.00029998750802564086, "loss": 0.4943, "step": 3580 }, { "epoch": 9.573333333333334, "grad_norm": 0.1298828125, "learning_rate": 0.000299987426751946, "loss": 0.4922, "step": 3590 }, { "epoch": 9.6, "grad_norm": 0.236328125, "learning_rate": 0.00029998734521473255, "loss": 0.4867, "step": 3600 }, { "epoch": 9.626666666666667, "grad_norm": 0.33984375, "learning_rate": 0.00029998726341400056, "loss": 0.4718, "step": 3610 }, { "epoch": 9.653333333333332, "grad_norm": 0.2197265625, "learning_rate": 0.00029998718134975025, "loss": 0.493, "step": 3620 }, { "epoch": 9.68, "grad_norm": 0.2021484375, "learning_rate": 0.0002999870990219818, "loss": 0.4839, "step": 3630 }, { "epoch": 9.706666666666667, "grad_norm": 0.251953125, "learning_rate": 0.00029998701643069517, "loss": 0.4852, "step": 3640 }, { "epoch": 9.733333333333333, "grad_norm": 0.33203125, "learning_rate": 0.0002999869335758907, "loss": 0.5052, "step": 3650 }, { "epoch": 9.76, "grad_norm": 0.2490234375, "learning_rate": 0.0002999868504575685, "loss": 0.5065, "step": 3660 }, { "epoch": 9.786666666666667, "grad_norm": 0.212890625, "learning_rate": 0.00029998676707572864, "loss": 0.5046, "step": 3670 }, { "epoch": 9.813333333333333, "grad_norm": 0.296875, "learning_rate": 0.0002999866834303713, "loss": 0.4886, "step": 3680 }, { "epoch": 9.84, "grad_norm": 0.2138671875, "learning_rate": 0.00029998659952149665, "loss": 0.4966, "step": 3690 }, { "epoch": 9.866666666666667, "grad_norm": 0.1611328125, "learning_rate": 0.00029998651534910483, "loss": 0.494, "step": 3700 }, { "epoch": 9.893333333333333, "grad_norm": 0.1318359375, "learning_rate": 0.00029998643091319594, "loss": 0.4846, "step": 3710 }, { "epoch": 9.92, "grad_norm": 0.24609375, "learning_rate": 0.0002999863462137702, "loss": 0.4953, "step": 3720 }, { "epoch": 9.946666666666667, "grad_norm": 0.201171875, "learning_rate": 0.00029998626125082774, "loss": 0.4876, "step": 3730 }, { "epoch": 9.973333333333333, "grad_norm": 0.228515625, "learning_rate": 0.0002999861760243687, "loss": 0.5001, "step": 3740 }, { "epoch": 10.0, "grad_norm": 0.2021484375, "learning_rate": 0.0002999860905343932, "loss": 0.488, "step": 3750 }, { "epoch": 10.0, "eval_loss": 0.5015295147895813, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.1184, "eval_samples_per_second": 1.581, "eval_steps_per_second": 0.099, "step": 3750 }, { "epoch": 10.026666666666667, "grad_norm": 0.251953125, "learning_rate": 0.00029998600478090145, "loss": 0.5073, "step": 3760 }, { "epoch": 10.053333333333333, "grad_norm": 0.2578125, "learning_rate": 0.00029998591876389353, "loss": 0.5143, "step": 3770 }, { "epoch": 10.08, "grad_norm": 0.26953125, "learning_rate": 0.00029998583248336963, "loss": 0.5016, "step": 3780 }, { "epoch": 10.106666666666667, "grad_norm": 0.1591796875, "learning_rate": 0.0002999857459393299, "loss": 0.4949, "step": 3790 }, { "epoch": 10.133333333333333, "grad_norm": 0.2333984375, "learning_rate": 0.0002999856591317745, "loss": 0.4988, "step": 3800 }, { "epoch": 10.16, "grad_norm": 0.56640625, "learning_rate": 0.00029998557206070356, "loss": 0.5023, "step": 3810 }, { "epoch": 10.186666666666667, "grad_norm": 0.2470703125, "learning_rate": 0.0002999854847261173, "loss": 0.4933, "step": 3820 }, { "epoch": 10.213333333333333, "grad_norm": 0.197265625, "learning_rate": 0.00029998539712801576, "loss": 0.4891, "step": 3830 }, { "epoch": 10.24, "grad_norm": 0.296875, "learning_rate": 0.00029998530926639923, "loss": 0.4924, "step": 3840 }, { "epoch": 10.266666666666667, "grad_norm": 0.255859375, "learning_rate": 0.0002999852211412677, "loss": 0.4957, "step": 3850 }, { "epoch": 10.293333333333333, "grad_norm": 0.220703125, "learning_rate": 0.0002999851327526215, "loss": 0.49, "step": 3860 }, { "epoch": 10.32, "grad_norm": 0.220703125, "learning_rate": 0.00029998504410046065, "loss": 0.4942, "step": 3870 }, { "epoch": 10.346666666666668, "grad_norm": 0.189453125, "learning_rate": 0.0002999849551847853, "loss": 0.5034, "step": 3880 }, { "epoch": 10.373333333333333, "grad_norm": 0.23046875, "learning_rate": 0.0002999848660055958, "loss": 0.4996, "step": 3890 }, { "epoch": 10.4, "grad_norm": 0.2578125, "learning_rate": 0.00029998477656289205, "loss": 0.4943, "step": 3900 }, { "epoch": 10.426666666666666, "grad_norm": 0.248046875, "learning_rate": 0.0002999846868566744, "loss": 0.5012, "step": 3910 }, { "epoch": 10.453333333333333, "grad_norm": 0.486328125, "learning_rate": 0.0002999845968869429, "loss": 0.5038, "step": 3920 }, { "epoch": 10.48, "grad_norm": 0.23046875, "learning_rate": 0.0002999845066536977, "loss": 0.5097, "step": 3930 }, { "epoch": 10.506666666666666, "grad_norm": 0.1953125, "learning_rate": 0.0002999844161569391, "loss": 0.4986, "step": 3940 }, { "epoch": 10.533333333333333, "grad_norm": 0.318359375, "learning_rate": 0.00029998432539666707, "loss": 0.492, "step": 3950 }, { "epoch": 10.56, "grad_norm": 0.162109375, "learning_rate": 0.0002999842343728819, "loss": 0.493, "step": 3960 }, { "epoch": 10.586666666666666, "grad_norm": 0.275390625, "learning_rate": 0.00029998414308558374, "loss": 0.4886, "step": 3970 }, { "epoch": 10.613333333333333, "grad_norm": 0.2158203125, "learning_rate": 0.00029998405153477264, "loss": 0.4745, "step": 3980 }, { "epoch": 10.64, "grad_norm": 0.263671875, "learning_rate": 0.00029998395972044887, "loss": 0.4784, "step": 3990 }, { "epoch": 10.666666666666666, "grad_norm": 0.1591796875, "learning_rate": 0.0002999838676426126, "loss": 0.4955, "step": 4000 }, { "epoch": 10.693333333333333, "grad_norm": 0.31640625, "learning_rate": 0.0002999837753012639, "loss": 0.4781, "step": 4010 }, { "epoch": 10.72, "grad_norm": 0.287109375, "learning_rate": 0.000299983682696403, "loss": 0.4956, "step": 4020 }, { "epoch": 10.746666666666666, "grad_norm": 0.31640625, "learning_rate": 0.00029998358982803004, "loss": 0.4996, "step": 4030 }, { "epoch": 10.773333333333333, "grad_norm": 0.2490234375, "learning_rate": 0.0002999834966961452, "loss": 0.5088, "step": 4040 }, { "epoch": 10.8, "grad_norm": 0.189453125, "learning_rate": 0.0002999834033007487, "loss": 0.4941, "step": 4050 }, { "epoch": 10.826666666666666, "grad_norm": 0.31640625, "learning_rate": 0.0002999833096418405, "loss": 0.4892, "step": 4060 }, { "epoch": 10.853333333333333, "grad_norm": 0.2294921875, "learning_rate": 0.000299983215719421, "loss": 0.4981, "step": 4070 }, { "epoch": 10.88, "grad_norm": 0.359375, "learning_rate": 0.0002999831215334902, "loss": 0.4848, "step": 4080 }, { "epoch": 10.906666666666666, "grad_norm": 0.267578125, "learning_rate": 0.0002999830270840484, "loss": 0.4879, "step": 4090 }, { "epoch": 10.933333333333334, "grad_norm": 0.353515625, "learning_rate": 0.0002999829323710957, "loss": 0.4898, "step": 4100 }, { "epoch": 10.96, "grad_norm": 0.30859375, "learning_rate": 0.0002999828373946322, "loss": 0.4875, "step": 4110 }, { "epoch": 10.986666666666666, "grad_norm": 0.6015625, "learning_rate": 0.0002999827421546582, "loss": 0.5029, "step": 4120 }, { "epoch": 11.0, "eval_loss": 0.4987983703613281, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.4885, "eval_samples_per_second": 1.525, "eval_steps_per_second": 0.095, "step": 4125 }, { "epoch": 11.013333333333334, "grad_norm": 0.18359375, "learning_rate": 0.0002999826466511738, "loss": 0.4904, "step": 4130 }, { "epoch": 11.04, "grad_norm": 0.1650390625, "learning_rate": 0.0002999825508841791, "loss": 0.5141, "step": 4140 }, { "epoch": 11.066666666666666, "grad_norm": 0.326171875, "learning_rate": 0.00029998245485367443, "loss": 0.5024, "step": 4150 }, { "epoch": 11.093333333333334, "grad_norm": 0.2392578125, "learning_rate": 0.0002999823585596598, "loss": 0.4968, "step": 4160 }, { "epoch": 11.12, "grad_norm": 0.310546875, "learning_rate": 0.00029998226200213544, "loss": 0.4929, "step": 4170 }, { "epoch": 11.146666666666667, "grad_norm": 0.22265625, "learning_rate": 0.00029998216518110156, "loss": 0.5028, "step": 4180 }, { "epoch": 11.173333333333334, "grad_norm": 0.400390625, "learning_rate": 0.00029998206809655825, "loss": 0.4931, "step": 4190 }, { "epoch": 11.2, "grad_norm": 0.2255859375, "learning_rate": 0.0002999819707485058, "loss": 0.4912, "step": 4200 }, { "epoch": 11.226666666666667, "grad_norm": 0.298828125, "learning_rate": 0.0002999818731369442, "loss": 0.4901, "step": 4210 }, { "epoch": 11.253333333333334, "grad_norm": 0.2119140625, "learning_rate": 0.0002999817752618738, "loss": 0.4877, "step": 4220 }, { "epoch": 11.28, "grad_norm": 0.291015625, "learning_rate": 0.00029998167712329466, "loss": 0.5003, "step": 4230 }, { "epoch": 11.306666666666667, "grad_norm": 0.216796875, "learning_rate": 0.000299981578721207, "loss": 0.4824, "step": 4240 }, { "epoch": 11.333333333333334, "grad_norm": 0.1611328125, "learning_rate": 0.000299981480055611, "loss": 0.4988, "step": 4250 }, { "epoch": 11.36, "grad_norm": 0.25, "learning_rate": 0.0002999813811265068, "loss": 0.5023, "step": 4260 }, { "epoch": 11.386666666666667, "grad_norm": 0.341796875, "learning_rate": 0.00029998128193389463, "loss": 0.4926, "step": 4270 }, { "epoch": 11.413333333333334, "grad_norm": 0.197265625, "learning_rate": 0.0002999811824777746, "loss": 0.4959, "step": 4280 }, { "epoch": 11.44, "grad_norm": 0.267578125, "learning_rate": 0.0002999810827581469, "loss": 0.5006, "step": 4290 }, { "epoch": 11.466666666666667, "grad_norm": 0.216796875, "learning_rate": 0.0002999809827750117, "loss": 0.5089, "step": 4300 }, { "epoch": 11.493333333333334, "grad_norm": 0.40625, "learning_rate": 0.0002999808825283692, "loss": 0.5001, "step": 4310 }, { "epoch": 11.52, "grad_norm": 0.2734375, "learning_rate": 0.00029998078201821964, "loss": 0.4944, "step": 4320 }, { "epoch": 11.546666666666667, "grad_norm": 0.193359375, "learning_rate": 0.000299980681244563, "loss": 0.4906, "step": 4330 }, { "epoch": 11.573333333333334, "grad_norm": 0.28125, "learning_rate": 0.0002999805802073997, "loss": 0.489, "step": 4340 }, { "epoch": 11.6, "grad_norm": 0.2021484375, "learning_rate": 0.00029998047890672974, "loss": 0.4838, "step": 4350 }, { "epoch": 11.626666666666667, "grad_norm": 0.1318359375, "learning_rate": 0.00029998037734255335, "loss": 0.4682, "step": 4360 }, { "epoch": 11.653333333333332, "grad_norm": 0.271484375, "learning_rate": 0.00029998027551487067, "loss": 0.4906, "step": 4370 }, { "epoch": 11.68, "grad_norm": 0.189453125, "learning_rate": 0.00029998017342368203, "loss": 0.4805, "step": 4380 }, { "epoch": 11.706666666666667, "grad_norm": 0.2216796875, "learning_rate": 0.00029998007106898743, "loss": 0.4818, "step": 4390 }, { "epoch": 11.733333333333333, "grad_norm": 0.265625, "learning_rate": 0.00029997996845078714, "loss": 0.5014, "step": 4400 }, { "epoch": 11.76, "grad_norm": 0.265625, "learning_rate": 0.00029997986556908133, "loss": 0.5031, "step": 4410 }, { "epoch": 11.786666666666667, "grad_norm": 0.2431640625, "learning_rate": 0.00029997976242387015, "loss": 0.5007, "step": 4420 }, { "epoch": 11.813333333333333, "grad_norm": 0.50390625, "learning_rate": 0.00029997965901515383, "loss": 0.4852, "step": 4430 }, { "epoch": 11.84, "grad_norm": 0.640625, "learning_rate": 0.0002999795553429325, "loss": 0.4927, "step": 4440 }, { "epoch": 11.866666666666667, "grad_norm": 0.197265625, "learning_rate": 0.00029997945140720645, "loss": 0.4916, "step": 4450 }, { "epoch": 11.893333333333333, "grad_norm": 0.283203125, "learning_rate": 0.0002999793472079757, "loss": 0.4817, "step": 4460 }, { "epoch": 11.92, "grad_norm": 0.328125, "learning_rate": 0.00029997924274524054, "loss": 0.4917, "step": 4470 }, { "epoch": 11.946666666666667, "grad_norm": 0.326171875, "learning_rate": 0.00029997913801900114, "loss": 0.4849, "step": 4480 }, { "epoch": 11.973333333333333, "grad_norm": 0.25390625, "learning_rate": 0.00029997903302925763, "loss": 0.4966, "step": 4490 }, { "epoch": 12.0, "grad_norm": 0.337890625, "learning_rate": 0.00029997892777601027, "loss": 0.4862, "step": 4500 }, { "epoch": 12.0, "eval_loss": 0.49906519055366516, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.1272, "eval_samples_per_second": 1.58, "eval_steps_per_second": 0.099, "step": 4500 }, { "epoch": 12.026666666666667, "grad_norm": 0.2119140625, "learning_rate": 0.0002999788222592592, "loss": 0.5031, "step": 4510 }, { "epoch": 12.053333333333333, "grad_norm": 0.2578125, "learning_rate": 0.0002999787164790046, "loss": 0.5101, "step": 4520 }, { "epoch": 12.08, "grad_norm": 0.1962890625, "learning_rate": 0.00029997861043524674, "loss": 0.4975, "step": 4530 }, { "epoch": 12.106666666666667, "grad_norm": 0.203125, "learning_rate": 0.0002999785041279857, "loss": 0.4926, "step": 4540 }, { "epoch": 12.133333333333333, "grad_norm": 0.390625, "learning_rate": 0.0002999783975572217, "loss": 0.4959, "step": 4550 }, { "epoch": 12.16, "grad_norm": 0.609375, "learning_rate": 0.0002999782907229549, "loss": 0.4991, "step": 4560 }, { "epoch": 12.186666666666667, "grad_norm": 0.2578125, "learning_rate": 0.00029997818362518554, "loss": 0.49, "step": 4570 }, { "epoch": 12.213333333333333, "grad_norm": 0.203125, "learning_rate": 0.0002999780762639138, "loss": 0.4853, "step": 4580 }, { "epoch": 12.24, "grad_norm": 0.2314453125, "learning_rate": 0.00029997796863913986, "loss": 0.4893, "step": 4590 }, { "epoch": 12.266666666666667, "grad_norm": 0.1533203125, "learning_rate": 0.0002999778607508639, "loss": 0.4931, "step": 4600 }, { "epoch": 12.293333333333333, "grad_norm": 0.322265625, "learning_rate": 0.0002999777525990861, "loss": 0.4867, "step": 4610 }, { "epoch": 12.32, "grad_norm": 0.353515625, "learning_rate": 0.0002999776441838067, "loss": 0.4908, "step": 4620 }, { "epoch": 12.346666666666668, "grad_norm": 0.314453125, "learning_rate": 0.0002999775355050259, "loss": 0.5002, "step": 4630 }, { "epoch": 12.373333333333333, "grad_norm": 0.26953125, "learning_rate": 0.0002999774265627438, "loss": 0.4969, "step": 4640 }, { "epoch": 12.4, "grad_norm": 0.31640625, "learning_rate": 0.0002999773173569606, "loss": 0.4909, "step": 4650 }, { "epoch": 12.426666666666666, "grad_norm": 0.3984375, "learning_rate": 0.0002999772078876766, "loss": 0.4982, "step": 4660 }, { "epoch": 12.453333333333333, "grad_norm": 0.408203125, "learning_rate": 0.0002999770981548918, "loss": 0.5013, "step": 4670 }, { "epoch": 12.48, "grad_norm": 0.279296875, "learning_rate": 0.0002999769881586066, "loss": 0.5066, "step": 4680 }, { "epoch": 12.506666666666666, "grad_norm": 0.306640625, "learning_rate": 0.0002999768778988211, "loss": 0.4964, "step": 4690 }, { "epoch": 12.533333333333333, "grad_norm": 0.1865234375, "learning_rate": 0.00029997676737553554, "loss": 0.4901, "step": 4700 }, { "epoch": 12.56, "grad_norm": 0.234375, "learning_rate": 0.00029997665658875003, "loss": 0.4899, "step": 4710 }, { "epoch": 12.586666666666666, "grad_norm": 0.2470703125, "learning_rate": 0.0002999765455384649, "loss": 0.4855, "step": 4720 }, { "epoch": 12.613333333333333, "grad_norm": 0.1572265625, "learning_rate": 0.00029997643422468017, "loss": 0.4714, "step": 4730 }, { "epoch": 12.64, "grad_norm": 0.33203125, "learning_rate": 0.00029997632264739613, "loss": 0.4759, "step": 4740 }, { "epoch": 12.666666666666666, "grad_norm": 0.1796875, "learning_rate": 0.00029997621080661297, "loss": 0.4927, "step": 4750 }, { "epoch": 12.693333333333333, "grad_norm": 0.21484375, "learning_rate": 0.0002999760987023309, "loss": 0.4743, "step": 4760 }, { "epoch": 12.72, "grad_norm": 0.29296875, "learning_rate": 0.00029997598633455013, "loss": 0.4926, "step": 4770 }, { "epoch": 12.746666666666666, "grad_norm": 0.2197265625, "learning_rate": 0.0002999758737032707, "loss": 0.4975, "step": 4780 }, { "epoch": 12.773333333333333, "grad_norm": 0.166015625, "learning_rate": 0.0002999757608084931, "loss": 0.5057, "step": 4790 }, { "epoch": 12.8, "grad_norm": 0.345703125, "learning_rate": 0.00029997564765021727, "loss": 0.4902, "step": 4800 }, { "epoch": 12.826666666666666, "grad_norm": 0.15625, "learning_rate": 0.00029997553422844356, "loss": 0.4851, "step": 4810 }, { "epoch": 12.853333333333333, "grad_norm": 0.259765625, "learning_rate": 0.0002999754205431721, "loss": 0.495, "step": 4820 }, { "epoch": 12.88, "grad_norm": 0.1982421875, "learning_rate": 0.0002999753065944031, "loss": 0.4817, "step": 4830 }, { "epoch": 12.906666666666666, "grad_norm": 0.287109375, "learning_rate": 0.0002999751923821367, "loss": 0.4842, "step": 4840 }, { "epoch": 12.933333333333334, "grad_norm": 0.294921875, "learning_rate": 0.0002999750779063732, "loss": 0.4862, "step": 4850 }, { "epoch": 12.96, "grad_norm": 0.267578125, "learning_rate": 0.0002999749631671128, "loss": 0.4846, "step": 4860 }, { "epoch": 12.986666666666666, "grad_norm": 0.21875, "learning_rate": 0.0002999748481643557, "loss": 0.4995, "step": 4870 }, { "epoch": 13.0, "eval_loss": 0.49617522954940796, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.9648, "eval_samples_per_second": 1.606, "eval_steps_per_second": 0.1, "step": 4875 }, { "epoch": 13.013333333333334, "grad_norm": 0.2421875, "learning_rate": 0.000299974732898102, "loss": 0.4874, "step": 4880 }, { "epoch": 13.04, "grad_norm": 0.3203125, "learning_rate": 0.00029997461736835197, "loss": 0.5113, "step": 4890 }, { "epoch": 13.066666666666666, "grad_norm": 0.19921875, "learning_rate": 0.00029997450157510583, "loss": 0.499, "step": 4900 }, { "epoch": 13.093333333333334, "grad_norm": 0.2080078125, "learning_rate": 0.00029997438551836376, "loss": 0.4937, "step": 4910 }, { "epoch": 13.12, "grad_norm": 0.224609375, "learning_rate": 0.000299974269198126, "loss": 0.4907, "step": 4920 }, { "epoch": 13.146666666666667, "grad_norm": 0.166015625, "learning_rate": 0.00029997415261439275, "loss": 0.5002, "step": 4930 }, { "epoch": 13.173333333333334, "grad_norm": 0.388671875, "learning_rate": 0.00029997403576716413, "loss": 0.4902, "step": 4940 }, { "epoch": 13.2, "grad_norm": 0.3515625, "learning_rate": 0.00029997391865644045, "loss": 0.4879, "step": 4950 }, { "epoch": 13.226666666666667, "grad_norm": 0.185546875, "learning_rate": 0.0002999738012822218, "loss": 0.487, "step": 4960 }, { "epoch": 13.253333333333334, "grad_norm": 0.2099609375, "learning_rate": 0.00029997368364450855, "loss": 0.4855, "step": 4970 }, { "epoch": 13.28, "grad_norm": 0.27734375, "learning_rate": 0.0002999735657433007, "loss": 0.4987, "step": 4980 }, { "epoch": 13.306666666666667, "grad_norm": 0.38671875, "learning_rate": 0.00029997344757859873, "loss": 0.4802, "step": 4990 }, { "epoch": 13.333333333333334, "grad_norm": 0.267578125, "learning_rate": 0.0002999733291504026, "loss": 0.496, "step": 5000 }, { "epoch": 13.36, "grad_norm": 0.2099609375, "learning_rate": 0.0002999732104587126, "loss": 0.4988, "step": 5010 }, { "epoch": 13.386666666666667, "grad_norm": 0.328125, "learning_rate": 0.00029997309150352897, "loss": 0.4898, "step": 5020 }, { "epoch": 13.413333333333334, "grad_norm": 0.2421875, "learning_rate": 0.0002999729722848519, "loss": 0.4938, "step": 5030 }, { "epoch": 13.44, "grad_norm": 0.490234375, "learning_rate": 0.0002999728528026816, "loss": 0.4966, "step": 5040 }, { "epoch": 13.466666666666667, "grad_norm": 0.244140625, "learning_rate": 0.0002999727330570182, "loss": 0.5066, "step": 5050 }, { "epoch": 13.493333333333334, "grad_norm": 0.34765625, "learning_rate": 0.00029997261304786206, "loss": 0.4984, "step": 5060 }, { "epoch": 13.52, "grad_norm": 0.2041015625, "learning_rate": 0.0002999724927752133, "loss": 0.4918, "step": 5070 }, { "epoch": 13.546666666666667, "grad_norm": 0.2236328125, "learning_rate": 0.00029997237223907216, "loss": 0.4883, "step": 5080 }, { "epoch": 13.573333333333334, "grad_norm": 0.15625, "learning_rate": 0.0002999722514394388, "loss": 0.4858, "step": 5090 }, { "epoch": 13.6, "grad_norm": 0.349609375, "learning_rate": 0.0002999721303763135, "loss": 0.4816, "step": 5100 }, { "epoch": 13.626666666666667, "grad_norm": 0.267578125, "learning_rate": 0.00029997200904969645, "loss": 0.4665, "step": 5110 }, { "epoch": 13.653333333333332, "grad_norm": 0.1875, "learning_rate": 0.0002999718874595878, "loss": 0.4872, "step": 5120 }, { "epoch": 13.68, "grad_norm": 0.208984375, "learning_rate": 0.0002999717656059879, "loss": 0.4782, "step": 5130 }, { "epoch": 13.706666666666667, "grad_norm": 0.345703125, "learning_rate": 0.00029997164348889683, "loss": 0.4788, "step": 5140 }, { "epoch": 13.733333333333333, "grad_norm": 0.7421875, "learning_rate": 0.00029997152110831487, "loss": 0.4993, "step": 5150 }, { "epoch": 13.76, "grad_norm": 0.7265625, "learning_rate": 0.00029997139846424224, "loss": 0.5006, "step": 5160 }, { "epoch": 13.786666666666667, "grad_norm": 0.251953125, "learning_rate": 0.00029997127555667915, "loss": 0.4985, "step": 5170 }, { "epoch": 13.813333333333333, "grad_norm": 0.2890625, "learning_rate": 0.0002999711523856258, "loss": 0.4831, "step": 5180 }, { "epoch": 13.84, "grad_norm": 0.30078125, "learning_rate": 0.0002999710289510824, "loss": 0.49, "step": 5190 }, { "epoch": 13.866666666666667, "grad_norm": 0.228515625, "learning_rate": 0.0002999709052530492, "loss": 0.4887, "step": 5200 }, { "epoch": 13.893333333333333, "grad_norm": 0.23828125, "learning_rate": 0.00029997078129152636, "loss": 0.4787, "step": 5210 }, { "epoch": 13.92, "grad_norm": 0.31640625, "learning_rate": 0.0002999706570665142, "loss": 0.4892, "step": 5220 }, { "epoch": 13.946666666666667, "grad_norm": 0.51171875, "learning_rate": 0.0002999705325780128, "loss": 0.4829, "step": 5230 }, { "epoch": 13.973333333333333, "grad_norm": 0.37109375, "learning_rate": 0.00029997040782602245, "loss": 0.4936, "step": 5240 }, { "epoch": 14.0, "grad_norm": 0.26953125, "learning_rate": 0.0002999702828105434, "loss": 0.4825, "step": 5250 }, { "epoch": 14.0, "eval_loss": 0.49614495038986206, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.9533, "eval_samples_per_second": 1.608, "eval_steps_per_second": 0.1, "step": 5250 }, { "epoch": 14.026666666666667, "grad_norm": 0.251953125, "learning_rate": 0.0002999701575315759, "loss": 0.5015, "step": 5260 }, { "epoch": 14.053333333333333, "grad_norm": 0.271484375, "learning_rate": 0.00029997003198912, "loss": 0.5078, "step": 5270 }, { "epoch": 14.08, "grad_norm": 0.2373046875, "learning_rate": 0.00029996990618317605, "loss": 0.4954, "step": 5280 }, { "epoch": 14.106666666666667, "grad_norm": 0.1923828125, "learning_rate": 0.0002999697801137443, "loss": 0.4893, "step": 5290 }, { "epoch": 14.133333333333333, "grad_norm": 0.265625, "learning_rate": 0.0002999696537808249, "loss": 0.4927, "step": 5300 }, { "epoch": 14.16, "grad_norm": 0.302734375, "learning_rate": 0.0002999695271844181, "loss": 0.4963, "step": 5310 }, { "epoch": 14.186666666666667, "grad_norm": 0.283203125, "learning_rate": 0.00029996940032452415, "loss": 0.4881, "step": 5320 }, { "epoch": 14.213333333333333, "grad_norm": 0.2275390625, "learning_rate": 0.0002999692732011432, "loss": 0.4833, "step": 5330 }, { "epoch": 14.24, "grad_norm": 0.208984375, "learning_rate": 0.0002999691458142755, "loss": 0.4867, "step": 5340 }, { "epoch": 14.266666666666667, "grad_norm": 0.16796875, "learning_rate": 0.00029996901816392135, "loss": 0.4908, "step": 5350 }, { "epoch": 14.293333333333333, "grad_norm": 0.1806640625, "learning_rate": 0.00029996889025008086, "loss": 0.4845, "step": 5360 }, { "epoch": 14.32, "grad_norm": 0.171875, "learning_rate": 0.0002999687620727543, "loss": 0.4887, "step": 5370 }, { "epoch": 14.346666666666668, "grad_norm": 0.322265625, "learning_rate": 0.00029996863363194196, "loss": 0.497, "step": 5380 }, { "epoch": 14.373333333333333, "grad_norm": 0.234375, "learning_rate": 0.0002999685049276439, "loss": 0.4939, "step": 5390 }, { "epoch": 14.4, "grad_norm": 0.20703125, "learning_rate": 0.00029996837595986053, "loss": 0.4885, "step": 5400 }, { "epoch": 14.426666666666666, "grad_norm": 0.21484375, "learning_rate": 0.000299968246728592, "loss": 0.4952, "step": 5410 }, { "epoch": 14.453333333333333, "grad_norm": 0.3203125, "learning_rate": 0.00029996811723383853, "loss": 0.4975, "step": 5420 }, { "epoch": 14.48, "grad_norm": 0.365234375, "learning_rate": 0.00029996798747560036, "loss": 0.5044, "step": 5430 }, { "epoch": 14.506666666666666, "grad_norm": 0.404296875, "learning_rate": 0.0002999678574538777, "loss": 0.4943, "step": 5440 }, { "epoch": 14.533333333333333, "grad_norm": 0.169921875, "learning_rate": 0.0002999677271686708, "loss": 0.4877, "step": 5450 }, { "epoch": 14.56, "grad_norm": 0.216796875, "learning_rate": 0.0002999675966199799, "loss": 0.4876, "step": 5460 }, { "epoch": 14.586666666666666, "grad_norm": 0.2119140625, "learning_rate": 0.0002999674658078052, "loss": 0.4833, "step": 5470 }, { "epoch": 14.613333333333333, "grad_norm": 0.158203125, "learning_rate": 0.00029996733473214694, "loss": 0.4686, "step": 5480 }, { "epoch": 14.64, "grad_norm": 0.154296875, "learning_rate": 0.00029996720339300534, "loss": 0.4727, "step": 5490 }, { "epoch": 14.666666666666666, "grad_norm": 0.2421875, "learning_rate": 0.0002999670717903806, "loss": 0.4904, "step": 5500 }, { "epoch": 14.693333333333333, "grad_norm": 0.228515625, "learning_rate": 0.00029996693992427305, "loss": 0.4725, "step": 5510 }, { "epoch": 14.72, "grad_norm": 0.154296875, "learning_rate": 0.00029996680779468285, "loss": 0.4896, "step": 5520 }, { "epoch": 14.746666666666666, "grad_norm": 0.23828125, "learning_rate": 0.0002999666754016102, "loss": 0.4947, "step": 5530 }, { "epoch": 14.773333333333333, "grad_norm": 0.341796875, "learning_rate": 0.0002999665427450555, "loss": 0.5023, "step": 5540 }, { "epoch": 14.8, "grad_norm": 0.234375, "learning_rate": 0.00029996640982501874, "loss": 0.4885, "step": 5550 }, { "epoch": 14.826666666666666, "grad_norm": 0.2138671875, "learning_rate": 0.00029996627664150027, "loss": 0.4836, "step": 5560 }, { "epoch": 14.853333333333333, "grad_norm": 0.220703125, "learning_rate": 0.0002999661431945004, "loss": 0.4926, "step": 5570 }, { "epoch": 14.88, "grad_norm": 0.2197265625, "learning_rate": 0.00029996600948401924, "loss": 0.4801, "step": 5580 }, { "epoch": 14.906666666666666, "grad_norm": 0.267578125, "learning_rate": 0.0002999658755100571, "loss": 0.4824, "step": 5590 }, { "epoch": 14.933333333333334, "grad_norm": 0.306640625, "learning_rate": 0.0002999657412726142, "loss": 0.4838, "step": 5600 }, { "epoch": 14.96, "grad_norm": 0.23828125, "learning_rate": 0.00029996560677169075, "loss": 0.4822, "step": 5610 }, { "epoch": 14.986666666666666, "grad_norm": 0.30859375, "learning_rate": 0.00029996547200728706, "loss": 0.4971, "step": 5620 }, { "epoch": 15.0, "eval_loss": 0.4952986538410187, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.7083, "eval_samples_per_second": 1.648, "eval_steps_per_second": 0.103, "step": 5625 }, { "epoch": 15.013333333333334, "grad_norm": 0.201171875, "learning_rate": 0.0002999653369794033, "loss": 0.4854, "step": 5630 }, { "epoch": 15.04, "grad_norm": 0.228515625, "learning_rate": 0.00029996520168803966, "loss": 0.5091, "step": 5640 }, { "epoch": 15.066666666666666, "grad_norm": 0.208984375, "learning_rate": 0.0002999650661331965, "loss": 0.4976, "step": 5650 }, { "epoch": 15.093333333333334, "grad_norm": 0.271484375, "learning_rate": 0.00029996493031487397, "loss": 0.4916, "step": 5660 }, { "epoch": 15.12, "grad_norm": 0.474609375, "learning_rate": 0.0002999647942330723, "loss": 0.4879, "step": 5670 }, { "epoch": 15.146666666666667, "grad_norm": 0.3515625, "learning_rate": 0.0002999646578877918, "loss": 0.4976, "step": 5680 }, { "epoch": 15.173333333333334, "grad_norm": 0.2265625, "learning_rate": 0.00029996452127903264, "loss": 0.4874, "step": 5690 }, { "epoch": 15.2, "grad_norm": 0.279296875, "learning_rate": 0.00029996438440679514, "loss": 0.486, "step": 5700 }, { "epoch": 15.226666666666667, "grad_norm": 0.2294921875, "learning_rate": 0.0002999642472710795, "loss": 0.4837, "step": 5710 }, { "epoch": 15.253333333333334, "grad_norm": 0.26171875, "learning_rate": 0.0002999641098718859, "loss": 0.4825, "step": 5720 }, { "epoch": 15.28, "grad_norm": 0.1904296875, "learning_rate": 0.00029996397220921465, "loss": 0.4955, "step": 5730 }, { "epoch": 15.306666666666667, "grad_norm": 0.2216796875, "learning_rate": 0.000299963834283066, "loss": 0.4771, "step": 5740 }, { "epoch": 15.333333333333334, "grad_norm": 0.2138671875, "learning_rate": 0.00029996369609344015, "loss": 0.4939, "step": 5750 }, { "epoch": 15.36, "grad_norm": 0.1943359375, "learning_rate": 0.0002999635576403374, "loss": 0.4971, "step": 5760 }, { "epoch": 15.386666666666667, "grad_norm": 0.31640625, "learning_rate": 0.00029996341892375787, "loss": 0.4869, "step": 5770 }, { "epoch": 15.413333333333334, "grad_norm": 0.2099609375, "learning_rate": 0.00029996327994370194, "loss": 0.4904, "step": 5780 }, { "epoch": 15.44, "grad_norm": 0.3203125, "learning_rate": 0.00029996314070016987, "loss": 0.4949, "step": 5790 }, { "epoch": 15.466666666666667, "grad_norm": 0.39453125, "learning_rate": 0.00029996300119316177, "loss": 0.5034, "step": 5800 }, { "epoch": 15.493333333333334, "grad_norm": 0.357421875, "learning_rate": 0.00029996286142267795, "loss": 0.4953, "step": 5810 }, { "epoch": 15.52, "grad_norm": 0.33984375, "learning_rate": 0.0002999627213887187, "loss": 0.4899, "step": 5820 }, { "epoch": 15.546666666666667, "grad_norm": 0.330078125, "learning_rate": 0.00029996258109128417, "loss": 0.4865, "step": 5830 }, { "epoch": 15.573333333333334, "grad_norm": 0.2373046875, "learning_rate": 0.0002999624405303747, "loss": 0.4846, "step": 5840 }, { "epoch": 15.6, "grad_norm": 0.2099609375, "learning_rate": 0.00029996229970599047, "loss": 0.4785, "step": 5850 }, { "epoch": 15.626666666666667, "grad_norm": 0.33984375, "learning_rate": 0.00029996215861813173, "loss": 0.4644, "step": 5860 }, { "epoch": 15.653333333333332, "grad_norm": 0.21875, "learning_rate": 0.00029996201726679886, "loss": 0.4848, "step": 5870 }, { "epoch": 15.68, "grad_norm": 0.2734375, "learning_rate": 0.0002999618756519919, "loss": 0.4757, "step": 5880 }, { "epoch": 15.706666666666667, "grad_norm": 0.255859375, "learning_rate": 0.00029996173377371124, "loss": 0.477, "step": 5890 }, { "epoch": 15.733333333333333, "grad_norm": 0.376953125, "learning_rate": 0.0002999615916319571, "loss": 0.4964, "step": 5900 }, { "epoch": 15.76, "grad_norm": 0.208984375, "learning_rate": 0.0002999614492267297, "loss": 0.4983, "step": 5910 }, { "epoch": 15.786666666666667, "grad_norm": 0.18359375, "learning_rate": 0.00029996130655802935, "loss": 0.4963, "step": 5920 }, { "epoch": 15.813333333333333, "grad_norm": 0.234375, "learning_rate": 0.0002999611636258562, "loss": 0.4803, "step": 5930 }, { "epoch": 15.84, "grad_norm": 0.36328125, "learning_rate": 0.0002999610204302106, "loss": 0.4871, "step": 5940 }, { "epoch": 15.866666666666667, "grad_norm": 0.275390625, "learning_rate": 0.00029996087697109274, "loss": 0.4864, "step": 5950 }, { "epoch": 15.893333333333333, "grad_norm": 0.337890625, "learning_rate": 0.0002999607332485029, "loss": 0.477, "step": 5960 }, { "epoch": 15.92, "grad_norm": 0.36328125, "learning_rate": 0.00029996058926244135, "loss": 0.4876, "step": 5970 }, { "epoch": 15.946666666666667, "grad_norm": 0.22265625, "learning_rate": 0.00029996044501290835, "loss": 0.4804, "step": 5980 }, { "epoch": 15.973333333333333, "grad_norm": 0.20703125, "learning_rate": 0.0002999603004999041, "loss": 0.4919, "step": 5990 }, { "epoch": 16.0, "grad_norm": 0.271484375, "learning_rate": 0.00029996015572342883, "loss": 0.4805, "step": 6000 }, { "epoch": 16.0, "eval_loss": 0.4939233958721161, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.1895, "eval_samples_per_second": 1.57, "eval_steps_per_second": 0.098, "step": 6000 }, { "epoch": 16.026666666666667, "grad_norm": 0.421875, "learning_rate": 0.0002999600106834829, "loss": 0.5004, "step": 6010 }, { "epoch": 16.053333333333335, "grad_norm": 0.26171875, "learning_rate": 0.00029995986538006647, "loss": 0.5067, "step": 6020 }, { "epoch": 16.08, "grad_norm": 0.263671875, "learning_rate": 0.00029995971981317985, "loss": 0.493, "step": 6030 }, { "epoch": 16.106666666666666, "grad_norm": 0.263671875, "learning_rate": 0.0002999595739828232, "loss": 0.4878, "step": 6040 }, { "epoch": 16.133333333333333, "grad_norm": 0.251953125, "learning_rate": 0.000299959427888997, "loss": 0.4903, "step": 6050 }, { "epoch": 16.16, "grad_norm": 0.365234375, "learning_rate": 0.00029995928153170125, "loss": 0.4938, "step": 6060 }, { "epoch": 16.186666666666667, "grad_norm": 0.1962890625, "learning_rate": 0.0002999591349109364, "loss": 0.4863, "step": 6070 }, { "epoch": 16.213333333333335, "grad_norm": 0.2421875, "learning_rate": 0.00029995898802670257, "loss": 0.482, "step": 6080 }, { "epoch": 16.24, "grad_norm": 0.298828125, "learning_rate": 0.0002999588408790001, "loss": 0.4857, "step": 6090 }, { "epoch": 16.266666666666666, "grad_norm": 0.1826171875, "learning_rate": 0.0002999586934678292, "loss": 0.4879, "step": 6100 }, { "epoch": 16.293333333333333, "grad_norm": 0.22265625, "learning_rate": 0.0002999585457931902, "loss": 0.4824, "step": 6110 }, { "epoch": 16.32, "grad_norm": 0.234375, "learning_rate": 0.00029995839785508326, "loss": 0.4872, "step": 6120 }, { "epoch": 16.346666666666668, "grad_norm": 0.3203125, "learning_rate": 0.0002999582496535087, "loss": 0.4958, "step": 6130 }, { "epoch": 16.373333333333335, "grad_norm": 0.251953125, "learning_rate": 0.00029995810118846675, "loss": 0.4914, "step": 6140 }, { "epoch": 16.4, "grad_norm": 0.28125, "learning_rate": 0.00029995795245995775, "loss": 0.4861, "step": 6150 }, { "epoch": 16.426666666666666, "grad_norm": 0.515625, "learning_rate": 0.0002999578034679819, "loss": 0.4931, "step": 6160 }, { "epoch": 16.453333333333333, "grad_norm": 0.279296875, "learning_rate": 0.00029995765421253945, "loss": 0.496, "step": 6170 }, { "epoch": 16.48, "grad_norm": 0.27734375, "learning_rate": 0.00029995750469363064, "loss": 0.5016, "step": 6180 }, { "epoch": 16.506666666666668, "grad_norm": 0.1796875, "learning_rate": 0.0002999573549112558, "loss": 0.4907, "step": 6190 }, { "epoch": 16.533333333333335, "grad_norm": 0.1806640625, "learning_rate": 0.0002999572048654152, "loss": 0.4849, "step": 6200 }, { "epoch": 16.56, "grad_norm": 0.2294921875, "learning_rate": 0.000299957054556109, "loss": 0.4857, "step": 6210 }, { "epoch": 16.586666666666666, "grad_norm": 0.1982421875, "learning_rate": 0.00029995690398333755, "loss": 0.4808, "step": 6220 }, { "epoch": 16.613333333333333, "grad_norm": 0.169921875, "learning_rate": 0.0002999567531471011, "loss": 0.467, "step": 6230 }, { "epoch": 16.64, "grad_norm": 0.1875, "learning_rate": 0.00029995660204739993, "loss": 0.4714, "step": 6240 }, { "epoch": 16.666666666666668, "grad_norm": 0.1904296875, "learning_rate": 0.0002999564506842343, "loss": 0.4881, "step": 6250 }, { "epoch": 16.693333333333335, "grad_norm": 0.25390625, "learning_rate": 0.00029995629905760446, "loss": 0.47, "step": 6260 }, { "epoch": 16.72, "grad_norm": 0.181640625, "learning_rate": 0.0002999561471675106, "loss": 0.4876, "step": 6270 }, { "epoch": 16.746666666666666, "grad_norm": 0.384765625, "learning_rate": 0.00029995599501395315, "loss": 0.4933, "step": 6280 }, { "epoch": 16.773333333333333, "grad_norm": 0.30078125, "learning_rate": 0.00029995584259693225, "loss": 0.5008, "step": 6290 }, { "epoch": 16.8, "grad_norm": 0.2021484375, "learning_rate": 0.00029995568991644827, "loss": 0.4866, "step": 6300 }, { "epoch": 16.826666666666668, "grad_norm": 0.3203125, "learning_rate": 0.0002999555369725013, "loss": 0.4811, "step": 6310 }, { "epoch": 16.85333333333333, "grad_norm": 0.2236328125, "learning_rate": 0.00029995538376509183, "loss": 0.4908, "step": 6320 }, { "epoch": 16.88, "grad_norm": 0.2021484375, "learning_rate": 0.00029995523029422, "loss": 0.478, "step": 6330 }, { "epoch": 16.906666666666666, "grad_norm": 0.287109375, "learning_rate": 0.0002999550765598861, "loss": 0.4809, "step": 6340 }, { "epoch": 16.933333333333334, "grad_norm": 0.267578125, "learning_rate": 0.0002999549225620904, "loss": 0.4826, "step": 6350 }, { "epoch": 16.96, "grad_norm": 0.34765625, "learning_rate": 0.0002999547683008332, "loss": 0.4808, "step": 6360 }, { "epoch": 16.986666666666668, "grad_norm": 0.181640625, "learning_rate": 0.00029995461377611474, "loss": 0.495, "step": 6370 }, { "epoch": 17.0, "eval_loss": 0.4929427206516266, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.0071, "eval_samples_per_second": 1.599, "eval_steps_per_second": 0.1, "step": 6375 }, { "epoch": 17.013333333333332, "grad_norm": 0.212890625, "learning_rate": 0.0002999544589879353, "loss": 0.4829, "step": 6380 }, { "epoch": 17.04, "grad_norm": 0.2158203125, "learning_rate": 0.00029995430393629514, "loss": 0.5072, "step": 6390 }, { "epoch": 17.066666666666666, "grad_norm": 0.283203125, "learning_rate": 0.00029995414862119457, "loss": 0.495, "step": 6400 }, { "epoch": 17.093333333333334, "grad_norm": 0.2158203125, "learning_rate": 0.00029995399304263385, "loss": 0.4899, "step": 6410 }, { "epoch": 17.12, "grad_norm": 0.17578125, "learning_rate": 0.0002999538372006132, "loss": 0.4868, "step": 6420 }, { "epoch": 17.14666666666667, "grad_norm": 0.28515625, "learning_rate": 0.0002999536810951329, "loss": 0.4959, "step": 6430 }, { "epoch": 17.173333333333332, "grad_norm": 0.28515625, "learning_rate": 0.0002999535247261933, "loss": 0.4858, "step": 6440 }, { "epoch": 17.2, "grad_norm": 0.265625, "learning_rate": 0.00029995336809379464, "loss": 0.4845, "step": 6450 }, { "epoch": 17.226666666666667, "grad_norm": 0.2431640625, "learning_rate": 0.0002999532111979372, "loss": 0.482, "step": 6460 }, { "epoch": 17.253333333333334, "grad_norm": 0.232421875, "learning_rate": 0.0002999530540386212, "loss": 0.4812, "step": 6470 }, { "epoch": 17.28, "grad_norm": 0.298828125, "learning_rate": 0.00029995289661584703, "loss": 0.4944, "step": 6480 }, { "epoch": 17.306666666666665, "grad_norm": 0.302734375, "learning_rate": 0.00029995273892961485, "loss": 0.4761, "step": 6490 }, { "epoch": 17.333333333333332, "grad_norm": 0.369140625, "learning_rate": 0.00029995258097992495, "loss": 0.4915, "step": 6500 }, { "epoch": 17.36, "grad_norm": 0.1826171875, "learning_rate": 0.0002999524227667777, "loss": 0.4946, "step": 6510 }, { "epoch": 17.386666666666667, "grad_norm": 0.30078125, "learning_rate": 0.00029995226429017333, "loss": 0.4857, "step": 6520 }, { "epoch": 17.413333333333334, "grad_norm": 0.2734375, "learning_rate": 0.00029995210555011203, "loss": 0.489, "step": 6530 }, { "epoch": 17.44, "grad_norm": 0.265625, "learning_rate": 0.0002999519465465942, "loss": 0.4927, "step": 6540 }, { "epoch": 17.466666666666665, "grad_norm": 0.265625, "learning_rate": 0.0002999517872796201, "loss": 0.5021, "step": 6550 }, { "epoch": 17.493333333333332, "grad_norm": 0.28515625, "learning_rate": 0.00029995162774918994, "loss": 0.4933, "step": 6560 }, { "epoch": 17.52, "grad_norm": 0.1806640625, "learning_rate": 0.0002999514679553041, "loss": 0.4871, "step": 6570 }, { "epoch": 17.546666666666667, "grad_norm": 0.2265625, "learning_rate": 0.0002999513078979628, "loss": 0.4846, "step": 6580 }, { "epoch": 17.573333333333334, "grad_norm": 0.1796875, "learning_rate": 0.00029995114757716627, "loss": 0.4837, "step": 6590 }, { "epoch": 17.6, "grad_norm": 0.181640625, "learning_rate": 0.00029995098699291486, "loss": 0.4777, "step": 6600 }, { "epoch": 17.626666666666665, "grad_norm": 0.2373046875, "learning_rate": 0.0002999508261452089, "loss": 0.4628, "step": 6610 }, { "epoch": 17.653333333333332, "grad_norm": 0.30859375, "learning_rate": 0.00029995066503404855, "loss": 0.4827, "step": 6620 }, { "epoch": 17.68, "grad_norm": 0.1669921875, "learning_rate": 0.0002999505036594342, "loss": 0.4752, "step": 6630 }, { "epoch": 17.706666666666667, "grad_norm": 0.28515625, "learning_rate": 0.0002999503420213661, "loss": 0.4753, "step": 6640 }, { "epoch": 17.733333333333334, "grad_norm": 0.34375, "learning_rate": 0.0002999501801198445, "loss": 0.4949, "step": 6650 }, { "epoch": 17.76, "grad_norm": 0.28515625, "learning_rate": 0.0002999500179548697, "loss": 0.4968, "step": 6660 }, { "epoch": 17.786666666666665, "grad_norm": 0.419921875, "learning_rate": 0.000299949855526442, "loss": 0.4946, "step": 6670 }, { "epoch": 17.813333333333333, "grad_norm": 0.42578125, "learning_rate": 0.0002999496928345617, "loss": 0.4783, "step": 6680 }, { "epoch": 17.84, "grad_norm": 0.435546875, "learning_rate": 0.000299949529879229, "loss": 0.4851, "step": 6690 }, { "epoch": 17.866666666666667, "grad_norm": 0.404296875, "learning_rate": 0.0002999493666604443, "loss": 0.4849, "step": 6700 }, { "epoch": 17.893333333333334, "grad_norm": 0.20703125, "learning_rate": 0.00029994920317820786, "loss": 0.4752, "step": 6710 }, { "epoch": 17.92, "grad_norm": 0.3515625, "learning_rate": 0.0002999490394325199, "loss": 0.4861, "step": 6720 }, { "epoch": 17.946666666666665, "grad_norm": 0.40234375, "learning_rate": 0.00029994887542338084, "loss": 0.4786, "step": 6730 }, { "epoch": 17.973333333333333, "grad_norm": 0.392578125, "learning_rate": 0.0002999487111507908, "loss": 0.4904, "step": 6740 }, { "epoch": 18.0, "grad_norm": 0.2392578125, "learning_rate": 0.0002999485466147502, "loss": 0.4793, "step": 6750 }, { "epoch": 18.0, "eval_loss": 0.49115684628486633, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.9214, "eval_samples_per_second": 1.613, "eval_steps_per_second": 0.101, "step": 6750 }, { "epoch": 18.026666666666667, "grad_norm": 0.224609375, "learning_rate": 0.00029994838181525923, "loss": 0.4974, "step": 6760 }, { "epoch": 18.053333333333335, "grad_norm": 0.216796875, "learning_rate": 0.0002999482167523182, "loss": 0.5044, "step": 6770 }, { "epoch": 18.08, "grad_norm": 0.21875, "learning_rate": 0.0002999480514259275, "loss": 0.4917, "step": 6780 }, { "epoch": 18.106666666666666, "grad_norm": 0.296875, "learning_rate": 0.0002999478858360873, "loss": 0.4856, "step": 6790 }, { "epoch": 18.133333333333333, "grad_norm": 0.26953125, "learning_rate": 0.000299947719982798, "loss": 0.4884, "step": 6800 }, { "epoch": 18.16, "grad_norm": 0.35546875, "learning_rate": 0.0002999475538660598, "loss": 0.493, "step": 6810 }, { "epoch": 18.186666666666667, "grad_norm": 0.2451171875, "learning_rate": 0.00029994738748587304, "loss": 0.4845, "step": 6820 }, { "epoch": 18.213333333333335, "grad_norm": 0.32421875, "learning_rate": 0.00029994722084223795, "loss": 0.4797, "step": 6830 }, { "epoch": 18.24, "grad_norm": 0.310546875, "learning_rate": 0.0002999470539351549, "loss": 0.4836, "step": 6840 }, { "epoch": 18.266666666666666, "grad_norm": 0.296875, "learning_rate": 0.0002999468867646241, "loss": 0.4869, "step": 6850 }, { "epoch": 18.293333333333333, "grad_norm": 0.228515625, "learning_rate": 0.000299946719330646, "loss": 0.4809, "step": 6860 }, { "epoch": 18.32, "grad_norm": 0.283203125, "learning_rate": 0.0002999465516332207, "loss": 0.485, "step": 6870 }, { "epoch": 18.346666666666668, "grad_norm": 0.23828125, "learning_rate": 0.00029994638367234866, "loss": 0.4931, "step": 6880 }, { "epoch": 18.373333333333335, "grad_norm": 0.29296875, "learning_rate": 0.00029994621544803, "loss": 0.4901, "step": 6890 }, { "epoch": 18.4, "grad_norm": 0.275390625, "learning_rate": 0.0002999460469602652, "loss": 0.4846, "step": 6900 }, { "epoch": 18.426666666666666, "grad_norm": 0.220703125, "learning_rate": 0.00029994587820905444, "loss": 0.4916, "step": 6910 }, { "epoch": 18.453333333333333, "grad_norm": 0.30078125, "learning_rate": 0.00029994570919439806, "loss": 0.4941, "step": 6920 }, { "epoch": 18.48, "grad_norm": 0.1953125, "learning_rate": 0.0002999455399162963, "loss": 0.4998, "step": 6930 }, { "epoch": 18.506666666666668, "grad_norm": 0.28125, "learning_rate": 0.00029994537037474956, "loss": 0.4897, "step": 6940 }, { "epoch": 18.533333333333335, "grad_norm": 0.27734375, "learning_rate": 0.0002999452005697581, "loss": 0.4836, "step": 6950 }, { "epoch": 18.56, "grad_norm": 0.30859375, "learning_rate": 0.00029994503050132215, "loss": 0.4835, "step": 6960 }, { "epoch": 18.586666666666666, "grad_norm": 0.2275390625, "learning_rate": 0.00029994486016944204, "loss": 0.48, "step": 6970 }, { "epoch": 18.613333333333333, "grad_norm": 0.25, "learning_rate": 0.0002999446895741181, "loss": 0.4654, "step": 6980 }, { "epoch": 18.64, "grad_norm": 0.267578125, "learning_rate": 0.00029994451871535063, "loss": 0.4698, "step": 6990 }, { "epoch": 18.666666666666668, "grad_norm": 0.19140625, "learning_rate": 0.00029994434759313994, "loss": 0.4857, "step": 7000 }, { "epoch": 18.693333333333335, "grad_norm": 0.14453125, "learning_rate": 0.0002999441762074863, "loss": 0.4688, "step": 7010 }, { "epoch": 18.72, "grad_norm": 0.251953125, "learning_rate": 0.0002999440045583899, "loss": 0.4867, "step": 7020 }, { "epoch": 18.746666666666666, "grad_norm": 0.1875, "learning_rate": 0.00029994383264585135, "loss": 0.4909, "step": 7030 }, { "epoch": 18.773333333333333, "grad_norm": 0.26953125, "learning_rate": 0.00029994366046987063, "loss": 0.4979, "step": 7040 }, { "epoch": 18.8, "grad_norm": 0.189453125, "learning_rate": 0.0002999434880304482, "loss": 0.4848, "step": 7050 }, { "epoch": 18.826666666666668, "grad_norm": 0.26171875, "learning_rate": 0.00029994331532758435, "loss": 0.4798, "step": 7060 }, { "epoch": 18.85333333333333, "grad_norm": 0.283203125, "learning_rate": 0.00029994314236127934, "loss": 0.4898, "step": 7070 }, { "epoch": 18.88, "grad_norm": 0.28125, "learning_rate": 0.0002999429691315335, "loss": 0.4763, "step": 7080 }, { "epoch": 18.906666666666666, "grad_norm": 0.330078125, "learning_rate": 0.00029994279563834723, "loss": 0.4788, "step": 7090 }, { "epoch": 18.933333333333334, "grad_norm": 0.283203125, "learning_rate": 0.0002999426218817207, "loss": 0.4809, "step": 7100 }, { "epoch": 18.96, "grad_norm": 0.2392578125, "learning_rate": 0.0002999424478616542, "loss": 0.4789, "step": 7110 }, { "epoch": 18.986666666666668, "grad_norm": 0.328125, "learning_rate": 0.0002999422735781482, "loss": 0.4933, "step": 7120 }, { "epoch": 19.0, "eval_loss": 0.491379976272583, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.9578, "eval_samples_per_second": 1.607, "eval_steps_per_second": 0.1, "step": 7125 }, { "epoch": 19.013333333333332, "grad_norm": 0.19140625, "learning_rate": 0.0002999420990312028, "loss": 0.4821, "step": 7130 }, { "epoch": 19.04, "grad_norm": 0.18359375, "learning_rate": 0.00029994192422081844, "loss": 0.506, "step": 7140 }, { "epoch": 19.066666666666666, "grad_norm": 0.275390625, "learning_rate": 0.0002999417491469954, "loss": 0.4937, "step": 7150 }, { "epoch": 19.093333333333334, "grad_norm": 0.1953125, "learning_rate": 0.00029994157380973396, "loss": 0.4883, "step": 7160 }, { "epoch": 19.12, "grad_norm": 0.255859375, "learning_rate": 0.00029994139820903445, "loss": 0.4846, "step": 7170 }, { "epoch": 19.14666666666667, "grad_norm": 0.234375, "learning_rate": 0.00029994122234489723, "loss": 0.4944, "step": 7180 }, { "epoch": 19.173333333333332, "grad_norm": 0.388671875, "learning_rate": 0.0002999410462173225, "loss": 0.4843, "step": 7190 }, { "epoch": 19.2, "grad_norm": 0.349609375, "learning_rate": 0.0002999408698263107, "loss": 0.4829, "step": 7200 }, { "epoch": 19.226666666666667, "grad_norm": 0.244140625, "learning_rate": 0.000299940693171862, "loss": 0.4801, "step": 7210 }, { "epoch": 19.253333333333334, "grad_norm": 0.330078125, "learning_rate": 0.0002999405162539768, "loss": 0.4794, "step": 7220 }, { "epoch": 19.28, "grad_norm": 0.21875, "learning_rate": 0.0002999403390726554, "loss": 0.493, "step": 7230 }, { "epoch": 19.306666666666665, "grad_norm": 0.2197265625, "learning_rate": 0.00029994016162789803, "loss": 0.4751, "step": 7240 }, { "epoch": 19.333333333333332, "grad_norm": 0.400390625, "learning_rate": 0.00029993998391970514, "loss": 0.4898, "step": 7250 }, { "epoch": 19.36, "grad_norm": 0.224609375, "learning_rate": 0.000299939805948077, "loss": 0.4928, "step": 7260 }, { "epoch": 19.386666666666667, "grad_norm": 0.29296875, "learning_rate": 0.0002999396277130138, "loss": 0.4836, "step": 7270 }, { "epoch": 19.413333333333334, "grad_norm": 0.333984375, "learning_rate": 0.00029993944921451605, "loss": 0.4873, "step": 7280 }, { "epoch": 19.44, "grad_norm": 0.2216796875, "learning_rate": 0.00029993927045258393, "loss": 0.4913, "step": 7290 }, { "epoch": 19.466666666666665, "grad_norm": 0.3203125, "learning_rate": 0.0002999390914272178, "loss": 0.5015, "step": 7300 }, { "epoch": 19.493333333333332, "grad_norm": 0.30859375, "learning_rate": 0.0002999389121384179, "loss": 0.4915, "step": 7310 }, { "epoch": 19.52, "grad_norm": 0.25, "learning_rate": 0.0002999387325861846, "loss": 0.4858, "step": 7320 }, { "epoch": 19.546666666666667, "grad_norm": 0.265625, "learning_rate": 0.0002999385527705183, "loss": 0.4827, "step": 7330 }, { "epoch": 19.573333333333334, "grad_norm": 0.1923828125, "learning_rate": 0.0002999383726914192, "loss": 0.4814, "step": 7340 }, { "epoch": 19.6, "grad_norm": 0.2353515625, "learning_rate": 0.00029993819234888766, "loss": 0.4755, "step": 7350 }, { "epoch": 19.626666666666665, "grad_norm": 0.26171875, "learning_rate": 0.000299938011742924, "loss": 0.4616, "step": 7360 }, { "epoch": 19.653333333333332, "grad_norm": 0.1884765625, "learning_rate": 0.00029993783087352847, "loss": 0.4811, "step": 7370 }, { "epoch": 19.68, "grad_norm": 0.1591796875, "learning_rate": 0.0002999376497407015, "loss": 0.4728, "step": 7380 }, { "epoch": 19.706666666666667, "grad_norm": 0.255859375, "learning_rate": 0.00029993746834444337, "loss": 0.4731, "step": 7390 }, { "epoch": 19.733333333333334, "grad_norm": 0.31640625, "learning_rate": 0.00029993728668475434, "loss": 0.4937, "step": 7400 }, { "epoch": 19.76, "grad_norm": 0.42578125, "learning_rate": 0.0002999371047616348, "loss": 0.495, "step": 7410 }, { "epoch": 19.786666666666665, "grad_norm": 0.314453125, "learning_rate": 0.000299936922575085, "loss": 0.4934, "step": 7420 }, { "epoch": 19.813333333333333, "grad_norm": 0.267578125, "learning_rate": 0.00029993674012510535, "loss": 0.4772, "step": 7430 }, { "epoch": 19.84, "grad_norm": 0.34765625, "learning_rate": 0.0002999365574116961, "loss": 0.4843, "step": 7440 }, { "epoch": 19.866666666666667, "grad_norm": 0.279296875, "learning_rate": 0.00029993637443485763, "loss": 0.4831, "step": 7450 }, { "epoch": 19.893333333333334, "grad_norm": 0.2470703125, "learning_rate": 0.00029993619119459016, "loss": 0.4739, "step": 7460 }, { "epoch": 19.92, "grad_norm": 0.3359375, "learning_rate": 0.00029993600769089414, "loss": 0.4844, "step": 7470 }, { "epoch": 19.946666666666665, "grad_norm": 0.26953125, "learning_rate": 0.00029993582392376985, "loss": 0.4779, "step": 7480 }, { "epoch": 19.973333333333333, "grad_norm": 0.45703125, "learning_rate": 0.0002999356398932175, "loss": 0.4884, "step": 7490 }, { "epoch": 20.0, "grad_norm": 0.2392578125, "learning_rate": 0.00029993545559923757, "loss": 0.4784, "step": 7500 }, { "epoch": 20.0, "eval_loss": 0.4901997447013855, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.2864, "eval_samples_per_second": 1.555, "eval_steps_per_second": 0.097, "step": 7500 }, { "epoch": 20.026666666666667, "grad_norm": 0.236328125, "learning_rate": 0.00029993527104183024, "loss": 0.4961, "step": 7510 }, { "epoch": 20.053333333333335, "grad_norm": 0.2431640625, "learning_rate": 0.00029993508622099603, "loss": 0.5029, "step": 7520 }, { "epoch": 20.08, "grad_norm": 0.24609375, "learning_rate": 0.0002999349011367351, "loss": 0.4897, "step": 7530 }, { "epoch": 20.106666666666666, "grad_norm": 0.2451171875, "learning_rate": 0.0002999347157890478, "loss": 0.4848, "step": 7540 }, { "epoch": 20.133333333333333, "grad_norm": 0.251953125, "learning_rate": 0.0002999345301779345, "loss": 0.4869, "step": 7550 }, { "epoch": 20.16, "grad_norm": 0.361328125, "learning_rate": 0.0002999343443033955, "loss": 0.4904, "step": 7560 }, { "epoch": 20.186666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002999341581654311, "loss": 0.483, "step": 7570 }, { "epoch": 20.213333333333335, "grad_norm": 0.205078125, "learning_rate": 0.0002999339717640417, "loss": 0.4778, "step": 7580 }, { "epoch": 20.24, "grad_norm": 0.265625, "learning_rate": 0.00029993378509922755, "loss": 0.4822, "step": 7590 }, { "epoch": 20.266666666666666, "grad_norm": 0.283203125, "learning_rate": 0.0002999335981709891, "loss": 0.4857, "step": 7600 }, { "epoch": 20.293333333333333, "grad_norm": 0.314453125, "learning_rate": 0.00029993341097932653, "loss": 0.4799, "step": 7610 }, { "epoch": 20.32, "grad_norm": 0.287109375, "learning_rate": 0.00029993322352424024, "loss": 0.4829, "step": 7620 }, { "epoch": 20.346666666666668, "grad_norm": 0.208984375, "learning_rate": 0.0002999330358057305, "loss": 0.4917, "step": 7630 }, { "epoch": 20.373333333333335, "grad_norm": 0.275390625, "learning_rate": 0.00029993284782379775, "loss": 0.4881, "step": 7640 }, { "epoch": 20.4, "grad_norm": 0.2216796875, "learning_rate": 0.00029993265957844225, "loss": 0.4839, "step": 7650 }, { "epoch": 20.426666666666666, "grad_norm": 0.208984375, "learning_rate": 0.00029993247106966433, "loss": 0.4897, "step": 7660 }, { "epoch": 20.453333333333333, "grad_norm": 0.2294921875, "learning_rate": 0.00029993228229746436, "loss": 0.493, "step": 7670 }, { "epoch": 20.48, "grad_norm": 0.1982421875, "learning_rate": 0.0002999320932618426, "loss": 0.4993, "step": 7680 }, { "epoch": 20.506666666666668, "grad_norm": 0.287109375, "learning_rate": 0.00029993190396279944, "loss": 0.4879, "step": 7690 }, { "epoch": 20.533333333333335, "grad_norm": 0.1953125, "learning_rate": 0.0002999317144003353, "loss": 0.4815, "step": 7700 }, { "epoch": 20.56, "grad_norm": 0.20703125, "learning_rate": 0.00029993152457445026, "loss": 0.4829, "step": 7710 }, { "epoch": 20.586666666666666, "grad_norm": 0.283203125, "learning_rate": 0.0002999313344851449, "loss": 0.4788, "step": 7720 }, { "epoch": 20.613333333333333, "grad_norm": 0.2265625, "learning_rate": 0.0002999311441324194, "loss": 0.4645, "step": 7730 }, { "epoch": 20.64, "grad_norm": 0.302734375, "learning_rate": 0.0002999309535162742, "loss": 0.4677, "step": 7740 }, { "epoch": 20.666666666666668, "grad_norm": 0.22265625, "learning_rate": 0.00029993076263670954, "loss": 0.4856, "step": 7750 }, { "epoch": 20.693333333333335, "grad_norm": 0.296875, "learning_rate": 0.0002999305714937259, "loss": 0.4681, "step": 7760 }, { "epoch": 20.72, "grad_norm": 0.294921875, "learning_rate": 0.00029993038008732344, "loss": 0.4846, "step": 7770 }, { "epoch": 20.746666666666666, "grad_norm": 0.279296875, "learning_rate": 0.0002999301884175026, "loss": 0.4896, "step": 7780 }, { "epoch": 20.773333333333333, "grad_norm": 0.267578125, "learning_rate": 0.0002999299964842637, "loss": 0.4977, "step": 7790 }, { "epoch": 20.8, "grad_norm": 0.255859375, "learning_rate": 0.00029992980428760705, "loss": 0.4839, "step": 7800 }, { "epoch": 20.826666666666668, "grad_norm": 0.275390625, "learning_rate": 0.000299929611827533, "loss": 0.4784, "step": 7810 }, { "epoch": 20.85333333333333, "grad_norm": 0.322265625, "learning_rate": 0.00029992941910404194, "loss": 0.4881, "step": 7820 }, { "epoch": 20.88, "grad_norm": 0.234375, "learning_rate": 0.0002999292261171341, "loss": 0.4759, "step": 7830 }, { "epoch": 20.906666666666666, "grad_norm": 0.1650390625, "learning_rate": 0.00029992903286680996, "loss": 0.4779, "step": 7840 }, { "epoch": 20.933333333333334, "grad_norm": 0.265625, "learning_rate": 0.0002999288393530698, "loss": 0.4793, "step": 7850 }, { "epoch": 20.96, "grad_norm": 0.30078125, "learning_rate": 0.0002999286455759139, "loss": 0.4772, "step": 7860 }, { "epoch": 20.986666666666668, "grad_norm": 0.294921875, "learning_rate": 0.00029992845153534257, "loss": 0.4912, "step": 7870 }, { "epoch": 21.0, "eval_loss": 0.4904196858406067, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.3912, "eval_samples_per_second": 1.54, "eval_steps_per_second": 0.096, "step": 7875 }, { "epoch": 21.013333333333332, "grad_norm": 0.2578125, "learning_rate": 0.0002999282572313563, "loss": 0.4806, "step": 7880 }, { "epoch": 21.04, "grad_norm": 0.23046875, "learning_rate": 0.0002999280626639554, "loss": 0.5045, "step": 7890 }, { "epoch": 21.066666666666666, "grad_norm": 0.3359375, "learning_rate": 0.00029992786783314006, "loss": 0.4914, "step": 7900 }, { "epoch": 21.093333333333334, "grad_norm": 0.28515625, "learning_rate": 0.0002999276727389108, "loss": 0.4867, "step": 7910 }, { "epoch": 21.12, "grad_norm": 0.2353515625, "learning_rate": 0.0002999274773812679, "loss": 0.4835, "step": 7920 }, { "epoch": 21.14666666666667, "grad_norm": 0.2734375, "learning_rate": 0.00029992728176021164, "loss": 0.4923, "step": 7930 }, { "epoch": 21.173333333333332, "grad_norm": 0.306640625, "learning_rate": 0.00029992708587574246, "loss": 0.4825, "step": 7940 }, { "epoch": 21.2, "grad_norm": 0.291015625, "learning_rate": 0.00029992688972786067, "loss": 0.481, "step": 7950 }, { "epoch": 21.226666666666667, "grad_norm": 0.302734375, "learning_rate": 0.0002999266933165666, "loss": 0.4785, "step": 7960 }, { "epoch": 21.253333333333334, "grad_norm": 0.271484375, "learning_rate": 0.0002999264966418606, "loss": 0.4783, "step": 7970 }, { "epoch": 21.28, "grad_norm": 0.25390625, "learning_rate": 0.00029992629970374305, "loss": 0.4913, "step": 7980 }, { "epoch": 21.306666666666665, "grad_norm": 0.275390625, "learning_rate": 0.00029992610250221424, "loss": 0.4732, "step": 7990 }, { "epoch": 21.333333333333332, "grad_norm": 0.2158203125, "learning_rate": 0.00029992590503727455, "loss": 0.4896, "step": 8000 }, { "epoch": 21.36, "grad_norm": 0.2255859375, "learning_rate": 0.0002999257073089243, "loss": 0.4911, "step": 8010 }, { "epoch": 21.386666666666667, "grad_norm": 0.392578125, "learning_rate": 0.00029992550931716384, "loss": 0.4825, "step": 8020 }, { "epoch": 21.413333333333334, "grad_norm": 0.40625, "learning_rate": 0.0002999253110619936, "loss": 0.4866, "step": 8030 }, { "epoch": 21.44, "grad_norm": 0.6953125, "learning_rate": 0.0002999251125434138, "loss": 0.4895, "step": 8040 }, { "epoch": 21.466666666666665, "grad_norm": 0.796875, "learning_rate": 0.0002999249137614249, "loss": 0.4996, "step": 8050 }, { "epoch": 21.493333333333332, "grad_norm": 0.59375, "learning_rate": 0.00029992471471602716, "loss": 0.4904, "step": 8060 }, { "epoch": 21.52, "grad_norm": 0.3046875, "learning_rate": 0.000299924515407221, "loss": 0.4855, "step": 8070 }, { "epoch": 21.546666666666667, "grad_norm": 0.2578125, "learning_rate": 0.00029992431583500677, "loss": 0.4822, "step": 8080 }, { "epoch": 21.573333333333334, "grad_norm": 0.2314453125, "learning_rate": 0.0002999241159993847, "loss": 0.4808, "step": 8090 }, { "epoch": 21.6, "grad_norm": 0.1865234375, "learning_rate": 0.0002999239159003553, "loss": 0.4746, "step": 8100 }, { "epoch": 21.626666666666665, "grad_norm": 0.330078125, "learning_rate": 0.00029992371553791885, "loss": 0.4611, "step": 8110 }, { "epoch": 21.653333333333332, "grad_norm": 0.34375, "learning_rate": 0.00029992351491207566, "loss": 0.4807, "step": 8120 }, { "epoch": 21.68, "grad_norm": 0.201171875, "learning_rate": 0.0002999233140228262, "loss": 0.4716, "step": 8130 }, { "epoch": 21.706666666666667, "grad_norm": 0.302734375, "learning_rate": 0.0002999231128701707, "loss": 0.4721, "step": 8140 }, { "epoch": 21.733333333333334, "grad_norm": 0.322265625, "learning_rate": 0.0002999229114541096, "loss": 0.4922, "step": 8150 }, { "epoch": 21.76, "grad_norm": 0.32421875, "learning_rate": 0.0002999227097746432, "loss": 0.4929, "step": 8160 }, { "epoch": 21.786666666666665, "grad_norm": 0.28125, "learning_rate": 0.00029992250783177185, "loss": 0.4918, "step": 8170 }, { "epoch": 21.813333333333333, "grad_norm": 0.24609375, "learning_rate": 0.00029992230562549593, "loss": 0.4768, "step": 8180 }, { "epoch": 21.84, "grad_norm": 0.294921875, "learning_rate": 0.0002999221031558158, "loss": 0.4829, "step": 8190 }, { "epoch": 21.866666666666667, "grad_norm": 0.2099609375, "learning_rate": 0.00029992190042273185, "loss": 0.4828, "step": 8200 }, { "epoch": 21.893333333333334, "grad_norm": 0.357421875, "learning_rate": 0.00029992169742624434, "loss": 0.4728, "step": 8210 }, { "epoch": 21.92, "grad_norm": 0.3046875, "learning_rate": 0.0002999214941663537, "loss": 0.4837, "step": 8220 }, { "epoch": 21.946666666666665, "grad_norm": 0.35546875, "learning_rate": 0.00029992129064306027, "loss": 0.4761, "step": 8230 }, { "epoch": 21.973333333333333, "grad_norm": 0.263671875, "learning_rate": 0.0002999210868563644, "loss": 0.4872, "step": 8240 }, { "epoch": 22.0, "grad_norm": 0.1962890625, "learning_rate": 0.00029992088280626647, "loss": 0.4761, "step": 8250 }, { "epoch": 22.0, "eval_loss": 0.48901429772377014, "eval_model_preparation_time": 0.0016, "eval_runtime": 11.4555, "eval_samples_per_second": 1.397, "eval_steps_per_second": 0.087, "step": 8250 }, { "epoch": 22.026666666666667, "grad_norm": 0.251953125, "learning_rate": 0.0002999206784927668, "loss": 0.4955, "step": 8260 }, { "epoch": 22.053333333333335, "grad_norm": 0.2470703125, "learning_rate": 0.0002999204739158658, "loss": 0.5019, "step": 8270 }, { "epoch": 22.08, "grad_norm": 0.25, "learning_rate": 0.0002999202690755638, "loss": 0.4882, "step": 8280 }, { "epoch": 22.106666666666666, "grad_norm": 0.220703125, "learning_rate": 0.00029992006397186114, "loss": 0.483, "step": 8290 }, { "epoch": 22.133333333333333, "grad_norm": 0.216796875, "learning_rate": 0.00029991985860475825, "loss": 0.4861, "step": 8300 }, { "epoch": 22.16, "grad_norm": 0.349609375, "learning_rate": 0.0002999196529742554, "loss": 0.49, "step": 8310 }, { "epoch": 22.186666666666667, "grad_norm": 0.2138671875, "learning_rate": 0.000299919447080353, "loss": 0.4817, "step": 8320 }, { "epoch": 22.213333333333335, "grad_norm": 0.27734375, "learning_rate": 0.0002999192409230514, "loss": 0.4765, "step": 8330 }, { "epoch": 22.24, "grad_norm": 0.265625, "learning_rate": 0.00029991903450235095, "loss": 0.4801, "step": 8340 }, { "epoch": 22.266666666666666, "grad_norm": 0.267578125, "learning_rate": 0.00029991882781825203, "loss": 0.4845, "step": 8350 }, { "epoch": 22.293333333333333, "grad_norm": 0.1962890625, "learning_rate": 0.000299918620870755, "loss": 0.4779, "step": 8360 }, { "epoch": 22.32, "grad_norm": 0.271484375, "learning_rate": 0.0002999184136598603, "loss": 0.4822, "step": 8370 }, { "epoch": 22.346666666666668, "grad_norm": 0.259765625, "learning_rate": 0.00029991820618556817, "loss": 0.4911, "step": 8380 }, { "epoch": 22.373333333333335, "grad_norm": 0.2490234375, "learning_rate": 0.0002999179984478791, "loss": 0.4883, "step": 8390 }, { "epoch": 22.4, "grad_norm": 0.15625, "learning_rate": 0.0002999177904467933, "loss": 0.4824, "step": 8400 }, { "epoch": 22.426666666666666, "grad_norm": 0.2275390625, "learning_rate": 0.00029991758218231117, "loss": 0.4892, "step": 8410 }, { "epoch": 22.453333333333333, "grad_norm": 0.203125, "learning_rate": 0.0002999173736544332, "loss": 0.491, "step": 8420 }, { "epoch": 22.48, "grad_norm": 0.2275390625, "learning_rate": 0.00029991716486315966, "loss": 0.4978, "step": 8430 }, { "epoch": 22.506666666666668, "grad_norm": 0.29296875, "learning_rate": 0.0002999169558084909, "loss": 0.487, "step": 8440 }, { "epoch": 22.533333333333335, "grad_norm": 0.232421875, "learning_rate": 0.00029991674649042737, "loss": 0.4803, "step": 8450 }, { "epoch": 22.56, "grad_norm": 0.2138671875, "learning_rate": 0.0002999165369089694, "loss": 0.4812, "step": 8460 }, { "epoch": 22.586666666666666, "grad_norm": 0.408203125, "learning_rate": 0.0002999163270641173, "loss": 0.4774, "step": 8470 }, { "epoch": 22.613333333333333, "grad_norm": 0.201171875, "learning_rate": 0.0002999161169558715, "loss": 0.4635, "step": 8480 }, { "epoch": 22.64, "grad_norm": 0.30859375, "learning_rate": 0.00029991590658423237, "loss": 0.4673, "step": 8490 }, { "epoch": 22.666666666666668, "grad_norm": 0.208984375, "learning_rate": 0.0002999156959492003, "loss": 0.4844, "step": 8500 }, { "epoch": 22.693333333333335, "grad_norm": 0.259765625, "learning_rate": 0.0002999154850507756, "loss": 0.4666, "step": 8510 }, { "epoch": 22.72, "grad_norm": 0.25390625, "learning_rate": 0.0002999152738889586, "loss": 0.4839, "step": 8520 }, { "epoch": 22.746666666666666, "grad_norm": 0.1875, "learning_rate": 0.00029991506246374977, "loss": 0.4882, "step": 8530 }, { "epoch": 22.773333333333333, "grad_norm": 0.2392578125, "learning_rate": 0.00029991485077514947, "loss": 0.4964, "step": 8540 }, { "epoch": 22.8, "grad_norm": 0.28125, "learning_rate": 0.00029991463882315803, "loss": 0.4831, "step": 8550 }, { "epoch": 22.826666666666668, "grad_norm": 0.21484375, "learning_rate": 0.00029991442660777594, "loss": 0.4767, "step": 8560 }, { "epoch": 22.85333333333333, "grad_norm": 0.265625, "learning_rate": 0.00029991421412900335, "loss": 0.487, "step": 8570 }, { "epoch": 22.88, "grad_norm": 0.361328125, "learning_rate": 0.0002999140013868408, "loss": 0.4743, "step": 8580 }, { "epoch": 22.906666666666666, "grad_norm": 0.400390625, "learning_rate": 0.00029991378838128865, "loss": 0.4764, "step": 8590 }, { "epoch": 22.933333333333334, "grad_norm": 0.251953125, "learning_rate": 0.0002999135751123472, "loss": 0.4785, "step": 8600 }, { "epoch": 22.96, "grad_norm": 0.455078125, "learning_rate": 0.0002999133615800169, "loss": 0.4761, "step": 8610 }, { "epoch": 22.986666666666668, "grad_norm": 0.30859375, "learning_rate": 0.00029991314778429816, "loss": 0.4899, "step": 8620 }, { "epoch": 23.0, "eval_loss": 0.4898934066295624, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.792, "eval_samples_per_second": 1.634, "eval_steps_per_second": 0.102, "step": 8625 }, { "epoch": 23.013333333333332, "grad_norm": 0.24609375, "learning_rate": 0.0002999129337251912, "loss": 0.4788, "step": 8630 }, { "epoch": 23.04, "grad_norm": 0.298828125, "learning_rate": 0.00029991271940269654, "loss": 0.5037, "step": 8640 }, { "epoch": 23.066666666666666, "grad_norm": 0.255859375, "learning_rate": 0.00029991250481681443, "loss": 0.4914, "step": 8650 }, { "epoch": 23.093333333333334, "grad_norm": 0.3203125, "learning_rate": 0.0002999122899675454, "loss": 0.4859, "step": 8660 }, { "epoch": 23.12, "grad_norm": 0.271484375, "learning_rate": 0.0002999120748548897, "loss": 0.4819, "step": 8670 }, { "epoch": 23.14666666666667, "grad_norm": 0.2265625, "learning_rate": 0.00029991185947884783, "loss": 0.4914, "step": 8680 }, { "epoch": 23.173333333333332, "grad_norm": 0.32421875, "learning_rate": 0.00029991164383942, "loss": 0.4811, "step": 8690 }, { "epoch": 23.2, "grad_norm": 0.2216796875, "learning_rate": 0.00029991142793660676, "loss": 0.4803, "step": 8700 }, { "epoch": 23.226666666666667, "grad_norm": 0.392578125, "learning_rate": 0.0002999112117704084, "loss": 0.4783, "step": 8710 }, { "epoch": 23.253333333333334, "grad_norm": 0.490234375, "learning_rate": 0.0002999109953408253, "loss": 0.4779, "step": 8720 }, { "epoch": 23.28, "grad_norm": 0.287109375, "learning_rate": 0.00029991077864785785, "loss": 0.4907, "step": 8730 }, { "epoch": 23.306666666666665, "grad_norm": 0.322265625, "learning_rate": 0.0002999105616915065, "loss": 0.4724, "step": 8740 }, { "epoch": 23.333333333333332, "grad_norm": 0.357421875, "learning_rate": 0.0002999103444717715, "loss": 0.4873, "step": 8750 }, { "epoch": 23.36, "grad_norm": 0.3359375, "learning_rate": 0.0002999101269886533, "loss": 0.4905, "step": 8760 }, { "epoch": 23.386666666666667, "grad_norm": 0.279296875, "learning_rate": 0.0002999099092421523, "loss": 0.4823, "step": 8770 }, { "epoch": 23.413333333333334, "grad_norm": 0.302734375, "learning_rate": 0.0002999096912322688, "loss": 0.4855, "step": 8780 }, { "epoch": 23.44, "grad_norm": 0.26953125, "learning_rate": 0.00029990947295900335, "loss": 0.4893, "step": 8790 }, { "epoch": 23.466666666666665, "grad_norm": 0.41796875, "learning_rate": 0.0002999092544223562, "loss": 0.4976, "step": 8800 }, { "epoch": 23.493333333333332, "grad_norm": 0.3203125, "learning_rate": 0.0002999090356223277, "loss": 0.489, "step": 8810 }, { "epoch": 23.52, "grad_norm": 0.2177734375, "learning_rate": 0.00029990881655891834, "loss": 0.4833, "step": 8820 }, { "epoch": 23.546666666666667, "grad_norm": 0.2421875, "learning_rate": 0.00029990859723212843, "loss": 0.4801, "step": 8830 }, { "epoch": 23.573333333333334, "grad_norm": 0.240234375, "learning_rate": 0.0002999083776419584, "loss": 0.4784, "step": 8840 }, { "epoch": 23.6, "grad_norm": 0.31640625, "learning_rate": 0.0002999081577884087, "loss": 0.4733, "step": 8850 }, { "epoch": 23.626666666666665, "grad_norm": 0.224609375, "learning_rate": 0.00029990793767147955, "loss": 0.4594, "step": 8860 }, { "epoch": 23.653333333333332, "grad_norm": 0.267578125, "learning_rate": 0.0002999077172911715, "loss": 0.4795, "step": 8870 }, { "epoch": 23.68, "grad_norm": 0.220703125, "learning_rate": 0.0002999074966474848, "loss": 0.4707, "step": 8880 }, { "epoch": 23.706666666666667, "grad_norm": 0.318359375, "learning_rate": 0.00029990727574041995, "loss": 0.472, "step": 8890 }, { "epoch": 23.733333333333334, "grad_norm": 0.3046875, "learning_rate": 0.00029990705456997725, "loss": 0.4913, "step": 8900 }, { "epoch": 23.76, "grad_norm": 0.267578125, "learning_rate": 0.00029990683313615713, "loss": 0.4927, "step": 8910 }, { "epoch": 23.786666666666665, "grad_norm": 0.271484375, "learning_rate": 0.00029990661143895997, "loss": 0.491, "step": 8920 }, { "epoch": 23.813333333333333, "grad_norm": 0.265625, "learning_rate": 0.0002999063894783862, "loss": 0.4746, "step": 8930 }, { "epoch": 23.84, "grad_norm": 0.3203125, "learning_rate": 0.00029990616725443617, "loss": 0.4818, "step": 8940 }, { "epoch": 23.866666666666667, "grad_norm": 0.310546875, "learning_rate": 0.00029990594476711024, "loss": 0.4813, "step": 8950 }, { "epoch": 23.893333333333334, "grad_norm": 0.265625, "learning_rate": 0.0002999057220164089, "loss": 0.4719, "step": 8960 }, { "epoch": 23.92, "grad_norm": 0.35546875, "learning_rate": 0.0002999054990023324, "loss": 0.4812, "step": 8970 }, { "epoch": 23.946666666666665, "grad_norm": 0.296875, "learning_rate": 0.0002999052757248813, "loss": 0.4743, "step": 8980 }, { "epoch": 23.973333333333333, "grad_norm": 0.294921875, "learning_rate": 0.00029990505218405585, "loss": 0.4864, "step": 8990 }, { "epoch": 24.0, "grad_norm": 0.361328125, "learning_rate": 0.0002999048283798565, "loss": 0.4751, "step": 9000 }, { "epoch": 24.0, "eval_loss": 0.4884170591831207, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.8738, "eval_samples_per_second": 1.62, "eval_steps_per_second": 0.101, "step": 9000 }, { "epoch": 24.026666666666667, "grad_norm": 0.21875, "learning_rate": 0.0002999046043122837, "loss": 0.494, "step": 9010 }, { "epoch": 24.053333333333335, "grad_norm": 0.275390625, "learning_rate": 0.00029990437998133766, "loss": 0.5008, "step": 9020 }, { "epoch": 24.08, "grad_norm": 0.1904296875, "learning_rate": 0.000299904155387019, "loss": 0.4875, "step": 9030 }, { "epoch": 24.106666666666666, "grad_norm": 0.240234375, "learning_rate": 0.000299903930529328, "loss": 0.4823, "step": 9040 }, { "epoch": 24.133333333333333, "grad_norm": 0.35546875, "learning_rate": 0.000299903705408265, "loss": 0.4848, "step": 9050 }, { "epoch": 24.16, "grad_norm": 0.32421875, "learning_rate": 0.00029990348002383054, "loss": 0.4882, "step": 9060 }, { "epoch": 24.186666666666667, "grad_norm": 0.2216796875, "learning_rate": 0.00029990325437602493, "loss": 0.4799, "step": 9070 }, { "epoch": 24.213333333333335, "grad_norm": 0.291015625, "learning_rate": 0.0002999030284648485, "loss": 0.4751, "step": 9080 }, { "epoch": 24.24, "grad_norm": 0.296875, "learning_rate": 0.0002999028022903018, "loss": 0.4801, "step": 9090 }, { "epoch": 24.266666666666666, "grad_norm": 0.279296875, "learning_rate": 0.0002999025758523851, "loss": 0.4834, "step": 9100 }, { "epoch": 24.293333333333333, "grad_norm": 0.263671875, "learning_rate": 0.0002999023491510989, "loss": 0.4776, "step": 9110 }, { "epoch": 24.32, "grad_norm": 0.318359375, "learning_rate": 0.0002999021221864435, "loss": 0.4814, "step": 9120 }, { "epoch": 24.346666666666668, "grad_norm": 0.259765625, "learning_rate": 0.00029990189495841937, "loss": 0.4898, "step": 9130 }, { "epoch": 24.373333333333335, "grad_norm": 0.259765625, "learning_rate": 0.0002999016674670269, "loss": 0.4855, "step": 9140 }, { "epoch": 24.4, "grad_norm": 0.361328125, "learning_rate": 0.0002999014397122664, "loss": 0.4812, "step": 9150 }, { "epoch": 24.426666666666666, "grad_norm": 0.32421875, "learning_rate": 0.0002999012116941384, "loss": 0.4882, "step": 9160 }, { "epoch": 24.453333333333333, "grad_norm": 0.3203125, "learning_rate": 0.00029990098341264323, "loss": 0.4903, "step": 9170 }, { "epoch": 24.48, "grad_norm": 0.263671875, "learning_rate": 0.0002999007548677813, "loss": 0.4965, "step": 9180 }, { "epoch": 24.506666666666668, "grad_norm": 0.283203125, "learning_rate": 0.00029990052605955304, "loss": 0.4863, "step": 9190 }, { "epoch": 24.533333333333335, "grad_norm": 0.1904296875, "learning_rate": 0.00029990029698795883, "loss": 0.4795, "step": 9200 }, { "epoch": 24.56, "grad_norm": 0.18359375, "learning_rate": 0.00029990006765299906, "loss": 0.4806, "step": 9210 }, { "epoch": 24.586666666666666, "grad_norm": 0.296875, "learning_rate": 0.0002998998380546741, "loss": 0.4768, "step": 9220 }, { "epoch": 24.613333333333333, "grad_norm": 0.29296875, "learning_rate": 0.0002998996081929845, "loss": 0.4619, "step": 9230 }, { "epoch": 24.64, "grad_norm": 0.1943359375, "learning_rate": 0.0002998993780679305, "loss": 0.4666, "step": 9240 }, { "epoch": 24.666666666666668, "grad_norm": 0.2490234375, "learning_rate": 0.0002998991476795125, "loss": 0.4838, "step": 9250 }, { "epoch": 24.693333333333335, "grad_norm": 0.294921875, "learning_rate": 0.00029989891702773103, "loss": 0.4655, "step": 9260 }, { "epoch": 24.72, "grad_norm": 0.2177734375, "learning_rate": 0.00029989868611258644, "loss": 0.4822, "step": 9270 }, { "epoch": 24.746666666666666, "grad_norm": 0.251953125, "learning_rate": 0.00029989845493407917, "loss": 0.4878, "step": 9280 }, { "epoch": 24.773333333333333, "grad_norm": 0.228515625, "learning_rate": 0.0002998982234922095, "loss": 0.4955, "step": 9290 }, { "epoch": 24.8, "grad_norm": 0.33203125, "learning_rate": 0.000299897991786978, "loss": 0.4823, "step": 9300 }, { "epoch": 24.826666666666668, "grad_norm": 0.39453125, "learning_rate": 0.000299897759818385, "loss": 0.4768, "step": 9310 }, { "epoch": 24.85333333333333, "grad_norm": 0.232421875, "learning_rate": 0.00029989752758643085, "loss": 0.4863, "step": 9320 }, { "epoch": 24.88, "grad_norm": 0.265625, "learning_rate": 0.000299897295091116, "loss": 0.4727, "step": 9330 }, { "epoch": 24.906666666666666, "grad_norm": 0.26953125, "learning_rate": 0.000299897062332441, "loss": 0.4751, "step": 9340 }, { "epoch": 24.933333333333334, "grad_norm": 0.3125, "learning_rate": 0.000299896829310406, "loss": 0.4768, "step": 9350 }, { "epoch": 24.96, "grad_norm": 0.298828125, "learning_rate": 0.0002998965960250116, "loss": 0.4751, "step": 9360 }, { "epoch": 24.986666666666668, "grad_norm": 0.2138671875, "learning_rate": 0.00029989636247625817, "loss": 0.4897, "step": 9370 }, { "epoch": 25.0, "eval_loss": 0.488960325717926, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.0328, "eval_samples_per_second": 1.595, "eval_steps_per_second": 0.1, "step": 9375 }, { "epoch": 25.013333333333332, "grad_norm": 0.26171875, "learning_rate": 0.0002998961286641461, "loss": 0.4785, "step": 9380 }, { "epoch": 25.04, "grad_norm": 0.28515625, "learning_rate": 0.00029989589458867576, "loss": 0.5028, "step": 9390 }, { "epoch": 25.066666666666666, "grad_norm": 0.310546875, "learning_rate": 0.00029989566024984763, "loss": 0.4902, "step": 9400 }, { "epoch": 25.093333333333334, "grad_norm": 0.267578125, "learning_rate": 0.00029989542564766214, "loss": 0.4858, "step": 9410 }, { "epoch": 25.12, "grad_norm": 0.31640625, "learning_rate": 0.0002998951907821196, "loss": 0.4812, "step": 9420 }, { "epoch": 25.14666666666667, "grad_norm": 0.283203125, "learning_rate": 0.0002998949556532205, "loss": 0.4902, "step": 9430 }, { "epoch": 25.173333333333332, "grad_norm": 0.2890625, "learning_rate": 0.0002998947202609652, "loss": 0.4813, "step": 9440 }, { "epoch": 25.2, "grad_norm": 0.296875, "learning_rate": 0.0002998944846053542, "loss": 0.4794, "step": 9450 }, { "epoch": 25.226666666666667, "grad_norm": 0.302734375, "learning_rate": 0.0002998942486863879, "loss": 0.4768, "step": 9460 }, { "epoch": 25.253333333333334, "grad_norm": 0.26171875, "learning_rate": 0.0002998940125040666, "loss": 0.4759, "step": 9470 }, { "epoch": 25.28, "grad_norm": 0.38671875, "learning_rate": 0.0002998937760583908, "loss": 0.4895, "step": 9480 }, { "epoch": 25.306666666666665, "grad_norm": 0.32421875, "learning_rate": 0.00029989353934936093, "loss": 0.4708, "step": 9490 }, { "epoch": 25.333333333333332, "grad_norm": 0.341796875, "learning_rate": 0.0002998933023769774, "loss": 0.4874, "step": 9500 }, { "epoch": 25.36, "grad_norm": 0.298828125, "learning_rate": 0.0002998930651412406, "loss": 0.4898, "step": 9510 }, { "epoch": 25.386666666666667, "grad_norm": 0.400390625, "learning_rate": 0.00029989282764215095, "loss": 0.4804, "step": 9520 }, { "epoch": 25.413333333333334, "grad_norm": 0.326171875, "learning_rate": 0.0002998925898797089, "loss": 0.4846, "step": 9530 }, { "epoch": 25.44, "grad_norm": 0.30859375, "learning_rate": 0.0002998923518539148, "loss": 0.4878, "step": 9540 }, { "epoch": 25.466666666666665, "grad_norm": 0.2275390625, "learning_rate": 0.00029989211356476914, "loss": 0.4969, "step": 9550 }, { "epoch": 25.493333333333332, "grad_norm": 0.287109375, "learning_rate": 0.00029989187501227227, "loss": 0.4884, "step": 9560 }, { "epoch": 25.52, "grad_norm": 0.2275390625, "learning_rate": 0.0002998916361964247, "loss": 0.4829, "step": 9570 }, { "epoch": 25.546666666666667, "grad_norm": 0.361328125, "learning_rate": 0.00029989139711722674, "loss": 0.4795, "step": 9580 }, { "epoch": 25.573333333333334, "grad_norm": 0.271484375, "learning_rate": 0.0002998911577746789, "loss": 0.4784, "step": 9590 }, { "epoch": 25.6, "grad_norm": 0.2275390625, "learning_rate": 0.00029989091816878154, "loss": 0.4722, "step": 9600 }, { "epoch": 25.626666666666665, "grad_norm": 0.1748046875, "learning_rate": 0.0002998906782995351, "loss": 0.4588, "step": 9610 }, { "epoch": 25.653333333333332, "grad_norm": 0.1748046875, "learning_rate": 0.0002998904381669401, "loss": 0.4786, "step": 9620 }, { "epoch": 25.68, "grad_norm": 0.2333984375, "learning_rate": 0.0002998901977709968, "loss": 0.4697, "step": 9630 }, { "epoch": 25.706666666666667, "grad_norm": 0.37109375, "learning_rate": 0.0002998899571117057, "loss": 0.4714, "step": 9640 }, { "epoch": 25.733333333333334, "grad_norm": 0.37890625, "learning_rate": 0.0002998897161890672, "loss": 0.4905, "step": 9650 }, { "epoch": 25.76, "grad_norm": 0.291015625, "learning_rate": 0.0002998894750030818, "loss": 0.4924, "step": 9660 }, { "epoch": 25.786666666666665, "grad_norm": 0.376953125, "learning_rate": 0.00029988923355374987, "loss": 0.4896, "step": 9670 }, { "epoch": 25.813333333333333, "grad_norm": 0.322265625, "learning_rate": 0.00029988899184107173, "loss": 0.4743, "step": 9680 }, { "epoch": 25.84, "grad_norm": 0.2080078125, "learning_rate": 0.000299888749865048, "loss": 0.481, "step": 9690 }, { "epoch": 25.866666666666667, "grad_norm": 0.25390625, "learning_rate": 0.0002998885076256789, "loss": 0.4804, "step": 9700 }, { "epoch": 25.893333333333334, "grad_norm": 0.1708984375, "learning_rate": 0.0002998882651229651, "loss": 0.4703, "step": 9710 }, { "epoch": 25.92, "grad_norm": 0.271484375, "learning_rate": 0.00029988802235690685, "loss": 0.4804, "step": 9720 }, { "epoch": 25.946666666666665, "grad_norm": 0.34375, "learning_rate": 0.0002998877793275046, "loss": 0.474, "step": 9730 }, { "epoch": 25.973333333333333, "grad_norm": 0.36328125, "learning_rate": 0.00029988753603475877, "loss": 0.4854, "step": 9740 }, { "epoch": 26.0, "grad_norm": 0.412109375, "learning_rate": 0.0002998872924786698, "loss": 0.4745, "step": 9750 }, { "epoch": 26.0, "eval_loss": 0.4890904128551483, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.6338, "eval_samples_per_second": 1.661, "eval_steps_per_second": 0.104, "step": 9750 }, { "epoch": 26.026666666666667, "grad_norm": 0.291015625, "learning_rate": 0.00029988704865923813, "loss": 0.4934, "step": 9760 }, { "epoch": 26.053333333333335, "grad_norm": 0.275390625, "learning_rate": 0.00029988680457646423, "loss": 0.4998, "step": 9770 }, { "epoch": 26.08, "grad_norm": 0.2138671875, "learning_rate": 0.00029988656023034846, "loss": 0.4867, "step": 9780 }, { "epoch": 26.106666666666666, "grad_norm": 0.2041015625, "learning_rate": 0.0002998863156208913, "loss": 0.4815, "step": 9790 }, { "epoch": 26.133333333333333, "grad_norm": 0.248046875, "learning_rate": 0.00029988607074809317, "loss": 0.4834, "step": 9800 }, { "epoch": 26.16, "grad_norm": 0.314453125, "learning_rate": 0.0002998858256119544, "loss": 0.4881, "step": 9810 }, { "epoch": 26.186666666666667, "grad_norm": 0.26953125, "learning_rate": 0.0002998855802124756, "loss": 0.4802, "step": 9820 }, { "epoch": 26.213333333333335, "grad_norm": 0.29296875, "learning_rate": 0.0002998853345496571, "loss": 0.4749, "step": 9830 }, { "epoch": 26.24, "grad_norm": 0.28125, "learning_rate": 0.0002998850886234993, "loss": 0.4787, "step": 9840 }, { "epoch": 26.266666666666666, "grad_norm": 0.267578125, "learning_rate": 0.00029988484243400265, "loss": 0.4824, "step": 9850 }, { "epoch": 26.293333333333333, "grad_norm": 0.2890625, "learning_rate": 0.0002998845959811676, "loss": 0.4764, "step": 9860 }, { "epoch": 26.32, "grad_norm": 0.259765625, "learning_rate": 0.0002998843492649947, "loss": 0.4803, "step": 9870 }, { "epoch": 26.346666666666668, "grad_norm": 0.2578125, "learning_rate": 0.00029988410228548416, "loss": 0.4889, "step": 9880 }, { "epoch": 26.373333333333335, "grad_norm": 0.30078125, "learning_rate": 0.00029988385504263655, "loss": 0.4846, "step": 9890 }, { "epoch": 26.4, "grad_norm": 0.2431640625, "learning_rate": 0.0002998836075364523, "loss": 0.4805, "step": 9900 }, { "epoch": 26.426666666666666, "grad_norm": 0.298828125, "learning_rate": 0.00029988335976693177, "loss": 0.4875, "step": 9910 }, { "epoch": 26.453333333333333, "grad_norm": 0.2412109375, "learning_rate": 0.0002998831117340755, "loss": 0.4895, "step": 9920 }, { "epoch": 26.48, "grad_norm": 0.291015625, "learning_rate": 0.00029988286343788387, "loss": 0.4961, "step": 9930 }, { "epoch": 26.506666666666668, "grad_norm": 0.2255859375, "learning_rate": 0.0002998826148783573, "loss": 0.4854, "step": 9940 }, { "epoch": 26.533333333333335, "grad_norm": 0.2060546875, "learning_rate": 0.00029988236605549626, "loss": 0.4787, "step": 9950 }, { "epoch": 26.56, "grad_norm": 0.19140625, "learning_rate": 0.0002998821169693012, "loss": 0.48, "step": 9960 }, { "epoch": 26.586666666666666, "grad_norm": 0.283203125, "learning_rate": 0.00029988186761977246, "loss": 0.4757, "step": 9970 }, { "epoch": 26.613333333333333, "grad_norm": 0.26171875, "learning_rate": 0.00029988161800691056, "loss": 0.4617, "step": 9980 }, { "epoch": 26.64, "grad_norm": 0.197265625, "learning_rate": 0.000299881368130716, "loss": 0.4657, "step": 9990 }, { "epoch": 26.666666666666668, "grad_norm": 0.294921875, "learning_rate": 0.00029988111799118914, "loss": 0.4815, "step": 10000 }, { "epoch": 26.693333333333335, "grad_norm": 0.25, "learning_rate": 0.00029988086758833037, "loss": 0.4639, "step": 10010 }, { "epoch": 26.72, "grad_norm": 0.30859375, "learning_rate": 0.00029988061692214025, "loss": 0.4823, "step": 10020 }, { "epoch": 26.746666666666666, "grad_norm": 0.25, "learning_rate": 0.00029988036599261906, "loss": 0.486, "step": 10030 }, { "epoch": 26.773333333333333, "grad_norm": 0.296875, "learning_rate": 0.00029988011479976744, "loss": 0.4952, "step": 10040 }, { "epoch": 26.8, "grad_norm": 0.203125, "learning_rate": 0.00029987986334358566, "loss": 0.4811, "step": 10050 }, { "epoch": 26.826666666666668, "grad_norm": 0.28125, "learning_rate": 0.00029987961162407427, "loss": 0.4755, "step": 10060 }, { "epoch": 26.85333333333333, "grad_norm": 0.369140625, "learning_rate": 0.00029987935964123364, "loss": 0.4843, "step": 10070 }, { "epoch": 26.88, "grad_norm": 0.298828125, "learning_rate": 0.00029987910739506427, "loss": 0.4724, "step": 10080 }, { "epoch": 26.906666666666666, "grad_norm": 0.310546875, "learning_rate": 0.0002998788548855666, "loss": 0.4744, "step": 10090 }, { "epoch": 26.933333333333334, "grad_norm": 0.30859375, "learning_rate": 0.000299878602112741, "loss": 0.4763, "step": 10100 }, { "epoch": 26.96, "grad_norm": 0.267578125, "learning_rate": 0.00029987834907658806, "loss": 0.4745, "step": 10110 }, { "epoch": 26.986666666666668, "grad_norm": 0.439453125, "learning_rate": 0.00029987809577710804, "loss": 0.4878, "step": 10120 }, { "epoch": 27.0, "eval_loss": 0.48758047819137573, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.7851, "eval_samples_per_second": 1.635, "eval_steps_per_second": 0.102, "step": 10125 }, { "epoch": 27.013333333333332, "grad_norm": 0.609375, "learning_rate": 0.00029987784221430154, "loss": 0.4778, "step": 10130 }, { "epoch": 27.04, "grad_norm": 0.90625, "learning_rate": 0.0002998775883881689, "loss": 0.5021, "step": 10140 }, { "epoch": 27.066666666666666, "grad_norm": 1.25, "learning_rate": 0.0002998773342987106, "loss": 0.4918, "step": 10150 }, { "epoch": 27.093333333333334, "grad_norm": 0.8125, "learning_rate": 0.0002998770799459271, "loss": 0.4876, "step": 10160 }, { "epoch": 27.12, "grad_norm": 0.470703125, "learning_rate": 0.0002998768253298189, "loss": 0.482, "step": 10170 }, { "epoch": 27.14666666666667, "grad_norm": 0.19921875, "learning_rate": 0.00029987657045038634, "loss": 0.4903, "step": 10180 }, { "epoch": 27.173333333333332, "grad_norm": 0.2431640625, "learning_rate": 0.0002998763153076299, "loss": 0.48, "step": 10190 }, { "epoch": 27.2, "grad_norm": 0.267578125, "learning_rate": 0.00029987605990155006, "loss": 0.4781, "step": 10200 }, { "epoch": 27.226666666666667, "grad_norm": 0.2373046875, "learning_rate": 0.0002998758042321473, "loss": 0.4762, "step": 10210 }, { "epoch": 27.253333333333334, "grad_norm": 0.263671875, "learning_rate": 0.000299875548299422, "loss": 0.4759, "step": 10220 }, { "epoch": 27.28, "grad_norm": 0.3125, "learning_rate": 0.0002998752921033746, "loss": 0.4884, "step": 10230 }, { "epoch": 27.306666666666665, "grad_norm": 0.259765625, "learning_rate": 0.0002998750356440056, "loss": 0.4709, "step": 10240 }, { "epoch": 27.333333333333332, "grad_norm": 0.2490234375, "learning_rate": 0.0002998747789213154, "loss": 0.4855, "step": 10250 }, { "epoch": 27.36, "grad_norm": 0.291015625, "learning_rate": 0.00029987452193530454, "loss": 0.4883, "step": 10260 }, { "epoch": 27.386666666666667, "grad_norm": 0.30078125, "learning_rate": 0.00029987426468597344, "loss": 0.4795, "step": 10270 }, { "epoch": 27.413333333333334, "grad_norm": 0.2490234375, "learning_rate": 0.0002998740071733224, "loss": 0.4837, "step": 10280 }, { "epoch": 27.44, "grad_norm": 0.240234375, "learning_rate": 0.0002998737493973521, "loss": 0.4873, "step": 10290 }, { "epoch": 27.466666666666665, "grad_norm": 0.2099609375, "learning_rate": 0.0002998734913580629, "loss": 0.4965, "step": 10300 }, { "epoch": 27.493333333333332, "grad_norm": 0.2734375, "learning_rate": 0.00029987323305545523, "loss": 0.4875, "step": 10310 }, { "epoch": 27.52, "grad_norm": 0.181640625, "learning_rate": 0.00029987297448952956, "loss": 0.4815, "step": 10320 }, { "epoch": 27.546666666666667, "grad_norm": 0.22265625, "learning_rate": 0.00029987271566028637, "loss": 0.4788, "step": 10330 }, { "epoch": 27.573333333333334, "grad_norm": 0.20703125, "learning_rate": 0.00029987245656772603, "loss": 0.4777, "step": 10340 }, { "epoch": 27.6, "grad_norm": 0.2314453125, "learning_rate": 0.0002998721972118491, "loss": 0.4717, "step": 10350 }, { "epoch": 27.626666666666665, "grad_norm": 0.1923828125, "learning_rate": 0.00029987193759265597, "loss": 0.4578, "step": 10360 }, { "epoch": 27.653333333333332, "grad_norm": 0.244140625, "learning_rate": 0.0002998716777101471, "loss": 0.4779, "step": 10370 }, { "epoch": 27.68, "grad_norm": 0.23046875, "learning_rate": 0.00029987141756432297, "loss": 0.4685, "step": 10380 }, { "epoch": 27.706666666666667, "grad_norm": 0.322265625, "learning_rate": 0.00029987115715518405, "loss": 0.4704, "step": 10390 }, { "epoch": 27.733333333333334, "grad_norm": 0.251953125, "learning_rate": 0.00029987089648273076, "loss": 0.4887, "step": 10400 }, { "epoch": 27.76, "grad_norm": 0.310546875, "learning_rate": 0.0002998706355469636, "loss": 0.491, "step": 10410 }, { "epoch": 27.786666666666665, "grad_norm": 0.224609375, "learning_rate": 0.00029987037434788303, "loss": 0.4887, "step": 10420 }, { "epoch": 27.813333333333333, "grad_norm": 0.291015625, "learning_rate": 0.0002998701128854894, "loss": 0.4736, "step": 10430 }, { "epoch": 27.84, "grad_norm": 0.30078125, "learning_rate": 0.00029986985115978336, "loss": 0.4799, "step": 10440 }, { "epoch": 27.866666666666667, "grad_norm": 0.251953125, "learning_rate": 0.00029986958917076515, "loss": 0.479, "step": 10450 }, { "epoch": 27.893333333333334, "grad_norm": 0.28515625, "learning_rate": 0.0002998693269184354, "loss": 0.4691, "step": 10460 }, { "epoch": 27.92, "grad_norm": 0.2890625, "learning_rate": 0.00029986906440279454, "loss": 0.4801, "step": 10470 }, { "epoch": 27.946666666666665, "grad_norm": 0.333984375, "learning_rate": 0.00029986880162384294, "loss": 0.4726, "step": 10480 }, { "epoch": 27.973333333333333, "grad_norm": 0.330078125, "learning_rate": 0.0002998685385815812, "loss": 0.4839, "step": 10490 }, { "epoch": 28.0, "grad_norm": 0.337890625, "learning_rate": 0.0002998682752760096, "loss": 0.4734, "step": 10500 }, { "epoch": 28.0, "eval_loss": 0.4892578721046448, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.052, "eval_samples_per_second": 1.592, "eval_steps_per_second": 0.099, "step": 10500 }, { "epoch": 28.026666666666667, "grad_norm": 0.181640625, "learning_rate": 0.0002998680117071288, "loss": 0.4925, "step": 10510 }, { "epoch": 28.053333333333335, "grad_norm": 0.279296875, "learning_rate": 0.00029986774787493916, "loss": 0.499, "step": 10520 }, { "epoch": 28.08, "grad_norm": 0.26171875, "learning_rate": 0.00029986748377944114, "loss": 0.4861, "step": 10530 }, { "epoch": 28.106666666666666, "grad_norm": 0.2890625, "learning_rate": 0.00029986721942063525, "loss": 0.4814, "step": 10540 }, { "epoch": 28.133333333333333, "grad_norm": 0.220703125, "learning_rate": 0.00029986695479852185, "loss": 0.4827, "step": 10550 }, { "epoch": 28.16, "grad_norm": 0.2734375, "learning_rate": 0.00029986668991310156, "loss": 0.4871, "step": 10560 }, { "epoch": 28.186666666666667, "grad_norm": 0.283203125, "learning_rate": 0.00029986642476437475, "loss": 0.4784, "step": 10570 }, { "epoch": 28.213333333333335, "grad_norm": 0.275390625, "learning_rate": 0.0002998661593523419, "loss": 0.4737, "step": 10580 }, { "epoch": 28.24, "grad_norm": 0.25, "learning_rate": 0.0002998658936770035, "loss": 0.4775, "step": 10590 }, { "epoch": 28.266666666666666, "grad_norm": 0.271484375, "learning_rate": 0.00029986562773835995, "loss": 0.481, "step": 10600 }, { "epoch": 28.293333333333333, "grad_norm": 0.2158203125, "learning_rate": 0.0002998653615364118, "loss": 0.4758, "step": 10610 }, { "epoch": 28.32, "grad_norm": 0.224609375, "learning_rate": 0.00029986509507115946, "loss": 0.4791, "step": 10620 }, { "epoch": 28.346666666666668, "grad_norm": 0.271484375, "learning_rate": 0.0002998648283426034, "loss": 0.4881, "step": 10630 }, { "epoch": 28.373333333333335, "grad_norm": 0.314453125, "learning_rate": 0.00029986456135074416, "loss": 0.4843, "step": 10640 }, { "epoch": 28.4, "grad_norm": 0.279296875, "learning_rate": 0.0002998642940955821, "loss": 0.4797, "step": 10650 }, { "epoch": 28.426666666666666, "grad_norm": 0.25, "learning_rate": 0.0002998640265771178, "loss": 0.4866, "step": 10660 }, { "epoch": 28.453333333333333, "grad_norm": 0.236328125, "learning_rate": 0.0002998637587953516, "loss": 0.4883, "step": 10670 }, { "epoch": 28.48, "grad_norm": 0.263671875, "learning_rate": 0.0002998634907502841, "loss": 0.4946, "step": 10680 }, { "epoch": 28.506666666666668, "grad_norm": 0.201171875, "learning_rate": 0.0002998632224419157, "loss": 0.4844, "step": 10690 }, { "epoch": 28.533333333333335, "grad_norm": 0.1552734375, "learning_rate": 0.0002998629538702469, "loss": 0.4769, "step": 10700 }, { "epoch": 28.56, "grad_norm": 0.23828125, "learning_rate": 0.00029986268503527815, "loss": 0.4791, "step": 10710 }, { "epoch": 28.586666666666666, "grad_norm": 0.28125, "learning_rate": 0.00029986241593700996, "loss": 0.4751, "step": 10720 }, { "epoch": 28.613333333333333, "grad_norm": 0.275390625, "learning_rate": 0.0002998621465754428, "loss": 0.4607, "step": 10730 }, { "epoch": 28.64, "grad_norm": 0.275390625, "learning_rate": 0.000299861876950577, "loss": 0.4652, "step": 10740 }, { "epoch": 28.666666666666668, "grad_norm": 0.205078125, "learning_rate": 0.00029986160706241326, "loss": 0.4814, "step": 10750 }, { "epoch": 28.693333333333335, "grad_norm": 0.271484375, "learning_rate": 0.00029986133691095194, "loss": 0.4642, "step": 10760 }, { "epoch": 28.72, "grad_norm": 0.30078125, "learning_rate": 0.0002998610664961935, "loss": 0.481, "step": 10770 }, { "epoch": 28.746666666666666, "grad_norm": 0.296875, "learning_rate": 0.0002998607958181384, "loss": 0.4862, "step": 10780 }, { "epoch": 28.773333333333333, "grad_norm": 0.302734375, "learning_rate": 0.0002998605248767872, "loss": 0.4936, "step": 10790 }, { "epoch": 28.8, "grad_norm": 0.33984375, "learning_rate": 0.0002998602536721403, "loss": 0.4805, "step": 10800 }, { "epoch": 28.826666666666668, "grad_norm": 0.2099609375, "learning_rate": 0.0002998599822041982, "loss": 0.4751, "step": 10810 }, { "epoch": 28.85333333333333, "grad_norm": 0.31640625, "learning_rate": 0.0002998597104729614, "loss": 0.4839, "step": 10820 }, { "epoch": 28.88, "grad_norm": 0.21875, "learning_rate": 0.00029985943847843035, "loss": 0.4706, "step": 10830 }, { "epoch": 28.906666666666666, "grad_norm": 0.25390625, "learning_rate": 0.00029985916622060556, "loss": 0.4743, "step": 10840 }, { "epoch": 28.933333333333334, "grad_norm": 0.283203125, "learning_rate": 0.0002998588936994875, "loss": 0.4756, "step": 10850 }, { "epoch": 28.96, "grad_norm": 0.255859375, "learning_rate": 0.0002998586209150766, "loss": 0.4732, "step": 10860 }, { "epoch": 28.986666666666668, "grad_norm": 0.251953125, "learning_rate": 0.0002998583478673734, "loss": 0.4879, "step": 10870 }, { "epoch": 29.0, "eval_loss": 0.48758020997047424, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.9573, "eval_samples_per_second": 1.607, "eval_steps_per_second": 0.1, "step": 10875 }, { "epoch": 29.013333333333332, "grad_norm": 0.2236328125, "learning_rate": 0.0002998580745563783, "loss": 0.4765, "step": 10880 }, { "epoch": 29.04, "grad_norm": 0.31640625, "learning_rate": 0.0002998578009820918, "loss": 0.5008, "step": 10890 }, { "epoch": 29.066666666666666, "grad_norm": 0.294921875, "learning_rate": 0.0002998575271445145, "loss": 0.4886, "step": 10900 }, { "epoch": 29.093333333333334, "grad_norm": 0.2470703125, "learning_rate": 0.0002998572530436468, "loss": 0.4828, "step": 10910 }, { "epoch": 29.12, "grad_norm": 0.310546875, "learning_rate": 0.00029985697867948916, "loss": 0.4801, "step": 10920 }, { "epoch": 29.14666666666667, "grad_norm": 0.23046875, "learning_rate": 0.000299856704052042, "loss": 0.4889, "step": 10930 }, { "epoch": 29.173333333333332, "grad_norm": 0.306640625, "learning_rate": 0.000299856429161306, "loss": 0.4787, "step": 10940 }, { "epoch": 29.2, "grad_norm": 0.30078125, "learning_rate": 0.00029985615400728147, "loss": 0.4782, "step": 10950 }, { "epoch": 29.226666666666667, "grad_norm": 0.291015625, "learning_rate": 0.0002998558785899689, "loss": 0.4747, "step": 10960 }, { "epoch": 29.253333333333334, "grad_norm": 0.2080078125, "learning_rate": 0.00029985560290936894, "loss": 0.4749, "step": 10970 }, { "epoch": 29.28, "grad_norm": 0.27734375, "learning_rate": 0.00029985532696548184, "loss": 0.4883, "step": 10980 }, { "epoch": 29.306666666666665, "grad_norm": 0.330078125, "learning_rate": 0.0002998550507583082, "loss": 0.469, "step": 10990 }, { "epoch": 29.333333333333332, "grad_norm": 0.2138671875, "learning_rate": 0.0002998547742878486, "loss": 0.4849, "step": 11000 }, { "epoch": 29.36, "grad_norm": 0.1953125, "learning_rate": 0.0002998544975541034, "loss": 0.4875, "step": 11010 }, { "epoch": 29.386666666666667, "grad_norm": 0.216796875, "learning_rate": 0.0002998542205570731, "loss": 0.4788, "step": 11020 }, { "epoch": 29.413333333333334, "grad_norm": 0.1923828125, "learning_rate": 0.0002998539432967582, "loss": 0.4824, "step": 11030 }, { "epoch": 29.44, "grad_norm": 0.2001953125, "learning_rate": 0.0002998536657731592, "loss": 0.4866, "step": 11040 }, { "epoch": 29.466666666666665, "grad_norm": 0.228515625, "learning_rate": 0.00029985338798627656, "loss": 0.4968, "step": 11050 }, { "epoch": 29.493333333333332, "grad_norm": 0.197265625, "learning_rate": 0.00029985310993611077, "loss": 0.4861, "step": 11060 }, { "epoch": 29.52, "grad_norm": 0.2890625, "learning_rate": 0.0002998528316226624, "loss": 0.4808, "step": 11070 }, { "epoch": 29.546666666666667, "grad_norm": 0.234375, "learning_rate": 0.00029985255304593183, "loss": 0.4772, "step": 11080 }, { "epoch": 29.573333333333334, "grad_norm": 0.2080078125, "learning_rate": 0.0002998522742059196, "loss": 0.4768, "step": 11090 }, { "epoch": 29.6, "grad_norm": 0.251953125, "learning_rate": 0.0002998519951026262, "loss": 0.4709, "step": 11100 }, { "epoch": 29.626666666666665, "grad_norm": 0.2060546875, "learning_rate": 0.0002998517157360521, "loss": 0.4575, "step": 11110 }, { "epoch": 29.653333333333332, "grad_norm": 0.2109375, "learning_rate": 0.0002998514361061978, "loss": 0.4767, "step": 11120 }, { "epoch": 29.68, "grad_norm": 0.2578125, "learning_rate": 0.0002998511562130639, "loss": 0.4681, "step": 11130 }, { "epoch": 29.706666666666667, "grad_norm": 0.27734375, "learning_rate": 0.00029985087605665067, "loss": 0.469, "step": 11140 }, { "epoch": 29.733333333333334, "grad_norm": 0.296875, "learning_rate": 0.00029985059563695875, "loss": 0.4883, "step": 11150 }, { "epoch": 29.76, "grad_norm": 0.2392578125, "learning_rate": 0.0002998503149539886, "loss": 0.4895, "step": 11160 }, { "epoch": 29.786666666666665, "grad_norm": 0.40234375, "learning_rate": 0.00029985003400774074, "loss": 0.4883, "step": 11170 }, { "epoch": 29.813333333333333, "grad_norm": 0.26171875, "learning_rate": 0.0002998497527982156, "loss": 0.4727, "step": 11180 }, { "epoch": 29.84, "grad_norm": 0.45703125, "learning_rate": 0.00029984947132541374, "loss": 0.479, "step": 11190 }, { "epoch": 29.866666666666667, "grad_norm": 0.244140625, "learning_rate": 0.00029984918958933564, "loss": 0.4784, "step": 11200 }, { "epoch": 29.893333333333334, "grad_norm": 0.2470703125, "learning_rate": 0.00029984890758998176, "loss": 0.469, "step": 11210 }, { "epoch": 29.92, "grad_norm": 0.49609375, "learning_rate": 0.00029984862532735264, "loss": 0.4798, "step": 11220 }, { "epoch": 29.946666666666665, "grad_norm": 0.23828125, "learning_rate": 0.00029984834280144876, "loss": 0.4725, "step": 11230 }, { "epoch": 29.973333333333333, "grad_norm": 0.255859375, "learning_rate": 0.0002998480600122705, "loss": 0.4836, "step": 11240 }, { "epoch": 30.0, "grad_norm": 0.2119140625, "learning_rate": 0.0002998477769598186, "loss": 0.4727, "step": 11250 }, { "epoch": 30.0, "eval_loss": 0.4864569306373596, "eval_model_preparation_time": 0.0016, "eval_runtime": 8.889, "eval_samples_per_second": 1.8, "eval_steps_per_second": 0.112, "step": 11250 }, { "epoch": 30.026666666666667, "grad_norm": 0.255859375, "learning_rate": 0.0002998474936440934, "loss": 0.4922, "step": 11260 }, { "epoch": 30.053333333333335, "grad_norm": 0.267578125, "learning_rate": 0.0002998472100650954, "loss": 0.4985, "step": 11270 }, { "epoch": 30.08, "grad_norm": 0.23046875, "learning_rate": 0.00029984692622282515, "loss": 0.4846, "step": 11280 }, { "epoch": 30.106666666666666, "grad_norm": 0.2470703125, "learning_rate": 0.0002998466421172831, "loss": 0.4798, "step": 11290 }, { "epoch": 30.133333333333333, "grad_norm": 0.2421875, "learning_rate": 0.0002998463577484697, "loss": 0.4813, "step": 11300 }, { "epoch": 30.16, "grad_norm": 0.306640625, "learning_rate": 0.00029984607311638566, "loss": 0.4865, "step": 11310 }, { "epoch": 30.186666666666667, "grad_norm": 0.2734375, "learning_rate": 0.0002998457882210313, "loss": 0.4777, "step": 11320 }, { "epoch": 30.213333333333335, "grad_norm": 0.185546875, "learning_rate": 0.0002998455030624071, "loss": 0.4737, "step": 11330 }, { "epoch": 30.24, "grad_norm": 0.21875, "learning_rate": 0.00029984521764051366, "loss": 0.4767, "step": 11340 }, { "epoch": 30.266666666666666, "grad_norm": 0.2373046875, "learning_rate": 0.0002998449319553514, "loss": 0.4809, "step": 11350 }, { "epoch": 30.293333333333333, "grad_norm": 0.240234375, "learning_rate": 0.00029984464600692093, "loss": 0.4748, "step": 11360 }, { "epoch": 30.32, "grad_norm": 0.2470703125, "learning_rate": 0.00029984435979522265, "loss": 0.4783, "step": 11370 }, { "epoch": 30.346666666666668, "grad_norm": 0.33203125, "learning_rate": 0.0002998440733202571, "loss": 0.4871, "step": 11380 }, { "epoch": 30.373333333333335, "grad_norm": 0.23828125, "learning_rate": 0.0002998437865820247, "loss": 0.4834, "step": 11390 }, { "epoch": 30.4, "grad_norm": 0.25390625, "learning_rate": 0.00029984349958052614, "loss": 0.4793, "step": 11400 }, { "epoch": 30.426666666666666, "grad_norm": 0.203125, "learning_rate": 0.0002998432123157618, "loss": 0.4862, "step": 11410 }, { "epoch": 30.453333333333333, "grad_norm": 0.216796875, "learning_rate": 0.0002998429247877322, "loss": 0.4876, "step": 11420 }, { "epoch": 30.48, "grad_norm": 0.28125, "learning_rate": 0.0002998426369964379, "loss": 0.495, "step": 11430 }, { "epoch": 30.506666666666668, "grad_norm": 0.2177734375, "learning_rate": 0.0002998423489418793, "loss": 0.4836, "step": 11440 }, { "epoch": 30.533333333333335, "grad_norm": 0.32421875, "learning_rate": 0.00029984206062405697, "loss": 0.4778, "step": 11450 }, { "epoch": 30.56, "grad_norm": 0.29296875, "learning_rate": 0.0002998417720429714, "loss": 0.4784, "step": 11460 }, { "epoch": 30.586666666666666, "grad_norm": 0.25, "learning_rate": 0.0002998414831986231, "loss": 0.4736, "step": 11470 }, { "epoch": 30.613333333333333, "grad_norm": 0.197265625, "learning_rate": 0.0002998411940910126, "loss": 0.4596, "step": 11480 }, { "epoch": 30.64, "grad_norm": 0.169921875, "learning_rate": 0.0002998409047201404, "loss": 0.4648, "step": 11490 }, { "epoch": 30.666666666666668, "grad_norm": 0.26953125, "learning_rate": 0.000299840615086007, "loss": 0.4813, "step": 11500 }, { "epoch": 30.693333333333335, "grad_norm": 0.236328125, "learning_rate": 0.0002998403251886129, "loss": 0.463, "step": 11510 }, { "epoch": 30.72, "grad_norm": 0.25390625, "learning_rate": 0.0002998400350279586, "loss": 0.4809, "step": 11520 }, { "epoch": 30.746666666666666, "grad_norm": 0.275390625, "learning_rate": 0.0002998397446040446, "loss": 0.4851, "step": 11530 }, { "epoch": 30.773333333333333, "grad_norm": 0.263671875, "learning_rate": 0.0002998394539168715, "loss": 0.4928, "step": 11540 }, { "epoch": 30.8, "grad_norm": 0.2236328125, "learning_rate": 0.00029983916296643975, "loss": 0.4789, "step": 11550 }, { "epoch": 30.826666666666668, "grad_norm": 0.212890625, "learning_rate": 0.0002998388717527498, "loss": 0.474, "step": 11560 }, { "epoch": 30.85333333333333, "grad_norm": 0.30078125, "learning_rate": 0.00029983858027580226, "loss": 0.4837, "step": 11570 }, { "epoch": 30.88, "grad_norm": 0.337890625, "learning_rate": 0.0002998382885355976, "loss": 0.471, "step": 11580 }, { "epoch": 30.906666666666666, "grad_norm": 0.31640625, "learning_rate": 0.0002998379965321364, "loss": 0.4731, "step": 11590 }, { "epoch": 30.933333333333334, "grad_norm": 0.2578125, "learning_rate": 0.000299837704265419, "loss": 0.4754, "step": 11600 }, { "epoch": 30.96, "grad_norm": 0.22265625, "learning_rate": 0.0002998374117354461, "loss": 0.472, "step": 11610 }, { "epoch": 30.986666666666668, "grad_norm": 0.255859375, "learning_rate": 0.00029983711894221806, "loss": 0.4873, "step": 11620 }, { "epoch": 31.0, "eval_loss": 0.48670804500579834, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.0195, "eval_samples_per_second": 1.597, "eval_steps_per_second": 0.1, "step": 11625 }, { "epoch": 31.013333333333332, "grad_norm": 0.271484375, "learning_rate": 0.00029983682588573555, "loss": 0.4761, "step": 11630 }, { "epoch": 31.04, "grad_norm": 0.3515625, "learning_rate": 0.00029983653256599894, "loss": 0.5006, "step": 11640 }, { "epoch": 31.066666666666666, "grad_norm": 0.265625, "learning_rate": 0.0002998362389830089, "loss": 0.4883, "step": 11650 }, { "epoch": 31.093333333333334, "grad_norm": 0.2470703125, "learning_rate": 0.00029983594513676576, "loss": 0.4822, "step": 11660 }, { "epoch": 31.12, "grad_norm": 0.216796875, "learning_rate": 0.0002998356510272702, "loss": 0.4793, "step": 11670 }, { "epoch": 31.14666666666667, "grad_norm": 0.291015625, "learning_rate": 0.0002998353566545226, "loss": 0.4883, "step": 11680 }, { "epoch": 31.173333333333332, "grad_norm": 0.35546875, "learning_rate": 0.0002998350620185236, "loss": 0.478, "step": 11690 }, { "epoch": 31.2, "grad_norm": 0.31640625, "learning_rate": 0.00029983476711927366, "loss": 0.4774, "step": 11700 }, { "epoch": 31.226666666666667, "grad_norm": 0.240234375, "learning_rate": 0.00029983447195677327, "loss": 0.475, "step": 11710 }, { "epoch": 31.253333333333334, "grad_norm": 0.412109375, "learning_rate": 0.000299834176531023, "loss": 0.474, "step": 11720 }, { "epoch": 31.28, "grad_norm": 0.3125, "learning_rate": 0.0002998338808420234, "loss": 0.4872, "step": 11730 }, { "epoch": 31.306666666666665, "grad_norm": 0.31640625, "learning_rate": 0.0002998335848897749, "loss": 0.4692, "step": 11740 }, { "epoch": 31.333333333333332, "grad_norm": 0.224609375, "learning_rate": 0.000299833288674278, "loss": 0.4848, "step": 11750 }, { "epoch": 31.36, "grad_norm": 0.2490234375, "learning_rate": 0.0002998329921955334, "loss": 0.4868, "step": 11760 }, { "epoch": 31.386666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002998326954535414, "loss": 0.4786, "step": 11770 }, { "epoch": 31.413333333333334, "grad_norm": 0.32421875, "learning_rate": 0.0002998323984483027, "loss": 0.4823, "step": 11780 }, { "epoch": 31.44, "grad_norm": 0.240234375, "learning_rate": 0.0002998321011798177, "loss": 0.486, "step": 11790 }, { "epoch": 31.466666666666665, "grad_norm": 0.23046875, "learning_rate": 0.00029983180364808696, "loss": 0.4952, "step": 11800 }, { "epoch": 31.493333333333332, "grad_norm": 0.30078125, "learning_rate": 0.00029983150585311105, "loss": 0.487, "step": 11810 }, { "epoch": 31.52, "grad_norm": 0.203125, "learning_rate": 0.0002998312077948904, "loss": 0.4806, "step": 11820 }, { "epoch": 31.546666666666667, "grad_norm": 0.234375, "learning_rate": 0.0002998309094734256, "loss": 0.4773, "step": 11830 }, { "epoch": 31.573333333333334, "grad_norm": 0.2578125, "learning_rate": 0.0002998306108887172, "loss": 0.4758, "step": 11840 }, { "epoch": 31.6, "grad_norm": 0.28515625, "learning_rate": 0.00029983031204076563, "loss": 0.4704, "step": 11850 }, { "epoch": 31.626666666666665, "grad_norm": 0.2275390625, "learning_rate": 0.00029983001292957154, "loss": 0.4559, "step": 11860 }, { "epoch": 31.653333333333332, "grad_norm": 0.236328125, "learning_rate": 0.0002998297135551353, "loss": 0.4764, "step": 11870 }, { "epoch": 31.68, "grad_norm": 0.220703125, "learning_rate": 0.0002998294139174576, "loss": 0.4677, "step": 11880 }, { "epoch": 31.706666666666667, "grad_norm": 0.294921875, "learning_rate": 0.0002998291140165389, "loss": 0.4684, "step": 11890 }, { "epoch": 31.733333333333334, "grad_norm": 0.24609375, "learning_rate": 0.0002998288138523796, "loss": 0.4878, "step": 11900 }, { "epoch": 31.76, "grad_norm": 0.2734375, "learning_rate": 0.00029982851342498046, "loss": 0.4893, "step": 11910 }, { "epoch": 31.786666666666665, "grad_norm": 0.279296875, "learning_rate": 0.0002998282127343418, "loss": 0.4877, "step": 11920 }, { "epoch": 31.813333333333333, "grad_norm": 0.3984375, "learning_rate": 0.0002998279117804643, "loss": 0.4725, "step": 11930 }, { "epoch": 31.84, "grad_norm": 0.400390625, "learning_rate": 0.0002998276105633484, "loss": 0.4786, "step": 11940 }, { "epoch": 31.866666666666667, "grad_norm": 0.1943359375, "learning_rate": 0.0002998273090829946, "loss": 0.478, "step": 11950 }, { "epoch": 31.893333333333334, "grad_norm": 0.296875, "learning_rate": 0.00029982700733940357, "loss": 0.4683, "step": 11960 }, { "epoch": 31.92, "grad_norm": 0.291015625, "learning_rate": 0.00029982670533257576, "loss": 0.4787, "step": 11970 }, { "epoch": 31.946666666666665, "grad_norm": 0.36328125, "learning_rate": 0.00029982640306251164, "loss": 0.4719, "step": 11980 }, { "epoch": 31.973333333333333, "grad_norm": 0.337890625, "learning_rate": 0.00029982610052921185, "loss": 0.483, "step": 11990 }, { "epoch": 32.0, "grad_norm": 0.26171875, "learning_rate": 0.0002998257977326769, "loss": 0.4716, "step": 12000 }, { "epoch": 32.0, "eval_loss": 0.4881175458431244, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.5564, "eval_samples_per_second": 1.674, "eval_steps_per_second": 0.105, "step": 12000 }, { "epoch": 32.026666666666664, "grad_norm": 0.2392578125, "learning_rate": 0.0002998254946729072, "loss": 0.4913, "step": 12010 }, { "epoch": 32.053333333333335, "grad_norm": 0.2734375, "learning_rate": 0.0002998251913499034, "loss": 0.4976, "step": 12020 }, { "epoch": 32.08, "grad_norm": 0.216796875, "learning_rate": 0.00029982488776366604, "loss": 0.4847, "step": 12030 }, { "epoch": 32.10666666666667, "grad_norm": 0.37890625, "learning_rate": 0.0002998245839141956, "loss": 0.4796, "step": 12040 }, { "epoch": 32.13333333333333, "grad_norm": 0.2451171875, "learning_rate": 0.00029982427980149265, "loss": 0.482, "step": 12050 }, { "epoch": 32.16, "grad_norm": 0.341796875, "learning_rate": 0.00029982397542555766, "loss": 0.4858, "step": 12060 }, { "epoch": 32.18666666666667, "grad_norm": 0.294921875, "learning_rate": 0.00029982367078639123, "loss": 0.4772, "step": 12070 }, { "epoch": 32.21333333333333, "grad_norm": 0.2001953125, "learning_rate": 0.0002998233658839939, "loss": 0.4728, "step": 12080 }, { "epoch": 32.24, "grad_norm": 0.263671875, "learning_rate": 0.0002998230607183662, "loss": 0.4769, "step": 12090 }, { "epoch": 32.266666666666666, "grad_norm": 0.2197265625, "learning_rate": 0.00029982275528950866, "loss": 0.4795, "step": 12100 }, { "epoch": 32.29333333333334, "grad_norm": 0.1943359375, "learning_rate": 0.0002998224495974218, "loss": 0.474, "step": 12110 }, { "epoch": 32.32, "grad_norm": 0.2080078125, "learning_rate": 0.00029982214364210607, "loss": 0.4777, "step": 12120 }, { "epoch": 32.346666666666664, "grad_norm": 0.2578125, "learning_rate": 0.0002998218374235622, "loss": 0.4861, "step": 12130 }, { "epoch": 32.373333333333335, "grad_norm": 0.1904296875, "learning_rate": 0.0002998215309417906, "loss": 0.4827, "step": 12140 }, { "epoch": 32.4, "grad_norm": 0.29296875, "learning_rate": 0.00029982122419679186, "loss": 0.479, "step": 12150 }, { "epoch": 32.42666666666667, "grad_norm": 0.375, "learning_rate": 0.0002998209171885665, "loss": 0.4853, "step": 12160 }, { "epoch": 32.45333333333333, "grad_norm": 0.349609375, "learning_rate": 0.000299820609917115, "loss": 0.4874, "step": 12170 }, { "epoch": 32.48, "grad_norm": 0.287109375, "learning_rate": 0.000299820302382438, "loss": 0.4939, "step": 12180 }, { "epoch": 32.50666666666667, "grad_norm": 0.208984375, "learning_rate": 0.000299819994584536, "loss": 0.4832, "step": 12190 }, { "epoch": 32.53333333333333, "grad_norm": 0.169921875, "learning_rate": 0.0002998196865234095, "loss": 0.4762, "step": 12200 }, { "epoch": 32.56, "grad_norm": 0.2333984375, "learning_rate": 0.0002998193781990591, "loss": 0.4779, "step": 12210 }, { "epoch": 32.586666666666666, "grad_norm": 0.287109375, "learning_rate": 0.0002998190696114853, "loss": 0.473, "step": 12220 }, { "epoch": 32.61333333333333, "grad_norm": 0.2490234375, "learning_rate": 0.0002998187607606887, "loss": 0.4594, "step": 12230 }, { "epoch": 32.64, "grad_norm": 0.32421875, "learning_rate": 0.00029981845164666975, "loss": 0.4641, "step": 12240 }, { "epoch": 32.666666666666664, "grad_norm": 0.263671875, "learning_rate": 0.00029981814226942913, "loss": 0.4799, "step": 12250 }, { "epoch": 32.693333333333335, "grad_norm": 0.255859375, "learning_rate": 0.00029981783262896726, "loss": 0.4624, "step": 12260 }, { "epoch": 32.72, "grad_norm": 0.41796875, "learning_rate": 0.0002998175227252847, "loss": 0.4797, "step": 12270 }, { "epoch": 32.74666666666667, "grad_norm": 0.28515625, "learning_rate": 0.00029981721255838205, "loss": 0.4847, "step": 12280 }, { "epoch": 32.77333333333333, "grad_norm": 0.302734375, "learning_rate": 0.0002998169021282598, "loss": 0.4927, "step": 12290 }, { "epoch": 32.8, "grad_norm": 0.2060546875, "learning_rate": 0.0002998165914349185, "loss": 0.4794, "step": 12300 }, { "epoch": 32.82666666666667, "grad_norm": 0.25, "learning_rate": 0.0002998162804783588, "loss": 0.4732, "step": 12310 }, { "epoch": 32.85333333333333, "grad_norm": 0.25, "learning_rate": 0.0002998159692585811, "loss": 0.4825, "step": 12320 }, { "epoch": 32.88, "grad_norm": 0.29296875, "learning_rate": 0.00029981565777558605, "loss": 0.4706, "step": 12330 }, { "epoch": 32.906666666666666, "grad_norm": 0.33203125, "learning_rate": 0.00029981534602937414, "loss": 0.4733, "step": 12340 }, { "epoch": 32.93333333333333, "grad_norm": 0.26171875, "learning_rate": 0.0002998150340199459, "loss": 0.4748, "step": 12350 }, { "epoch": 32.96, "grad_norm": 0.2734375, "learning_rate": 0.000299814721747302, "loss": 0.4721, "step": 12360 }, { "epoch": 32.986666666666665, "grad_norm": 0.263671875, "learning_rate": 0.0002998144092114428, "loss": 0.4865, "step": 12370 }, { "epoch": 33.0, "eval_loss": 0.484887033700943, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.3807, "eval_samples_per_second": 1.706, "eval_steps_per_second": 0.107, "step": 12375 }, { "epoch": 33.013333333333335, "grad_norm": 0.29296875, "learning_rate": 0.000299814096412369, "loss": 0.4753, "step": 12380 }, { "epoch": 33.04, "grad_norm": 0.3515625, "learning_rate": 0.0002998137833500811, "loss": 0.4997, "step": 12390 }, { "epoch": 33.06666666666667, "grad_norm": 0.306640625, "learning_rate": 0.00029981347002457965, "loss": 0.487, "step": 12400 }, { "epoch": 33.093333333333334, "grad_norm": 0.31640625, "learning_rate": 0.0002998131564358652, "loss": 0.4815, "step": 12410 }, { "epoch": 33.12, "grad_norm": 0.32421875, "learning_rate": 0.00029981284258393827, "loss": 0.478, "step": 12420 }, { "epoch": 33.14666666666667, "grad_norm": 0.283203125, "learning_rate": 0.0002998125284687995, "loss": 0.4875, "step": 12430 }, { "epoch": 33.17333333333333, "grad_norm": 0.224609375, "learning_rate": 0.0002998122140904493, "loss": 0.4773, "step": 12440 }, { "epoch": 33.2, "grad_norm": 0.25390625, "learning_rate": 0.0002998118994488884, "loss": 0.4762, "step": 12450 }, { "epoch": 33.22666666666667, "grad_norm": 0.2021484375, "learning_rate": 0.0002998115845441172, "loss": 0.4741, "step": 12460 }, { "epoch": 33.25333333333333, "grad_norm": 0.23046875, "learning_rate": 0.00029981126937613634, "loss": 0.473, "step": 12470 }, { "epoch": 33.28, "grad_norm": 0.3515625, "learning_rate": 0.0002998109539449464, "loss": 0.4868, "step": 12480 }, { "epoch": 33.306666666666665, "grad_norm": 0.232421875, "learning_rate": 0.00029981063825054775, "loss": 0.4689, "step": 12490 }, { "epoch": 33.333333333333336, "grad_norm": 0.26953125, "learning_rate": 0.00029981032229294116, "loss": 0.4843, "step": 12500 }, { "epoch": 33.36, "grad_norm": 0.208984375, "learning_rate": 0.0002998100060721271, "loss": 0.4862, "step": 12510 }, { "epoch": 33.38666666666666, "grad_norm": 0.267578125, "learning_rate": 0.00029980968958810613, "loss": 0.478, "step": 12520 }, { "epoch": 33.413333333333334, "grad_norm": 0.2236328125, "learning_rate": 0.0002998093728408788, "loss": 0.4821, "step": 12530 }, { "epoch": 33.44, "grad_norm": 0.25390625, "learning_rate": 0.0002998090558304456, "loss": 0.4852, "step": 12540 }, { "epoch": 33.46666666666667, "grad_norm": 0.2392578125, "learning_rate": 0.0002998087385568072, "loss": 0.4946, "step": 12550 }, { "epoch": 33.49333333333333, "grad_norm": 0.291015625, "learning_rate": 0.00029980842101996416, "loss": 0.4856, "step": 12560 }, { "epoch": 33.52, "grad_norm": 0.27734375, "learning_rate": 0.0002998081032199169, "loss": 0.4806, "step": 12570 }, { "epoch": 33.54666666666667, "grad_norm": 0.4140625, "learning_rate": 0.00029980778515666616, "loss": 0.477, "step": 12580 }, { "epoch": 33.57333333333333, "grad_norm": 0.279296875, "learning_rate": 0.00029980746683021237, "loss": 0.4764, "step": 12590 }, { "epoch": 33.6, "grad_norm": 0.322265625, "learning_rate": 0.00029980714824055614, "loss": 0.4699, "step": 12600 }, { "epoch": 33.626666666666665, "grad_norm": 0.1904296875, "learning_rate": 0.000299806829387698, "loss": 0.4556, "step": 12610 }, { "epoch": 33.653333333333336, "grad_norm": 0.197265625, "learning_rate": 0.00029980651027163854, "loss": 0.4765, "step": 12620 }, { "epoch": 33.68, "grad_norm": 0.234375, "learning_rate": 0.0002998061908923783, "loss": 0.4676, "step": 12630 }, { "epoch": 33.70666666666666, "grad_norm": 0.30859375, "learning_rate": 0.00029980587124991785, "loss": 0.4678, "step": 12640 }, { "epoch": 33.733333333333334, "grad_norm": 0.275390625, "learning_rate": 0.0002998055513442578, "loss": 0.4875, "step": 12650 }, { "epoch": 33.76, "grad_norm": 0.251953125, "learning_rate": 0.0002998052311753986, "loss": 0.4879, "step": 12660 }, { "epoch": 33.78666666666667, "grad_norm": 0.234375, "learning_rate": 0.0002998049107433409, "loss": 0.4873, "step": 12670 }, { "epoch": 33.81333333333333, "grad_norm": 0.353515625, "learning_rate": 0.00029980459004808524, "loss": 0.4716, "step": 12680 }, { "epoch": 33.84, "grad_norm": 0.318359375, "learning_rate": 0.0002998042690896321, "loss": 0.478, "step": 12690 }, { "epoch": 33.86666666666667, "grad_norm": 0.2001953125, "learning_rate": 0.00029980394786798225, "loss": 0.4781, "step": 12700 }, { "epoch": 33.89333333333333, "grad_norm": 0.333984375, "learning_rate": 0.0002998036263831361, "loss": 0.4691, "step": 12710 }, { "epoch": 33.92, "grad_norm": 0.2734375, "learning_rate": 0.0002998033046350942, "loss": 0.4785, "step": 12720 }, { "epoch": 33.946666666666665, "grad_norm": 0.2890625, "learning_rate": 0.0002998029826238572, "loss": 0.471, "step": 12730 }, { "epoch": 33.973333333333336, "grad_norm": 0.3671875, "learning_rate": 0.00029980266034942564, "loss": 0.4824, "step": 12740 }, { "epoch": 34.0, "grad_norm": 0.328125, "learning_rate": 0.0002998023378118, "loss": 0.4717, "step": 12750 }, { "epoch": 34.0, "eval_loss": 0.48443278670310974, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.9254, "eval_samples_per_second": 1.464, "eval_steps_per_second": 0.092, "step": 12750 }, { "epoch": 34.026666666666664, "grad_norm": 0.380859375, "learning_rate": 0.00029980201501098096, "loss": 0.4909, "step": 12760 }, { "epoch": 34.053333333333335, "grad_norm": 0.25390625, "learning_rate": 0.00029980169194696905, "loss": 0.4972, "step": 12770 }, { "epoch": 34.08, "grad_norm": 0.2177734375, "learning_rate": 0.00029980136861976485, "loss": 0.4834, "step": 12780 }, { "epoch": 34.10666666666667, "grad_norm": 0.26953125, "learning_rate": 0.0002998010450293689, "loss": 0.479, "step": 12790 }, { "epoch": 34.13333333333333, "grad_norm": 0.2314453125, "learning_rate": 0.00029980072117578177, "loss": 0.4812, "step": 12800 }, { "epoch": 34.16, "grad_norm": 0.30859375, "learning_rate": 0.0002998003970590041, "loss": 0.485, "step": 12810 }, { "epoch": 34.18666666666667, "grad_norm": 0.333984375, "learning_rate": 0.00029980007267903626, "loss": 0.477, "step": 12820 }, { "epoch": 34.21333333333333, "grad_norm": 0.279296875, "learning_rate": 0.00029979974803587907, "loss": 0.4715, "step": 12830 }, { "epoch": 34.24, "grad_norm": 0.337890625, "learning_rate": 0.000299799423129533, "loss": 0.4764, "step": 12840 }, { "epoch": 34.266666666666666, "grad_norm": 0.2392578125, "learning_rate": 0.0002997990979599985, "loss": 0.48, "step": 12850 }, { "epoch": 34.29333333333334, "grad_norm": 0.1796875, "learning_rate": 0.00029979877252727635, "loss": 0.474, "step": 12860 }, { "epoch": 34.32, "grad_norm": 0.16796875, "learning_rate": 0.00029979844683136704, "loss": 0.4774, "step": 12870 }, { "epoch": 34.346666666666664, "grad_norm": 0.322265625, "learning_rate": 0.00029979812087227106, "loss": 0.4868, "step": 12880 }, { "epoch": 34.373333333333335, "grad_norm": 0.26171875, "learning_rate": 0.00029979779464998907, "loss": 0.4821, "step": 12890 }, { "epoch": 34.4, "grad_norm": 0.2236328125, "learning_rate": 0.0002997974681645216, "loss": 0.4776, "step": 12900 }, { "epoch": 34.42666666666667, "grad_norm": 0.279296875, "learning_rate": 0.0002997971414158693, "loss": 0.4845, "step": 12910 }, { "epoch": 34.45333333333333, "grad_norm": 0.2578125, "learning_rate": 0.00029979681440403267, "loss": 0.4864, "step": 12920 }, { "epoch": 34.48, "grad_norm": 0.294921875, "learning_rate": 0.0002997964871290122, "loss": 0.4933, "step": 12930 }, { "epoch": 34.50666666666667, "grad_norm": 0.203125, "learning_rate": 0.0002997961595908087, "loss": 0.4826, "step": 12940 }, { "epoch": 34.53333333333333, "grad_norm": 0.1484375, "learning_rate": 0.00029979583178942255, "loss": 0.4766, "step": 12950 }, { "epoch": 34.56, "grad_norm": 0.2275390625, "learning_rate": 0.00029979550372485447, "loss": 0.4775, "step": 12960 }, { "epoch": 34.586666666666666, "grad_norm": 0.2177734375, "learning_rate": 0.0002997951753971049, "loss": 0.4732, "step": 12970 }, { "epoch": 34.61333333333333, "grad_norm": 0.22265625, "learning_rate": 0.0002997948468061744, "loss": 0.459, "step": 12980 }, { "epoch": 34.64, "grad_norm": 0.1630859375, "learning_rate": 0.0002997945179520637, "loss": 0.4635, "step": 12990 }, { "epoch": 34.666666666666664, "grad_norm": 0.30859375, "learning_rate": 0.0002997941888347733, "loss": 0.4791, "step": 13000 }, { "epoch": 34.693333333333335, "grad_norm": 0.2890625, "learning_rate": 0.00029979385945430375, "loss": 0.4626, "step": 13010 }, { "epoch": 34.72, "grad_norm": 0.259765625, "learning_rate": 0.0002997935298106557, "loss": 0.4796, "step": 13020 }, { "epoch": 34.74666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002997931999038296, "loss": 0.4842, "step": 13030 }, { "epoch": 34.77333333333333, "grad_norm": 0.314453125, "learning_rate": 0.00029979286973382625, "loss": 0.4916, "step": 13040 }, { "epoch": 34.8, "grad_norm": 0.232421875, "learning_rate": 0.000299792539300646, "loss": 0.4784, "step": 13050 }, { "epoch": 34.82666666666667, "grad_norm": 0.380859375, "learning_rate": 0.0002997922086042895, "loss": 0.4728, "step": 13060 }, { "epoch": 34.85333333333333, "grad_norm": 0.34765625, "learning_rate": 0.0002997918776447574, "loss": 0.4821, "step": 13070 }, { "epoch": 34.88, "grad_norm": 0.36328125, "learning_rate": 0.00029979154642205023, "loss": 0.4698, "step": 13080 }, { "epoch": 34.906666666666666, "grad_norm": 0.271484375, "learning_rate": 0.0002997912149361686, "loss": 0.4729, "step": 13090 }, { "epoch": 34.93333333333333, "grad_norm": 0.265625, "learning_rate": 0.00029979088318711304, "loss": 0.4736, "step": 13100 }, { "epoch": 34.96, "grad_norm": 0.2421875, "learning_rate": 0.0002997905511748842, "loss": 0.4721, "step": 13110 }, { "epoch": 34.986666666666665, "grad_norm": 0.283203125, "learning_rate": 0.00029979021889948255, "loss": 0.4854, "step": 13120 }, { "epoch": 35.0, "eval_loss": 0.4832444489002228, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.2491, "eval_samples_per_second": 1.561, "eval_steps_per_second": 0.098, "step": 13125 }, { "epoch": 35.013333333333335, "grad_norm": 0.259765625, "learning_rate": 0.0002997898863609088, "loss": 0.4752, "step": 13130 }, { "epoch": 35.04, "grad_norm": 0.26171875, "learning_rate": 0.00029978955355916347, "loss": 0.4986, "step": 13140 }, { "epoch": 35.06666666666667, "grad_norm": 0.296875, "learning_rate": 0.00029978922049424717, "loss": 0.4866, "step": 13150 }, { "epoch": 35.093333333333334, "grad_norm": 0.302734375, "learning_rate": 0.0002997888871661605, "loss": 0.4816, "step": 13160 }, { "epoch": 35.12, "grad_norm": 0.271484375, "learning_rate": 0.000299788553574904, "loss": 0.4774, "step": 13170 }, { "epoch": 35.14666666666667, "grad_norm": 0.21484375, "learning_rate": 0.00029978821972047835, "loss": 0.4871, "step": 13180 }, { "epoch": 35.17333333333333, "grad_norm": 0.251953125, "learning_rate": 0.0002997878856028839, "loss": 0.4766, "step": 13190 }, { "epoch": 35.2, "grad_norm": 0.2294921875, "learning_rate": 0.00029978755122212153, "loss": 0.4755, "step": 13200 }, { "epoch": 35.22666666666667, "grad_norm": 0.2314453125, "learning_rate": 0.00029978721657819167, "loss": 0.4735, "step": 13210 }, { "epoch": 35.25333333333333, "grad_norm": 0.271484375, "learning_rate": 0.00029978688167109493, "loss": 0.4732, "step": 13220 }, { "epoch": 35.28, "grad_norm": 0.25390625, "learning_rate": 0.0002997865465008319, "loss": 0.4861, "step": 13230 }, { "epoch": 35.306666666666665, "grad_norm": 0.283203125, "learning_rate": 0.0002997862110674032, "loss": 0.4682, "step": 13240 }, { "epoch": 35.333333333333336, "grad_norm": 0.1923828125, "learning_rate": 0.0002997858753708093, "loss": 0.4838, "step": 13250 }, { "epoch": 35.36, "grad_norm": 0.26171875, "learning_rate": 0.000299785539411051, "loss": 0.4856, "step": 13260 }, { "epoch": 35.38666666666666, "grad_norm": 0.26171875, "learning_rate": 0.00029978520318812876, "loss": 0.4776, "step": 13270 }, { "epoch": 35.413333333333334, "grad_norm": 0.2392578125, "learning_rate": 0.00029978486670204313, "loss": 0.4809, "step": 13280 }, { "epoch": 35.44, "grad_norm": 0.2294921875, "learning_rate": 0.0002997845299527948, "loss": 0.4841, "step": 13290 }, { "epoch": 35.46666666666667, "grad_norm": 0.328125, "learning_rate": 0.00029978419294038425, "loss": 0.4943, "step": 13300 }, { "epoch": 35.49333333333333, "grad_norm": 0.1923828125, "learning_rate": 0.0002997838556648122, "loss": 0.4849, "step": 13310 }, { "epoch": 35.52, "grad_norm": 0.1689453125, "learning_rate": 0.0002997835181260791, "loss": 0.4797, "step": 13320 }, { "epoch": 35.54666666666667, "grad_norm": 0.2490234375, "learning_rate": 0.00029978318032418573, "loss": 0.4756, "step": 13330 }, { "epoch": 35.57333333333333, "grad_norm": 0.1796875, "learning_rate": 0.0002997828422591325, "loss": 0.4751, "step": 13340 }, { "epoch": 35.6, "grad_norm": 0.330078125, "learning_rate": 0.0002997825039309201, "loss": 0.4702, "step": 13350 }, { "epoch": 35.626666666666665, "grad_norm": 0.267578125, "learning_rate": 0.00029978216533954914, "loss": 0.4557, "step": 13360 }, { "epoch": 35.653333333333336, "grad_norm": 0.287109375, "learning_rate": 0.0002997818264850202, "loss": 0.4754, "step": 13370 }, { "epoch": 35.68, "grad_norm": 0.2373046875, "learning_rate": 0.00029978148736733377, "loss": 0.4661, "step": 13380 }, { "epoch": 35.70666666666666, "grad_norm": 0.28515625, "learning_rate": 0.0002997811479864906, "loss": 0.468, "step": 13390 }, { "epoch": 35.733333333333334, "grad_norm": 0.29296875, "learning_rate": 0.00029978080834249123, "loss": 0.487, "step": 13400 }, { "epoch": 35.76, "grad_norm": 0.3046875, "learning_rate": 0.0002997804684353362, "loss": 0.4881, "step": 13410 }, { "epoch": 35.78666666666667, "grad_norm": 0.326171875, "learning_rate": 0.00029978012826502613, "loss": 0.4863, "step": 13420 }, { "epoch": 35.81333333333333, "grad_norm": 0.3125, "learning_rate": 0.0002997797878315617, "loss": 0.4714, "step": 13430 }, { "epoch": 35.84, "grad_norm": 0.306640625, "learning_rate": 0.0002997794471349434, "loss": 0.4779, "step": 13440 }, { "epoch": 35.86666666666667, "grad_norm": 0.265625, "learning_rate": 0.0002997791061751719, "loss": 0.4774, "step": 13450 }, { "epoch": 35.89333333333333, "grad_norm": 0.33203125, "learning_rate": 0.0002997787649522478, "loss": 0.4679, "step": 13460 }, { "epoch": 35.92, "grad_norm": 0.376953125, "learning_rate": 0.00029977842346617164, "loss": 0.4774, "step": 13470 }, { "epoch": 35.946666666666665, "grad_norm": 0.267578125, "learning_rate": 0.0002997780817169441, "loss": 0.4706, "step": 13480 }, { "epoch": 35.973333333333336, "grad_norm": 0.34375, "learning_rate": 0.00029977773970456565, "loss": 0.4821, "step": 13490 }, { "epoch": 36.0, "grad_norm": 0.283203125, "learning_rate": 0.00029977739742903704, "loss": 0.4707, "step": 13500 }, { "epoch": 36.0, "eval_loss": 0.4858068525791168, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.3774, "eval_samples_per_second": 1.542, "eval_steps_per_second": 0.096, "step": 13500 }, { "epoch": 36.026666666666664, "grad_norm": 0.3671875, "learning_rate": 0.0002997770548903588, "loss": 0.4907, "step": 13510 }, { "epoch": 36.053333333333335, "grad_norm": 0.28515625, "learning_rate": 0.0002997767120885315, "loss": 0.4971, "step": 13520 }, { "epoch": 36.08, "grad_norm": 0.271484375, "learning_rate": 0.0002997763690235558, "loss": 0.4841, "step": 13530 }, { "epoch": 36.10666666666667, "grad_norm": 0.27734375, "learning_rate": 0.00029977602569543235, "loss": 0.4787, "step": 13540 }, { "epoch": 36.13333333333333, "grad_norm": 0.2265625, "learning_rate": 0.00029977568210416163, "loss": 0.4803, "step": 13550 }, { "epoch": 36.16, "grad_norm": 0.373046875, "learning_rate": 0.0002997753382497443, "loss": 0.4852, "step": 13560 }, { "epoch": 36.18666666666667, "grad_norm": 0.28515625, "learning_rate": 0.000299774994132181, "loss": 0.4768, "step": 13570 }, { "epoch": 36.21333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029977464975147224, "loss": 0.4719, "step": 13580 }, { "epoch": 36.24, "grad_norm": 0.28125, "learning_rate": 0.00029977430510761874, "loss": 0.4748, "step": 13590 }, { "epoch": 36.266666666666666, "grad_norm": 0.255859375, "learning_rate": 0.00029977396020062103, "loss": 0.4798, "step": 13600 }, { "epoch": 36.29333333333334, "grad_norm": 0.29296875, "learning_rate": 0.00029977361503047976, "loss": 0.474, "step": 13610 }, { "epoch": 36.32, "grad_norm": 0.396484375, "learning_rate": 0.00029977326959719546, "loss": 0.4773, "step": 13620 }, { "epoch": 36.346666666666664, "grad_norm": 0.296875, "learning_rate": 0.00029977292390076884, "loss": 0.4857, "step": 13630 }, { "epoch": 36.373333333333335, "grad_norm": 0.265625, "learning_rate": 0.00029977257794120045, "loss": 0.4823, "step": 13640 }, { "epoch": 36.4, "grad_norm": 0.310546875, "learning_rate": 0.0002997722317184909, "loss": 0.478, "step": 13650 }, { "epoch": 36.42666666666667, "grad_norm": 0.298828125, "learning_rate": 0.00029977188523264077, "loss": 0.4842, "step": 13660 }, { "epoch": 36.45333333333333, "grad_norm": 0.234375, "learning_rate": 0.00029977153848365074, "loss": 0.4866, "step": 13670 }, { "epoch": 36.48, "grad_norm": 0.2431640625, "learning_rate": 0.00029977119147152136, "loss": 0.4933, "step": 13680 }, { "epoch": 36.50666666666667, "grad_norm": 0.306640625, "learning_rate": 0.00029977084419625325, "loss": 0.4826, "step": 13690 }, { "epoch": 36.53333333333333, "grad_norm": 0.251953125, "learning_rate": 0.00029977049665784705, "loss": 0.4756, "step": 13700 }, { "epoch": 36.56, "grad_norm": 0.240234375, "learning_rate": 0.0002997701488563034, "loss": 0.4773, "step": 13710 }, { "epoch": 36.586666666666666, "grad_norm": 0.3125, "learning_rate": 0.0002997698007916228, "loss": 0.4721, "step": 13720 }, { "epoch": 36.61333333333333, "grad_norm": 0.279296875, "learning_rate": 0.000299769452463806, "loss": 0.4582, "step": 13730 }, { "epoch": 36.64, "grad_norm": 0.216796875, "learning_rate": 0.00029976910387285343, "loss": 0.4634, "step": 13740 }, { "epoch": 36.666666666666664, "grad_norm": 0.1875, "learning_rate": 0.00029976875501876583, "loss": 0.4796, "step": 13750 }, { "epoch": 36.693333333333335, "grad_norm": 0.193359375, "learning_rate": 0.00029976840590154383, "loss": 0.4618, "step": 13760 }, { "epoch": 36.72, "grad_norm": 0.267578125, "learning_rate": 0.000299768056521188, "loss": 0.4789, "step": 13770 }, { "epoch": 36.74666666666667, "grad_norm": 0.400390625, "learning_rate": 0.00029976770687769894, "loss": 0.4837, "step": 13780 }, { "epoch": 36.77333333333333, "grad_norm": 0.375, "learning_rate": 0.00029976735697107736, "loss": 0.4919, "step": 13790 }, { "epoch": 36.8, "grad_norm": 0.267578125, "learning_rate": 0.0002997670068013237, "loss": 0.4775, "step": 13800 }, { "epoch": 36.82666666666667, "grad_norm": 0.2333984375, "learning_rate": 0.0002997666563684387, "loss": 0.4727, "step": 13810 }, { "epoch": 36.85333333333333, "grad_norm": 0.328125, "learning_rate": 0.000299766305672423, "loss": 0.4822, "step": 13820 }, { "epoch": 36.88, "grad_norm": 0.2578125, "learning_rate": 0.0002997659547132771, "loss": 0.4692, "step": 13830 }, { "epoch": 36.906666666666666, "grad_norm": 0.384765625, "learning_rate": 0.0002997656034910017, "loss": 0.4721, "step": 13840 }, { "epoch": 36.93333333333333, "grad_norm": 0.224609375, "learning_rate": 0.00029976525200559745, "loss": 0.4734, "step": 13850 }, { "epoch": 36.96, "grad_norm": 0.2373046875, "learning_rate": 0.00029976490025706486, "loss": 0.4716, "step": 13860 }, { "epoch": 36.986666666666665, "grad_norm": 0.220703125, "learning_rate": 0.0002997645482454046, "loss": 0.4849, "step": 13870 }, { "epoch": 37.0, "eval_loss": 0.485599547624588, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.5734, "eval_samples_per_second": 1.513, "eval_steps_per_second": 0.095, "step": 13875 }, { "epoch": 37.013333333333335, "grad_norm": 0.349609375, "learning_rate": 0.0002997641959706173, "loss": 0.474, "step": 13880 }, { "epoch": 37.04, "grad_norm": 0.310546875, "learning_rate": 0.0002997638434327036, "loss": 0.4988, "step": 13890 }, { "epoch": 37.06666666666667, "grad_norm": 0.3671875, "learning_rate": 0.000299763490631664, "loss": 0.4861, "step": 13900 }, { "epoch": 37.093333333333334, "grad_norm": 0.302734375, "learning_rate": 0.00029976313756749937, "loss": 0.4811, "step": 13910 }, { "epoch": 37.12, "grad_norm": 0.2890625, "learning_rate": 0.00029976278424021007, "loss": 0.4768, "step": 13920 }, { "epoch": 37.14666666666667, "grad_norm": 0.34765625, "learning_rate": 0.0002997624306497968, "loss": 0.4863, "step": 13930 }, { "epoch": 37.17333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0002997620767962603, "loss": 0.4767, "step": 13940 }, { "epoch": 37.2, "grad_norm": 0.294921875, "learning_rate": 0.000299761722679601, "loss": 0.4749, "step": 13950 }, { "epoch": 37.22666666666667, "grad_norm": 0.24609375, "learning_rate": 0.00029976136829981963, "loss": 0.4727, "step": 13960 }, { "epoch": 37.25333333333333, "grad_norm": 0.2353515625, "learning_rate": 0.00029976101365691686, "loss": 0.4726, "step": 13970 }, { "epoch": 37.28, "grad_norm": 0.328125, "learning_rate": 0.00029976065875089323, "loss": 0.4863, "step": 13980 }, { "epoch": 37.306666666666665, "grad_norm": 0.298828125, "learning_rate": 0.00029976030358174936, "loss": 0.4676, "step": 13990 }, { "epoch": 37.333333333333336, "grad_norm": 0.263671875, "learning_rate": 0.00029975994814948593, "loss": 0.4835, "step": 14000 }, { "epoch": 37.36, "grad_norm": 0.302734375, "learning_rate": 0.0002997595924541035, "loss": 0.4859, "step": 14010 }, { "epoch": 37.38666666666666, "grad_norm": 0.306640625, "learning_rate": 0.00029975923649560275, "loss": 0.4769, "step": 14020 }, { "epoch": 37.413333333333334, "grad_norm": 0.2578125, "learning_rate": 0.0002997588802739843, "loss": 0.4809, "step": 14030 }, { "epoch": 37.44, "grad_norm": 0.234375, "learning_rate": 0.00029975852378924875, "loss": 0.4837, "step": 14040 }, { "epoch": 37.46666666666667, "grad_norm": 0.263671875, "learning_rate": 0.00029975816704139673, "loss": 0.4936, "step": 14050 }, { "epoch": 37.49333333333333, "grad_norm": 0.29296875, "learning_rate": 0.0002997578100304289, "loss": 0.4846, "step": 14060 }, { "epoch": 37.52, "grad_norm": 0.265625, "learning_rate": 0.0002997574527563458, "loss": 0.4793, "step": 14070 }, { "epoch": 37.54666666666667, "grad_norm": 0.2236328125, "learning_rate": 0.00029975709521914816, "loss": 0.4752, "step": 14080 }, { "epoch": 37.57333333333333, "grad_norm": 0.22265625, "learning_rate": 0.0002997567374188366, "loss": 0.4751, "step": 14090 }, { "epoch": 37.6, "grad_norm": 0.283203125, "learning_rate": 0.00029975637935541165, "loss": 0.4687, "step": 14100 }, { "epoch": 37.626666666666665, "grad_norm": 0.322265625, "learning_rate": 0.0002997560210288741, "loss": 0.4549, "step": 14110 }, { "epoch": 37.653333333333336, "grad_norm": 0.3828125, "learning_rate": 0.00029975566243922437, "loss": 0.4743, "step": 14120 }, { "epoch": 37.68, "grad_norm": 0.2255859375, "learning_rate": 0.0002997553035864633, "loss": 0.4666, "step": 14130 }, { "epoch": 37.70666666666666, "grad_norm": 0.310546875, "learning_rate": 0.00029975494447059137, "loss": 0.4671, "step": 14140 }, { "epoch": 37.733333333333334, "grad_norm": 0.212890625, "learning_rate": 0.0002997545850916093, "loss": 0.4861, "step": 14150 }, { "epoch": 37.76, "grad_norm": 0.4296875, "learning_rate": 0.0002997542254495177, "loss": 0.4875, "step": 14160 }, { "epoch": 37.78666666666667, "grad_norm": 0.349609375, "learning_rate": 0.0002997538655443171, "loss": 0.4864, "step": 14170 }, { "epoch": 37.81333333333333, "grad_norm": 0.271484375, "learning_rate": 0.0002997535053760083, "loss": 0.4709, "step": 14180 }, { "epoch": 37.84, "grad_norm": 0.318359375, "learning_rate": 0.0002997531449445918, "loss": 0.4773, "step": 14190 }, { "epoch": 37.86666666666667, "grad_norm": 0.25, "learning_rate": 0.00029975278425006834, "loss": 0.4767, "step": 14200 }, { "epoch": 37.89333333333333, "grad_norm": 0.265625, "learning_rate": 0.0002997524232924385, "loss": 0.4668, "step": 14210 }, { "epoch": 37.92, "grad_norm": 0.30078125, "learning_rate": 0.00029975206207170284, "loss": 0.4772, "step": 14220 }, { "epoch": 37.946666666666665, "grad_norm": 0.2275390625, "learning_rate": 0.00029975170058786215, "loss": 0.4692, "step": 14230 }, { "epoch": 37.973333333333336, "grad_norm": 0.1904296875, "learning_rate": 0.000299751338840917, "loss": 0.4809, "step": 14240 }, { "epoch": 38.0, "grad_norm": 0.275390625, "learning_rate": 0.000299750976830868, "loss": 0.4702, "step": 14250 }, { "epoch": 38.0, "eval_loss": 0.48388516902923584, "eval_model_preparation_time": 0.0016, "eval_runtime": 11.8805, "eval_samples_per_second": 1.347, "eval_steps_per_second": 0.084, "step": 14250 }, { "epoch": 38.026666666666664, "grad_norm": 0.2099609375, "learning_rate": 0.0002997506145577157, "loss": 0.4898, "step": 14260 }, { "epoch": 38.053333333333335, "grad_norm": 0.271484375, "learning_rate": 0.000299750252021461, "loss": 0.4959, "step": 14270 }, { "epoch": 38.08, "grad_norm": 0.25390625, "learning_rate": 0.0002997498892221042, "loss": 0.4826, "step": 14280 }, { "epoch": 38.10666666666667, "grad_norm": 0.234375, "learning_rate": 0.0002997495261596462, "loss": 0.478, "step": 14290 }, { "epoch": 38.13333333333333, "grad_norm": 0.2119140625, "learning_rate": 0.00029974916283408756, "loss": 0.4796, "step": 14300 }, { "epoch": 38.16, "grad_norm": 0.244140625, "learning_rate": 0.00029974879924542886, "loss": 0.4838, "step": 14310 }, { "epoch": 38.18666666666667, "grad_norm": 0.2451171875, "learning_rate": 0.0002997484353936708, "loss": 0.476, "step": 14320 }, { "epoch": 38.21333333333333, "grad_norm": 0.2890625, "learning_rate": 0.000299748071278814, "loss": 0.4706, "step": 14330 }, { "epoch": 38.24, "grad_norm": 0.287109375, "learning_rate": 0.0002997477069008591, "loss": 0.4757, "step": 14340 }, { "epoch": 38.266666666666666, "grad_norm": 0.365234375, "learning_rate": 0.00029974734225980676, "loss": 0.4785, "step": 14350 }, { "epoch": 38.29333333333334, "grad_norm": 0.24609375, "learning_rate": 0.0002997469773556576, "loss": 0.473, "step": 14360 }, { "epoch": 38.32, "grad_norm": 0.240234375, "learning_rate": 0.0002997466121884122, "loss": 0.4763, "step": 14370 }, { "epoch": 38.346666666666664, "grad_norm": 0.216796875, "learning_rate": 0.0002997462467580714, "loss": 0.4852, "step": 14380 }, { "epoch": 38.373333333333335, "grad_norm": 0.318359375, "learning_rate": 0.00029974588106463555, "loss": 0.4808, "step": 14390 }, { "epoch": 38.4, "grad_norm": 0.34375, "learning_rate": 0.00029974551510810555, "loss": 0.4773, "step": 14400 }, { "epoch": 38.42666666666667, "grad_norm": 0.2734375, "learning_rate": 0.0002997451488884819, "loss": 0.4839, "step": 14410 }, { "epoch": 38.45333333333333, "grad_norm": 0.251953125, "learning_rate": 0.00029974478240576535, "loss": 0.486, "step": 14420 }, { "epoch": 38.48, "grad_norm": 0.337890625, "learning_rate": 0.00029974441565995644, "loss": 0.4923, "step": 14430 }, { "epoch": 38.50666666666667, "grad_norm": 0.28515625, "learning_rate": 0.0002997440486510558, "loss": 0.4819, "step": 14440 }, { "epoch": 38.53333333333333, "grad_norm": 0.1953125, "learning_rate": 0.00029974368137906417, "loss": 0.475, "step": 14450 }, { "epoch": 38.56, "grad_norm": 0.2431640625, "learning_rate": 0.0002997433138439822, "loss": 0.4767, "step": 14460 }, { "epoch": 38.586666666666666, "grad_norm": 0.267578125, "learning_rate": 0.00029974294604581046, "loss": 0.4724, "step": 14470 }, { "epoch": 38.61333333333333, "grad_norm": 0.236328125, "learning_rate": 0.00029974257798454963, "loss": 0.4582, "step": 14480 }, { "epoch": 38.64, "grad_norm": 0.2236328125, "learning_rate": 0.0002997422096602003, "loss": 0.4631, "step": 14490 }, { "epoch": 38.666666666666664, "grad_norm": 0.201171875, "learning_rate": 0.00029974184107276326, "loss": 0.4781, "step": 14500 }, { "epoch": 38.693333333333335, "grad_norm": 0.341796875, "learning_rate": 0.000299741472222239, "loss": 0.4613, "step": 14510 }, { "epoch": 38.72, "grad_norm": 0.294921875, "learning_rate": 0.00029974110310862826, "loss": 0.4786, "step": 14520 }, { "epoch": 38.74666666666667, "grad_norm": 0.275390625, "learning_rate": 0.00029974073373193166, "loss": 0.483, "step": 14530 }, { "epoch": 38.77333333333333, "grad_norm": 0.345703125, "learning_rate": 0.0002997403640921499, "loss": 0.4916, "step": 14540 }, { "epoch": 38.8, "grad_norm": 0.25, "learning_rate": 0.0002997399941892835, "loss": 0.4777, "step": 14550 }, { "epoch": 38.82666666666667, "grad_norm": 0.294921875, "learning_rate": 0.00029973962402333326, "loss": 0.4716, "step": 14560 }, { "epoch": 38.85333333333333, "grad_norm": 0.5546875, "learning_rate": 0.00029973925359429973, "loss": 0.4814, "step": 14570 }, { "epoch": 38.88, "grad_norm": 0.423828125, "learning_rate": 0.00029973888290218357, "loss": 0.4692, "step": 14580 }, { "epoch": 38.906666666666666, "grad_norm": 0.29296875, "learning_rate": 0.00029973851194698553, "loss": 0.4715, "step": 14590 }, { "epoch": 38.93333333333333, "grad_norm": 0.306640625, "learning_rate": 0.00029973814072870616, "loss": 0.4735, "step": 14600 }, { "epoch": 38.96, "grad_norm": 0.322265625, "learning_rate": 0.00029973776924734606, "loss": 0.4713, "step": 14610 }, { "epoch": 38.986666666666665, "grad_norm": 0.296875, "learning_rate": 0.00029973739750290603, "loss": 0.4846, "step": 14620 }, { "epoch": 39.0, "eval_loss": 0.4854857325553894, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.1291, "eval_samples_per_second": 1.58, "eval_steps_per_second": 0.099, "step": 14625 }, { "epoch": 39.013333333333335, "grad_norm": 0.28125, "learning_rate": 0.0002997370254953867, "loss": 0.4735, "step": 14630 }, { "epoch": 39.04, "grad_norm": 0.25, "learning_rate": 0.0002997366532247886, "loss": 0.4984, "step": 14640 }, { "epoch": 39.06666666666667, "grad_norm": 0.388671875, "learning_rate": 0.0002997362806911125, "loss": 0.4856, "step": 14650 }, { "epoch": 39.093333333333334, "grad_norm": 0.27734375, "learning_rate": 0.000299735907894359, "loss": 0.481, "step": 14660 }, { "epoch": 39.12, "grad_norm": 0.255859375, "learning_rate": 0.00029973553483452875, "loss": 0.4766, "step": 14670 }, { "epoch": 39.14666666666667, "grad_norm": 0.2470703125, "learning_rate": 0.0002997351615116225, "loss": 0.4856, "step": 14680 }, { "epoch": 39.17333333333333, "grad_norm": 0.365234375, "learning_rate": 0.0002997347879256408, "loss": 0.4766, "step": 14690 }, { "epoch": 39.2, "grad_norm": 0.3203125, "learning_rate": 0.00029973441407658434, "loss": 0.475, "step": 14700 }, { "epoch": 39.22666666666667, "grad_norm": 0.34765625, "learning_rate": 0.0002997340399644538, "loss": 0.473, "step": 14710 }, { "epoch": 39.25333333333333, "grad_norm": 0.2734375, "learning_rate": 0.00029973366558924973, "loss": 0.4719, "step": 14720 }, { "epoch": 39.28, "grad_norm": 0.396484375, "learning_rate": 0.00029973329095097295, "loss": 0.4861, "step": 14730 }, { "epoch": 39.306666666666665, "grad_norm": 0.5234375, "learning_rate": 0.000299732916049624, "loss": 0.4677, "step": 14740 }, { "epoch": 39.333333333333336, "grad_norm": 0.47265625, "learning_rate": 0.00029973254088520363, "loss": 0.4827, "step": 14750 }, { "epoch": 39.36, "grad_norm": 0.38671875, "learning_rate": 0.0002997321654577124, "loss": 0.4844, "step": 14760 }, { "epoch": 39.38666666666666, "grad_norm": 0.3984375, "learning_rate": 0.000299731789767151, "loss": 0.4765, "step": 14770 }, { "epoch": 39.413333333333334, "grad_norm": 0.36328125, "learning_rate": 0.00029973141381352015, "loss": 0.4805, "step": 14780 }, { "epoch": 39.44, "grad_norm": 0.34375, "learning_rate": 0.0002997310375968205, "loss": 0.4841, "step": 14790 }, { "epoch": 39.46666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002997306611170526, "loss": 0.4931, "step": 14800 }, { "epoch": 39.49333333333333, "grad_norm": 0.384765625, "learning_rate": 0.00029973028437421727, "loss": 0.4843, "step": 14810 }, { "epoch": 39.52, "grad_norm": 0.263671875, "learning_rate": 0.000299729907368315, "loss": 0.4787, "step": 14820 }, { "epoch": 39.54666666666667, "grad_norm": 0.267578125, "learning_rate": 0.0002997295300993466, "loss": 0.4752, "step": 14830 }, { "epoch": 39.57333333333333, "grad_norm": 0.25390625, "learning_rate": 0.00029972915256731267, "loss": 0.475, "step": 14840 }, { "epoch": 39.6, "grad_norm": 0.318359375, "learning_rate": 0.0002997287747722139, "loss": 0.4684, "step": 14850 }, { "epoch": 39.626666666666665, "grad_norm": 0.2353515625, "learning_rate": 0.00029972839671405096, "loss": 0.4547, "step": 14860 }, { "epoch": 39.653333333333336, "grad_norm": 0.326171875, "learning_rate": 0.0002997280183928244, "loss": 0.4749, "step": 14870 }, { "epoch": 39.68, "grad_norm": 0.341796875, "learning_rate": 0.000299727639808535, "loss": 0.4658, "step": 14880 }, { "epoch": 39.70666666666666, "grad_norm": 0.3515625, "learning_rate": 0.00029972726096118345, "loss": 0.4669, "step": 14890 }, { "epoch": 39.733333333333334, "grad_norm": 0.373046875, "learning_rate": 0.0002997268818507703, "loss": 0.4863, "step": 14900 }, { "epoch": 39.76, "grad_norm": 0.259765625, "learning_rate": 0.00029972650247729637, "loss": 0.4868, "step": 14910 }, { "epoch": 39.78666666666667, "grad_norm": 0.328125, "learning_rate": 0.00029972612284076214, "loss": 0.4858, "step": 14920 }, { "epoch": 39.81333333333333, "grad_norm": 0.30078125, "learning_rate": 0.0002997257429411684, "loss": 0.471, "step": 14930 }, { "epoch": 39.84, "grad_norm": 0.390625, "learning_rate": 0.0002997253627785158, "loss": 0.4763, "step": 14940 }, { "epoch": 39.86666666666667, "grad_norm": 0.1767578125, "learning_rate": 0.000299724982352805, "loss": 0.4761, "step": 14950 }, { "epoch": 39.89333333333333, "grad_norm": 0.236328125, "learning_rate": 0.0002997246016640367, "loss": 0.4667, "step": 14960 }, { "epoch": 39.92, "grad_norm": 0.359375, "learning_rate": 0.00029972422071221155, "loss": 0.477, "step": 14970 }, { "epoch": 39.946666666666665, "grad_norm": 0.25, "learning_rate": 0.00029972383949733016, "loss": 0.4695, "step": 14980 }, { "epoch": 39.973333333333336, "grad_norm": 0.328125, "learning_rate": 0.00029972345801939325, "loss": 0.481, "step": 14990 }, { "epoch": 40.0, "grad_norm": 0.2197265625, "learning_rate": 0.0002997230762784015, "loss": 0.4699, "step": 15000 }, { "epoch": 40.0, "eval_loss": 0.4851369857788086, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.0451, "eval_samples_per_second": 1.593, "eval_steps_per_second": 0.1, "step": 15000 }, { "epoch": 40.026666666666664, "grad_norm": 0.333984375, "learning_rate": 0.00029972269427435555, "loss": 0.4896, "step": 15010 }, { "epoch": 40.053333333333335, "grad_norm": 0.26171875, "learning_rate": 0.00029972231200725606, "loss": 0.4955, "step": 15020 }, { "epoch": 40.08, "grad_norm": 0.244140625, "learning_rate": 0.00029972192947710376, "loss": 0.4827, "step": 15030 }, { "epoch": 40.10666666666667, "grad_norm": 0.345703125, "learning_rate": 0.0002997215466838993, "loss": 0.4776, "step": 15040 }, { "epoch": 40.13333333333333, "grad_norm": 0.271484375, "learning_rate": 0.00029972116362764336, "loss": 0.4788, "step": 15050 }, { "epoch": 40.16, "grad_norm": 0.294921875, "learning_rate": 0.00029972078030833656, "loss": 0.4838, "step": 15060 }, { "epoch": 40.18666666666667, "grad_norm": 0.369140625, "learning_rate": 0.00029972039672597966, "loss": 0.4755, "step": 15070 }, { "epoch": 40.21333333333333, "grad_norm": 0.287109375, "learning_rate": 0.0002997200128805732, "loss": 0.4709, "step": 15080 }, { "epoch": 40.24, "grad_norm": 0.30078125, "learning_rate": 0.000299719628772118, "loss": 0.4746, "step": 15090 }, { "epoch": 40.266666666666666, "grad_norm": 0.333984375, "learning_rate": 0.0002997192444006147, "loss": 0.4784, "step": 15100 }, { "epoch": 40.29333333333334, "grad_norm": 0.263671875, "learning_rate": 0.0002997188597660639, "loss": 0.4723, "step": 15110 }, { "epoch": 40.32, "grad_norm": 0.1923828125, "learning_rate": 0.00029971847486846636, "loss": 0.4766, "step": 15120 }, { "epoch": 40.346666666666664, "grad_norm": 0.322265625, "learning_rate": 0.00029971808970782264, "loss": 0.4845, "step": 15130 }, { "epoch": 40.373333333333335, "grad_norm": 0.42578125, "learning_rate": 0.0002997177042841336, "loss": 0.4809, "step": 15140 }, { "epoch": 40.4, "grad_norm": 0.2890625, "learning_rate": 0.00029971731859739973, "loss": 0.4772, "step": 15150 }, { "epoch": 40.42666666666667, "grad_norm": 0.34765625, "learning_rate": 0.00029971693264762184, "loss": 0.4825, "step": 15160 }, { "epoch": 40.45333333333333, "grad_norm": 0.22265625, "learning_rate": 0.00029971654643480057, "loss": 0.4853, "step": 15170 }, { "epoch": 40.48, "grad_norm": 0.265625, "learning_rate": 0.00029971615995893656, "loss": 0.492, "step": 15180 }, { "epoch": 40.50666666666667, "grad_norm": 0.275390625, "learning_rate": 0.0002997157732200305, "loss": 0.4809, "step": 15190 }, { "epoch": 40.53333333333333, "grad_norm": 0.228515625, "learning_rate": 0.00029971538621808316, "loss": 0.4752, "step": 15200 }, { "epoch": 40.56, "grad_norm": 0.2099609375, "learning_rate": 0.0002997149989530951, "loss": 0.476, "step": 15210 }, { "epoch": 40.586666666666666, "grad_norm": 0.46484375, "learning_rate": 0.00029971461142506707, "loss": 0.472, "step": 15220 }, { "epoch": 40.61333333333333, "grad_norm": 0.251953125, "learning_rate": 0.00029971422363399974, "loss": 0.4579, "step": 15230 }, { "epoch": 40.64, "grad_norm": 0.328125, "learning_rate": 0.0002997138355798937, "loss": 0.4625, "step": 15240 }, { "epoch": 40.666666666666664, "grad_norm": 0.29296875, "learning_rate": 0.0002997134472627498, "loss": 0.4782, "step": 15250 }, { "epoch": 40.693333333333335, "grad_norm": 0.291015625, "learning_rate": 0.0002997130586825686, "loss": 0.4606, "step": 15260 }, { "epoch": 40.72, "grad_norm": 0.447265625, "learning_rate": 0.0002997126698393508, "loss": 0.478, "step": 15270 }, { "epoch": 40.74666666666667, "grad_norm": 0.2734375, "learning_rate": 0.00029971228073309713, "loss": 0.4829, "step": 15280 }, { "epoch": 40.77333333333333, "grad_norm": 0.287109375, "learning_rate": 0.00029971189136380826, "loss": 0.4905, "step": 15290 }, { "epoch": 40.8, "grad_norm": 0.2451171875, "learning_rate": 0.0002997115017314848, "loss": 0.4768, "step": 15300 }, { "epoch": 40.82666666666667, "grad_norm": 0.2490234375, "learning_rate": 0.0002997111118361275, "loss": 0.4717, "step": 15310 }, { "epoch": 40.85333333333333, "grad_norm": 0.27734375, "learning_rate": 0.00029971072167773706, "loss": 0.4813, "step": 15320 }, { "epoch": 40.88, "grad_norm": 0.232421875, "learning_rate": 0.00029971033125631417, "loss": 0.4684, "step": 15330 }, { "epoch": 40.906666666666666, "grad_norm": 0.291015625, "learning_rate": 0.00029970994057185944, "loss": 0.4712, "step": 15340 }, { "epoch": 40.93333333333333, "grad_norm": 0.25390625, "learning_rate": 0.00029970954962437363, "loss": 0.4729, "step": 15350 }, { "epoch": 40.96, "grad_norm": 0.384765625, "learning_rate": 0.00029970915841385744, "loss": 0.4708, "step": 15360 }, { "epoch": 40.986666666666665, "grad_norm": 0.384765625, "learning_rate": 0.0002997087669403114, "loss": 0.4847, "step": 15370 }, { "epoch": 41.0, "eval_loss": 0.48485177755355835, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.1975, "eval_samples_per_second": 1.569, "eval_steps_per_second": 0.098, "step": 15375 }, { "epoch": 41.013333333333335, "grad_norm": 0.2392578125, "learning_rate": 0.00029970837520373645, "loss": 0.4734, "step": 15380 }, { "epoch": 41.04, "grad_norm": 0.341796875, "learning_rate": 0.0002997079832041331, "loss": 0.4973, "step": 15390 }, { "epoch": 41.06666666666667, "grad_norm": 0.240234375, "learning_rate": 0.000299707590941502, "loss": 0.4856, "step": 15400 }, { "epoch": 41.093333333333334, "grad_norm": 0.2373046875, "learning_rate": 0.00029970719841584405, "loss": 0.4804, "step": 15410 }, { "epoch": 41.12, "grad_norm": 0.26953125, "learning_rate": 0.00029970680562715977, "loss": 0.4759, "step": 15420 }, { "epoch": 41.14666666666667, "grad_norm": 0.30859375, "learning_rate": 0.0002997064125754499, "loss": 0.485, "step": 15430 }, { "epoch": 41.17333333333333, "grad_norm": 0.34765625, "learning_rate": 0.0002997060192607151, "loss": 0.4758, "step": 15440 }, { "epoch": 41.2, "grad_norm": 0.275390625, "learning_rate": 0.00029970562568295607, "loss": 0.4742, "step": 15450 }, { "epoch": 41.22666666666667, "grad_norm": 0.265625, "learning_rate": 0.00029970523184217354, "loss": 0.4717, "step": 15460 }, { "epoch": 41.25333333333333, "grad_norm": 0.251953125, "learning_rate": 0.00029970483773836823, "loss": 0.4713, "step": 15470 }, { "epoch": 41.28, "grad_norm": 0.291015625, "learning_rate": 0.00029970444337154074, "loss": 0.4845, "step": 15480 }, { "epoch": 41.306666666666665, "grad_norm": 0.228515625, "learning_rate": 0.00029970404874169176, "loss": 0.4668, "step": 15490 }, { "epoch": 41.333333333333336, "grad_norm": 0.462890625, "learning_rate": 0.00029970365384882205, "loss": 0.4827, "step": 15500 }, { "epoch": 41.36, "grad_norm": 0.244140625, "learning_rate": 0.0002997032586929323, "loss": 0.4837, "step": 15510 }, { "epoch": 41.38666666666666, "grad_norm": 0.25390625, "learning_rate": 0.0002997028632740232, "loss": 0.4762, "step": 15520 }, { "epoch": 41.413333333333334, "grad_norm": 0.28515625, "learning_rate": 0.0002997024675920954, "loss": 0.4795, "step": 15530 }, { "epoch": 41.44, "grad_norm": 0.265625, "learning_rate": 0.0002997020716471496, "loss": 0.4835, "step": 15540 }, { "epoch": 41.46666666666667, "grad_norm": 0.32421875, "learning_rate": 0.00029970167543918655, "loss": 0.4927, "step": 15550 }, { "epoch": 41.49333333333333, "grad_norm": 0.35546875, "learning_rate": 0.00029970127896820697, "loss": 0.4844, "step": 15560 }, { "epoch": 41.52, "grad_norm": 0.2421875, "learning_rate": 0.00029970088223421143, "loss": 0.4781, "step": 15570 }, { "epoch": 41.54666666666667, "grad_norm": 0.380859375, "learning_rate": 0.0002997004852372007, "loss": 0.4749, "step": 15580 }, { "epoch": 41.57333333333333, "grad_norm": 0.2578125, "learning_rate": 0.0002997000879771755, "loss": 0.4742, "step": 15590 }, { "epoch": 41.6, "grad_norm": 0.27734375, "learning_rate": 0.0002996996904541365, "loss": 0.467, "step": 15600 }, { "epoch": 41.626666666666665, "grad_norm": 0.341796875, "learning_rate": 0.0002996992926680844, "loss": 0.4539, "step": 15610 }, { "epoch": 41.653333333333336, "grad_norm": 0.279296875, "learning_rate": 0.0002996988946190199, "loss": 0.4741, "step": 15620 }, { "epoch": 41.68, "grad_norm": 0.333984375, "learning_rate": 0.0002996984963069437, "loss": 0.4655, "step": 15630 }, { "epoch": 41.70666666666666, "grad_norm": 0.30859375, "learning_rate": 0.00029969809773185656, "loss": 0.4663, "step": 15640 }, { "epoch": 41.733333333333334, "grad_norm": 0.296875, "learning_rate": 0.00029969769889375903, "loss": 0.4859, "step": 15650 }, { "epoch": 41.76, "grad_norm": 0.32421875, "learning_rate": 0.000299697299792652, "loss": 0.487, "step": 15660 }, { "epoch": 41.78666666666667, "grad_norm": 0.42578125, "learning_rate": 0.000299696900428536, "loss": 0.4858, "step": 15670 }, { "epoch": 41.81333333333333, "grad_norm": 0.376953125, "learning_rate": 0.00029969650080141185, "loss": 0.4703, "step": 15680 }, { "epoch": 41.84, "grad_norm": 0.388671875, "learning_rate": 0.00029969610091128016, "loss": 0.4762, "step": 15690 }, { "epoch": 41.86666666666667, "grad_norm": 0.31640625, "learning_rate": 0.0002996957007581418, "loss": 0.4758, "step": 15700 }, { "epoch": 41.89333333333333, "grad_norm": 0.1943359375, "learning_rate": 0.0002996953003419972, "loss": 0.466, "step": 15710 }, { "epoch": 41.92, "grad_norm": 0.349609375, "learning_rate": 0.0002996948996628473, "loss": 0.4765, "step": 15720 }, { "epoch": 41.946666666666665, "grad_norm": 0.248046875, "learning_rate": 0.00029969449872069265, "loss": 0.4692, "step": 15730 }, { "epoch": 41.973333333333336, "grad_norm": 0.337890625, "learning_rate": 0.0002996940975155341, "loss": 0.4812, "step": 15740 }, { "epoch": 42.0, "grad_norm": 0.275390625, "learning_rate": 0.00029969369604737226, "loss": 0.47, "step": 15750 }, { "epoch": 42.0, "eval_loss": 0.48487091064453125, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.314, "eval_samples_per_second": 1.718, "eval_steps_per_second": 0.107, "step": 15750 }, { "epoch": 42.026666666666664, "grad_norm": 0.22265625, "learning_rate": 0.00029969329431620787, "loss": 0.4887, "step": 15760 }, { "epoch": 42.053333333333335, "grad_norm": 0.330078125, "learning_rate": 0.0002996928923220416, "loss": 0.4949, "step": 15770 }, { "epoch": 42.08, "grad_norm": 0.291015625, "learning_rate": 0.00029969249006487416, "loss": 0.4822, "step": 15780 }, { "epoch": 42.10666666666667, "grad_norm": 0.30078125, "learning_rate": 0.00029969208754470635, "loss": 0.4768, "step": 15790 }, { "epoch": 42.13333333333333, "grad_norm": 0.546875, "learning_rate": 0.00029969168476153875, "loss": 0.4793, "step": 15800 }, { "epoch": 42.16, "grad_norm": 0.390625, "learning_rate": 0.0002996912817153721, "loss": 0.4829, "step": 15810 }, { "epoch": 42.18666666666667, "grad_norm": 0.28515625, "learning_rate": 0.00029969087840620717, "loss": 0.4756, "step": 15820 }, { "epoch": 42.21333333333333, "grad_norm": 0.228515625, "learning_rate": 0.0002996904748340446, "loss": 0.4707, "step": 15830 }, { "epoch": 42.24, "grad_norm": 0.23046875, "learning_rate": 0.00029969007099888513, "loss": 0.4746, "step": 15840 }, { "epoch": 42.266666666666666, "grad_norm": 0.25, "learning_rate": 0.0002996896669007294, "loss": 0.4777, "step": 15850 }, { "epoch": 42.29333333333334, "grad_norm": 0.306640625, "learning_rate": 0.0002996892625395783, "loss": 0.4722, "step": 15860 }, { "epoch": 42.32, "grad_norm": 0.26953125, "learning_rate": 0.0002996888579154324, "loss": 0.4754, "step": 15870 }, { "epoch": 42.346666666666664, "grad_norm": 0.380859375, "learning_rate": 0.0002996884530282924, "loss": 0.4841, "step": 15880 }, { "epoch": 42.373333333333335, "grad_norm": 0.326171875, "learning_rate": 0.00029968804787815906, "loss": 0.4809, "step": 15890 }, { "epoch": 42.4, "grad_norm": 0.3203125, "learning_rate": 0.0002996876424650331, "loss": 0.4761, "step": 15900 }, { "epoch": 42.42666666666667, "grad_norm": 0.3359375, "learning_rate": 0.00029968723678891517, "loss": 0.4831, "step": 15910 }, { "epoch": 42.45333333333333, "grad_norm": 0.314453125, "learning_rate": 0.000299686830849806, "loss": 0.4846, "step": 15920 }, { "epoch": 42.48, "grad_norm": 0.291015625, "learning_rate": 0.0002996864246477064, "loss": 0.4915, "step": 15930 }, { "epoch": 42.50666666666667, "grad_norm": 0.400390625, "learning_rate": 0.000299686018182617, "loss": 0.481, "step": 15940 }, { "epoch": 42.53333333333333, "grad_norm": 0.25390625, "learning_rate": 0.00029968561145453853, "loss": 0.4742, "step": 15950 }, { "epoch": 42.56, "grad_norm": 0.25390625, "learning_rate": 0.00029968520446347165, "loss": 0.4758, "step": 15960 }, { "epoch": 42.586666666666666, "grad_norm": 0.22265625, "learning_rate": 0.00029968479720941717, "loss": 0.4712, "step": 15970 }, { "epoch": 42.61333333333333, "grad_norm": 0.2490234375, "learning_rate": 0.00029968438969237574, "loss": 0.4573, "step": 15980 }, { "epoch": 42.64, "grad_norm": 0.193359375, "learning_rate": 0.0002996839819123481, "loss": 0.462, "step": 15990 }, { "epoch": 42.666666666666664, "grad_norm": 0.357421875, "learning_rate": 0.000299683573869335, "loss": 0.478, "step": 16000 }, { "epoch": 42.693333333333335, "grad_norm": 0.279296875, "learning_rate": 0.00029968316556333704, "loss": 0.4604, "step": 16010 }, { "epoch": 42.72, "grad_norm": 0.279296875, "learning_rate": 0.00029968275699435507, "loss": 0.4781, "step": 16020 }, { "epoch": 42.74666666666667, "grad_norm": 0.2294921875, "learning_rate": 0.0002996823481623897, "loss": 0.4821, "step": 16030 }, { "epoch": 42.77333333333333, "grad_norm": 0.390625, "learning_rate": 0.0002996819390674418, "loss": 0.4898, "step": 16040 }, { "epoch": 42.8, "grad_norm": 0.259765625, "learning_rate": 0.0002996815297095119, "loss": 0.4766, "step": 16050 }, { "epoch": 42.82666666666667, "grad_norm": 0.255859375, "learning_rate": 0.0002996811200886009, "loss": 0.4714, "step": 16060 }, { "epoch": 42.85333333333333, "grad_norm": 0.36328125, "learning_rate": 0.00029968071020470936, "loss": 0.4802, "step": 16070 }, { "epoch": 42.88, "grad_norm": 0.35546875, "learning_rate": 0.00029968030005783815, "loss": 0.4679, "step": 16080 }, { "epoch": 42.906666666666666, "grad_norm": 0.248046875, "learning_rate": 0.00029967988964798783, "loss": 0.471, "step": 16090 }, { "epoch": 42.93333333333333, "grad_norm": 0.240234375, "learning_rate": 0.00029967947897515925, "loss": 0.473, "step": 16100 }, { "epoch": 42.96, "grad_norm": 0.33203125, "learning_rate": 0.0002996790680393531, "loss": 0.4701, "step": 16110 }, { "epoch": 42.986666666666665, "grad_norm": 0.4375, "learning_rate": 0.00029967865684057, "loss": 0.4849, "step": 16120 }, { "epoch": 43.0, "eval_loss": 0.4834711253643036, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.4961, "eval_samples_per_second": 1.524, "eval_steps_per_second": 0.095, "step": 16125 }, { "epoch": 43.013333333333335, "grad_norm": 0.462890625, "learning_rate": 0.00029967824537881086, "loss": 0.4742, "step": 16130 }, { "epoch": 43.04, "grad_norm": 0.310546875, "learning_rate": 0.0002996778336540762, "loss": 0.4984, "step": 16140 }, { "epoch": 43.06666666666667, "grad_norm": 0.396484375, "learning_rate": 0.00029967742166636695, "loss": 0.4844, "step": 16150 }, { "epoch": 43.093333333333334, "grad_norm": 0.28515625, "learning_rate": 0.00029967700941568366, "loss": 0.4798, "step": 16160 }, { "epoch": 43.12, "grad_norm": 0.28125, "learning_rate": 0.0002996765969020271, "loss": 0.4762, "step": 16170 }, { "epoch": 43.14666666666667, "grad_norm": 0.439453125, "learning_rate": 0.0002996761841253981, "loss": 0.4852, "step": 16180 }, { "epoch": 43.17333333333333, "grad_norm": 0.30859375, "learning_rate": 0.00029967577108579727, "loss": 0.4754, "step": 16190 }, { "epoch": 43.2, "grad_norm": 0.330078125, "learning_rate": 0.00029967535778322536, "loss": 0.4739, "step": 16200 }, { "epoch": 43.22666666666667, "grad_norm": 0.26953125, "learning_rate": 0.0002996749442176831, "loss": 0.4717, "step": 16210 }, { "epoch": 43.25333333333333, "grad_norm": 0.2353515625, "learning_rate": 0.0002996745303891712, "loss": 0.4714, "step": 16220 }, { "epoch": 43.28, "grad_norm": 0.2353515625, "learning_rate": 0.00029967411629769044, "loss": 0.4848, "step": 16230 }, { "epoch": 43.306666666666665, "grad_norm": 0.27734375, "learning_rate": 0.00029967370194324157, "loss": 0.4656, "step": 16240 }, { "epoch": 43.333333333333336, "grad_norm": 0.2890625, "learning_rate": 0.00029967328732582516, "loss": 0.4818, "step": 16250 }, { "epoch": 43.36, "grad_norm": 0.259765625, "learning_rate": 0.00029967287244544213, "loss": 0.4842, "step": 16260 }, { "epoch": 43.38666666666666, "grad_norm": 0.38671875, "learning_rate": 0.00029967245730209307, "loss": 0.4753, "step": 16270 }, { "epoch": 43.413333333333334, "grad_norm": 0.306640625, "learning_rate": 0.00029967204189577874, "loss": 0.4798, "step": 16280 }, { "epoch": 43.44, "grad_norm": 0.35546875, "learning_rate": 0.00029967162622649996, "loss": 0.4827, "step": 16290 }, { "epoch": 43.46666666666667, "grad_norm": 0.38671875, "learning_rate": 0.0002996712102942574, "loss": 0.4926, "step": 16300 }, { "epoch": 43.49333333333333, "grad_norm": 0.40625, "learning_rate": 0.0002996707940990517, "loss": 0.4836, "step": 16310 }, { "epoch": 43.52, "grad_norm": 0.2177734375, "learning_rate": 0.0002996703776408837, "loss": 0.4777, "step": 16320 }, { "epoch": 43.54666666666667, "grad_norm": 0.2294921875, "learning_rate": 0.0002996699609197541, "loss": 0.4747, "step": 16330 }, { "epoch": 43.57333333333333, "grad_norm": 0.220703125, "learning_rate": 0.0002996695439356636, "loss": 0.4742, "step": 16340 }, { "epoch": 43.6, "grad_norm": 0.25, "learning_rate": 0.00029966912668861307, "loss": 0.4675, "step": 16350 }, { "epoch": 43.626666666666665, "grad_norm": 0.2431640625, "learning_rate": 0.0002996687091786031, "loss": 0.4542, "step": 16360 }, { "epoch": 43.653333333333336, "grad_norm": 0.2216796875, "learning_rate": 0.0002996682914056345, "loss": 0.4736, "step": 16370 }, { "epoch": 43.68, "grad_norm": 0.2314453125, "learning_rate": 0.0002996678733697079, "loss": 0.466, "step": 16380 }, { "epoch": 43.70666666666666, "grad_norm": 0.26171875, "learning_rate": 0.00029966745507082417, "loss": 0.4658, "step": 16390 }, { "epoch": 43.733333333333334, "grad_norm": 0.296875, "learning_rate": 0.0002996670365089839, "loss": 0.4854, "step": 16400 }, { "epoch": 43.76, "grad_norm": 0.392578125, "learning_rate": 0.000299666617684188, "loss": 0.4867, "step": 16410 }, { "epoch": 43.78666666666667, "grad_norm": 0.3046875, "learning_rate": 0.00029966619859643707, "loss": 0.4846, "step": 16420 }, { "epoch": 43.81333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029966577924573186, "loss": 0.4702, "step": 16430 }, { "epoch": 43.84, "grad_norm": 0.333984375, "learning_rate": 0.00029966535963207316, "loss": 0.4756, "step": 16440 }, { "epoch": 43.86666666666667, "grad_norm": 0.22265625, "learning_rate": 0.0002996649397554617, "loss": 0.4759, "step": 16450 }, { "epoch": 43.89333333333333, "grad_norm": 0.2734375, "learning_rate": 0.00029966451961589816, "loss": 0.4658, "step": 16460 }, { "epoch": 43.92, "grad_norm": 0.2197265625, "learning_rate": 0.00029966409921338333, "loss": 0.4766, "step": 16470 }, { "epoch": 43.946666666666665, "grad_norm": 0.296875, "learning_rate": 0.0002996636785479179, "loss": 0.469, "step": 16480 }, { "epoch": 43.973333333333336, "grad_norm": 0.2236328125, "learning_rate": 0.0002996632576195027, "loss": 0.4806, "step": 16490 }, { "epoch": 44.0, "grad_norm": 0.2734375, "learning_rate": 0.00029966283642813836, "loss": 0.4697, "step": 16500 }, { "epoch": 44.0, "eval_loss": 0.48331379890441895, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.0447, "eval_samples_per_second": 1.593, "eval_steps_per_second": 0.1, "step": 16500 }, { "epoch": 44.026666666666664, "grad_norm": 0.2392578125, "learning_rate": 0.0002996624149738257, "loss": 0.4885, "step": 16510 }, { "epoch": 44.053333333333335, "grad_norm": 0.306640625, "learning_rate": 0.0002996619932565655, "loss": 0.4948, "step": 16520 }, { "epoch": 44.08, "grad_norm": 0.2119140625, "learning_rate": 0.00029966157127635836, "loss": 0.4815, "step": 16530 }, { "epoch": 44.10666666666667, "grad_norm": 0.384765625, "learning_rate": 0.0002996611490332051, "loss": 0.4768, "step": 16540 }, { "epoch": 44.13333333333333, "grad_norm": 0.46875, "learning_rate": 0.00029966072652710653, "loss": 0.4786, "step": 16550 }, { "epoch": 44.16, "grad_norm": 0.466796875, "learning_rate": 0.00029966030375806323, "loss": 0.483, "step": 16560 }, { "epoch": 44.18666666666667, "grad_norm": 0.26953125, "learning_rate": 0.0002996598807260761, "loss": 0.4751, "step": 16570 }, { "epoch": 44.21333333333333, "grad_norm": 0.25, "learning_rate": 0.0002996594574311458, "loss": 0.4699, "step": 16580 }, { "epoch": 44.24, "grad_norm": 0.41015625, "learning_rate": 0.0002996590338732731, "loss": 0.4738, "step": 16590 }, { "epoch": 44.266666666666666, "grad_norm": 0.361328125, "learning_rate": 0.0002996586100524587, "loss": 0.4776, "step": 16600 }, { "epoch": 44.29333333333334, "grad_norm": 0.251953125, "learning_rate": 0.0002996581859687034, "loss": 0.4714, "step": 16610 }, { "epoch": 44.32, "grad_norm": 0.28515625, "learning_rate": 0.0002996577616220079, "loss": 0.4754, "step": 16620 }, { "epoch": 44.346666666666664, "grad_norm": 0.302734375, "learning_rate": 0.000299657337012373, "loss": 0.4835, "step": 16630 }, { "epoch": 44.373333333333335, "grad_norm": 0.25, "learning_rate": 0.00029965691213979943, "loss": 0.4795, "step": 16640 }, { "epoch": 44.4, "grad_norm": 0.306640625, "learning_rate": 0.0002996564870042879, "loss": 0.4753, "step": 16650 }, { "epoch": 44.42666666666667, "grad_norm": 0.3515625, "learning_rate": 0.00029965606160583917, "loss": 0.4826, "step": 16660 }, { "epoch": 44.45333333333333, "grad_norm": 0.26171875, "learning_rate": 0.000299655635944454, "loss": 0.485, "step": 16670 }, { "epoch": 44.48, "grad_norm": 0.388671875, "learning_rate": 0.00029965521002013314, "loss": 0.4904, "step": 16680 }, { "epoch": 44.50666666666667, "grad_norm": 0.322265625, "learning_rate": 0.00029965478383287735, "loss": 0.4805, "step": 16690 }, { "epoch": 44.53333333333333, "grad_norm": 0.265625, "learning_rate": 0.00029965435738268736, "loss": 0.4738, "step": 16700 }, { "epoch": 44.56, "grad_norm": 0.2431640625, "learning_rate": 0.0002996539306695639, "loss": 0.4753, "step": 16710 }, { "epoch": 44.586666666666666, "grad_norm": 0.5078125, "learning_rate": 0.00029965350369350773, "loss": 0.4712, "step": 16720 }, { "epoch": 44.61333333333333, "grad_norm": 0.228515625, "learning_rate": 0.0002996530764545197, "loss": 0.457, "step": 16730 }, { "epoch": 44.64, "grad_norm": 0.220703125, "learning_rate": 0.00029965264895260034, "loss": 0.4616, "step": 16740 }, { "epoch": 44.666666666666664, "grad_norm": 0.375, "learning_rate": 0.0002996522211877506, "loss": 0.4769, "step": 16750 }, { "epoch": 44.693333333333335, "grad_norm": 0.2451171875, "learning_rate": 0.0002996517931599712, "loss": 0.4605, "step": 16760 }, { "epoch": 44.72, "grad_norm": 0.30078125, "learning_rate": 0.0002996513648692628, "loss": 0.477, "step": 16770 }, { "epoch": 44.74666666666667, "grad_norm": 0.216796875, "learning_rate": 0.00029965093631562626, "loss": 0.4824, "step": 16780 }, { "epoch": 44.77333333333333, "grad_norm": 0.2734375, "learning_rate": 0.00029965050749906224, "loss": 0.4896, "step": 16790 }, { "epoch": 44.8, "grad_norm": 0.419921875, "learning_rate": 0.0002996500784195715, "loss": 0.476, "step": 16800 }, { "epoch": 44.82666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002996496490771549, "loss": 0.4719, "step": 16810 }, { "epoch": 44.85333333333333, "grad_norm": 0.4375, "learning_rate": 0.00029964921947181315, "loss": 0.4802, "step": 16820 }, { "epoch": 44.88, "grad_norm": 0.271484375, "learning_rate": 0.0002996487896035469, "loss": 0.4676, "step": 16830 }, { "epoch": 44.906666666666666, "grad_norm": 0.2578125, "learning_rate": 0.000299648359472357, "loss": 0.4704, "step": 16840 }, { "epoch": 44.93333333333333, "grad_norm": 0.1650390625, "learning_rate": 0.0002996479290782442, "loss": 0.4723, "step": 16850 }, { "epoch": 44.96, "grad_norm": 0.216796875, "learning_rate": 0.00029964749842120925, "loss": 0.4709, "step": 16860 }, { "epoch": 44.986666666666665, "grad_norm": 0.421875, "learning_rate": 0.0002996470675012529, "loss": 0.4837, "step": 16870 }, { "epoch": 45.0, "eval_loss": 0.48572611808776855, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.8974, "eval_samples_per_second": 1.617, "eval_steps_per_second": 0.101, "step": 16875 }, { "epoch": 45.013333333333335, "grad_norm": 0.375, "learning_rate": 0.0002996466363183759, "loss": 0.4731, "step": 16880 }, { "epoch": 45.04, "grad_norm": 0.30078125, "learning_rate": 0.00029964620487257906, "loss": 0.4974, "step": 16890 }, { "epoch": 45.06666666666667, "grad_norm": 0.365234375, "learning_rate": 0.00029964577316386303, "loss": 0.4854, "step": 16900 }, { "epoch": 45.093333333333334, "grad_norm": 0.353515625, "learning_rate": 0.00029964534119222873, "loss": 0.4791, "step": 16910 }, { "epoch": 45.12, "grad_norm": 0.333984375, "learning_rate": 0.0002996449089576767, "loss": 0.4765, "step": 16920 }, { "epoch": 45.14666666666667, "grad_norm": 0.2412109375, "learning_rate": 0.0002996444764602079, "loss": 0.4852, "step": 16930 }, { "epoch": 45.17333333333333, "grad_norm": 0.33984375, "learning_rate": 0.000299644043699823, "loss": 0.4749, "step": 16940 }, { "epoch": 45.2, "grad_norm": 0.25390625, "learning_rate": 0.00029964361067652274, "loss": 0.4732, "step": 16950 }, { "epoch": 45.22666666666667, "grad_norm": 0.2734375, "learning_rate": 0.00029964317739030795, "loss": 0.4711, "step": 16960 }, { "epoch": 45.25333333333333, "grad_norm": 0.326171875, "learning_rate": 0.00029964274384117933, "loss": 0.4709, "step": 16970 }, { "epoch": 45.28, "grad_norm": 0.357421875, "learning_rate": 0.0002996423100291377, "loss": 0.4844, "step": 16980 }, { "epoch": 45.306666666666665, "grad_norm": 0.2578125, "learning_rate": 0.00029964187595418377, "loss": 0.466, "step": 16990 }, { "epoch": 45.333333333333336, "grad_norm": 0.306640625, "learning_rate": 0.0002996414416163183, "loss": 0.4814, "step": 17000 }, { "epoch": 45.36, "grad_norm": 0.22265625, "learning_rate": 0.0002996410070155421, "loss": 0.4836, "step": 17010 }, { "epoch": 45.38666666666666, "grad_norm": 0.3359375, "learning_rate": 0.0002996405721518559, "loss": 0.4747, "step": 17020 }, { "epoch": 45.413333333333334, "grad_norm": 0.27734375, "learning_rate": 0.00029964013702526044, "loss": 0.4791, "step": 17030 }, { "epoch": 45.44, "grad_norm": 0.2314453125, "learning_rate": 0.0002996397016357566, "loss": 0.4826, "step": 17040 }, { "epoch": 45.46666666666667, "grad_norm": 0.25, "learning_rate": 0.000299639265983345, "loss": 0.4925, "step": 17050 }, { "epoch": 45.49333333333333, "grad_norm": 0.296875, "learning_rate": 0.00029963883006802643, "loss": 0.4828, "step": 17060 }, { "epoch": 45.52, "grad_norm": 0.26953125, "learning_rate": 0.00029963839388980176, "loss": 0.4774, "step": 17070 }, { "epoch": 45.54666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002996379574486716, "loss": 0.4747, "step": 17080 }, { "epoch": 45.57333333333333, "grad_norm": 0.169921875, "learning_rate": 0.0002996375207446369, "loss": 0.4732, "step": 17090 }, { "epoch": 45.6, "grad_norm": 0.353515625, "learning_rate": 0.0002996370837776983, "loss": 0.4671, "step": 17100 }, { "epoch": 45.626666666666665, "grad_norm": 0.23828125, "learning_rate": 0.0002996366465478566, "loss": 0.4539, "step": 17110 }, { "epoch": 45.653333333333336, "grad_norm": 0.2373046875, "learning_rate": 0.00029963620905511257, "loss": 0.4736, "step": 17120 }, { "epoch": 45.68, "grad_norm": 0.216796875, "learning_rate": 0.000299635771299467, "loss": 0.4649, "step": 17130 }, { "epoch": 45.70666666666666, "grad_norm": 0.28515625, "learning_rate": 0.0002996353332809206, "loss": 0.4655, "step": 17140 }, { "epoch": 45.733333333333334, "grad_norm": 0.2353515625, "learning_rate": 0.0002996348949994742, "loss": 0.4842, "step": 17150 }, { "epoch": 45.76, "grad_norm": 0.283203125, "learning_rate": 0.0002996344564551285, "loss": 0.486, "step": 17160 }, { "epoch": 45.78666666666667, "grad_norm": 0.283203125, "learning_rate": 0.0002996340176478843, "loss": 0.4849, "step": 17170 }, { "epoch": 45.81333333333333, "grad_norm": 0.283203125, "learning_rate": 0.00029963357857774246, "loss": 0.4692, "step": 17180 }, { "epoch": 45.84, "grad_norm": 0.302734375, "learning_rate": 0.00029963313924470365, "loss": 0.4752, "step": 17190 }, { "epoch": 45.86666666666667, "grad_norm": 0.283203125, "learning_rate": 0.0002996326996487687, "loss": 0.4756, "step": 17200 }, { "epoch": 45.89333333333333, "grad_norm": 0.263671875, "learning_rate": 0.00029963225978993835, "loss": 0.4657, "step": 17210 }, { "epoch": 45.92, "grad_norm": 0.28515625, "learning_rate": 0.0002996318196682133, "loss": 0.4763, "step": 17220 }, { "epoch": 45.946666666666665, "grad_norm": 0.2294921875, "learning_rate": 0.00029963137928359446, "loss": 0.469, "step": 17230 }, { "epoch": 45.973333333333336, "grad_norm": 0.40234375, "learning_rate": 0.00029963093863608254, "loss": 0.4803, "step": 17240 }, { "epoch": 46.0, "grad_norm": 0.35546875, "learning_rate": 0.00029963049772567833, "loss": 0.4688, "step": 17250 }, { "epoch": 46.0, "eval_loss": 0.4832427501678467, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.9287, "eval_samples_per_second": 1.611, "eval_steps_per_second": 0.101, "step": 17250 }, { "epoch": 46.026666666666664, "grad_norm": 0.49609375, "learning_rate": 0.00029963005655238257, "loss": 0.4883, "step": 17260 }, { "epoch": 46.053333333333335, "grad_norm": 0.283203125, "learning_rate": 0.00029962961511619603, "loss": 0.495, "step": 17270 }, { "epoch": 46.08, "grad_norm": 0.28515625, "learning_rate": 0.00029962917341711957, "loss": 0.4812, "step": 17280 }, { "epoch": 46.10666666666667, "grad_norm": 0.26953125, "learning_rate": 0.0002996287314551539, "loss": 0.4773, "step": 17290 }, { "epoch": 46.13333333333333, "grad_norm": 0.298828125, "learning_rate": 0.0002996282892302998, "loss": 0.4782, "step": 17300 }, { "epoch": 46.16, "grad_norm": 0.322265625, "learning_rate": 0.000299627846742558, "loss": 0.4832, "step": 17310 }, { "epoch": 46.18666666666667, "grad_norm": 0.330078125, "learning_rate": 0.0002996274039919294, "loss": 0.4748, "step": 17320 }, { "epoch": 46.21333333333333, "grad_norm": 0.337890625, "learning_rate": 0.0002996269609784146, "loss": 0.4692, "step": 17330 }, { "epoch": 46.24, "grad_norm": 0.375, "learning_rate": 0.00029962651770201455, "loss": 0.4727, "step": 17340 }, { "epoch": 46.266666666666666, "grad_norm": 0.34765625, "learning_rate": 0.00029962607416273, "loss": 0.4775, "step": 17350 }, { "epoch": 46.29333333333334, "grad_norm": 0.302734375, "learning_rate": 0.0002996256303605617, "loss": 0.4716, "step": 17360 }, { "epoch": 46.32, "grad_norm": 0.322265625, "learning_rate": 0.0002996251862955104, "loss": 0.4758, "step": 17370 }, { "epoch": 46.346666666666664, "grad_norm": 0.341796875, "learning_rate": 0.0002996247419675769, "loss": 0.4838, "step": 17380 }, { "epoch": 46.373333333333335, "grad_norm": 0.23046875, "learning_rate": 0.0002996242973767619, "loss": 0.4796, "step": 17390 }, { "epoch": 46.4, "grad_norm": 0.30078125, "learning_rate": 0.00029962385252306636, "loss": 0.476, "step": 17400 }, { "epoch": 46.42666666666667, "grad_norm": 0.294921875, "learning_rate": 0.000299623407406491, "loss": 0.4826, "step": 17410 }, { "epoch": 46.45333333333333, "grad_norm": 0.240234375, "learning_rate": 0.00029962296202703647, "loss": 0.4841, "step": 17420 }, { "epoch": 46.48, "grad_norm": 0.287109375, "learning_rate": 0.0002996225163847037, "loss": 0.4904, "step": 17430 }, { "epoch": 46.50666666666667, "grad_norm": 0.298828125, "learning_rate": 0.00029962207047949343, "loss": 0.4799, "step": 17440 }, { "epoch": 46.53333333333333, "grad_norm": 0.2333984375, "learning_rate": 0.00029962162431140647, "loss": 0.4737, "step": 17450 }, { "epoch": 46.56, "grad_norm": 0.2177734375, "learning_rate": 0.00029962117788044347, "loss": 0.4753, "step": 17460 }, { "epoch": 46.586666666666666, "grad_norm": 0.2138671875, "learning_rate": 0.0002996207311866054, "loss": 0.4707, "step": 17470 }, { "epoch": 46.61333333333333, "grad_norm": 0.234375, "learning_rate": 0.00029962028422989294, "loss": 0.456, "step": 17480 }, { "epoch": 46.64, "grad_norm": 0.2412109375, "learning_rate": 0.00029961983701030687, "loss": 0.4615, "step": 17490 }, { "epoch": 46.666666666666664, "grad_norm": 0.2041015625, "learning_rate": 0.00029961938952784807, "loss": 0.4771, "step": 17500 }, { "epoch": 46.693333333333335, "grad_norm": 0.220703125, "learning_rate": 0.0002996189417825172, "loss": 0.4605, "step": 17510 }, { "epoch": 46.72, "grad_norm": 0.302734375, "learning_rate": 0.0002996184937743151, "loss": 0.477, "step": 17520 }, { "epoch": 46.74666666666667, "grad_norm": 0.330078125, "learning_rate": 0.0002996180455032426, "loss": 0.4819, "step": 17530 }, { "epoch": 46.77333333333333, "grad_norm": 0.291015625, "learning_rate": 0.0002996175969693004, "loss": 0.4893, "step": 17540 }, { "epoch": 46.8, "grad_norm": 0.298828125, "learning_rate": 0.00029961714817248943, "loss": 0.4758, "step": 17550 }, { "epoch": 46.82666666666667, "grad_norm": 0.28125, "learning_rate": 0.0002996166991128103, "loss": 0.4699, "step": 17560 }, { "epoch": 46.85333333333333, "grad_norm": 0.369140625, "learning_rate": 0.0002996162497902639, "loss": 0.4798, "step": 17570 }, { "epoch": 46.88, "grad_norm": 0.33203125, "learning_rate": 0.000299615800204851, "loss": 0.4676, "step": 17580 }, { "epoch": 46.906666666666666, "grad_norm": 0.28125, "learning_rate": 0.0002996153503565724, "loss": 0.47, "step": 17590 }, { "epoch": 46.93333333333333, "grad_norm": 0.2236328125, "learning_rate": 0.0002996149002454289, "loss": 0.4715, "step": 17600 }, { "epoch": 46.96, "grad_norm": 0.291015625, "learning_rate": 0.0002996144498714212, "loss": 0.4695, "step": 17610 }, { "epoch": 46.986666666666665, "grad_norm": 0.451171875, "learning_rate": 0.00029961399923455025, "loss": 0.4833, "step": 17620 }, { "epoch": 47.0, "eval_loss": 0.48381996154785156, "eval_model_preparation_time": 0.0016, "eval_runtime": 11.2857, "eval_samples_per_second": 1.418, "eval_steps_per_second": 0.089, "step": 17625 }, { "epoch": 47.013333333333335, "grad_norm": 0.478515625, "learning_rate": 0.0002996135483348168, "loss": 0.4723, "step": 17630 }, { "epoch": 47.04, "grad_norm": 0.69140625, "learning_rate": 0.0002996130971722215, "loss": 0.4971, "step": 17640 }, { "epoch": 47.06666666666667, "grad_norm": 0.96875, "learning_rate": 0.0002996126457467653, "loss": 0.4871, "step": 17650 }, { "epoch": 47.093333333333334, "grad_norm": 0.67578125, "learning_rate": 0.00029961219405844893, "loss": 0.4813, "step": 17660 }, { "epoch": 47.12, "grad_norm": 0.3203125, "learning_rate": 0.0002996117421072732, "loss": 0.4759, "step": 17670 }, { "epoch": 47.14666666666667, "grad_norm": 0.33203125, "learning_rate": 0.00029961128989323884, "loss": 0.4853, "step": 17680 }, { "epoch": 47.17333333333333, "grad_norm": 0.326171875, "learning_rate": 0.00029961083741634673, "loss": 0.4748, "step": 17690 }, { "epoch": 47.2, "grad_norm": 0.341796875, "learning_rate": 0.0002996103846765976, "loss": 0.4733, "step": 17700 }, { "epoch": 47.22666666666667, "grad_norm": 0.27734375, "learning_rate": 0.00029960993167399235, "loss": 0.4716, "step": 17710 }, { "epoch": 47.25333333333333, "grad_norm": 0.2197265625, "learning_rate": 0.00029960947840853165, "loss": 0.4708, "step": 17720 }, { "epoch": 47.28, "grad_norm": 0.2265625, "learning_rate": 0.0002996090248802164, "loss": 0.4833, "step": 17730 }, { "epoch": 47.306666666666665, "grad_norm": 0.267578125, "learning_rate": 0.00029960857108904734, "loss": 0.4658, "step": 17740 }, { "epoch": 47.333333333333336, "grad_norm": 0.2001953125, "learning_rate": 0.0002996081170350252, "loss": 0.4807, "step": 17750 }, { "epoch": 47.36, "grad_norm": 0.2109375, "learning_rate": 0.00029960766271815094, "loss": 0.4834, "step": 17760 }, { "epoch": 47.38666666666666, "grad_norm": 0.2470703125, "learning_rate": 0.00029960720813842524, "loss": 0.4749, "step": 17770 }, { "epoch": 47.413333333333334, "grad_norm": 0.263671875, "learning_rate": 0.0002996067532958489, "loss": 0.4792, "step": 17780 }, { "epoch": 47.44, "grad_norm": 0.287109375, "learning_rate": 0.00029960629819042277, "loss": 0.4824, "step": 17790 }, { "epoch": 47.46666666666667, "grad_norm": 0.4453125, "learning_rate": 0.0002996058428221477, "loss": 0.4921, "step": 17800 }, { "epoch": 47.49333333333333, "grad_norm": 0.33984375, "learning_rate": 0.0002996053871910243, "loss": 0.483, "step": 17810 }, { "epoch": 47.52, "grad_norm": 0.205078125, "learning_rate": 0.0002996049312970535, "loss": 0.4768, "step": 17820 }, { "epoch": 47.54666666666667, "grad_norm": 0.279296875, "learning_rate": 0.00029960447514023616, "loss": 0.4744, "step": 17830 }, { "epoch": 47.57333333333333, "grad_norm": 0.3046875, "learning_rate": 0.000299604018720573, "loss": 0.4739, "step": 17840 }, { "epoch": 47.6, "grad_norm": 0.2158203125, "learning_rate": 0.0002996035620380648, "loss": 0.4673, "step": 17850 }, { "epoch": 47.626666666666665, "grad_norm": 0.1923828125, "learning_rate": 0.00029960310509271243, "loss": 0.4534, "step": 17860 }, { "epoch": 47.653333333333336, "grad_norm": 0.294921875, "learning_rate": 0.00029960264788451665, "loss": 0.4735, "step": 17870 }, { "epoch": 47.68, "grad_norm": 0.330078125, "learning_rate": 0.0002996021904134783, "loss": 0.4647, "step": 17880 }, { "epoch": 47.70666666666666, "grad_norm": 0.341796875, "learning_rate": 0.00029960173267959807, "loss": 0.4652, "step": 17890 }, { "epoch": 47.733333333333334, "grad_norm": 0.328125, "learning_rate": 0.0002996012746828769, "loss": 0.4844, "step": 17900 }, { "epoch": 47.76, "grad_norm": 0.291015625, "learning_rate": 0.0002996008164233156, "loss": 0.4863, "step": 17910 }, { "epoch": 47.78666666666667, "grad_norm": 0.26953125, "learning_rate": 0.0002996003579009148, "loss": 0.4844, "step": 17920 }, { "epoch": 47.81333333333333, "grad_norm": 0.357421875, "learning_rate": 0.0002995998991156755, "loss": 0.4688, "step": 17930 }, { "epoch": 47.84, "grad_norm": 0.265625, "learning_rate": 0.00029959944006759847, "loss": 0.4757, "step": 17940 }, { "epoch": 47.86666666666667, "grad_norm": 0.404296875, "learning_rate": 0.00029959898075668435, "loss": 0.4747, "step": 17950 }, { "epoch": 47.89333333333333, "grad_norm": 0.318359375, "learning_rate": 0.0002995985211829342, "loss": 0.4652, "step": 17960 }, { "epoch": 47.92, "grad_norm": 0.3125, "learning_rate": 0.0002995980613463486, "loss": 0.4757, "step": 17970 }, { "epoch": 47.946666666666665, "grad_norm": 0.3203125, "learning_rate": 0.00029959760124692857, "loss": 0.4678, "step": 17980 }, { "epoch": 47.973333333333336, "grad_norm": 0.28515625, "learning_rate": 0.0002995971408846747, "loss": 0.4794, "step": 17990 }, { "epoch": 48.0, "grad_norm": 0.2470703125, "learning_rate": 0.000299596680259588, "loss": 0.468, "step": 18000 }, { "epoch": 48.0, "eval_loss": 0.48210230469703674, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.1772, "eval_samples_per_second": 1.572, "eval_steps_per_second": 0.098, "step": 18000 }, { "epoch": 48.026666666666664, "grad_norm": 0.275390625, "learning_rate": 0.00029959621937166917, "loss": 0.4873, "step": 18010 }, { "epoch": 48.053333333333335, "grad_norm": 0.263671875, "learning_rate": 0.000299595758220919, "loss": 0.4939, "step": 18020 }, { "epoch": 48.08, "grad_norm": 0.296875, "learning_rate": 0.00029959529680733836, "loss": 0.4816, "step": 18030 }, { "epoch": 48.10666666666667, "grad_norm": 0.201171875, "learning_rate": 0.000299594835130928, "loss": 0.4762, "step": 18040 }, { "epoch": 48.13333333333333, "grad_norm": 0.251953125, "learning_rate": 0.0002995943731916888, "loss": 0.4779, "step": 18050 }, { "epoch": 48.16, "grad_norm": 0.298828125, "learning_rate": 0.00029959391098962154, "loss": 0.4823, "step": 18060 }, { "epoch": 48.18666666666667, "grad_norm": 0.2119140625, "learning_rate": 0.00029959344852472703, "loss": 0.4744, "step": 18070 }, { "epoch": 48.21333333333333, "grad_norm": 0.220703125, "learning_rate": 0.0002995929857970061, "loss": 0.4694, "step": 18080 }, { "epoch": 48.24, "grad_norm": 0.302734375, "learning_rate": 0.00029959252280645953, "loss": 0.4732, "step": 18090 }, { "epoch": 48.266666666666666, "grad_norm": 0.30859375, "learning_rate": 0.00029959205955308816, "loss": 0.4763, "step": 18100 }, { "epoch": 48.29333333333334, "grad_norm": 0.1650390625, "learning_rate": 0.0002995915960368928, "loss": 0.471, "step": 18110 }, { "epoch": 48.32, "grad_norm": 0.1982421875, "learning_rate": 0.00029959113225787423, "loss": 0.4744, "step": 18120 }, { "epoch": 48.346666666666664, "grad_norm": 0.283203125, "learning_rate": 0.0002995906682160333, "loss": 0.4828, "step": 18130 }, { "epoch": 48.373333333333335, "grad_norm": 0.443359375, "learning_rate": 0.00029959020391137083, "loss": 0.479, "step": 18140 }, { "epoch": 48.4, "grad_norm": 0.2373046875, "learning_rate": 0.0002995897393438876, "loss": 0.4753, "step": 18150 }, { "epoch": 48.42666666666667, "grad_norm": 0.18359375, "learning_rate": 0.00029958927451358445, "loss": 0.4823, "step": 18160 }, { "epoch": 48.45333333333333, "grad_norm": 0.26953125, "learning_rate": 0.0002995888094204623, "loss": 0.4848, "step": 18170 }, { "epoch": 48.48, "grad_norm": 0.2490234375, "learning_rate": 0.00029958834406452177, "loss": 0.4902, "step": 18180 }, { "epoch": 48.50666666666667, "grad_norm": 0.271484375, "learning_rate": 0.0002995878784457638, "loss": 0.4799, "step": 18190 }, { "epoch": 48.53333333333333, "grad_norm": 0.31640625, "learning_rate": 0.00029958741256418917, "loss": 0.4733, "step": 18200 }, { "epoch": 48.56, "grad_norm": 0.25390625, "learning_rate": 0.0002995869464197987, "loss": 0.4745, "step": 18210 }, { "epoch": 48.586666666666666, "grad_norm": 0.2490234375, "learning_rate": 0.0002995864800125932, "loss": 0.4702, "step": 18220 }, { "epoch": 48.61333333333333, "grad_norm": 0.25, "learning_rate": 0.0002995860133425736, "loss": 0.4564, "step": 18230 }, { "epoch": 48.64, "grad_norm": 0.1962890625, "learning_rate": 0.00029958554640974053, "loss": 0.4601, "step": 18240 }, { "epoch": 48.666666666666664, "grad_norm": 0.28125, "learning_rate": 0.0002995850792140949, "loss": 0.4764, "step": 18250 }, { "epoch": 48.693333333333335, "grad_norm": 0.2119140625, "learning_rate": 0.00029958461175563767, "loss": 0.4598, "step": 18260 }, { "epoch": 48.72, "grad_norm": 0.267578125, "learning_rate": 0.00029958414403436943, "loss": 0.4768, "step": 18270 }, { "epoch": 48.74666666666667, "grad_norm": 0.322265625, "learning_rate": 0.00029958367605029113, "loss": 0.4815, "step": 18280 }, { "epoch": 48.77333333333333, "grad_norm": 0.3203125, "learning_rate": 0.0002995832078034035, "loss": 0.4889, "step": 18290 }, { "epoch": 48.8, "grad_norm": 0.35546875, "learning_rate": 0.0002995827392937075, "loss": 0.4761, "step": 18300 }, { "epoch": 48.82666666666667, "grad_norm": 0.283203125, "learning_rate": 0.00029958227052120386, "loss": 0.4706, "step": 18310 }, { "epoch": 48.85333333333333, "grad_norm": 0.361328125, "learning_rate": 0.00029958180148589343, "loss": 0.4792, "step": 18320 }, { "epoch": 48.88, "grad_norm": 0.26171875, "learning_rate": 0.000299581332187777, "loss": 0.4676, "step": 18330 }, { "epoch": 48.906666666666666, "grad_norm": 0.2216796875, "learning_rate": 0.00029958086262685545, "loss": 0.4696, "step": 18340 }, { "epoch": 48.93333333333333, "grad_norm": 0.2197265625, "learning_rate": 0.00029958039280312957, "loss": 0.4715, "step": 18350 }, { "epoch": 48.96, "grad_norm": 0.2734375, "learning_rate": 0.0002995799227166002, "loss": 0.4703, "step": 18360 }, { "epoch": 48.986666666666665, "grad_norm": 0.26171875, "learning_rate": 0.00029957945236726817, "loss": 0.4831, "step": 18370 }, { "epoch": 49.0, "eval_loss": 0.48411810398101807, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.0006, "eval_samples_per_second": 1.6, "eval_steps_per_second": 0.1, "step": 18375 }, { "epoch": 49.013333333333335, "grad_norm": 0.220703125, "learning_rate": 0.00029957898175513427, "loss": 0.4721, "step": 18380 }, { "epoch": 49.04, "grad_norm": 0.25390625, "learning_rate": 0.00029957851088019936, "loss": 0.4971, "step": 18390 }, { "epoch": 49.06666666666667, "grad_norm": 0.24609375, "learning_rate": 0.00029957803974246425, "loss": 0.4837, "step": 18400 }, { "epoch": 49.093333333333334, "grad_norm": 0.35546875, "learning_rate": 0.00029957756834192976, "loss": 0.4786, "step": 18410 }, { "epoch": 49.12, "grad_norm": 0.26953125, "learning_rate": 0.0002995770966785968, "loss": 0.4751, "step": 18420 }, { "epoch": 49.14666666666667, "grad_norm": 0.314453125, "learning_rate": 0.0002995766247524661, "loss": 0.4849, "step": 18430 }, { "epoch": 49.17333333333333, "grad_norm": 0.375, "learning_rate": 0.0002995761525635385, "loss": 0.475, "step": 18440 }, { "epoch": 49.2, "grad_norm": 0.263671875, "learning_rate": 0.00029957568011181485, "loss": 0.473, "step": 18450 }, { "epoch": 49.22666666666667, "grad_norm": 0.318359375, "learning_rate": 0.000299575207397296, "loss": 0.4709, "step": 18460 }, { "epoch": 49.25333333333333, "grad_norm": 0.240234375, "learning_rate": 0.00029957473441998277, "loss": 0.4707, "step": 18470 }, { "epoch": 49.28, "grad_norm": 0.271484375, "learning_rate": 0.000299574261179876, "loss": 0.4839, "step": 18480 }, { "epoch": 49.306666666666665, "grad_norm": 0.333984375, "learning_rate": 0.00029957378767697646, "loss": 0.465, "step": 18490 }, { "epoch": 49.333333333333336, "grad_norm": 0.423828125, "learning_rate": 0.00029957331391128507, "loss": 0.4814, "step": 18500 }, { "epoch": 49.36, "grad_norm": 0.34765625, "learning_rate": 0.0002995728398828026, "loss": 0.4832, "step": 18510 }, { "epoch": 49.38666666666666, "grad_norm": 0.373046875, "learning_rate": 0.0002995723655915299, "loss": 0.4752, "step": 18520 }, { "epoch": 49.413333333333334, "grad_norm": 0.380859375, "learning_rate": 0.0002995718910374678, "loss": 0.4794, "step": 18530 }, { "epoch": 49.44, "grad_norm": 0.328125, "learning_rate": 0.00029957141622061716, "loss": 0.482, "step": 18540 }, { "epoch": 49.46666666666667, "grad_norm": 0.28125, "learning_rate": 0.00029957094114097877, "loss": 0.4915, "step": 18550 }, { "epoch": 49.49333333333333, "grad_norm": 0.33203125, "learning_rate": 0.00029957046579855346, "loss": 0.4822, "step": 18560 }, { "epoch": 49.52, "grad_norm": 0.28125, "learning_rate": 0.0002995699901933422, "loss": 0.4771, "step": 18570 }, { "epoch": 49.54666666666667, "grad_norm": 0.3359375, "learning_rate": 0.0002995695143253457, "loss": 0.474, "step": 18580 }, { "epoch": 49.57333333333333, "grad_norm": 0.291015625, "learning_rate": 0.0002995690381945647, "loss": 0.4731, "step": 18590 }, { "epoch": 49.6, "grad_norm": 0.26171875, "learning_rate": 0.00029956856180100025, "loss": 0.4667, "step": 18600 }, { "epoch": 49.626666666666665, "grad_norm": 0.2294921875, "learning_rate": 0.00029956808514465305, "loss": 0.4534, "step": 18610 }, { "epoch": 49.653333333333336, "grad_norm": 0.310546875, "learning_rate": 0.00029956760822552397, "loss": 0.4725, "step": 18620 }, { "epoch": 49.68, "grad_norm": 0.27734375, "learning_rate": 0.0002995671310436139, "loss": 0.4642, "step": 18630 }, { "epoch": 49.70666666666666, "grad_norm": 0.275390625, "learning_rate": 0.0002995666535989236, "loss": 0.4648, "step": 18640 }, { "epoch": 49.733333333333334, "grad_norm": 0.28125, "learning_rate": 0.00029956617589145393, "loss": 0.4834, "step": 18650 }, { "epoch": 49.76, "grad_norm": 0.228515625, "learning_rate": 0.0002995656979212058, "loss": 0.4853, "step": 18660 }, { "epoch": 49.78666666666667, "grad_norm": 0.267578125, "learning_rate": 0.00029956521968817993, "loss": 0.4841, "step": 18670 }, { "epoch": 49.81333333333333, "grad_norm": 0.390625, "learning_rate": 0.00029956474119237727, "loss": 0.4688, "step": 18680 }, { "epoch": 49.84, "grad_norm": 0.38671875, "learning_rate": 0.00029956426243379854, "loss": 0.4751, "step": 18690 }, { "epoch": 49.86666666666667, "grad_norm": 0.298828125, "learning_rate": 0.0002995637834124447, "loss": 0.4746, "step": 18700 }, { "epoch": 49.89333333333333, "grad_norm": 0.2431640625, "learning_rate": 0.00029956330412831653, "loss": 0.4646, "step": 18710 }, { "epoch": 49.92, "grad_norm": 0.318359375, "learning_rate": 0.00029956282458141494, "loss": 0.476, "step": 18720 }, { "epoch": 49.946666666666665, "grad_norm": 0.287109375, "learning_rate": 0.00029956234477174063, "loss": 0.4674, "step": 18730 }, { "epoch": 49.973333333333336, "grad_norm": 0.259765625, "learning_rate": 0.0002995618646992946, "loss": 0.4787, "step": 18740 }, { "epoch": 50.0, "grad_norm": 0.30859375, "learning_rate": 0.0002995613843640776, "loss": 0.4685, "step": 18750 }, { "epoch": 50.0, "eval_loss": 0.48534244298934937, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.7591, "eval_samples_per_second": 1.487, "eval_steps_per_second": 0.093, "step": 18750 }, { "epoch": 50.026666666666664, "grad_norm": 0.27734375, "learning_rate": 0.00029956090376609054, "loss": 0.4884, "step": 18760 }, { "epoch": 50.053333333333335, "grad_norm": 0.306640625, "learning_rate": 0.00029956042290533416, "loss": 0.4938, "step": 18770 }, { "epoch": 50.08, "grad_norm": 0.2578125, "learning_rate": 0.0002995599417818094, "loss": 0.4814, "step": 18780 }, { "epoch": 50.10666666666667, "grad_norm": 0.2734375, "learning_rate": 0.00029955946039551703, "loss": 0.4759, "step": 18790 }, { "epoch": 50.13333333333333, "grad_norm": 0.279296875, "learning_rate": 0.00029955897874645797, "loss": 0.478, "step": 18800 }, { "epoch": 50.16, "grad_norm": 0.294921875, "learning_rate": 0.00029955849683463307, "loss": 0.4813, "step": 18810 }, { "epoch": 50.18666666666667, "grad_norm": 0.2451171875, "learning_rate": 0.0002995580146600431, "loss": 0.474, "step": 18820 }, { "epoch": 50.21333333333333, "grad_norm": 0.369140625, "learning_rate": 0.000299557532222689, "loss": 0.4684, "step": 18830 }, { "epoch": 50.24, "grad_norm": 0.228515625, "learning_rate": 0.00029955704952257153, "loss": 0.473, "step": 18840 }, { "epoch": 50.266666666666666, "grad_norm": 0.22265625, "learning_rate": 0.00029955656655969155, "loss": 0.4763, "step": 18850 }, { "epoch": 50.29333333333334, "grad_norm": 0.2001953125, "learning_rate": 0.00029955608333405, "loss": 0.4711, "step": 18860 }, { "epoch": 50.32, "grad_norm": 0.30078125, "learning_rate": 0.0002995555998456476, "loss": 0.4745, "step": 18870 }, { "epoch": 50.346666666666664, "grad_norm": 0.28515625, "learning_rate": 0.0002995551160944853, "loss": 0.4826, "step": 18880 }, { "epoch": 50.373333333333335, "grad_norm": 0.33203125, "learning_rate": 0.0002995546320805639, "loss": 0.479, "step": 18890 }, { "epoch": 50.4, "grad_norm": 0.326171875, "learning_rate": 0.00029955414780388426, "loss": 0.4751, "step": 18900 }, { "epoch": 50.42666666666667, "grad_norm": 0.490234375, "learning_rate": 0.00029955366326444725, "loss": 0.4818, "step": 18910 }, { "epoch": 50.45333333333333, "grad_norm": 0.2578125, "learning_rate": 0.0002995531784622537, "loss": 0.4842, "step": 18920 }, { "epoch": 50.48, "grad_norm": 0.296875, "learning_rate": 0.0002995526933973044, "loss": 0.4912, "step": 18930 }, { "epoch": 50.50666666666667, "grad_norm": 0.26953125, "learning_rate": 0.00029955220806960036, "loss": 0.4796, "step": 18940 }, { "epoch": 50.53333333333333, "grad_norm": 0.31640625, "learning_rate": 0.00029955172247914233, "loss": 0.4727, "step": 18950 }, { "epoch": 50.56, "grad_norm": 0.2314453125, "learning_rate": 0.00029955123662593115, "loss": 0.4741, "step": 18960 }, { "epoch": 50.586666666666666, "grad_norm": 0.236328125, "learning_rate": 0.0002995507505099677, "loss": 0.4708, "step": 18970 }, { "epoch": 50.61333333333333, "grad_norm": 0.28125, "learning_rate": 0.00029955026413125283, "loss": 0.4556, "step": 18980 }, { "epoch": 50.64, "grad_norm": 0.306640625, "learning_rate": 0.0002995497774897874, "loss": 0.4604, "step": 18990 }, { "epoch": 50.666666666666664, "grad_norm": 0.302734375, "learning_rate": 0.00029954929058557223, "loss": 0.4768, "step": 19000 }, { "epoch": 50.693333333333335, "grad_norm": 0.23046875, "learning_rate": 0.00029954880341860824, "loss": 0.4595, "step": 19010 }, { "epoch": 50.72, "grad_norm": 0.2294921875, "learning_rate": 0.00029954831598889625, "loss": 0.476, "step": 19020 }, { "epoch": 50.74666666666667, "grad_norm": 0.2890625, "learning_rate": 0.0002995478282964372, "loss": 0.481, "step": 19030 }, { "epoch": 50.77333333333333, "grad_norm": 0.26953125, "learning_rate": 0.00029954734034123176, "loss": 0.4885, "step": 19040 }, { "epoch": 50.8, "grad_norm": 0.283203125, "learning_rate": 0.00029954685212328093, "loss": 0.4756, "step": 19050 }, { "epoch": 50.82666666666667, "grad_norm": 0.3984375, "learning_rate": 0.00029954636364258553, "loss": 0.4701, "step": 19060 }, { "epoch": 50.85333333333333, "grad_norm": 0.240234375, "learning_rate": 0.00029954587489914637, "loss": 0.4793, "step": 19070 }, { "epoch": 50.88, "grad_norm": 0.328125, "learning_rate": 0.00029954538589296447, "loss": 0.4665, "step": 19080 }, { "epoch": 50.906666666666666, "grad_norm": 0.353515625, "learning_rate": 0.0002995448966240405, "loss": 0.47, "step": 19090 }, { "epoch": 50.93333333333333, "grad_norm": 0.291015625, "learning_rate": 0.0002995444070923754, "loss": 0.4712, "step": 19100 }, { "epoch": 50.96, "grad_norm": 0.275390625, "learning_rate": 0.00029954391729797005, "loss": 0.4684, "step": 19110 }, { "epoch": 50.986666666666665, "grad_norm": 0.234375, "learning_rate": 0.0002995434272408252, "loss": 0.4824, "step": 19120 }, { "epoch": 51.0, "eval_loss": 0.482730507850647, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.0939, "eval_samples_per_second": 1.585, "eval_steps_per_second": 0.099, "step": 19125 }, { "epoch": 51.013333333333335, "grad_norm": 0.271484375, "learning_rate": 0.00029954293692094195, "loss": 0.4726, "step": 19130 }, { "epoch": 51.04, "grad_norm": 0.25, "learning_rate": 0.0002995424463383209, "loss": 0.4961, "step": 19140 }, { "epoch": 51.06666666666667, "grad_norm": 0.263671875, "learning_rate": 0.00029954195549296303, "loss": 0.4835, "step": 19150 }, { "epoch": 51.093333333333334, "grad_norm": 0.29296875, "learning_rate": 0.0002995414643848693, "loss": 0.4782, "step": 19160 }, { "epoch": 51.12, "grad_norm": 0.267578125, "learning_rate": 0.0002995409730140403, "loss": 0.4743, "step": 19170 }, { "epoch": 51.14666666666667, "grad_norm": 0.30859375, "learning_rate": 0.0002995404813804772, "loss": 0.4845, "step": 19180 }, { "epoch": 51.17333333333333, "grad_norm": 0.333984375, "learning_rate": 0.00029953998948418066, "loss": 0.4738, "step": 19190 }, { "epoch": 51.2, "grad_norm": 0.380859375, "learning_rate": 0.00029953949732515163, "loss": 0.4724, "step": 19200 }, { "epoch": 51.22666666666667, "grad_norm": 0.32421875, "learning_rate": 0.00029953900490339093, "loss": 0.4707, "step": 19210 }, { "epoch": 51.25333333333333, "grad_norm": 0.42578125, "learning_rate": 0.0002995385122188995, "loss": 0.4706, "step": 19220 }, { "epoch": 51.28, "grad_norm": 0.404296875, "learning_rate": 0.0002995380192716781, "loss": 0.4839, "step": 19230 }, { "epoch": 51.306666666666665, "grad_norm": 0.306640625, "learning_rate": 0.00029953752606172766, "loss": 0.4646, "step": 19240 }, { "epoch": 51.333333333333336, "grad_norm": 0.279296875, "learning_rate": 0.0002995370325890491, "loss": 0.4808, "step": 19250 }, { "epoch": 51.36, "grad_norm": 0.404296875, "learning_rate": 0.0002995365388536431, "loss": 0.4835, "step": 19260 }, { "epoch": 51.38666666666666, "grad_norm": 0.294921875, "learning_rate": 0.00029953604485551073, "loss": 0.4741, "step": 19270 }, { "epoch": 51.413333333333334, "grad_norm": 0.19140625, "learning_rate": 0.0002995355505946528, "loss": 0.478, "step": 19280 }, { "epoch": 51.44, "grad_norm": 0.30078125, "learning_rate": 0.0002995350560710701, "loss": 0.4813, "step": 19290 }, { "epoch": 51.46666666666667, "grad_norm": 0.328125, "learning_rate": 0.0002995345612847636, "loss": 0.4909, "step": 19300 }, { "epoch": 51.49333333333333, "grad_norm": 0.322265625, "learning_rate": 0.00029953406623573414, "loss": 0.4821, "step": 19310 }, { "epoch": 51.52, "grad_norm": 0.33203125, "learning_rate": 0.0002995335709239825, "loss": 0.4767, "step": 19320 }, { "epoch": 51.54666666666667, "grad_norm": 0.205078125, "learning_rate": 0.00029953307534950967, "loss": 0.4732, "step": 19330 }, { "epoch": 51.57333333333333, "grad_norm": 0.2431640625, "learning_rate": 0.00029953257951231653, "loss": 0.4726, "step": 19340 }, { "epoch": 51.6, "grad_norm": 0.435546875, "learning_rate": 0.0002995320834124038, "loss": 0.4667, "step": 19350 }, { "epoch": 51.626666666666665, "grad_norm": 0.365234375, "learning_rate": 0.00029953158704977247, "loss": 0.4532, "step": 19360 }, { "epoch": 51.653333333333336, "grad_norm": 0.302734375, "learning_rate": 0.00029953109042442344, "loss": 0.4729, "step": 19370 }, { "epoch": 51.68, "grad_norm": 0.28125, "learning_rate": 0.00029953059353635754, "loss": 0.464, "step": 19380 }, { "epoch": 51.70666666666666, "grad_norm": 0.25, "learning_rate": 0.00029953009638557563, "loss": 0.4647, "step": 19390 }, { "epoch": 51.733333333333334, "grad_norm": 0.23046875, "learning_rate": 0.00029952959897207857, "loss": 0.4839, "step": 19400 }, { "epoch": 51.76, "grad_norm": 0.271484375, "learning_rate": 0.00029952910129586724, "loss": 0.4847, "step": 19410 }, { "epoch": 51.78666666666667, "grad_norm": 0.26953125, "learning_rate": 0.00029952860335694256, "loss": 0.4835, "step": 19420 }, { "epoch": 51.81333333333333, "grad_norm": 0.2890625, "learning_rate": 0.00029952810515530533, "loss": 0.4688, "step": 19430 }, { "epoch": 51.84, "grad_norm": 0.275390625, "learning_rate": 0.0002995276066909565, "loss": 0.4757, "step": 19440 }, { "epoch": 51.86666666666667, "grad_norm": 0.21875, "learning_rate": 0.0002995271079638969, "loss": 0.4742, "step": 19450 }, { "epoch": 51.89333333333333, "grad_norm": 0.28515625, "learning_rate": 0.00029952660897412746, "loss": 0.4646, "step": 19460 }, { "epoch": 51.92, "grad_norm": 0.390625, "learning_rate": 0.00029952610972164897, "loss": 0.4758, "step": 19470 }, { "epoch": 51.946666666666665, "grad_norm": 0.25390625, "learning_rate": 0.0002995256102064624, "loss": 0.4672, "step": 19480 }, { "epoch": 51.973333333333336, "grad_norm": 0.333984375, "learning_rate": 0.00029952511042856855, "loss": 0.4792, "step": 19490 }, { "epoch": 52.0, "grad_norm": 0.2490234375, "learning_rate": 0.00029952461038796827, "loss": 0.4684, "step": 19500 }, { "epoch": 52.0, "eval_loss": 0.4829648435115814, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.5574, "eval_samples_per_second": 1.516, "eval_steps_per_second": 0.095, "step": 19500 }, { "epoch": 52.026666666666664, "grad_norm": 0.2294921875, "learning_rate": 0.0002995241100846626, "loss": 0.4875, "step": 19510 }, { "epoch": 52.053333333333335, "grad_norm": 0.2412109375, "learning_rate": 0.00029952360951865224, "loss": 0.494, "step": 19520 }, { "epoch": 52.08, "grad_norm": 0.2353515625, "learning_rate": 0.00029952310868993823, "loss": 0.4803, "step": 19530 }, { "epoch": 52.10666666666667, "grad_norm": 0.23828125, "learning_rate": 0.00029952260759852134, "loss": 0.4758, "step": 19540 }, { "epoch": 52.13333333333333, "grad_norm": 0.267578125, "learning_rate": 0.00029952210624440247, "loss": 0.4775, "step": 19550 }, { "epoch": 52.16, "grad_norm": 0.451171875, "learning_rate": 0.0002995216046275825, "loss": 0.4816, "step": 19560 }, { "epoch": 52.18666666666667, "grad_norm": 0.33203125, "learning_rate": 0.0002995211027480623, "loss": 0.4742, "step": 19570 }, { "epoch": 52.21333333333333, "grad_norm": 0.232421875, "learning_rate": 0.00029952060060584284, "loss": 0.4687, "step": 19580 }, { "epoch": 52.24, "grad_norm": 0.3359375, "learning_rate": 0.0002995200982009249, "loss": 0.4729, "step": 19590 }, { "epoch": 52.266666666666666, "grad_norm": 0.294921875, "learning_rate": 0.00029951959553330934, "loss": 0.476, "step": 19600 }, { "epoch": 52.29333333333334, "grad_norm": 0.279296875, "learning_rate": 0.00029951909260299715, "loss": 0.4701, "step": 19610 }, { "epoch": 52.32, "grad_norm": 0.2373046875, "learning_rate": 0.00029951858940998916, "loss": 0.474, "step": 19620 }, { "epoch": 52.346666666666664, "grad_norm": 0.259765625, "learning_rate": 0.00029951808595428625, "loss": 0.4828, "step": 19630 }, { "epoch": 52.373333333333335, "grad_norm": 0.224609375, "learning_rate": 0.00029951758223588934, "loss": 0.4786, "step": 19640 }, { "epoch": 52.4, "grad_norm": 0.21875, "learning_rate": 0.00029951707825479925, "loss": 0.4749, "step": 19650 }, { "epoch": 52.42666666666667, "grad_norm": 0.3203125, "learning_rate": 0.00029951657401101694, "loss": 0.4814, "step": 19660 }, { "epoch": 52.45333333333333, "grad_norm": 0.27734375, "learning_rate": 0.00029951606950454323, "loss": 0.483, "step": 19670 }, { "epoch": 52.48, "grad_norm": 0.32421875, "learning_rate": 0.00029951556473537905, "loss": 0.4897, "step": 19680 }, { "epoch": 52.50666666666667, "grad_norm": 0.23828125, "learning_rate": 0.00029951505970352525, "loss": 0.4798, "step": 19690 }, { "epoch": 52.53333333333333, "grad_norm": 0.28515625, "learning_rate": 0.00029951455440898277, "loss": 0.4734, "step": 19700 }, { "epoch": 52.56, "grad_norm": 0.3046875, "learning_rate": 0.0002995140488517524, "loss": 0.4747, "step": 19710 }, { "epoch": 52.586666666666666, "grad_norm": 0.3359375, "learning_rate": 0.00029951354303183516, "loss": 0.47, "step": 19720 }, { "epoch": 52.61333333333333, "grad_norm": 0.2314453125, "learning_rate": 0.00029951303694923187, "loss": 0.4562, "step": 19730 }, { "epoch": 52.64, "grad_norm": 0.2490234375, "learning_rate": 0.0002995125306039434, "loss": 0.4611, "step": 19740 }, { "epoch": 52.666666666666664, "grad_norm": 0.228515625, "learning_rate": 0.00029951202399597067, "loss": 0.4764, "step": 19750 }, { "epoch": 52.693333333333335, "grad_norm": 0.216796875, "learning_rate": 0.0002995115171253146, "loss": 0.459, "step": 19760 }, { "epoch": 52.72, "grad_norm": 0.28515625, "learning_rate": 0.000299511009991976, "loss": 0.4761, "step": 19770 }, { "epoch": 52.74666666666667, "grad_norm": 0.251953125, "learning_rate": 0.0002995105025959558, "loss": 0.4807, "step": 19780 }, { "epoch": 52.77333333333333, "grad_norm": 0.30859375, "learning_rate": 0.0002995099949372549, "loss": 0.4885, "step": 19790 }, { "epoch": 52.8, "grad_norm": 0.330078125, "learning_rate": 0.0002995094870158742, "loss": 0.4751, "step": 19800 }, { "epoch": 52.82666666666667, "grad_norm": 0.248046875, "learning_rate": 0.00029950897883181457, "loss": 0.47, "step": 19810 }, { "epoch": 52.85333333333333, "grad_norm": 0.2353515625, "learning_rate": 0.0002995084703850769, "loss": 0.4788, "step": 19820 }, { "epoch": 52.88, "grad_norm": 0.294921875, "learning_rate": 0.00029950796167566214, "loss": 0.4669, "step": 19830 }, { "epoch": 52.906666666666666, "grad_norm": 0.291015625, "learning_rate": 0.0002995074527035711, "loss": 0.4696, "step": 19840 }, { "epoch": 52.93333333333333, "grad_norm": 0.27734375, "learning_rate": 0.00029950694346880477, "loss": 0.472, "step": 19850 }, { "epoch": 52.96, "grad_norm": 0.376953125, "learning_rate": 0.0002995064339713639, "loss": 0.4686, "step": 19860 }, { "epoch": 52.986666666666665, "grad_norm": 0.2734375, "learning_rate": 0.0002995059242112495, "loss": 0.4825, "step": 19870 }, { "epoch": 53.0, "eval_loss": 0.4844491183757782, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.1674, "eval_samples_per_second": 1.574, "eval_steps_per_second": 0.098, "step": 19875 }, { "epoch": 53.013333333333335, "grad_norm": 0.265625, "learning_rate": 0.00029950541418846254, "loss": 0.4711, "step": 19880 }, { "epoch": 53.04, "grad_norm": 0.4609375, "learning_rate": 0.0002995049039030037, "loss": 0.4956, "step": 19890 }, { "epoch": 53.06666666666667, "grad_norm": 0.32421875, "learning_rate": 0.00029950439335487403, "loss": 0.4834, "step": 19900 }, { "epoch": 53.093333333333334, "grad_norm": 0.369140625, "learning_rate": 0.0002995038825440744, "loss": 0.4783, "step": 19910 }, { "epoch": 53.12, "grad_norm": 0.271484375, "learning_rate": 0.00029950337147060564, "loss": 0.475, "step": 19920 }, { "epoch": 53.14666666666667, "grad_norm": 0.4453125, "learning_rate": 0.00029950286013446874, "loss": 0.4838, "step": 19930 }, { "epoch": 53.17333333333333, "grad_norm": 0.392578125, "learning_rate": 0.0002995023485356646, "loss": 0.4739, "step": 19940 }, { "epoch": 53.2, "grad_norm": 0.333984375, "learning_rate": 0.00029950183667419404, "loss": 0.4727, "step": 19950 }, { "epoch": 53.22666666666667, "grad_norm": 0.310546875, "learning_rate": 0.000299501324550058, "loss": 0.4705, "step": 19960 }, { "epoch": 53.25333333333333, "grad_norm": 0.361328125, "learning_rate": 0.0002995008121632574, "loss": 0.47, "step": 19970 }, { "epoch": 53.28, "grad_norm": 0.2734375, "learning_rate": 0.0002995002995137931, "loss": 0.4838, "step": 19980 }, { "epoch": 53.306666666666665, "grad_norm": 0.259765625, "learning_rate": 0.0002994997866016661, "loss": 0.4646, "step": 19990 }, { "epoch": 53.333333333333336, "grad_norm": 0.2236328125, "learning_rate": 0.0002994992734268771, "loss": 0.4803, "step": 20000 }, { "epoch": 53.36, "grad_norm": 0.259765625, "learning_rate": 0.0002994987599894272, "loss": 0.4829, "step": 20010 }, { "epoch": 53.38666666666666, "grad_norm": 0.353515625, "learning_rate": 0.0002994982462893172, "loss": 0.4741, "step": 20020 }, { "epoch": 53.413333333333334, "grad_norm": 0.29296875, "learning_rate": 0.00029949773232654806, "loss": 0.4777, "step": 20030 }, { "epoch": 53.44, "grad_norm": 0.25390625, "learning_rate": 0.00029949721810112063, "loss": 0.4813, "step": 20040 }, { "epoch": 53.46666666666667, "grad_norm": 0.26171875, "learning_rate": 0.00029949670361303584, "loss": 0.4914, "step": 20050 }, { "epoch": 53.49333333333333, "grad_norm": 0.228515625, "learning_rate": 0.00029949618886229457, "loss": 0.4828, "step": 20060 }, { "epoch": 53.52, "grad_norm": 0.2431640625, "learning_rate": 0.0002994956738488978, "loss": 0.4765, "step": 20070 }, { "epoch": 53.54666666666667, "grad_norm": 0.412109375, "learning_rate": 0.0002994951585728463, "loss": 0.4729, "step": 20080 }, { "epoch": 53.57333333333333, "grad_norm": 0.2138671875, "learning_rate": 0.0002994946430341411, "loss": 0.4725, "step": 20090 }, { "epoch": 53.6, "grad_norm": 0.31640625, "learning_rate": 0.00029949412723278304, "loss": 0.4656, "step": 20100 }, { "epoch": 53.626666666666665, "grad_norm": 0.279296875, "learning_rate": 0.00029949361116877305, "loss": 0.4528, "step": 20110 }, { "epoch": 53.653333333333336, "grad_norm": 0.306640625, "learning_rate": 0.0002994930948421121, "loss": 0.4729, "step": 20120 }, { "epoch": 53.68, "grad_norm": 0.392578125, "learning_rate": 0.00029949257825280095, "loss": 0.464, "step": 20130 }, { "epoch": 53.70666666666666, "grad_norm": 0.271484375, "learning_rate": 0.0002994920614008406, "loss": 0.4649, "step": 20140 }, { "epoch": 53.733333333333334, "grad_norm": 0.19921875, "learning_rate": 0.0002994915442862319, "loss": 0.4834, "step": 20150 }, { "epoch": 53.76, "grad_norm": 0.30859375, "learning_rate": 0.0002994910269089759, "loss": 0.4847, "step": 20160 }, { "epoch": 53.78666666666667, "grad_norm": 0.283203125, "learning_rate": 0.0002994905092690734, "loss": 0.4835, "step": 20170 }, { "epoch": 53.81333333333333, "grad_norm": 0.404296875, "learning_rate": 0.0002994899913665253, "loss": 0.4685, "step": 20180 }, { "epoch": 53.84, "grad_norm": 0.341796875, "learning_rate": 0.00029948947320133245, "loss": 0.4747, "step": 20190 }, { "epoch": 53.86666666666667, "grad_norm": 0.30078125, "learning_rate": 0.00029948895477349593, "loss": 0.4737, "step": 20200 }, { "epoch": 53.89333333333333, "grad_norm": 0.234375, "learning_rate": 0.0002994884360830166, "loss": 0.4646, "step": 20210 }, { "epoch": 53.92, "grad_norm": 0.349609375, "learning_rate": 0.0002994879171298953, "loss": 0.475, "step": 20220 }, { "epoch": 53.946666666666665, "grad_norm": 0.27734375, "learning_rate": 0.00029948739791413293, "loss": 0.4669, "step": 20230 }, { "epoch": 53.973333333333336, "grad_norm": 0.248046875, "learning_rate": 0.00029948687843573047, "loss": 0.4792, "step": 20240 }, { "epoch": 54.0, "grad_norm": 0.322265625, "learning_rate": 0.0002994863586946888, "loss": 0.4675, "step": 20250 }, { "epoch": 54.0, "eval_loss": 0.48338034749031067, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.0245, "eval_samples_per_second": 1.596, "eval_steps_per_second": 0.1, "step": 20250 }, { "epoch": 54.026666666666664, "grad_norm": 0.365234375, "learning_rate": 0.0002994858386910089, "loss": 0.4889, "step": 20260 }, { "epoch": 54.053333333333335, "grad_norm": 0.2158203125, "learning_rate": 0.0002994853184246916, "loss": 0.4937, "step": 20270 }, { "epoch": 54.08, "grad_norm": 0.279296875, "learning_rate": 0.00029948479789573785, "loss": 0.4812, "step": 20280 }, { "epoch": 54.10666666666667, "grad_norm": 0.240234375, "learning_rate": 0.00029948427710414853, "loss": 0.4758, "step": 20290 }, { "epoch": 54.13333333333333, "grad_norm": 0.298828125, "learning_rate": 0.0002994837560499246, "loss": 0.4774, "step": 20300 }, { "epoch": 54.16, "grad_norm": 0.310546875, "learning_rate": 0.000299483234733067, "loss": 0.4816, "step": 20310 }, { "epoch": 54.18666666666667, "grad_norm": 0.2470703125, "learning_rate": 0.00029948271315357656, "loss": 0.474, "step": 20320 }, { "epoch": 54.21333333333333, "grad_norm": 0.3046875, "learning_rate": 0.0002994821913114542, "loss": 0.4682, "step": 20330 }, { "epoch": 54.24, "grad_norm": 0.2431640625, "learning_rate": 0.00029948166920670095, "loss": 0.4729, "step": 20340 }, { "epoch": 54.266666666666666, "grad_norm": 0.26953125, "learning_rate": 0.0002994811468393176, "loss": 0.4773, "step": 20350 }, { "epoch": 54.29333333333334, "grad_norm": 0.28515625, "learning_rate": 0.00029948062420930515, "loss": 0.4703, "step": 20360 }, { "epoch": 54.32, "grad_norm": 0.267578125, "learning_rate": 0.0002994801013166645, "loss": 0.4741, "step": 20370 }, { "epoch": 54.346666666666664, "grad_norm": 0.279296875, "learning_rate": 0.00029947957816139654, "loss": 0.4822, "step": 20380 }, { "epoch": 54.373333333333335, "grad_norm": 0.326171875, "learning_rate": 0.0002994790547435022, "loss": 0.4783, "step": 20390 }, { "epoch": 54.4, "grad_norm": 0.294921875, "learning_rate": 0.00029947853106298243, "loss": 0.475, "step": 20400 }, { "epoch": 54.42666666666667, "grad_norm": 0.27734375, "learning_rate": 0.0002994780071198381, "loss": 0.4812, "step": 20410 }, { "epoch": 54.45333333333333, "grad_norm": 0.27734375, "learning_rate": 0.0002994774829140702, "loss": 0.4833, "step": 20420 }, { "epoch": 54.48, "grad_norm": 0.33203125, "learning_rate": 0.00029947695844567956, "loss": 0.4894, "step": 20430 }, { "epoch": 54.50666666666667, "grad_norm": 0.2392578125, "learning_rate": 0.00029947643371466717, "loss": 0.4791, "step": 20440 }, { "epoch": 54.53333333333333, "grad_norm": 0.21484375, "learning_rate": 0.00029947590872103397, "loss": 0.4729, "step": 20450 }, { "epoch": 54.56, "grad_norm": 0.37109375, "learning_rate": 0.0002994753834647808, "loss": 0.473, "step": 20460 }, { "epoch": 54.586666666666666, "grad_norm": 0.2314453125, "learning_rate": 0.0002994748579459086, "loss": 0.4698, "step": 20470 }, { "epoch": 54.61333333333333, "grad_norm": 0.2236328125, "learning_rate": 0.00029947433216441835, "loss": 0.4553, "step": 20480 }, { "epoch": 54.64, "grad_norm": 0.3125, "learning_rate": 0.00029947380612031094, "loss": 0.4606, "step": 20490 }, { "epoch": 54.666666666666664, "grad_norm": 0.30859375, "learning_rate": 0.00029947327981358736, "loss": 0.4757, "step": 20500 }, { "epoch": 54.693333333333335, "grad_norm": 0.2421875, "learning_rate": 0.0002994727532442484, "loss": 0.4592, "step": 20510 }, { "epoch": 54.72, "grad_norm": 0.287109375, "learning_rate": 0.0002994722264122951, "loss": 0.476, "step": 20520 }, { "epoch": 54.74666666666667, "grad_norm": 0.2890625, "learning_rate": 0.0002994716993177283, "loss": 0.4808, "step": 20530 }, { "epoch": 54.77333333333333, "grad_norm": 0.357421875, "learning_rate": 0.00029947117196054904, "loss": 0.4881, "step": 20540 }, { "epoch": 54.8, "grad_norm": 0.267578125, "learning_rate": 0.00029947064434075814, "loss": 0.4746, "step": 20550 }, { "epoch": 54.82666666666667, "grad_norm": 0.314453125, "learning_rate": 0.0002994701164583565, "loss": 0.4696, "step": 20560 }, { "epoch": 54.85333333333333, "grad_norm": 0.265625, "learning_rate": 0.0002994695883133452, "loss": 0.4786, "step": 20570 }, { "epoch": 54.88, "grad_norm": 0.33984375, "learning_rate": 0.0002994690599057251, "loss": 0.4663, "step": 20580 }, { "epoch": 54.906666666666666, "grad_norm": 0.23828125, "learning_rate": 0.000299468531235497, "loss": 0.4689, "step": 20590 }, { "epoch": 54.93333333333333, "grad_norm": 0.2353515625, "learning_rate": 0.000299468002302662, "loss": 0.4707, "step": 20600 }, { "epoch": 54.96, "grad_norm": 0.21484375, "learning_rate": 0.0002994674731072209, "loss": 0.469, "step": 20610 }, { "epoch": 54.986666666666665, "grad_norm": 0.328125, "learning_rate": 0.00029946694364917483, "loss": 0.4826, "step": 20620 }, { "epoch": 55.0, "eval_loss": 0.48227477073669434, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.2026, "eval_samples_per_second": 1.568, "eval_steps_per_second": 0.098, "step": 20625 }, { "epoch": 55.013333333333335, "grad_norm": 0.26171875, "learning_rate": 0.0002994664139285245, "loss": 0.4724, "step": 20630 }, { "epoch": 55.04, "grad_norm": 0.54296875, "learning_rate": 0.00029946588394527094, "loss": 0.4966, "step": 20640 }, { "epoch": 55.06666666666667, "grad_norm": 0.5078125, "learning_rate": 0.0002994653536994151, "loss": 0.4838, "step": 20650 }, { "epoch": 55.093333333333334, "grad_norm": 0.318359375, "learning_rate": 0.00029946482319095783, "loss": 0.4785, "step": 20660 }, { "epoch": 55.12, "grad_norm": 0.2490234375, "learning_rate": 0.00029946429241990013, "loss": 0.4745, "step": 20670 }, { "epoch": 55.14666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029946376138624293, "loss": 0.4834, "step": 20680 }, { "epoch": 55.17333333333333, "grad_norm": 0.248046875, "learning_rate": 0.00029946323008998713, "loss": 0.4745, "step": 20690 }, { "epoch": 55.2, "grad_norm": 0.2421875, "learning_rate": 0.00029946269853113367, "loss": 0.472, "step": 20700 }, { "epoch": 55.22666666666667, "grad_norm": 0.2353515625, "learning_rate": 0.0002994621667096835, "loss": 0.4699, "step": 20710 }, { "epoch": 55.25333333333333, "grad_norm": 0.36328125, "learning_rate": 0.0002994616346256375, "loss": 0.4695, "step": 20720 }, { "epoch": 55.28, "grad_norm": 0.36328125, "learning_rate": 0.0002994611022789967, "loss": 0.4839, "step": 20730 }, { "epoch": 55.306666666666665, "grad_norm": 0.33984375, "learning_rate": 0.00029946056966976203, "loss": 0.465, "step": 20740 }, { "epoch": 55.333333333333336, "grad_norm": 0.310546875, "learning_rate": 0.0002994600367979343, "loss": 0.4798, "step": 20750 }, { "epoch": 55.36, "grad_norm": 0.30078125, "learning_rate": 0.0002994595036635146, "loss": 0.4819, "step": 20760 }, { "epoch": 55.38666666666666, "grad_norm": 0.333984375, "learning_rate": 0.0002994589702665038, "loss": 0.4736, "step": 20770 }, { "epoch": 55.413333333333334, "grad_norm": 0.2314453125, "learning_rate": 0.0002994584366069028, "loss": 0.478, "step": 20780 }, { "epoch": 55.44, "grad_norm": 0.328125, "learning_rate": 0.0002994579026847126, "loss": 0.4808, "step": 20790 }, { "epoch": 55.46666666666667, "grad_norm": 0.259765625, "learning_rate": 0.0002994573684999341, "loss": 0.4905, "step": 20800 }, { "epoch": 55.49333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002994568340525682, "loss": 0.4821, "step": 20810 }, { "epoch": 55.52, "grad_norm": 0.2373046875, "learning_rate": 0.000299456299342616, "loss": 0.4765, "step": 20820 }, { "epoch": 55.54666666666667, "grad_norm": 0.2890625, "learning_rate": 0.00029945576437007826, "loss": 0.473, "step": 20830 }, { "epoch": 55.57333333333333, "grad_norm": 0.19921875, "learning_rate": 0.0002994552291349559, "loss": 0.4722, "step": 20840 }, { "epoch": 55.6, "grad_norm": 0.5078125, "learning_rate": 0.0002994546936372501, "loss": 0.466, "step": 20850 }, { "epoch": 55.626666666666665, "grad_norm": 0.31640625, "learning_rate": 0.00029945415787696155, "loss": 0.4526, "step": 20860 }, { "epoch": 55.653333333333336, "grad_norm": 0.267578125, "learning_rate": 0.00029945362185409137, "loss": 0.4721, "step": 20870 }, { "epoch": 55.68, "grad_norm": 0.25, "learning_rate": 0.00029945308556864037, "loss": 0.4638, "step": 20880 }, { "epoch": 55.70666666666666, "grad_norm": 0.34375, "learning_rate": 0.0002994525490206095, "loss": 0.464, "step": 20890 }, { "epoch": 55.733333333333334, "grad_norm": 0.291015625, "learning_rate": 0.0002994520122099998, "loss": 0.4832, "step": 20900 }, { "epoch": 55.76, "grad_norm": 0.333984375, "learning_rate": 0.0002994514751368121, "loss": 0.4849, "step": 20910 }, { "epoch": 55.78666666666667, "grad_norm": 0.228515625, "learning_rate": 0.0002994509378010475, "loss": 0.4829, "step": 20920 }, { "epoch": 55.81333333333333, "grad_norm": 0.345703125, "learning_rate": 0.0002994504002027068, "loss": 0.4678, "step": 20930 }, { "epoch": 55.84, "grad_norm": 0.310546875, "learning_rate": 0.000299449862341791, "loss": 0.4743, "step": 20940 }, { "epoch": 55.86666666666667, "grad_norm": 0.353515625, "learning_rate": 0.00029944932421830105, "loss": 0.474, "step": 20950 }, { "epoch": 55.89333333333333, "grad_norm": 0.390625, "learning_rate": 0.00029944878583223783, "loss": 0.4645, "step": 20960 }, { "epoch": 55.92, "grad_norm": 0.369140625, "learning_rate": 0.0002994482471836024, "loss": 0.4752, "step": 20970 }, { "epoch": 55.946666666666665, "grad_norm": 0.23828125, "learning_rate": 0.0002994477082723956, "loss": 0.4673, "step": 20980 }, { "epoch": 55.973333333333336, "grad_norm": 0.23828125, "learning_rate": 0.00029944716909861846, "loss": 0.4788, "step": 20990 }, { "epoch": 56.0, "grad_norm": 0.2236328125, "learning_rate": 0.00029944662966227185, "loss": 0.4679, "step": 21000 }, { "epoch": 56.0, "eval_loss": 0.4822176694869995, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.3155, "eval_samples_per_second": 1.551, "eval_steps_per_second": 0.097, "step": 21000 }, { "epoch": 56.026666666666664, "grad_norm": 0.322265625, "learning_rate": 0.0002994460899633568, "loss": 0.4876, "step": 21010 }, { "epoch": 56.053333333333335, "grad_norm": 0.2177734375, "learning_rate": 0.00029944555000187414, "loss": 0.493, "step": 21020 }, { "epoch": 56.08, "grad_norm": 0.357421875, "learning_rate": 0.00029944500977782494, "loss": 0.4808, "step": 21030 }, { "epoch": 56.10666666666667, "grad_norm": 0.3125, "learning_rate": 0.00029944446929121006, "loss": 0.4754, "step": 21040 }, { "epoch": 56.13333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002994439285420306, "loss": 0.4769, "step": 21050 }, { "epoch": 56.16, "grad_norm": 0.34375, "learning_rate": 0.0002994433875302873, "loss": 0.4814, "step": 21060 }, { "epoch": 56.18666666666667, "grad_norm": 0.3046875, "learning_rate": 0.0002994428462559813, "loss": 0.473, "step": 21070 }, { "epoch": 56.21333333333333, "grad_norm": 0.328125, "learning_rate": 0.0002994423047191134, "loss": 0.4678, "step": 21080 }, { "epoch": 56.24, "grad_norm": 0.29296875, "learning_rate": 0.00029944176291968463, "loss": 0.4719, "step": 21090 }, { "epoch": 56.266666666666666, "grad_norm": 0.220703125, "learning_rate": 0.0002994412208576959, "loss": 0.4762, "step": 21100 }, { "epoch": 56.29333333333334, "grad_norm": 0.37109375, "learning_rate": 0.0002994406785331482, "loss": 0.4699, "step": 21110 }, { "epoch": 56.32, "grad_norm": 0.34765625, "learning_rate": 0.0002994401359460425, "loss": 0.4745, "step": 21120 }, { "epoch": 56.346666666666664, "grad_norm": 0.375, "learning_rate": 0.0002994395930963797, "loss": 0.4827, "step": 21130 }, { "epoch": 56.373333333333335, "grad_norm": 0.267578125, "learning_rate": 0.0002994390499841608, "loss": 0.4779, "step": 21140 }, { "epoch": 56.4, "grad_norm": 0.208984375, "learning_rate": 0.0002994385066093867, "loss": 0.4743, "step": 21150 }, { "epoch": 56.42666666666667, "grad_norm": 0.314453125, "learning_rate": 0.00029943796297205843, "loss": 0.4808, "step": 21160 }, { "epoch": 56.45333333333333, "grad_norm": 0.376953125, "learning_rate": 0.00029943741907217686, "loss": 0.483, "step": 21170 }, { "epoch": 56.48, "grad_norm": 0.35546875, "learning_rate": 0.00029943687490974305, "loss": 0.4892, "step": 21180 }, { "epoch": 56.50666666666667, "grad_norm": 0.265625, "learning_rate": 0.0002994363304847578, "loss": 0.4786, "step": 21190 }, { "epoch": 56.53333333333333, "grad_norm": 0.275390625, "learning_rate": 0.00029943578579722224, "loss": 0.4723, "step": 21200 }, { "epoch": 56.56, "grad_norm": 0.357421875, "learning_rate": 0.00029943524084713723, "loss": 0.4739, "step": 21210 }, { "epoch": 56.586666666666666, "grad_norm": 0.515625, "learning_rate": 0.00029943469563450373, "loss": 0.4698, "step": 21220 }, { "epoch": 56.61333333333333, "grad_norm": 0.28125, "learning_rate": 0.00029943415015932275, "loss": 0.4556, "step": 21230 }, { "epoch": 56.64, "grad_norm": 0.26171875, "learning_rate": 0.0002994336044215952, "loss": 0.4601, "step": 21240 }, { "epoch": 56.666666666666664, "grad_norm": 0.3515625, "learning_rate": 0.000299433058421322, "loss": 0.4757, "step": 21250 }, { "epoch": 56.693333333333335, "grad_norm": 0.314453125, "learning_rate": 0.0002994325121585042, "loss": 0.4589, "step": 21260 }, { "epoch": 56.72, "grad_norm": 0.2236328125, "learning_rate": 0.00029943196563314274, "loss": 0.4759, "step": 21270 }, { "epoch": 56.74666666666667, "grad_norm": 0.2255859375, "learning_rate": 0.00029943141884523856, "loss": 0.4803, "step": 21280 }, { "epoch": 56.77333333333333, "grad_norm": 0.263671875, "learning_rate": 0.0002994308717947926, "loss": 0.488, "step": 21290 }, { "epoch": 56.8, "grad_norm": 0.265625, "learning_rate": 0.0002994303244818058, "loss": 0.4749, "step": 21300 }, { "epoch": 56.82666666666667, "grad_norm": 0.306640625, "learning_rate": 0.0002994297769062792, "loss": 0.4693, "step": 21310 }, { "epoch": 56.85333333333333, "grad_norm": 0.251953125, "learning_rate": 0.00029942922906821376, "loss": 0.479, "step": 21320 }, { "epoch": 56.88, "grad_norm": 0.333984375, "learning_rate": 0.0002994286809676104, "loss": 0.4673, "step": 21330 }, { "epoch": 56.906666666666666, "grad_norm": 0.279296875, "learning_rate": 0.00029942813260447, "loss": 0.4684, "step": 21340 }, { "epoch": 56.93333333333333, "grad_norm": 0.25, "learning_rate": 0.0002994275839787937, "loss": 0.4706, "step": 21350 }, { "epoch": 56.96, "grad_norm": 0.30078125, "learning_rate": 0.0002994270350905824, "loss": 0.4689, "step": 21360 }, { "epoch": 56.986666666666665, "grad_norm": 0.2890625, "learning_rate": 0.00029942648593983697, "loss": 0.4821, "step": 21370 }, { "epoch": 57.0, "eval_loss": 0.4817401170730591, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.8223, "eval_samples_per_second": 1.629, "eval_steps_per_second": 0.102, "step": 21375 }, { "epoch": 57.013333333333335, "grad_norm": 0.21484375, "learning_rate": 0.00029942593652655853, "loss": 0.4709, "step": 21380 }, { "epoch": 57.04, "grad_norm": 0.271484375, "learning_rate": 0.0002994253868507479, "loss": 0.4956, "step": 21390 }, { "epoch": 57.06666666666667, "grad_norm": 0.390625, "learning_rate": 0.0002994248369124061, "loss": 0.4832, "step": 21400 }, { "epoch": 57.093333333333334, "grad_norm": 0.31640625, "learning_rate": 0.00029942428671153414, "loss": 0.4776, "step": 21410 }, { "epoch": 57.12, "grad_norm": 0.25, "learning_rate": 0.00029942373624813293, "loss": 0.4744, "step": 21420 }, { "epoch": 57.14666666666667, "grad_norm": 0.32421875, "learning_rate": 0.00029942318552220344, "loss": 0.4837, "step": 21430 }, { "epoch": 57.17333333333333, "grad_norm": 0.33203125, "learning_rate": 0.0002994226345337467, "loss": 0.473, "step": 21440 }, { "epoch": 57.2, "grad_norm": 0.423828125, "learning_rate": 0.00029942208328276364, "loss": 0.472, "step": 21450 }, { "epoch": 57.22666666666667, "grad_norm": 0.25, "learning_rate": 0.0002994215317692552, "loss": 0.4694, "step": 21460 }, { "epoch": 57.25333333333333, "grad_norm": 0.283203125, "learning_rate": 0.00029942097999322237, "loss": 0.4695, "step": 21470 }, { "epoch": 57.28, "grad_norm": 0.388671875, "learning_rate": 0.0002994204279546661, "loss": 0.4827, "step": 21480 }, { "epoch": 57.306666666666665, "grad_norm": 0.412109375, "learning_rate": 0.00029941987565358744, "loss": 0.4643, "step": 21490 }, { "epoch": 57.333333333333336, "grad_norm": 0.3046875, "learning_rate": 0.00029941932308998726, "loss": 0.4799, "step": 21500 }, { "epoch": 57.36, "grad_norm": 0.265625, "learning_rate": 0.0002994187702638666, "loss": 0.4823, "step": 21510 }, { "epoch": 57.38666666666666, "grad_norm": 0.314453125, "learning_rate": 0.00029941821717522634, "loss": 0.4732, "step": 21520 }, { "epoch": 57.413333333333334, "grad_norm": 0.3046875, "learning_rate": 0.0002994176638240676, "loss": 0.4783, "step": 21530 }, { "epoch": 57.44, "grad_norm": 0.310546875, "learning_rate": 0.0002994171102103912, "loss": 0.4808, "step": 21540 }, { "epoch": 57.46666666666667, "grad_norm": 0.255859375, "learning_rate": 0.0002994165563341982, "loss": 0.4903, "step": 21550 }, { "epoch": 57.49333333333333, "grad_norm": 0.263671875, "learning_rate": 0.00029941600219548955, "loss": 0.4812, "step": 21560 }, { "epoch": 57.52, "grad_norm": 0.20703125, "learning_rate": 0.00029941544779426627, "loss": 0.476, "step": 21570 }, { "epoch": 57.54666666666667, "grad_norm": 0.32421875, "learning_rate": 0.00029941489313052924, "loss": 0.4725, "step": 21580 }, { "epoch": 57.57333333333333, "grad_norm": 0.263671875, "learning_rate": 0.00029941433820427954, "loss": 0.4722, "step": 21590 }, { "epoch": 57.6, "grad_norm": 0.353515625, "learning_rate": 0.00029941378301551804, "loss": 0.4654, "step": 21600 }, { "epoch": 57.626666666666665, "grad_norm": 0.337890625, "learning_rate": 0.00029941322756424577, "loss": 0.4532, "step": 21610 }, { "epoch": 57.653333333333336, "grad_norm": 0.2373046875, "learning_rate": 0.0002994126718504637, "loss": 0.4716, "step": 21620 }, { "epoch": 57.68, "grad_norm": 0.1904296875, "learning_rate": 0.0002994121158741728, "loss": 0.4638, "step": 21630 }, { "epoch": 57.70666666666666, "grad_norm": 0.2890625, "learning_rate": 0.0002994115596353741, "loss": 0.4642, "step": 21640 }, { "epoch": 57.733333333333334, "grad_norm": 0.357421875, "learning_rate": 0.0002994110031340685, "loss": 0.4833, "step": 21650 }, { "epoch": 57.76, "grad_norm": 0.283203125, "learning_rate": 0.000299410446370257, "loss": 0.485, "step": 21660 }, { "epoch": 57.78666666666667, "grad_norm": 0.251953125, "learning_rate": 0.0002994098893439406, "loss": 0.4828, "step": 21670 }, { "epoch": 57.81333333333333, "grad_norm": 0.26953125, "learning_rate": 0.0002994093320551203, "loss": 0.4677, "step": 21680 }, { "epoch": 57.84, "grad_norm": 0.275390625, "learning_rate": 0.000299408774503797, "loss": 0.4738, "step": 21690 }, { "epoch": 57.86666666666667, "grad_norm": 0.2734375, "learning_rate": 0.0002994082166899717, "loss": 0.4738, "step": 21700 }, { "epoch": 57.89333333333333, "grad_norm": 0.2578125, "learning_rate": 0.0002994076586136455, "loss": 0.4642, "step": 21710 }, { "epoch": 57.92, "grad_norm": 0.24609375, "learning_rate": 0.0002994071002748192, "loss": 0.4743, "step": 21720 }, { "epoch": 57.946666666666665, "grad_norm": 0.26171875, "learning_rate": 0.00029940654167349393, "loss": 0.467, "step": 21730 }, { "epoch": 57.973333333333336, "grad_norm": 0.23828125, "learning_rate": 0.0002994059828096706, "loss": 0.4781, "step": 21740 }, { "epoch": 58.0, "grad_norm": 0.265625, "learning_rate": 0.00029940542368335016, "loss": 0.4677, "step": 21750 }, { "epoch": 58.0, "eval_loss": 0.482833594083786, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.7365, "eval_samples_per_second": 1.49, "eval_steps_per_second": 0.093, "step": 21750 }, { "epoch": 58.026666666666664, "grad_norm": 0.455078125, "learning_rate": 0.00029940486429453364, "loss": 0.4869, "step": 21760 }, { "epoch": 58.053333333333335, "grad_norm": 0.35546875, "learning_rate": 0.0002994043046432221, "loss": 0.4935, "step": 21770 }, { "epoch": 58.08, "grad_norm": 0.30078125, "learning_rate": 0.00029940374472941627, "loss": 0.4806, "step": 21780 }, { "epoch": 58.10666666666667, "grad_norm": 0.30859375, "learning_rate": 0.0002994031845531174, "loss": 0.4761, "step": 21790 }, { "epoch": 58.13333333333333, "grad_norm": 0.49609375, "learning_rate": 0.0002994026241143264, "loss": 0.4771, "step": 21800 }, { "epoch": 58.16, "grad_norm": 0.265625, "learning_rate": 0.00029940206341304423, "loss": 0.4811, "step": 21810 }, { "epoch": 58.18666666666667, "grad_norm": 0.369140625, "learning_rate": 0.00029940150244927183, "loss": 0.4731, "step": 21820 }, { "epoch": 58.21333333333333, "grad_norm": 0.26171875, "learning_rate": 0.00029940094122301024, "loss": 0.4678, "step": 21830 }, { "epoch": 58.24, "grad_norm": 0.578125, "learning_rate": 0.0002994003797342605, "loss": 0.4721, "step": 21840 }, { "epoch": 58.266666666666666, "grad_norm": 0.359375, "learning_rate": 0.0002993998179830235, "loss": 0.4767, "step": 21850 }, { "epoch": 58.29333333333334, "grad_norm": 0.283203125, "learning_rate": 0.00029939925596930017, "loss": 0.4705, "step": 21860 }, { "epoch": 58.32, "grad_norm": 0.275390625, "learning_rate": 0.0002993986936930917, "loss": 0.4732, "step": 21870 }, { "epoch": 58.346666666666664, "grad_norm": 0.3203125, "learning_rate": 0.00029939813115439896, "loss": 0.4823, "step": 21880 }, { "epoch": 58.373333333333335, "grad_norm": 0.265625, "learning_rate": 0.0002993975683532229, "loss": 0.4786, "step": 21890 }, { "epoch": 58.4, "grad_norm": 0.380859375, "learning_rate": 0.0002993970052895646, "loss": 0.4743, "step": 21900 }, { "epoch": 58.42666666666667, "grad_norm": 0.333984375, "learning_rate": 0.00029939644196342495, "loss": 0.4806, "step": 21910 }, { "epoch": 58.45333333333333, "grad_norm": 0.337890625, "learning_rate": 0.000299395878374805, "loss": 0.4826, "step": 21920 }, { "epoch": 58.48, "grad_norm": 0.287109375, "learning_rate": 0.00029939531452370573, "loss": 0.489, "step": 21930 }, { "epoch": 58.50666666666667, "grad_norm": 0.2490234375, "learning_rate": 0.0002993947504101282, "loss": 0.479, "step": 21940 }, { "epoch": 58.53333333333333, "grad_norm": 0.2353515625, "learning_rate": 0.00029939418603407326, "loss": 0.4727, "step": 21950 }, { "epoch": 58.56, "grad_norm": 0.2060546875, "learning_rate": 0.0002993936213955421, "loss": 0.4739, "step": 21960 }, { "epoch": 58.586666666666666, "grad_norm": 0.26171875, "learning_rate": 0.00029939305649453546, "loss": 0.4694, "step": 21970 }, { "epoch": 58.61333333333333, "grad_norm": 0.2353515625, "learning_rate": 0.0002993924913310545, "loss": 0.4546, "step": 21980 }, { "epoch": 58.64, "grad_norm": 0.279296875, "learning_rate": 0.0002993919259051002, "loss": 0.4597, "step": 21990 }, { "epoch": 58.666666666666664, "grad_norm": 0.341796875, "learning_rate": 0.00029939136021667347, "loss": 0.476, "step": 22000 }, { "epoch": 58.693333333333335, "grad_norm": 0.2060546875, "learning_rate": 0.0002993907942657754, "loss": 0.4589, "step": 22010 }, { "epoch": 58.72, "grad_norm": 0.314453125, "learning_rate": 0.0002993902280524069, "loss": 0.4755, "step": 22020 }, { "epoch": 58.74666666666667, "grad_norm": 0.310546875, "learning_rate": 0.00029938966157656903, "loss": 0.4802, "step": 22030 }, { "epoch": 58.77333333333333, "grad_norm": 0.384765625, "learning_rate": 0.0002993890948382628, "loss": 0.4877, "step": 22040 }, { "epoch": 58.8, "grad_norm": 0.2421875, "learning_rate": 0.00029938852783748914, "loss": 0.4744, "step": 22050 }, { "epoch": 58.82666666666667, "grad_norm": 0.40625, "learning_rate": 0.0002993879605742491, "loss": 0.4692, "step": 22060 }, { "epoch": 58.85333333333333, "grad_norm": 0.267578125, "learning_rate": 0.00029938739304854366, "loss": 0.4784, "step": 22070 }, { "epoch": 58.88, "grad_norm": 0.326171875, "learning_rate": 0.0002993868252603738, "loss": 0.4663, "step": 22080 }, { "epoch": 58.906666666666666, "grad_norm": 0.2275390625, "learning_rate": 0.0002993862572097405, "loss": 0.469, "step": 22090 }, { "epoch": 58.93333333333333, "grad_norm": 0.236328125, "learning_rate": 0.00029938568889664486, "loss": 0.4704, "step": 22100 }, { "epoch": 58.96, "grad_norm": 0.234375, "learning_rate": 0.0002993851203210877, "loss": 0.4678, "step": 22110 }, { "epoch": 58.986666666666665, "grad_norm": 0.29296875, "learning_rate": 0.00029938455148307023, "loss": 0.4824, "step": 22120 }, { "epoch": 59.0, "eval_loss": 0.48143550753593445, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.9892, "eval_samples_per_second": 1.456, "eval_steps_per_second": 0.091, "step": 22125 }, { "epoch": 59.013333333333335, "grad_norm": 0.29296875, "learning_rate": 0.00029938398238259326, "loss": 0.4708, "step": 22130 }, { "epoch": 59.04, "grad_norm": 0.287109375, "learning_rate": 0.00029938341301965793, "loss": 0.4954, "step": 22140 }, { "epoch": 59.06666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002993828433942651, "loss": 0.4836, "step": 22150 }, { "epoch": 59.093333333333334, "grad_norm": 0.3203125, "learning_rate": 0.000299382273506416, "loss": 0.4775, "step": 22160 }, { "epoch": 59.12, "grad_norm": 0.29296875, "learning_rate": 0.0002993817033561114, "loss": 0.4737, "step": 22170 }, { "epoch": 59.14666666666667, "grad_norm": 0.310546875, "learning_rate": 0.0002993811329433524, "loss": 0.4832, "step": 22180 }, { "epoch": 59.17333333333333, "grad_norm": 0.29296875, "learning_rate": 0.00029938056226813995, "loss": 0.4728, "step": 22190 }, { "epoch": 59.2, "grad_norm": 0.25390625, "learning_rate": 0.00029937999133047513, "loss": 0.4715, "step": 22200 }, { "epoch": 59.22666666666667, "grad_norm": 0.2158203125, "learning_rate": 0.0002993794201303589, "loss": 0.4693, "step": 22210 }, { "epoch": 59.25333333333333, "grad_norm": 0.373046875, "learning_rate": 0.0002993788486677923, "loss": 0.4697, "step": 22220 }, { "epoch": 59.28, "grad_norm": 0.353515625, "learning_rate": 0.00029937827694277627, "loss": 0.4821, "step": 22230 }, { "epoch": 59.306666666666665, "grad_norm": 0.259765625, "learning_rate": 0.0002993777049553118, "loss": 0.4642, "step": 22240 }, { "epoch": 59.333333333333336, "grad_norm": 0.26953125, "learning_rate": 0.00029937713270540003, "loss": 0.4797, "step": 22250 }, { "epoch": 59.36, "grad_norm": 0.25, "learning_rate": 0.0002993765601930418, "loss": 0.4818, "step": 22260 }, { "epoch": 59.38666666666666, "grad_norm": 0.333984375, "learning_rate": 0.00029937598741823826, "loss": 0.4734, "step": 22270 }, { "epoch": 59.413333333333334, "grad_norm": 0.298828125, "learning_rate": 0.00029937541438099035, "loss": 0.4778, "step": 22280 }, { "epoch": 59.44, "grad_norm": 0.2734375, "learning_rate": 0.0002993748410812991, "loss": 0.4805, "step": 22290 }, { "epoch": 59.46666666666667, "grad_norm": 0.345703125, "learning_rate": 0.00029937426751916544, "loss": 0.4899, "step": 22300 }, { "epoch": 59.49333333333333, "grad_norm": 0.314453125, "learning_rate": 0.0002993736936945904, "loss": 0.4816, "step": 22310 }, { "epoch": 59.52, "grad_norm": 0.2392578125, "learning_rate": 0.00029937311960757506, "loss": 0.4761, "step": 22320 }, { "epoch": 59.54666666666667, "grad_norm": 0.32421875, "learning_rate": 0.0002993725452581204, "loss": 0.4726, "step": 22330 }, { "epoch": 59.57333333333333, "grad_norm": 0.1962890625, "learning_rate": 0.0002993719706462274, "loss": 0.4709, "step": 22340 }, { "epoch": 59.6, "grad_norm": 0.2490234375, "learning_rate": 0.0002993713957718971, "loss": 0.4652, "step": 22350 }, { "epoch": 59.626666666666665, "grad_norm": 0.26953125, "learning_rate": 0.0002993708206351305, "loss": 0.4518, "step": 22360 }, { "epoch": 59.653333333333336, "grad_norm": 0.353515625, "learning_rate": 0.0002993702452359286, "loss": 0.4718, "step": 22370 }, { "epoch": 59.68, "grad_norm": 0.306640625, "learning_rate": 0.0002993696695742924, "loss": 0.4637, "step": 22380 }, { "epoch": 59.70666666666666, "grad_norm": 0.314453125, "learning_rate": 0.00029936909365022295, "loss": 0.4642, "step": 22390 }, { "epoch": 59.733333333333334, "grad_norm": 0.3046875, "learning_rate": 0.00029936851746372123, "loss": 0.4835, "step": 22400 }, { "epoch": 59.76, "grad_norm": 1.1796875, "learning_rate": 0.0002993679410147883, "loss": 0.4845, "step": 22410 }, { "epoch": 59.78666666666667, "grad_norm": 0.359375, "learning_rate": 0.00029936736430342514, "loss": 0.4832, "step": 22420 }, { "epoch": 59.81333333333333, "grad_norm": 0.34375, "learning_rate": 0.0002993667873296327, "loss": 0.468, "step": 22430 }, { "epoch": 59.84, "grad_norm": 0.43359375, "learning_rate": 0.0002993662100934121, "loss": 0.474, "step": 22440 }, { "epoch": 59.86666666666667, "grad_norm": 0.365234375, "learning_rate": 0.00029936563259476434, "loss": 0.4738, "step": 22450 }, { "epoch": 59.89333333333333, "grad_norm": 0.29296875, "learning_rate": 0.0002993650548336903, "loss": 0.4639, "step": 22460 }, { "epoch": 59.92, "grad_norm": 0.2275390625, "learning_rate": 0.0002993644768101912, "loss": 0.475, "step": 22470 }, { "epoch": 59.946666666666665, "grad_norm": 0.265625, "learning_rate": 0.00029936389852426793, "loss": 0.4671, "step": 22480 }, { "epoch": 59.973333333333336, "grad_norm": 0.421875, "learning_rate": 0.0002993633199759215, "loss": 0.4786, "step": 22490 }, { "epoch": 60.0, "grad_norm": 0.3828125, "learning_rate": 0.0002993627411651529, "loss": 0.4681, "step": 22500 }, { "epoch": 60.0, "eval_loss": 0.4817136228084564, "eval_model_preparation_time": 0.0016, "eval_runtime": 8.9804, "eval_samples_per_second": 1.782, "eval_steps_per_second": 0.111, "step": 22500 }, { "epoch": 60.026666666666664, "grad_norm": 0.41015625, "learning_rate": 0.0002993621620919633, "loss": 0.4871, "step": 22510 }, { "epoch": 60.053333333333335, "grad_norm": 0.29296875, "learning_rate": 0.00029936158275635364, "loss": 0.4927, "step": 22520 }, { "epoch": 60.08, "grad_norm": 0.294921875, "learning_rate": 0.00029936100315832483, "loss": 0.4794, "step": 22530 }, { "epoch": 60.10666666666667, "grad_norm": 0.3203125, "learning_rate": 0.000299360423297878, "loss": 0.475, "step": 22540 }, { "epoch": 60.13333333333333, "grad_norm": 0.359375, "learning_rate": 0.0002993598431750142, "loss": 0.4765, "step": 22550 }, { "epoch": 60.16, "grad_norm": 0.328125, "learning_rate": 0.00029935926278973433, "loss": 0.4807, "step": 22560 }, { "epoch": 60.18666666666667, "grad_norm": 0.2275390625, "learning_rate": 0.0002993586821420395, "loss": 0.4733, "step": 22570 }, { "epoch": 60.21333333333333, "grad_norm": 0.283203125, "learning_rate": 0.0002993581012319307, "loss": 0.4679, "step": 22580 }, { "epoch": 60.24, "grad_norm": 0.259765625, "learning_rate": 0.000299357520059409, "loss": 0.4718, "step": 22590 }, { "epoch": 60.266666666666666, "grad_norm": 0.248046875, "learning_rate": 0.00029935693862447537, "loss": 0.4757, "step": 22600 }, { "epoch": 60.29333333333334, "grad_norm": 0.36328125, "learning_rate": 0.0002993563569271308, "loss": 0.4703, "step": 22610 }, { "epoch": 60.32, "grad_norm": 0.294921875, "learning_rate": 0.00029935577496737636, "loss": 0.4741, "step": 22620 }, { "epoch": 60.346666666666664, "grad_norm": 0.251953125, "learning_rate": 0.00029935519274521303, "loss": 0.4817, "step": 22630 }, { "epoch": 60.373333333333335, "grad_norm": 0.3203125, "learning_rate": 0.00029935461026064187, "loss": 0.4779, "step": 22640 }, { "epoch": 60.4, "grad_norm": 0.263671875, "learning_rate": 0.000299354027513664, "loss": 0.474, "step": 22650 }, { "epoch": 60.42666666666667, "grad_norm": 0.333984375, "learning_rate": 0.0002993534445042802, "loss": 0.4799, "step": 22660 }, { "epoch": 60.45333333333333, "grad_norm": 0.28515625, "learning_rate": 0.0002993528612324917, "loss": 0.483, "step": 22670 }, { "epoch": 60.48, "grad_norm": 0.412109375, "learning_rate": 0.0002993522776982995, "loss": 0.4892, "step": 22680 }, { "epoch": 60.50666666666667, "grad_norm": 0.2353515625, "learning_rate": 0.00029935169390170454, "loss": 0.4786, "step": 22690 }, { "epoch": 60.53333333333333, "grad_norm": 0.3203125, "learning_rate": 0.0002993511098427079, "loss": 0.4722, "step": 22700 }, { "epoch": 60.56, "grad_norm": 0.3828125, "learning_rate": 0.0002993505255213106, "loss": 0.4728, "step": 22710 }, { "epoch": 60.586666666666666, "grad_norm": 0.27734375, "learning_rate": 0.0002993499409375137, "loss": 0.4689, "step": 22720 }, { "epoch": 60.61333333333333, "grad_norm": 0.294921875, "learning_rate": 0.00029934935609131813, "loss": 0.4551, "step": 22730 }, { "epoch": 60.64, "grad_norm": 0.337890625, "learning_rate": 0.00029934877098272504, "loss": 0.4596, "step": 22740 }, { "epoch": 60.666666666666664, "grad_norm": 0.25, "learning_rate": 0.00029934818561173535, "loss": 0.4755, "step": 22750 }, { "epoch": 60.693333333333335, "grad_norm": 0.27734375, "learning_rate": 0.00029934759997835014, "loss": 0.4584, "step": 22760 }, { "epoch": 60.72, "grad_norm": 0.26953125, "learning_rate": 0.00029934701408257044, "loss": 0.4758, "step": 22770 }, { "epoch": 60.74666666666667, "grad_norm": 0.3125, "learning_rate": 0.0002993464279243973, "loss": 0.4804, "step": 22780 }, { "epoch": 60.77333333333333, "grad_norm": 0.361328125, "learning_rate": 0.0002993458415038317, "loss": 0.4879, "step": 22790 }, { "epoch": 60.8, "grad_norm": 0.26171875, "learning_rate": 0.0002993452548208747, "loss": 0.4741, "step": 22800 }, { "epoch": 60.82666666666667, "grad_norm": 0.236328125, "learning_rate": 0.00029934466787552734, "loss": 0.4689, "step": 22810 }, { "epoch": 60.85333333333333, "grad_norm": 0.29296875, "learning_rate": 0.00029934408066779064, "loss": 0.4778, "step": 22820 }, { "epoch": 60.88, "grad_norm": 0.2392578125, "learning_rate": 0.00029934349319766563, "loss": 0.4657, "step": 22830 }, { "epoch": 60.906666666666666, "grad_norm": 0.271484375, "learning_rate": 0.0002993429054651533, "loss": 0.4687, "step": 22840 }, { "epoch": 60.93333333333333, "grad_norm": 0.2490234375, "learning_rate": 0.00029934231747025475, "loss": 0.4699, "step": 22850 }, { "epoch": 60.96, "grad_norm": 0.291015625, "learning_rate": 0.000299341729212971, "loss": 0.4681, "step": 22860 }, { "epoch": 60.986666666666665, "grad_norm": 0.220703125, "learning_rate": 0.00029934114069330304, "loss": 0.4823, "step": 22870 }, { "epoch": 61.0, "eval_loss": 0.48083022236824036, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.2915, "eval_samples_per_second": 1.555, "eval_steps_per_second": 0.097, "step": 22875 }, { "epoch": 61.013333333333335, "grad_norm": 0.2373046875, "learning_rate": 0.00029934055191125193, "loss": 0.4713, "step": 22880 }, { "epoch": 61.04, "grad_norm": 0.33984375, "learning_rate": 0.00029933996286681875, "loss": 0.496, "step": 22890 }, { "epoch": 61.06666666666667, "grad_norm": 0.439453125, "learning_rate": 0.0002993393735600045, "loss": 0.483, "step": 22900 }, { "epoch": 61.093333333333334, "grad_norm": 0.248046875, "learning_rate": 0.00029933878399081016, "loss": 0.4772, "step": 22910 }, { "epoch": 61.12, "grad_norm": 0.220703125, "learning_rate": 0.0002993381941592369, "loss": 0.4739, "step": 22920 }, { "epoch": 61.14666666666667, "grad_norm": 0.255859375, "learning_rate": 0.00029933760406528553, "loss": 0.4822, "step": 22930 }, { "epoch": 61.17333333333333, "grad_norm": 0.34765625, "learning_rate": 0.0002993370137089573, "loss": 0.4729, "step": 22940 }, { "epoch": 61.2, "grad_norm": 0.333984375, "learning_rate": 0.0002993364230902532, "loss": 0.4714, "step": 22950 }, { "epoch": 61.22666666666667, "grad_norm": 0.283203125, "learning_rate": 0.0002993358322091742, "loss": 0.4688, "step": 22960 }, { "epoch": 61.25333333333333, "grad_norm": 0.27734375, "learning_rate": 0.0002993352410657214, "loss": 0.4691, "step": 22970 }, { "epoch": 61.28, "grad_norm": 0.296875, "learning_rate": 0.0002993346496598958, "loss": 0.4828, "step": 22980 }, { "epoch": 61.306666666666665, "grad_norm": 0.2451171875, "learning_rate": 0.0002993340579916985, "loss": 0.464, "step": 22990 }, { "epoch": 61.333333333333336, "grad_norm": 0.228515625, "learning_rate": 0.0002993334660611305, "loss": 0.4792, "step": 23000 }, { "epoch": 61.36, "grad_norm": 0.2451171875, "learning_rate": 0.0002993328738681928, "loss": 0.4809, "step": 23010 }, { "epoch": 61.38666666666666, "grad_norm": 0.298828125, "learning_rate": 0.0002993322814128865, "loss": 0.4732, "step": 23020 }, { "epoch": 61.413333333333334, "grad_norm": 0.28125, "learning_rate": 0.0002993316886952126, "loss": 0.4774, "step": 23030 }, { "epoch": 61.44, "grad_norm": 0.333984375, "learning_rate": 0.0002993310957151722, "loss": 0.4801, "step": 23040 }, { "epoch": 61.46666666666667, "grad_norm": 0.294921875, "learning_rate": 0.00029933050247276624, "loss": 0.4894, "step": 23050 }, { "epoch": 61.49333333333333, "grad_norm": 0.298828125, "learning_rate": 0.00029932990896799585, "loss": 0.4816, "step": 23060 }, { "epoch": 61.52, "grad_norm": 0.283203125, "learning_rate": 0.000299329315200862, "loss": 0.4755, "step": 23070 }, { "epoch": 61.54666666666667, "grad_norm": 0.421875, "learning_rate": 0.0002993287211713659, "loss": 0.4724, "step": 23080 }, { "epoch": 61.57333333333333, "grad_norm": 0.259765625, "learning_rate": 0.0002993281268795084, "loss": 0.4713, "step": 23090 }, { "epoch": 61.6, "grad_norm": 0.263671875, "learning_rate": 0.0002993275323252906, "loss": 0.4655, "step": 23100 }, { "epoch": 61.626666666666665, "grad_norm": 0.34765625, "learning_rate": 0.0002993269375087136, "loss": 0.4521, "step": 23110 }, { "epoch": 61.653333333333336, "grad_norm": 0.23046875, "learning_rate": 0.0002993263424297784, "loss": 0.472, "step": 23120 }, { "epoch": 61.68, "grad_norm": 0.3359375, "learning_rate": 0.0002993257470884861, "loss": 0.4629, "step": 23130 }, { "epoch": 61.70666666666666, "grad_norm": 0.24609375, "learning_rate": 0.0002993251514848376, "loss": 0.4632, "step": 23140 }, { "epoch": 61.733333333333334, "grad_norm": 0.2392578125, "learning_rate": 0.00029932455561883415, "loss": 0.4831, "step": 23150 }, { "epoch": 61.76, "grad_norm": 0.33984375, "learning_rate": 0.0002993239594904766, "loss": 0.4841, "step": 23160 }, { "epoch": 61.78666666666667, "grad_norm": 0.2734375, "learning_rate": 0.0002993233630997662, "loss": 0.483, "step": 23170 }, { "epoch": 61.81333333333333, "grad_norm": 0.326171875, "learning_rate": 0.00029932276644670377, "loss": 0.4675, "step": 23180 }, { "epoch": 61.84, "grad_norm": 0.28515625, "learning_rate": 0.0002993221695312905, "loss": 0.4741, "step": 23190 }, { "epoch": 61.86666666666667, "grad_norm": 0.265625, "learning_rate": 0.00029932157235352744, "loss": 0.4731, "step": 23200 }, { "epoch": 61.89333333333333, "grad_norm": 0.2373046875, "learning_rate": 0.0002993209749134156, "loss": 0.4642, "step": 23210 }, { "epoch": 61.92, "grad_norm": 0.3046875, "learning_rate": 0.0002993203772109561, "loss": 0.4753, "step": 23220 }, { "epoch": 61.946666666666665, "grad_norm": 0.3671875, "learning_rate": 0.0002993197792461499, "loss": 0.4674, "step": 23230 }, { "epoch": 61.973333333333336, "grad_norm": 0.251953125, "learning_rate": 0.00029931918101899806, "loss": 0.4785, "step": 23240 }, { "epoch": 62.0, "grad_norm": 0.275390625, "learning_rate": 0.00029931858252950166, "loss": 0.4676, "step": 23250 }, { "epoch": 62.0, "eval_loss": 0.4819358289241791, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.6535, "eval_samples_per_second": 1.657, "eval_steps_per_second": 0.104, "step": 23250 }, { "epoch": 62.026666666666664, "grad_norm": 0.3203125, "learning_rate": 0.00029931798377766177, "loss": 0.4871, "step": 23260 }, { "epoch": 62.053333333333335, "grad_norm": 0.396484375, "learning_rate": 0.00029931738476347944, "loss": 0.4929, "step": 23270 }, { "epoch": 62.08, "grad_norm": 0.302734375, "learning_rate": 0.00029931678548695564, "loss": 0.4796, "step": 23280 }, { "epoch": 62.10666666666667, "grad_norm": 0.265625, "learning_rate": 0.00029931618594809155, "loss": 0.4743, "step": 23290 }, { "epoch": 62.13333333333333, "grad_norm": 0.283203125, "learning_rate": 0.0002993155861468881, "loss": 0.4772, "step": 23300 }, { "epoch": 62.16, "grad_norm": 0.248046875, "learning_rate": 0.00029931498608334645, "loss": 0.4811, "step": 23310 }, { "epoch": 62.18666666666667, "grad_norm": 0.302734375, "learning_rate": 0.0002993143857574676, "loss": 0.4729, "step": 23320 }, { "epoch": 62.21333333333333, "grad_norm": 0.232421875, "learning_rate": 0.00029931378516925253, "loss": 0.4676, "step": 23330 }, { "epoch": 62.24, "grad_norm": 0.2353515625, "learning_rate": 0.00029931318431870244, "loss": 0.4716, "step": 23340 }, { "epoch": 62.266666666666666, "grad_norm": 0.28515625, "learning_rate": 0.0002993125832058183, "loss": 0.4759, "step": 23350 }, { "epoch": 62.29333333333334, "grad_norm": 0.294921875, "learning_rate": 0.0002993119818306012, "loss": 0.4701, "step": 23360 }, { "epoch": 62.32, "grad_norm": 0.341796875, "learning_rate": 0.00029931138019305225, "loss": 0.4734, "step": 23370 }, { "epoch": 62.346666666666664, "grad_norm": 0.279296875, "learning_rate": 0.0002993107782931724, "loss": 0.4815, "step": 23380 }, { "epoch": 62.373333333333335, "grad_norm": 0.2216796875, "learning_rate": 0.0002993101761309627, "loss": 0.478, "step": 23390 }, { "epoch": 62.4, "grad_norm": 0.32421875, "learning_rate": 0.00029930957370642426, "loss": 0.4735, "step": 23400 }, { "epoch": 62.42666666666667, "grad_norm": 0.31640625, "learning_rate": 0.0002993089710195582, "loss": 0.4802, "step": 23410 }, { "epoch": 62.45333333333333, "grad_norm": 0.310546875, "learning_rate": 0.00029930836807036545, "loss": 0.4831, "step": 23420 }, { "epoch": 62.48, "grad_norm": 0.283203125, "learning_rate": 0.00029930776485884717, "loss": 0.4888, "step": 23430 }, { "epoch": 62.50666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002993071613850044, "loss": 0.4782, "step": 23440 }, { "epoch": 62.53333333333333, "grad_norm": 0.2890625, "learning_rate": 0.00029930655764883813, "loss": 0.472, "step": 23450 }, { "epoch": 62.56, "grad_norm": 0.291015625, "learning_rate": 0.0002993059536503495, "loss": 0.4731, "step": 23460 }, { "epoch": 62.586666666666666, "grad_norm": 0.212890625, "learning_rate": 0.0002993053493895395, "loss": 0.4696, "step": 23470 }, { "epoch": 62.61333333333333, "grad_norm": 0.28125, "learning_rate": 0.00029930474486640935, "loss": 0.4552, "step": 23480 }, { "epoch": 62.64, "grad_norm": 0.359375, "learning_rate": 0.0002993041400809599, "loss": 0.4603, "step": 23490 }, { "epoch": 62.666666666666664, "grad_norm": 0.33984375, "learning_rate": 0.00029930353503319234, "loss": 0.4749, "step": 23500 }, { "epoch": 62.693333333333335, "grad_norm": 0.322265625, "learning_rate": 0.00029930292972310773, "loss": 0.458, "step": 23510 }, { "epoch": 62.72, "grad_norm": 0.34375, "learning_rate": 0.0002993023241507071, "loss": 0.4755, "step": 23520 }, { "epoch": 62.74666666666667, "grad_norm": 0.265625, "learning_rate": 0.00029930171831599146, "loss": 0.4794, "step": 23530 }, { "epoch": 62.77333333333333, "grad_norm": 0.34765625, "learning_rate": 0.000299301112218962, "loss": 0.4874, "step": 23540 }, { "epoch": 62.8, "grad_norm": 0.2734375, "learning_rate": 0.0002993005058596197, "loss": 0.4747, "step": 23550 }, { "epoch": 62.82666666666667, "grad_norm": 0.30078125, "learning_rate": 0.00029929989923796566, "loss": 0.4695, "step": 23560 }, { "epoch": 62.85333333333333, "grad_norm": 0.26953125, "learning_rate": 0.000299299292354001, "loss": 0.4779, "step": 23570 }, { "epoch": 62.88, "grad_norm": 0.3046875, "learning_rate": 0.0002992986852077266, "loss": 0.4657, "step": 23580 }, { "epoch": 62.906666666666666, "grad_norm": 0.279296875, "learning_rate": 0.0002992980777991437, "loss": 0.469, "step": 23590 }, { "epoch": 62.93333333333333, "grad_norm": 0.244140625, "learning_rate": 0.0002992974701282533, "loss": 0.4699, "step": 23600 }, { "epoch": 62.96, "grad_norm": 0.357421875, "learning_rate": 0.00029929686219505645, "loss": 0.4676, "step": 23610 }, { "epoch": 62.986666666666665, "grad_norm": 0.2412109375, "learning_rate": 0.0002992962539995543, "loss": 0.4818, "step": 23620 }, { "epoch": 63.0, "eval_loss": 0.48129552602767944, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.0491, "eval_samples_per_second": 1.592, "eval_steps_per_second": 0.1, "step": 23625 }, { "epoch": 63.013333333333335, "grad_norm": 0.373046875, "learning_rate": 0.00029929564554174786, "loss": 0.4699, "step": 23630 }, { "epoch": 63.04, "grad_norm": 0.349609375, "learning_rate": 0.00029929503682163817, "loss": 0.4947, "step": 23640 }, { "epoch": 63.06666666666667, "grad_norm": 0.3515625, "learning_rate": 0.00029929442783922637, "loss": 0.4823, "step": 23650 }, { "epoch": 63.093333333333334, "grad_norm": 0.365234375, "learning_rate": 0.0002992938185945135, "loss": 0.4777, "step": 23660 }, { "epoch": 63.12, "grad_norm": 0.322265625, "learning_rate": 0.0002992932090875006, "loss": 0.474, "step": 23670 }, { "epoch": 63.14666666666667, "grad_norm": 0.41015625, "learning_rate": 0.0002992925993181888, "loss": 0.4827, "step": 23680 }, { "epoch": 63.17333333333333, "grad_norm": 0.421875, "learning_rate": 0.0002992919892865791, "loss": 0.4732, "step": 23690 }, { "epoch": 63.2, "grad_norm": 0.291015625, "learning_rate": 0.0002992913789926726, "loss": 0.4716, "step": 23700 }, { "epoch": 63.22666666666667, "grad_norm": 0.34765625, "learning_rate": 0.00029929076843647045, "loss": 0.469, "step": 23710 }, { "epoch": 63.25333333333333, "grad_norm": 0.357421875, "learning_rate": 0.0002992901576179736, "loss": 0.469, "step": 23720 }, { "epoch": 63.28, "grad_norm": 0.43359375, "learning_rate": 0.0002992895465371832, "loss": 0.483, "step": 23730 }, { "epoch": 63.306666666666665, "grad_norm": 0.34375, "learning_rate": 0.00029928893519410026, "loss": 0.4638, "step": 23740 }, { "epoch": 63.333333333333336, "grad_norm": 0.302734375, "learning_rate": 0.00029928832358872595, "loss": 0.4795, "step": 23750 }, { "epoch": 63.36, "grad_norm": 0.322265625, "learning_rate": 0.00029928771172106123, "loss": 0.4811, "step": 23760 }, { "epoch": 63.38666666666666, "grad_norm": 0.34765625, "learning_rate": 0.0002992870995911073, "loss": 0.4723, "step": 23770 }, { "epoch": 63.413333333333334, "grad_norm": 0.28515625, "learning_rate": 0.00029928648719886513, "loss": 0.4768, "step": 23780 }, { "epoch": 63.44, "grad_norm": 0.234375, "learning_rate": 0.0002992858745443359, "loss": 0.4805, "step": 23790 }, { "epoch": 63.46666666666667, "grad_norm": 0.251953125, "learning_rate": 0.0002992852616275206, "loss": 0.4897, "step": 23800 }, { "epoch": 63.49333333333333, "grad_norm": 0.369140625, "learning_rate": 0.00029928464844842026, "loss": 0.4807, "step": 23810 }, { "epoch": 63.52, "grad_norm": 0.357421875, "learning_rate": 0.0002992840350070361, "loss": 0.4756, "step": 23820 }, { "epoch": 63.54666666666667, "grad_norm": 0.3125, "learning_rate": 0.00029928342130336905, "loss": 0.4723, "step": 23830 }, { "epoch": 63.57333333333333, "grad_norm": 0.255859375, "learning_rate": 0.00029928280733742033, "loss": 0.4713, "step": 23840 }, { "epoch": 63.6, "grad_norm": 0.326171875, "learning_rate": 0.00029928219310919096, "loss": 0.4648, "step": 23850 }, { "epoch": 63.626666666666665, "grad_norm": 0.30078125, "learning_rate": 0.000299281578618682, "loss": 0.4516, "step": 23860 }, { "epoch": 63.653333333333336, "grad_norm": 0.333984375, "learning_rate": 0.0002992809638658945, "loss": 0.4717, "step": 23870 }, { "epoch": 63.68, "grad_norm": 0.294921875, "learning_rate": 0.0002992803488508296, "loss": 0.463, "step": 23880 }, { "epoch": 63.70666666666666, "grad_norm": 0.265625, "learning_rate": 0.00029927973357348836, "loss": 0.4638, "step": 23890 }, { "epoch": 63.733333333333334, "grad_norm": 0.28125, "learning_rate": 0.00029927911803387185, "loss": 0.4824, "step": 23900 }, { "epoch": 63.76, "grad_norm": 0.294921875, "learning_rate": 0.0002992785022319812, "loss": 0.4843, "step": 23910 }, { "epoch": 63.78666666666667, "grad_norm": 0.2431640625, "learning_rate": 0.00029927788616781743, "loss": 0.4828, "step": 23920 }, { "epoch": 63.81333333333333, "grad_norm": 0.29296875, "learning_rate": 0.0002992772698413817, "loss": 0.4674, "step": 23930 }, { "epoch": 63.84, "grad_norm": 0.306640625, "learning_rate": 0.000299276653252675, "loss": 0.4734, "step": 23940 }, { "epoch": 63.86666666666667, "grad_norm": 0.2109375, "learning_rate": 0.0002992760364016984, "loss": 0.4723, "step": 23950 }, { "epoch": 63.89333333333333, "grad_norm": 0.357421875, "learning_rate": 0.00029927541928845313, "loss": 0.4637, "step": 23960 }, { "epoch": 63.92, "grad_norm": 0.306640625, "learning_rate": 0.0002992748019129401, "loss": 0.4736, "step": 23970 }, { "epoch": 63.946666666666665, "grad_norm": 0.3203125, "learning_rate": 0.00029927418427516054, "loss": 0.4668, "step": 23980 }, { "epoch": 63.973333333333336, "grad_norm": 0.29296875, "learning_rate": 0.0002992735663751155, "loss": 0.4781, "step": 23990 }, { "epoch": 64.0, "grad_norm": 0.392578125, "learning_rate": 0.00029927294821280597, "loss": 0.4674, "step": 24000 }, { "epoch": 64.0, "eval_loss": 0.48202311992645264, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.2055, "eval_samples_per_second": 1.568, "eval_steps_per_second": 0.098, "step": 24000 }, { "epoch": 64.02666666666667, "grad_norm": 0.48828125, "learning_rate": 0.00029927232978823313, "loss": 0.4864, "step": 24010 }, { "epoch": 64.05333333333333, "grad_norm": 0.322265625, "learning_rate": 0.000299271711101398, "loss": 0.4927, "step": 24020 }, { "epoch": 64.08, "grad_norm": 0.3203125, "learning_rate": 0.00029927109215230173, "loss": 0.4798, "step": 24030 }, { "epoch": 64.10666666666667, "grad_norm": 0.330078125, "learning_rate": 0.00029927047294094544, "loss": 0.4745, "step": 24040 }, { "epoch": 64.13333333333334, "grad_norm": 0.328125, "learning_rate": 0.00029926985346733013, "loss": 0.4766, "step": 24050 }, { "epoch": 64.16, "grad_norm": 0.345703125, "learning_rate": 0.0002992692337314569, "loss": 0.4812, "step": 24060 }, { "epoch": 64.18666666666667, "grad_norm": 0.310546875, "learning_rate": 0.00029926861373332685, "loss": 0.4725, "step": 24070 }, { "epoch": 64.21333333333334, "grad_norm": 0.373046875, "learning_rate": 0.0002992679934729411, "loss": 0.4676, "step": 24080 }, { "epoch": 64.24, "grad_norm": 0.234375, "learning_rate": 0.0002992673729503007, "loss": 0.4714, "step": 24090 }, { "epoch": 64.26666666666667, "grad_norm": 0.326171875, "learning_rate": 0.0002992667521654068, "loss": 0.4752, "step": 24100 }, { "epoch": 64.29333333333334, "grad_norm": 0.361328125, "learning_rate": 0.0002992661311182604, "loss": 0.47, "step": 24110 }, { "epoch": 64.32, "grad_norm": 0.26953125, "learning_rate": 0.00029926550980886266, "loss": 0.4734, "step": 24120 }, { "epoch": 64.34666666666666, "grad_norm": 0.416015625, "learning_rate": 0.00029926488823721467, "loss": 0.481, "step": 24130 }, { "epoch": 64.37333333333333, "grad_norm": 0.328125, "learning_rate": 0.0002992642664033175, "loss": 0.4777, "step": 24140 }, { "epoch": 64.4, "grad_norm": 0.3359375, "learning_rate": 0.00029926364430717226, "loss": 0.4731, "step": 24150 }, { "epoch": 64.42666666666666, "grad_norm": 0.2490234375, "learning_rate": 0.00029926302194878, "loss": 0.48, "step": 24160 }, { "epoch": 64.45333333333333, "grad_norm": 0.2353515625, "learning_rate": 0.0002992623993281419, "loss": 0.4828, "step": 24170 }, { "epoch": 64.48, "grad_norm": 0.42578125, "learning_rate": 0.00029926177644525894, "loss": 0.4887, "step": 24180 }, { "epoch": 64.50666666666666, "grad_norm": 0.26171875, "learning_rate": 0.0002992611533001323, "loss": 0.4779, "step": 24190 }, { "epoch": 64.53333333333333, "grad_norm": 0.2216796875, "learning_rate": 0.000299260529892763, "loss": 0.4719, "step": 24200 }, { "epoch": 64.56, "grad_norm": 0.287109375, "learning_rate": 0.00029925990622315225, "loss": 0.4733, "step": 24210 }, { "epoch": 64.58666666666667, "grad_norm": 0.349609375, "learning_rate": 0.00029925928229130103, "loss": 0.4682, "step": 24220 }, { "epoch": 64.61333333333333, "grad_norm": 0.203125, "learning_rate": 0.0002992586580972105, "loss": 0.4552, "step": 24230 }, { "epoch": 64.64, "grad_norm": 0.23046875, "learning_rate": 0.00029925803364088175, "loss": 0.4596, "step": 24240 }, { "epoch": 64.66666666666667, "grad_norm": 0.396484375, "learning_rate": 0.00029925740892231586, "loss": 0.4754, "step": 24250 }, { "epoch": 64.69333333333333, "grad_norm": 0.279296875, "learning_rate": 0.0002992567839415139, "loss": 0.4591, "step": 24260 }, { "epoch": 64.72, "grad_norm": 0.302734375, "learning_rate": 0.00029925615869847707, "loss": 0.4752, "step": 24270 }, { "epoch": 64.74666666666667, "grad_norm": 0.2890625, "learning_rate": 0.00029925553319320634, "loss": 0.4798, "step": 24280 }, { "epoch": 64.77333333333333, "grad_norm": 0.296875, "learning_rate": 0.0002992549074257029, "loss": 0.4873, "step": 24290 }, { "epoch": 64.8, "grad_norm": 0.322265625, "learning_rate": 0.0002992542813959678, "loss": 0.4738, "step": 24300 }, { "epoch": 64.82666666666667, "grad_norm": 0.291015625, "learning_rate": 0.00029925365510400216, "loss": 0.4687, "step": 24310 }, { "epoch": 64.85333333333334, "grad_norm": 0.384765625, "learning_rate": 0.00029925302854980713, "loss": 0.4777, "step": 24320 }, { "epoch": 64.88, "grad_norm": 0.2333984375, "learning_rate": 0.00029925240173338377, "loss": 0.4653, "step": 24330 }, { "epoch": 64.90666666666667, "grad_norm": 0.298828125, "learning_rate": 0.0002992517746547331, "loss": 0.4687, "step": 24340 }, { "epoch": 64.93333333333334, "grad_norm": 0.2236328125, "learning_rate": 0.0002992511473138563, "loss": 0.4704, "step": 24350 }, { "epoch": 64.96, "grad_norm": 0.326171875, "learning_rate": 0.0002992505197107545, "loss": 0.4671, "step": 24360 }, { "epoch": 64.98666666666666, "grad_norm": 0.25390625, "learning_rate": 0.0002992498918454288, "loss": 0.482, "step": 24370 }, { "epoch": 65.0, "eval_loss": 0.4812326729297638, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.9729, "eval_samples_per_second": 1.458, "eval_steps_per_second": 0.091, "step": 24375 }, { "epoch": 65.01333333333334, "grad_norm": 0.263671875, "learning_rate": 0.00029924926371788024, "loss": 0.4705, "step": 24380 }, { "epoch": 65.04, "grad_norm": 0.51953125, "learning_rate": 0.00029924863532810995, "loss": 0.4951, "step": 24390 }, { "epoch": 65.06666666666666, "grad_norm": 0.3515625, "learning_rate": 0.000299248006676119, "loss": 0.4827, "step": 24400 }, { "epoch": 65.09333333333333, "grad_norm": 0.271484375, "learning_rate": 0.0002992473777619086, "loss": 0.4766, "step": 24410 }, { "epoch": 65.12, "grad_norm": 0.328125, "learning_rate": 0.00029924674858547976, "loss": 0.4738, "step": 24420 }, { "epoch": 65.14666666666666, "grad_norm": 0.296875, "learning_rate": 0.00029924611914683365, "loss": 0.4829, "step": 24430 }, { "epoch": 65.17333333333333, "grad_norm": 0.322265625, "learning_rate": 0.0002992454894459713, "loss": 0.473, "step": 24440 }, { "epoch": 65.2, "grad_norm": 0.2353515625, "learning_rate": 0.00029924485948289387, "loss": 0.4713, "step": 24450 }, { "epoch": 65.22666666666667, "grad_norm": 0.400390625, "learning_rate": 0.00029924422925760243, "loss": 0.4691, "step": 24460 }, { "epoch": 65.25333333333333, "grad_norm": 0.3671875, "learning_rate": 0.00029924359877009815, "loss": 0.469, "step": 24470 }, { "epoch": 65.28, "grad_norm": 0.345703125, "learning_rate": 0.0002992429680203821, "loss": 0.483, "step": 24480 }, { "epoch": 65.30666666666667, "grad_norm": 0.26953125, "learning_rate": 0.00029924233700845534, "loss": 0.4634, "step": 24490 }, { "epoch": 65.33333333333333, "grad_norm": 0.314453125, "learning_rate": 0.0002992417057343191, "loss": 0.4794, "step": 24500 }, { "epoch": 65.36, "grad_norm": 0.240234375, "learning_rate": 0.0002992410741979744, "loss": 0.4812, "step": 24510 }, { "epoch": 65.38666666666667, "grad_norm": 0.30859375, "learning_rate": 0.0002992404423994223, "loss": 0.473, "step": 24520 }, { "epoch": 65.41333333333333, "grad_norm": 0.2890625, "learning_rate": 0.00029923981033866403, "loss": 0.4765, "step": 24530 }, { "epoch": 65.44, "grad_norm": 0.3125, "learning_rate": 0.0002992391780157006, "loss": 0.4798, "step": 24540 }, { "epoch": 65.46666666666667, "grad_norm": 0.251953125, "learning_rate": 0.00029923854543053316, "loss": 0.4896, "step": 24550 }, { "epoch": 65.49333333333334, "grad_norm": 0.3046875, "learning_rate": 0.0002992379125831629, "loss": 0.4805, "step": 24560 }, { "epoch": 65.52, "grad_norm": 0.26953125, "learning_rate": 0.00029923727947359086, "loss": 0.4752, "step": 24570 }, { "epoch": 65.54666666666667, "grad_norm": 0.28125, "learning_rate": 0.0002992366461018181, "loss": 0.4723, "step": 24580 }, { "epoch": 65.57333333333334, "grad_norm": 0.2236328125, "learning_rate": 0.0002992360124678458, "loss": 0.4708, "step": 24590 }, { "epoch": 65.6, "grad_norm": 0.271484375, "learning_rate": 0.00029923537857167506, "loss": 0.4649, "step": 24600 }, { "epoch": 65.62666666666667, "grad_norm": 0.283203125, "learning_rate": 0.00029923474441330693, "loss": 0.4517, "step": 24610 }, { "epoch": 65.65333333333334, "grad_norm": 0.23046875, "learning_rate": 0.00029923410999274267, "loss": 0.4713, "step": 24620 }, { "epoch": 65.68, "grad_norm": 0.2314453125, "learning_rate": 0.00029923347530998325, "loss": 0.4626, "step": 24630 }, { "epoch": 65.70666666666666, "grad_norm": 0.24609375, "learning_rate": 0.0002992328403650299, "loss": 0.4633, "step": 24640 }, { "epoch": 65.73333333333333, "grad_norm": 0.26171875, "learning_rate": 0.00029923220515788365, "loss": 0.4826, "step": 24650 }, { "epoch": 65.76, "grad_norm": 0.25, "learning_rate": 0.0002992315696885457, "loss": 0.4841, "step": 24660 }, { "epoch": 65.78666666666666, "grad_norm": 0.28125, "learning_rate": 0.000299230933957017, "loss": 0.482, "step": 24670 }, { "epoch": 65.81333333333333, "grad_norm": 0.302734375, "learning_rate": 0.0002992302979632989, "loss": 0.4666, "step": 24680 }, { "epoch": 65.84, "grad_norm": 0.326171875, "learning_rate": 0.0002992296617073923, "loss": 0.473, "step": 24690 }, { "epoch": 65.86666666666666, "grad_norm": 0.302734375, "learning_rate": 0.0002992290251892985, "loss": 0.4729, "step": 24700 }, { "epoch": 65.89333333333333, "grad_norm": 0.236328125, "learning_rate": 0.00029922838840901845, "loss": 0.4635, "step": 24710 }, { "epoch": 65.92, "grad_norm": 0.30078125, "learning_rate": 0.0002992277513665534, "loss": 0.4739, "step": 24720 }, { "epoch": 65.94666666666667, "grad_norm": 0.326171875, "learning_rate": 0.00029922711406190445, "loss": 0.4668, "step": 24730 }, { "epoch": 65.97333333333333, "grad_norm": 0.32421875, "learning_rate": 0.00029922647649507266, "loss": 0.4777, "step": 24740 }, { "epoch": 66.0, "grad_norm": 0.265625, "learning_rate": 0.00029922583866605915, "loss": 0.4668, "step": 24750 }, { "epoch": 66.0, "eval_loss": 0.4806465804576874, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.9252, "eval_samples_per_second": 1.612, "eval_steps_per_second": 0.101, "step": 24750 }, { "epoch": 66.02666666666667, "grad_norm": 0.482421875, "learning_rate": 0.0002992252005748651, "loss": 0.4868, "step": 24760 }, { "epoch": 66.05333333333333, "grad_norm": 0.57421875, "learning_rate": 0.00029922456222149165, "loss": 0.4924, "step": 24770 }, { "epoch": 66.08, "grad_norm": 0.7734375, "learning_rate": 0.0002992239236059398, "loss": 0.4821, "step": 24780 }, { "epoch": 66.10666666666667, "grad_norm": 0.796875, "learning_rate": 0.0002992232847282108, "loss": 0.4756, "step": 24790 }, { "epoch": 66.13333333333334, "grad_norm": 0.5078125, "learning_rate": 0.00029922264558830566, "loss": 0.4774, "step": 24800 }, { "epoch": 66.16, "grad_norm": 0.39453125, "learning_rate": 0.00029922200618622566, "loss": 0.4799, "step": 24810 }, { "epoch": 66.18666666666667, "grad_norm": 0.27734375, "learning_rate": 0.00029922136652197175, "loss": 0.4734, "step": 24820 }, { "epoch": 66.21333333333334, "grad_norm": 0.279296875, "learning_rate": 0.0002992207265955451, "loss": 0.4676, "step": 24830 }, { "epoch": 66.24, "grad_norm": 0.28515625, "learning_rate": 0.00029922008640694697, "loss": 0.4714, "step": 24840 }, { "epoch": 66.26666666666667, "grad_norm": 0.2890625, "learning_rate": 0.0002992194459561783, "loss": 0.4755, "step": 24850 }, { "epoch": 66.29333333333334, "grad_norm": 0.279296875, "learning_rate": 0.0002992188052432403, "loss": 0.4696, "step": 24860 }, { "epoch": 66.32, "grad_norm": 0.2216796875, "learning_rate": 0.00029921816426813416, "loss": 0.4732, "step": 24870 }, { "epoch": 66.34666666666666, "grad_norm": 0.240234375, "learning_rate": 0.00029921752303086087, "loss": 0.4811, "step": 24880 }, { "epoch": 66.37333333333333, "grad_norm": 0.2734375, "learning_rate": 0.00029921688153142163, "loss": 0.4776, "step": 24890 }, { "epoch": 66.4, "grad_norm": 0.2265625, "learning_rate": 0.00029921623976981754, "loss": 0.4733, "step": 24900 }, { "epoch": 66.42666666666666, "grad_norm": 0.390625, "learning_rate": 0.00029921559774604973, "loss": 0.4797, "step": 24910 }, { "epoch": 66.45333333333333, "grad_norm": 0.359375, "learning_rate": 0.00029921495546011946, "loss": 0.4826, "step": 24920 }, { "epoch": 66.48, "grad_norm": 0.349609375, "learning_rate": 0.00029921431291202763, "loss": 0.4885, "step": 24930 }, { "epoch": 66.50666666666666, "grad_norm": 0.23046875, "learning_rate": 0.0002992136701017755, "loss": 0.4776, "step": 24940 }, { "epoch": 66.53333333333333, "grad_norm": 0.2294921875, "learning_rate": 0.0002992130270293642, "loss": 0.4714, "step": 24950 }, { "epoch": 66.56, "grad_norm": 0.2412109375, "learning_rate": 0.0002992123836947949, "loss": 0.4735, "step": 24960 }, { "epoch": 66.58666666666667, "grad_norm": 0.2109375, "learning_rate": 0.00029921174009806857, "loss": 0.4695, "step": 24970 }, { "epoch": 66.61333333333333, "grad_norm": 0.255859375, "learning_rate": 0.0002992110962391865, "loss": 0.4543, "step": 24980 }, { "epoch": 66.64, "grad_norm": 0.1953125, "learning_rate": 0.0002992104521181497, "loss": 0.4594, "step": 24990 }, { "epoch": 66.66666666666667, "grad_norm": 0.3125, "learning_rate": 0.00029920980773495947, "loss": 0.4749, "step": 25000 }, { "epoch": 66.69333333333333, "grad_norm": 0.263671875, "learning_rate": 0.0002992091630896168, "loss": 0.4582, "step": 25010 }, { "epoch": 66.72, "grad_norm": 0.306640625, "learning_rate": 0.00029920851818212283, "loss": 0.4752, "step": 25020 }, { "epoch": 66.74666666666667, "grad_norm": 0.302734375, "learning_rate": 0.0002992078730124787, "loss": 0.4795, "step": 25030 }, { "epoch": 66.77333333333333, "grad_norm": 0.3203125, "learning_rate": 0.0002992072275806857, "loss": 0.4867, "step": 25040 }, { "epoch": 66.8, "grad_norm": 0.1953125, "learning_rate": 0.0002992065818867447, "loss": 0.4742, "step": 25050 }, { "epoch": 66.82666666666667, "grad_norm": 0.255859375, "learning_rate": 0.000299205935930657, "loss": 0.4685, "step": 25060 }, { "epoch": 66.85333333333334, "grad_norm": 0.3359375, "learning_rate": 0.0002992052897124237, "loss": 0.4778, "step": 25070 }, { "epoch": 66.88, "grad_norm": 0.3203125, "learning_rate": 0.00029920464323204593, "loss": 0.4655, "step": 25080 }, { "epoch": 66.90666666666667, "grad_norm": 0.2255859375, "learning_rate": 0.00029920399648952485, "loss": 0.4676, "step": 25090 }, { "epoch": 66.93333333333334, "grad_norm": 0.205078125, "learning_rate": 0.00029920334948486157, "loss": 0.4697, "step": 25100 }, { "epoch": 66.96, "grad_norm": 0.265625, "learning_rate": 0.00029920270221805723, "loss": 0.4676, "step": 25110 }, { "epoch": 66.98666666666666, "grad_norm": 0.31640625, "learning_rate": 0.000299202054689113, "loss": 0.4815, "step": 25120 }, { "epoch": 67.0, "eval_loss": 0.481969952583313, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.4397, "eval_samples_per_second": 1.533, "eval_steps_per_second": 0.096, "step": 25125 }, { "epoch": 67.01333333333334, "grad_norm": 0.275390625, "learning_rate": 0.00029920140689802994, "loss": 0.4708, "step": 25130 }, { "epoch": 67.04, "grad_norm": 0.341796875, "learning_rate": 0.00029920075884480926, "loss": 0.4952, "step": 25140 }, { "epoch": 67.06666666666666, "grad_norm": 0.3203125, "learning_rate": 0.00029920011052945203, "loss": 0.482, "step": 25150 }, { "epoch": 67.09333333333333, "grad_norm": 0.416015625, "learning_rate": 0.00029919946195195953, "loss": 0.4772, "step": 25160 }, { "epoch": 67.12, "grad_norm": 0.310546875, "learning_rate": 0.00029919881311233276, "loss": 0.4734, "step": 25170 }, { "epoch": 67.14666666666666, "grad_norm": 0.291015625, "learning_rate": 0.0002991981640105729, "loss": 0.4818, "step": 25180 }, { "epoch": 67.17333333333333, "grad_norm": 0.318359375, "learning_rate": 0.00029919751464668114, "loss": 0.4733, "step": 25190 }, { "epoch": 67.2, "grad_norm": 0.28125, "learning_rate": 0.00029919686502065846, "loss": 0.471, "step": 25200 }, { "epoch": 67.22666666666667, "grad_norm": 0.26171875, "learning_rate": 0.0002991962151325062, "loss": 0.4689, "step": 25210 }, { "epoch": 67.25333333333333, "grad_norm": 0.259765625, "learning_rate": 0.00029919556498222543, "loss": 0.4691, "step": 25220 }, { "epoch": 67.28, "grad_norm": 0.2265625, "learning_rate": 0.00029919491456981725, "loss": 0.4819, "step": 25230 }, { "epoch": 67.30666666666667, "grad_norm": 0.2392578125, "learning_rate": 0.00029919426389528287, "loss": 0.4635, "step": 25240 }, { "epoch": 67.33333333333333, "grad_norm": 0.24609375, "learning_rate": 0.0002991936129586233, "loss": 0.4792, "step": 25250 }, { "epoch": 67.36, "grad_norm": 0.3828125, "learning_rate": 0.0002991929617598399, "loss": 0.4815, "step": 25260 }, { "epoch": 67.38666666666667, "grad_norm": 0.384765625, "learning_rate": 0.0002991923102989337, "loss": 0.473, "step": 25270 }, { "epoch": 67.41333333333333, "grad_norm": 0.494140625, "learning_rate": 0.00029919165857590575, "loss": 0.4775, "step": 25280 }, { "epoch": 67.44, "grad_norm": 0.267578125, "learning_rate": 0.0002991910065907573, "loss": 0.4801, "step": 25290 }, { "epoch": 67.46666666666667, "grad_norm": 0.2373046875, "learning_rate": 0.0002991903543434895, "loss": 0.489, "step": 25300 }, { "epoch": 67.49333333333334, "grad_norm": 0.2890625, "learning_rate": 0.00029918970183410347, "loss": 0.4808, "step": 25310 }, { "epoch": 67.52, "grad_norm": 0.291015625, "learning_rate": 0.0002991890490626004, "loss": 0.4752, "step": 25320 }, { "epoch": 67.54666666666667, "grad_norm": 0.294921875, "learning_rate": 0.0002991883960289814, "loss": 0.4722, "step": 25330 }, { "epoch": 67.57333333333334, "grad_norm": 0.3125, "learning_rate": 0.00029918774273324754, "loss": 0.4711, "step": 25340 }, { "epoch": 67.6, "grad_norm": 0.23828125, "learning_rate": 0.0002991870891754001, "loss": 0.4649, "step": 25350 }, { "epoch": 67.62666666666667, "grad_norm": 0.1806640625, "learning_rate": 0.0002991864353554402, "loss": 0.4521, "step": 25360 }, { "epoch": 67.65333333333334, "grad_norm": 0.365234375, "learning_rate": 0.0002991857812733689, "loss": 0.4719, "step": 25370 }, { "epoch": 67.68, "grad_norm": 0.322265625, "learning_rate": 0.0002991851269291875, "loss": 0.4628, "step": 25380 }, { "epoch": 67.70666666666666, "grad_norm": 0.29296875, "learning_rate": 0.00029918447232289697, "loss": 0.4633, "step": 25390 }, { "epoch": 67.73333333333333, "grad_norm": 0.26171875, "learning_rate": 0.0002991838174544986, "loss": 0.4821, "step": 25400 }, { "epoch": 67.76, "grad_norm": 0.35546875, "learning_rate": 0.00029918316232399345, "loss": 0.4835, "step": 25410 }, { "epoch": 67.78666666666666, "grad_norm": 0.33984375, "learning_rate": 0.00029918250693138266, "loss": 0.4818, "step": 25420 }, { "epoch": 67.81333333333333, "grad_norm": 0.41796875, "learning_rate": 0.0002991818512766676, "loss": 0.4675, "step": 25430 }, { "epoch": 67.84, "grad_norm": 0.431640625, "learning_rate": 0.0002991811953598491, "loss": 0.4728, "step": 25440 }, { "epoch": 67.86666666666666, "grad_norm": 0.2734375, "learning_rate": 0.00029918053918092855, "loss": 0.4729, "step": 25450 }, { "epoch": 67.89333333333333, "grad_norm": 0.2294921875, "learning_rate": 0.000299179882739907, "loss": 0.4636, "step": 25460 }, { "epoch": 67.92, "grad_norm": 0.30859375, "learning_rate": 0.0002991792260367856, "loss": 0.4727, "step": 25470 }, { "epoch": 67.94666666666667, "grad_norm": 0.244140625, "learning_rate": 0.0002991785690715656, "loss": 0.4662, "step": 25480 }, { "epoch": 67.97333333333333, "grad_norm": 0.32421875, "learning_rate": 0.00029917791184424803, "loss": 0.4778, "step": 25490 }, { "epoch": 68.0, "grad_norm": 0.36328125, "learning_rate": 0.0002991772543548341, "loss": 0.4673, "step": 25500 }, { "epoch": 68.0, "eval_loss": 0.482963889837265, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.6219, "eval_samples_per_second": 1.663, "eval_steps_per_second": 0.104, "step": 25500 }, { "epoch": 68.02666666666667, "grad_norm": 0.30078125, "learning_rate": 0.0002991765966033249, "loss": 0.4862, "step": 25510 }, { "epoch": 68.05333333333333, "grad_norm": 0.33984375, "learning_rate": 0.0002991759385897217, "loss": 0.4916, "step": 25520 }, { "epoch": 68.08, "grad_norm": 0.322265625, "learning_rate": 0.0002991752803140257, "loss": 0.4794, "step": 25530 }, { "epoch": 68.10666666666667, "grad_norm": 0.306640625, "learning_rate": 0.00029917462177623784, "loss": 0.4744, "step": 25540 }, { "epoch": 68.13333333333334, "grad_norm": 0.330078125, "learning_rate": 0.0002991739629763594, "loss": 0.4759, "step": 25550 }, { "epoch": 68.16, "grad_norm": 0.37109375, "learning_rate": 0.0002991733039143916, "loss": 0.4807, "step": 25560 }, { "epoch": 68.18666666666667, "grad_norm": 0.330078125, "learning_rate": 0.00029917264459033554, "loss": 0.4723, "step": 25570 }, { "epoch": 68.21333333333334, "grad_norm": 0.263671875, "learning_rate": 0.0002991719850041923, "loss": 0.4672, "step": 25580 }, { "epoch": 68.24, "grad_norm": 0.314453125, "learning_rate": 0.0002991713251559631, "loss": 0.4708, "step": 25590 }, { "epoch": 68.26666666666667, "grad_norm": 0.251953125, "learning_rate": 0.00029917066504564916, "loss": 0.4757, "step": 25600 }, { "epoch": 68.29333333333334, "grad_norm": 0.365234375, "learning_rate": 0.0002991700046732516, "loss": 0.469, "step": 25610 }, { "epoch": 68.32, "grad_norm": 0.240234375, "learning_rate": 0.00029916934403877155, "loss": 0.4728, "step": 25620 }, { "epoch": 68.34666666666666, "grad_norm": 0.263671875, "learning_rate": 0.00029916868314221017, "loss": 0.4804, "step": 25630 }, { "epoch": 68.37333333333333, "grad_norm": 0.3203125, "learning_rate": 0.00029916802198356866, "loss": 0.4766, "step": 25640 }, { "epoch": 68.4, "grad_norm": 0.28515625, "learning_rate": 0.00029916736056284816, "loss": 0.4737, "step": 25650 }, { "epoch": 68.42666666666666, "grad_norm": 0.302734375, "learning_rate": 0.0002991666988800499, "loss": 0.4802, "step": 25660 }, { "epoch": 68.45333333333333, "grad_norm": 0.296875, "learning_rate": 0.0002991660369351749, "loss": 0.482, "step": 25670 }, { "epoch": 68.48, "grad_norm": 0.306640625, "learning_rate": 0.00029916537472822436, "loss": 0.4874, "step": 25680 }, { "epoch": 68.50666666666666, "grad_norm": 0.29296875, "learning_rate": 0.0002991647122591996, "loss": 0.4779, "step": 25690 }, { "epoch": 68.53333333333333, "grad_norm": 0.2470703125, "learning_rate": 0.0002991640495281016, "loss": 0.4713, "step": 25700 }, { "epoch": 68.56, "grad_norm": 0.23046875, "learning_rate": 0.0002991633865349316, "loss": 0.4725, "step": 25710 }, { "epoch": 68.58666666666667, "grad_norm": 0.28125, "learning_rate": 0.00029916272327969076, "loss": 0.4688, "step": 25720 }, { "epoch": 68.61333333333333, "grad_norm": 0.296875, "learning_rate": 0.00029916205976238016, "loss": 0.4546, "step": 25730 }, { "epoch": 68.64, "grad_norm": 0.2890625, "learning_rate": 0.0002991613959830012, "loss": 0.4591, "step": 25740 }, { "epoch": 68.66666666666667, "grad_norm": 0.275390625, "learning_rate": 0.0002991607319415548, "loss": 0.4744, "step": 25750 }, { "epoch": 68.69333333333333, "grad_norm": 0.380859375, "learning_rate": 0.0002991600676380422, "loss": 0.4578, "step": 25760 }, { "epoch": 68.72, "grad_norm": 0.3359375, "learning_rate": 0.0002991594030724647, "loss": 0.4744, "step": 25770 }, { "epoch": 68.74666666666667, "grad_norm": 0.2216796875, "learning_rate": 0.00029915873824482324, "loss": 0.4796, "step": 25780 }, { "epoch": 68.77333333333333, "grad_norm": 0.271484375, "learning_rate": 0.00029915807315511917, "loss": 0.4875, "step": 25790 }, { "epoch": 68.8, "grad_norm": 0.32421875, "learning_rate": 0.00029915740780335357, "loss": 0.4733, "step": 25800 }, { "epoch": 68.82666666666667, "grad_norm": 0.28125, "learning_rate": 0.00029915674218952763, "loss": 0.4673, "step": 25810 }, { "epoch": 68.85333333333334, "grad_norm": 0.29296875, "learning_rate": 0.0002991560763136425, "loss": 0.4776, "step": 25820 }, { "epoch": 68.88, "grad_norm": 0.30859375, "learning_rate": 0.0002991554101756994, "loss": 0.4645, "step": 25830 }, { "epoch": 68.90666666666667, "grad_norm": 0.28515625, "learning_rate": 0.00029915474377569944, "loss": 0.4676, "step": 25840 }, { "epoch": 68.93333333333334, "grad_norm": 0.2890625, "learning_rate": 0.0002991540771136439, "loss": 0.4683, "step": 25850 }, { "epoch": 68.96, "grad_norm": 0.2470703125, "learning_rate": 0.0002991534101895338, "loss": 0.4679, "step": 25860 }, { "epoch": 68.98666666666666, "grad_norm": 0.30078125, "learning_rate": 0.0002991527430033704, "loss": 0.4816, "step": 25870 }, { "epoch": 69.0, "eval_loss": 0.48096296191215515, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.278, "eval_samples_per_second": 1.557, "eval_steps_per_second": 0.097, "step": 25875 }, { "epoch": 69.01333333333334, "grad_norm": 0.318359375, "learning_rate": 0.00029915207555515486, "loss": 0.4706, "step": 25880 }, { "epoch": 69.04, "grad_norm": 0.322265625, "learning_rate": 0.00029915140784488834, "loss": 0.4949, "step": 25890 }, { "epoch": 69.06666666666666, "grad_norm": 0.279296875, "learning_rate": 0.00029915073987257204, "loss": 0.4821, "step": 25900 }, { "epoch": 69.09333333333333, "grad_norm": 0.267578125, "learning_rate": 0.0002991500716382071, "loss": 0.4776, "step": 25910 }, { "epoch": 69.12, "grad_norm": 0.296875, "learning_rate": 0.00029914940314179476, "loss": 0.4729, "step": 25920 }, { "epoch": 69.14666666666666, "grad_norm": 0.25390625, "learning_rate": 0.00029914873438333605, "loss": 0.482, "step": 25930 }, { "epoch": 69.17333333333333, "grad_norm": 0.30859375, "learning_rate": 0.00029914806536283234, "loss": 0.4724, "step": 25940 }, { "epoch": 69.2, "grad_norm": 0.26171875, "learning_rate": 0.0002991473960802846, "loss": 0.4708, "step": 25950 }, { "epoch": 69.22666666666667, "grad_norm": 0.283203125, "learning_rate": 0.0002991467265356942, "loss": 0.4684, "step": 25960 }, { "epoch": 69.25333333333333, "grad_norm": 0.283203125, "learning_rate": 0.00029914605672906223, "loss": 0.4684, "step": 25970 }, { "epoch": 69.28, "grad_norm": 0.33203125, "learning_rate": 0.0002991453866603898, "loss": 0.4817, "step": 25980 }, { "epoch": 69.30666666666667, "grad_norm": 0.34375, "learning_rate": 0.0002991447163296782, "loss": 0.4634, "step": 25990 }, { "epoch": 69.33333333333333, "grad_norm": 0.46484375, "learning_rate": 0.00029914404573692856, "loss": 0.4795, "step": 26000 }, { "epoch": 69.36, "grad_norm": 0.349609375, "learning_rate": 0.000299143374882142, "loss": 0.4811, "step": 26010 }, { "epoch": 69.38666666666667, "grad_norm": 0.322265625, "learning_rate": 0.00029914270376531985, "loss": 0.4728, "step": 26020 }, { "epoch": 69.41333333333333, "grad_norm": 0.287109375, "learning_rate": 0.0002991420323864631, "loss": 0.477, "step": 26030 }, { "epoch": 69.44, "grad_norm": 0.25, "learning_rate": 0.00029914136074557306, "loss": 0.4799, "step": 26040 }, { "epoch": 69.46666666666667, "grad_norm": 0.45703125, "learning_rate": 0.00029914068884265093, "loss": 0.4892, "step": 26050 }, { "epoch": 69.49333333333334, "grad_norm": 0.431640625, "learning_rate": 0.0002991400166776978, "loss": 0.4803, "step": 26060 }, { "epoch": 69.52, "grad_norm": 0.36328125, "learning_rate": 0.0002991393442507148, "loss": 0.4747, "step": 26070 }, { "epoch": 69.54666666666667, "grad_norm": 0.296875, "learning_rate": 0.0002991386715617033, "loss": 0.4715, "step": 26080 }, { "epoch": 69.57333333333334, "grad_norm": 0.26953125, "learning_rate": 0.00029913799861066437, "loss": 0.4718, "step": 26090 }, { "epoch": 69.6, "grad_norm": 0.29296875, "learning_rate": 0.00029913732539759916, "loss": 0.4646, "step": 26100 }, { "epoch": 69.62666666666667, "grad_norm": 0.318359375, "learning_rate": 0.00029913665192250895, "loss": 0.4517, "step": 26110 }, { "epoch": 69.65333333333334, "grad_norm": 0.30078125, "learning_rate": 0.00029913597818539484, "loss": 0.4709, "step": 26120 }, { "epoch": 69.68, "grad_norm": 0.2392578125, "learning_rate": 0.000299135304186258, "loss": 0.4626, "step": 26130 }, { "epoch": 69.70666666666666, "grad_norm": 0.33203125, "learning_rate": 0.0002991346299250997, "loss": 0.4634, "step": 26140 }, { "epoch": 69.73333333333333, "grad_norm": 0.263671875, "learning_rate": 0.0002991339554019211, "loss": 0.4822, "step": 26150 }, { "epoch": 69.76, "grad_norm": 0.291015625, "learning_rate": 0.00029913328061672336, "loss": 0.4838, "step": 26160 }, { "epoch": 69.78666666666666, "grad_norm": 0.306640625, "learning_rate": 0.00029913260556950765, "loss": 0.4814, "step": 26170 }, { "epoch": 69.81333333333333, "grad_norm": 0.251953125, "learning_rate": 0.0002991319302602752, "loss": 0.4673, "step": 26180 }, { "epoch": 69.84, "grad_norm": 0.40625, "learning_rate": 0.0002991312546890271, "loss": 0.4729, "step": 26190 }, { "epoch": 69.86666666666666, "grad_norm": 0.263671875, "learning_rate": 0.00029913057885576464, "loss": 0.4724, "step": 26200 }, { "epoch": 69.89333333333333, "grad_norm": 0.291015625, "learning_rate": 0.000299129902760489, "loss": 0.4635, "step": 26210 }, { "epoch": 69.92, "grad_norm": 0.26953125, "learning_rate": 0.0002991292264032014, "loss": 0.4729, "step": 26220 }, { "epoch": 69.94666666666667, "grad_norm": 0.30859375, "learning_rate": 0.0002991285497839029, "loss": 0.4661, "step": 26230 }, { "epoch": 69.97333333333333, "grad_norm": 0.341796875, "learning_rate": 0.00029912787290259477, "loss": 0.4779, "step": 26240 }, { "epoch": 70.0, "grad_norm": 0.32421875, "learning_rate": 0.00029912719575927825, "loss": 0.4661, "step": 26250 }, { "epoch": 70.0, "eval_loss": 0.4806675612926483, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.9085, "eval_samples_per_second": 1.615, "eval_steps_per_second": 0.101, "step": 26250 }, { "epoch": 70.02666666666667, "grad_norm": 0.39453125, "learning_rate": 0.0002991265183539544, "loss": 0.4862, "step": 26260 }, { "epoch": 70.05333333333333, "grad_norm": 0.279296875, "learning_rate": 0.0002991258406866245, "loss": 0.4925, "step": 26270 }, { "epoch": 70.08, "grad_norm": 0.33203125, "learning_rate": 0.00029912516275728976, "loss": 0.4794, "step": 26280 }, { "epoch": 70.10666666666667, "grad_norm": 0.2138671875, "learning_rate": 0.0002991244845659513, "loss": 0.4741, "step": 26290 }, { "epoch": 70.13333333333334, "grad_norm": 0.2412109375, "learning_rate": 0.00029912380611261035, "loss": 0.4759, "step": 26300 }, { "epoch": 70.16, "grad_norm": 0.279296875, "learning_rate": 0.00029912312739726807, "loss": 0.4789, "step": 26310 }, { "epoch": 70.18666666666667, "grad_norm": 0.248046875, "learning_rate": 0.00029912244841992573, "loss": 0.472, "step": 26320 }, { "epoch": 70.21333333333334, "grad_norm": 0.267578125, "learning_rate": 0.0002991217691805844, "loss": 0.467, "step": 26330 }, { "epoch": 70.24, "grad_norm": 0.2392578125, "learning_rate": 0.00029912108967924543, "loss": 0.4717, "step": 26340 }, { "epoch": 70.26666666666667, "grad_norm": 0.328125, "learning_rate": 0.00029912040991590986, "loss": 0.4747, "step": 26350 }, { "epoch": 70.29333333333334, "grad_norm": 0.291015625, "learning_rate": 0.00029911972989057905, "loss": 0.4687, "step": 26360 }, { "epoch": 70.32, "grad_norm": 0.28515625, "learning_rate": 0.00029911904960325405, "loss": 0.4731, "step": 26370 }, { "epoch": 70.34666666666666, "grad_norm": 0.28125, "learning_rate": 0.0002991183690539361, "loss": 0.4811, "step": 26380 }, { "epoch": 70.37333333333333, "grad_norm": 0.294921875, "learning_rate": 0.00029911768824262636, "loss": 0.478, "step": 26390 }, { "epoch": 70.4, "grad_norm": 0.3203125, "learning_rate": 0.0002991170071693261, "loss": 0.4728, "step": 26400 }, { "epoch": 70.42666666666666, "grad_norm": 0.2734375, "learning_rate": 0.0002991163258340365, "loss": 0.4789, "step": 26410 }, { "epoch": 70.45333333333333, "grad_norm": 0.2421875, "learning_rate": 0.0002991156442367587, "loss": 0.4821, "step": 26420 }, { "epoch": 70.48, "grad_norm": 0.333984375, "learning_rate": 0.000299114962377494, "loss": 0.4879, "step": 26430 }, { "epoch": 70.50666666666666, "grad_norm": 0.310546875, "learning_rate": 0.00029911428025624346, "loss": 0.4776, "step": 26440 }, { "epoch": 70.53333333333333, "grad_norm": 0.2412109375, "learning_rate": 0.0002991135978730084, "loss": 0.4714, "step": 26450 }, { "epoch": 70.56, "grad_norm": 0.3984375, "learning_rate": 0.00029911291522778996, "loss": 0.473, "step": 26460 }, { "epoch": 70.58666666666667, "grad_norm": 0.310546875, "learning_rate": 0.0002991122323205894, "loss": 0.4685, "step": 26470 }, { "epoch": 70.61333333333333, "grad_norm": 0.294921875, "learning_rate": 0.0002991115491514078, "loss": 0.4539, "step": 26480 }, { "epoch": 70.64, "grad_norm": 0.3046875, "learning_rate": 0.0002991108657202464, "loss": 0.459, "step": 26490 }, { "epoch": 70.66666666666667, "grad_norm": 0.28125, "learning_rate": 0.00029911018202710655, "loss": 0.4748, "step": 26500 }, { "epoch": 70.69333333333333, "grad_norm": 0.322265625, "learning_rate": 0.00029910949807198924, "loss": 0.4578, "step": 26510 }, { "epoch": 70.72, "grad_norm": 0.37890625, "learning_rate": 0.0002991088138548958, "loss": 0.4755, "step": 26520 }, { "epoch": 70.74666666666667, "grad_norm": 0.267578125, "learning_rate": 0.0002991081293758274, "loss": 0.4788, "step": 26530 }, { "epoch": 70.77333333333333, "grad_norm": 0.353515625, "learning_rate": 0.0002991074446347852, "loss": 0.486, "step": 26540 }, { "epoch": 70.8, "grad_norm": 0.3046875, "learning_rate": 0.0002991067596317705, "loss": 0.473, "step": 26550 }, { "epoch": 70.82666666666667, "grad_norm": 0.296875, "learning_rate": 0.0002991060743667844, "loss": 0.4679, "step": 26560 }, { "epoch": 70.85333333333334, "grad_norm": 0.244140625, "learning_rate": 0.00029910538883982826, "loss": 0.4769, "step": 26570 }, { "epoch": 70.88, "grad_norm": 0.302734375, "learning_rate": 0.00029910470305090305, "loss": 0.4647, "step": 26580 }, { "epoch": 70.90666666666667, "grad_norm": 0.357421875, "learning_rate": 0.00029910401700001014, "loss": 0.4675, "step": 26590 }, { "epoch": 70.93333333333334, "grad_norm": 0.275390625, "learning_rate": 0.00029910333068715073, "loss": 0.4693, "step": 26600 }, { "epoch": 70.96, "grad_norm": 0.26953125, "learning_rate": 0.00029910264411232596, "loss": 0.4672, "step": 26610 }, { "epoch": 70.98666666666666, "grad_norm": 0.412109375, "learning_rate": 0.00029910195727553707, "loss": 0.481, "step": 26620 }, { "epoch": 71.0, "eval_loss": 0.4816884398460388, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.311, "eval_samples_per_second": 1.552, "eval_steps_per_second": 0.097, "step": 26625 }, { "epoch": 71.01333333333334, "grad_norm": 0.298828125, "learning_rate": 0.0002991012701767853, "loss": 0.4697, "step": 26630 }, { "epoch": 71.04, "grad_norm": 0.32421875, "learning_rate": 0.0002991005828160717, "loss": 0.4945, "step": 26640 }, { "epoch": 71.06666666666666, "grad_norm": 0.330078125, "learning_rate": 0.00029909989519339775, "loss": 0.4816, "step": 26650 }, { "epoch": 71.09333333333333, "grad_norm": 0.291015625, "learning_rate": 0.00029909920730876444, "loss": 0.4764, "step": 26660 }, { "epoch": 71.12, "grad_norm": 0.283203125, "learning_rate": 0.000299098519162173, "loss": 0.4732, "step": 26670 }, { "epoch": 71.14666666666666, "grad_norm": 0.30078125, "learning_rate": 0.00029909783075362476, "loss": 0.4819, "step": 26680 }, { "epoch": 71.17333333333333, "grad_norm": 0.337890625, "learning_rate": 0.00029909714208312084, "loss": 0.4728, "step": 26690 }, { "epoch": 71.2, "grad_norm": 0.263671875, "learning_rate": 0.00029909645315066244, "loss": 0.4705, "step": 26700 }, { "epoch": 71.22666666666667, "grad_norm": 0.27734375, "learning_rate": 0.00029909576395625083, "loss": 0.4684, "step": 26710 }, { "epoch": 71.25333333333333, "grad_norm": 0.2421875, "learning_rate": 0.00029909507449988714, "loss": 0.4688, "step": 26720 }, { "epoch": 71.28, "grad_norm": 0.302734375, "learning_rate": 0.0002990943847815726, "loss": 0.4814, "step": 26730 }, { "epoch": 71.30666666666667, "grad_norm": 0.30859375, "learning_rate": 0.00029909369480130856, "loss": 0.4633, "step": 26740 }, { "epoch": 71.33333333333333, "grad_norm": 0.265625, "learning_rate": 0.00029909300455909605, "loss": 0.4792, "step": 26750 }, { "epoch": 71.36, "grad_norm": 0.357421875, "learning_rate": 0.00029909231405493634, "loss": 0.4807, "step": 26760 }, { "epoch": 71.38666666666667, "grad_norm": 0.337890625, "learning_rate": 0.0002990916232888307, "loss": 0.4726, "step": 26770 }, { "epoch": 71.41333333333333, "grad_norm": 0.396484375, "learning_rate": 0.0002990909322607803, "loss": 0.4771, "step": 26780 }, { "epoch": 71.44, "grad_norm": 0.373046875, "learning_rate": 0.00029909024097078636, "loss": 0.4799, "step": 26790 }, { "epoch": 71.46666666666667, "grad_norm": 0.49609375, "learning_rate": 0.00029908954941885004, "loss": 0.4892, "step": 26800 }, { "epoch": 71.49333333333334, "grad_norm": 0.4296875, "learning_rate": 0.00029908885760497264, "loss": 0.4797, "step": 26810 }, { "epoch": 71.52, "grad_norm": 0.341796875, "learning_rate": 0.0002990881655291553, "loss": 0.4744, "step": 26820 }, { "epoch": 71.54666666666667, "grad_norm": 0.3125, "learning_rate": 0.00029908747319139933, "loss": 0.4717, "step": 26830 }, { "epoch": 71.57333333333334, "grad_norm": 0.4140625, "learning_rate": 0.00029908678059170586, "loss": 0.4707, "step": 26840 }, { "epoch": 71.6, "grad_norm": 0.390625, "learning_rate": 0.00029908608773007614, "loss": 0.4648, "step": 26850 }, { "epoch": 71.62666666666667, "grad_norm": 0.2353515625, "learning_rate": 0.00029908539460651135, "loss": 0.4512, "step": 26860 }, { "epoch": 71.65333333333334, "grad_norm": 0.2578125, "learning_rate": 0.0002990847012210128, "loss": 0.4715, "step": 26870 }, { "epoch": 71.68, "grad_norm": 0.2236328125, "learning_rate": 0.00029908400757358165, "loss": 0.4622, "step": 26880 }, { "epoch": 71.70666666666666, "grad_norm": 0.45703125, "learning_rate": 0.0002990833136642191, "loss": 0.4627, "step": 26890 }, { "epoch": 71.73333333333333, "grad_norm": 0.2294921875, "learning_rate": 0.00029908261949292635, "loss": 0.4823, "step": 26900 }, { "epoch": 71.76, "grad_norm": 0.3671875, "learning_rate": 0.00029908192505970476, "loss": 0.4837, "step": 26910 }, { "epoch": 71.78666666666666, "grad_norm": 0.314453125, "learning_rate": 0.00029908123036455537, "loss": 0.4826, "step": 26920 }, { "epoch": 71.81333333333333, "grad_norm": 0.3125, "learning_rate": 0.00029908053540747954, "loss": 0.4665, "step": 26930 }, { "epoch": 71.84, "grad_norm": 0.31640625, "learning_rate": 0.0002990798401884784, "loss": 0.4729, "step": 26940 }, { "epoch": 71.86666666666666, "grad_norm": 0.3984375, "learning_rate": 0.0002990791447075532, "loss": 0.4722, "step": 26950 }, { "epoch": 71.89333333333333, "grad_norm": 0.306640625, "learning_rate": 0.00029907844896470513, "loss": 0.4633, "step": 26960 }, { "epoch": 71.92, "grad_norm": 0.2470703125, "learning_rate": 0.0002990777529599355, "loss": 0.4734, "step": 26970 }, { "epoch": 71.94666666666667, "grad_norm": 0.2060546875, "learning_rate": 0.00029907705669324544, "loss": 0.4648, "step": 26980 }, { "epoch": 71.97333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029907636016463624, "loss": 0.4775, "step": 26990 }, { "epoch": 72.0, "grad_norm": 0.255859375, "learning_rate": 0.0002990756633741091, "loss": 0.4662, "step": 27000 }, { "epoch": 72.0, "eval_loss": 0.4817294776439667, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.7689, "eval_samples_per_second": 1.638, "eval_steps_per_second": 0.102, "step": 27000 }, { "epoch": 72.02666666666667, "grad_norm": 0.251953125, "learning_rate": 0.00029907496632166524, "loss": 0.4857, "step": 27010 }, { "epoch": 72.05333333333333, "grad_norm": 0.29296875, "learning_rate": 0.0002990742690073059, "loss": 0.4925, "step": 27020 }, { "epoch": 72.08, "grad_norm": 0.333984375, "learning_rate": 0.0002990735714310323, "loss": 0.4785, "step": 27030 }, { "epoch": 72.10666666666667, "grad_norm": 0.2890625, "learning_rate": 0.0002990728735928456, "loss": 0.4741, "step": 27040 }, { "epoch": 72.13333333333334, "grad_norm": 0.298828125, "learning_rate": 0.00029907217549274707, "loss": 0.4752, "step": 27050 }, { "epoch": 72.16, "grad_norm": 0.4453125, "learning_rate": 0.000299071477130738, "loss": 0.4802, "step": 27060 }, { "epoch": 72.18666666666667, "grad_norm": 0.2734375, "learning_rate": 0.0002990707785068196, "loss": 0.4719, "step": 27070 }, { "epoch": 72.21333333333334, "grad_norm": 0.447265625, "learning_rate": 0.000299070079620993, "loss": 0.4667, "step": 27080 }, { "epoch": 72.24, "grad_norm": 0.318359375, "learning_rate": 0.0002990693804732595, "loss": 0.4707, "step": 27090 }, { "epoch": 72.26666666666667, "grad_norm": 0.3515625, "learning_rate": 0.0002990686810636203, "loss": 0.4752, "step": 27100 }, { "epoch": 72.29333333333334, "grad_norm": 0.3203125, "learning_rate": 0.0002990679813920767, "loss": 0.4687, "step": 27110 }, { "epoch": 72.32, "grad_norm": 0.328125, "learning_rate": 0.00029906728145862987, "loss": 0.473, "step": 27120 }, { "epoch": 72.34666666666666, "grad_norm": 0.365234375, "learning_rate": 0.000299066581263281, "loss": 0.4809, "step": 27130 }, { "epoch": 72.37333333333333, "grad_norm": 0.4140625, "learning_rate": 0.0002990658808060314, "loss": 0.4769, "step": 27140 }, { "epoch": 72.4, "grad_norm": 0.35546875, "learning_rate": 0.0002990651800868823, "loss": 0.4735, "step": 27150 }, { "epoch": 72.42666666666666, "grad_norm": 0.390625, "learning_rate": 0.00029906447910583485, "loss": 0.4787, "step": 27160 }, { "epoch": 72.45333333333333, "grad_norm": 0.388671875, "learning_rate": 0.00029906377786289033, "loss": 0.4816, "step": 27170 }, { "epoch": 72.48, "grad_norm": 0.361328125, "learning_rate": 0.00029906307635805, "loss": 0.488, "step": 27180 }, { "epoch": 72.50666666666666, "grad_norm": 0.431640625, "learning_rate": 0.00029906237459131506, "loss": 0.4774, "step": 27190 }, { "epoch": 72.53333333333333, "grad_norm": 0.30078125, "learning_rate": 0.00029906167256268674, "loss": 0.4711, "step": 27200 }, { "epoch": 72.56, "grad_norm": 0.60546875, "learning_rate": 0.0002990609702721663, "loss": 0.4729, "step": 27210 }, { "epoch": 72.58666666666667, "grad_norm": 0.375, "learning_rate": 0.000299060267719755, "loss": 0.4688, "step": 27220 }, { "epoch": 72.61333333333333, "grad_norm": 0.431640625, "learning_rate": 0.00029905956490545397, "loss": 0.454, "step": 27230 }, { "epoch": 72.64, "grad_norm": 0.26953125, "learning_rate": 0.00029905886182926447, "loss": 0.4591, "step": 27240 }, { "epoch": 72.66666666666667, "grad_norm": 0.259765625, "learning_rate": 0.00029905815849118783, "loss": 0.4752, "step": 27250 }, { "epoch": 72.69333333333333, "grad_norm": 0.26171875, "learning_rate": 0.0002990574548912252, "loss": 0.4575, "step": 27260 }, { "epoch": 72.72, "grad_norm": 0.328125, "learning_rate": 0.00029905675102937787, "loss": 0.4747, "step": 27270 }, { "epoch": 72.74666666666667, "grad_norm": 0.30859375, "learning_rate": 0.00029905604690564703, "loss": 0.4787, "step": 27280 }, { "epoch": 72.77333333333333, "grad_norm": 0.29296875, "learning_rate": 0.00029905534252003393, "loss": 0.4863, "step": 27290 }, { "epoch": 72.8, "grad_norm": 0.388671875, "learning_rate": 0.00029905463787253977, "loss": 0.4729, "step": 27300 }, { "epoch": 72.82666666666667, "grad_norm": 0.26953125, "learning_rate": 0.0002990539329631659, "loss": 0.4682, "step": 27310 }, { "epoch": 72.85333333333334, "grad_norm": 0.337890625, "learning_rate": 0.0002990532277919135, "loss": 0.4768, "step": 27320 }, { "epoch": 72.88, "grad_norm": 0.21875, "learning_rate": 0.00029905252235878373, "loss": 0.4648, "step": 27330 }, { "epoch": 72.90666666666667, "grad_norm": 0.296875, "learning_rate": 0.00029905181666377794, "loss": 0.4674, "step": 27340 }, { "epoch": 72.93333333333334, "grad_norm": 0.23828125, "learning_rate": 0.0002990511107068973, "loss": 0.469, "step": 27350 }, { "epoch": 72.96, "grad_norm": 0.2490234375, "learning_rate": 0.0002990504044881431, "loss": 0.4673, "step": 27360 }, { "epoch": 72.98666666666666, "grad_norm": 0.330078125, "learning_rate": 0.0002990496980075166, "loss": 0.481, "step": 27370 }, { "epoch": 73.0, "eval_loss": 0.4834159314632416, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.116, "eval_samples_per_second": 1.582, "eval_steps_per_second": 0.099, "step": 27375 }, { "epoch": 73.01333333333334, "grad_norm": 0.357421875, "learning_rate": 0.000299048991265019, "loss": 0.4702, "step": 27380 }, { "epoch": 73.04, "grad_norm": 0.287109375, "learning_rate": 0.0002990482842606515, "loss": 0.4945, "step": 27390 }, { "epoch": 73.06666666666666, "grad_norm": 0.412109375, "learning_rate": 0.0002990475769944154, "loss": 0.4819, "step": 27400 }, { "epoch": 73.09333333333333, "grad_norm": 0.337890625, "learning_rate": 0.0002990468694663119, "loss": 0.4774, "step": 27410 }, { "epoch": 73.12, "grad_norm": 0.33984375, "learning_rate": 0.0002990461616763423, "loss": 0.4726, "step": 27420 }, { "epoch": 73.14666666666666, "grad_norm": 0.306640625, "learning_rate": 0.0002990454536245078, "loss": 0.4819, "step": 27430 }, { "epoch": 73.17333333333333, "grad_norm": 0.267578125, "learning_rate": 0.00029904474531080964, "loss": 0.4725, "step": 27440 }, { "epoch": 73.2, "grad_norm": 0.224609375, "learning_rate": 0.0002990440367352491, "loss": 0.4706, "step": 27450 }, { "epoch": 73.22666666666667, "grad_norm": 0.2294921875, "learning_rate": 0.0002990433278978274, "loss": 0.4688, "step": 27460 }, { "epoch": 73.25333333333333, "grad_norm": 0.30078125, "learning_rate": 0.00029904261879854584, "loss": 0.4686, "step": 27470 }, { "epoch": 73.28, "grad_norm": 0.345703125, "learning_rate": 0.0002990419094374056, "loss": 0.4815, "step": 27480 }, { "epoch": 73.30666666666667, "grad_norm": 0.40234375, "learning_rate": 0.0002990411998144079, "loss": 0.4627, "step": 27490 }, { "epoch": 73.33333333333333, "grad_norm": 0.30859375, "learning_rate": 0.00029904048992955405, "loss": 0.4788, "step": 27500 }, { "epoch": 73.36, "grad_norm": 0.392578125, "learning_rate": 0.0002990397797828453, "loss": 0.4812, "step": 27510 }, { "epoch": 73.38666666666667, "grad_norm": 0.345703125, "learning_rate": 0.00029903906937428287, "loss": 0.4716, "step": 27520 }, { "epoch": 73.41333333333333, "grad_norm": 0.310546875, "learning_rate": 0.000299038358703868, "loss": 0.4766, "step": 27530 }, { "epoch": 73.44, "grad_norm": 0.392578125, "learning_rate": 0.000299037647771602, "loss": 0.4796, "step": 27540 }, { "epoch": 73.46666666666667, "grad_norm": 0.296875, "learning_rate": 0.00029903693657748595, "loss": 0.4892, "step": 27550 }, { "epoch": 73.49333333333334, "grad_norm": 0.34375, "learning_rate": 0.00029903622512152133, "loss": 0.4803, "step": 27560 }, { "epoch": 73.52, "grad_norm": 0.271484375, "learning_rate": 0.00029903551340370926, "loss": 0.4744, "step": 27570 }, { "epoch": 73.54666666666667, "grad_norm": 0.365234375, "learning_rate": 0.000299034801424051, "loss": 0.4716, "step": 27580 }, { "epoch": 73.57333333333334, "grad_norm": 0.28125, "learning_rate": 0.00029903408918254785, "loss": 0.471, "step": 27590 }, { "epoch": 73.6, "grad_norm": 0.421875, "learning_rate": 0.00029903337667920094, "loss": 0.4639, "step": 27600 }, { "epoch": 73.62666666666667, "grad_norm": 0.31640625, "learning_rate": 0.0002990326639140117, "loss": 0.4505, "step": 27610 }, { "epoch": 73.65333333333334, "grad_norm": 0.462890625, "learning_rate": 0.00029903195088698125, "loss": 0.4709, "step": 27620 }, { "epoch": 73.68, "grad_norm": 0.32421875, "learning_rate": 0.0002990312375981109, "loss": 0.4624, "step": 27630 }, { "epoch": 73.70666666666666, "grad_norm": 0.33984375, "learning_rate": 0.0002990305240474018, "loss": 0.4629, "step": 27640 }, { "epoch": 73.73333333333333, "grad_norm": 0.228515625, "learning_rate": 0.0002990298102348554, "loss": 0.482, "step": 27650 }, { "epoch": 73.76, "grad_norm": 0.390625, "learning_rate": 0.0002990290961604728, "loss": 0.4825, "step": 27660 }, { "epoch": 73.78666666666666, "grad_norm": 0.302734375, "learning_rate": 0.0002990283818242553, "loss": 0.4814, "step": 27670 }, { "epoch": 73.81333333333333, "grad_norm": 0.318359375, "learning_rate": 0.00029902766722620413, "loss": 0.4666, "step": 27680 }, { "epoch": 73.84, "grad_norm": 0.416015625, "learning_rate": 0.0002990269523663206, "loss": 0.4731, "step": 27690 }, { "epoch": 73.86666666666666, "grad_norm": 0.2431640625, "learning_rate": 0.0002990262372446059, "loss": 0.4719, "step": 27700 }, { "epoch": 73.89333333333333, "grad_norm": 0.287109375, "learning_rate": 0.0002990255218610613, "loss": 0.463, "step": 27710 }, { "epoch": 73.92, "grad_norm": 0.2490234375, "learning_rate": 0.0002990248062156881, "loss": 0.4731, "step": 27720 }, { "epoch": 73.94666666666667, "grad_norm": 0.294921875, "learning_rate": 0.0002990240903084876, "loss": 0.4665, "step": 27730 }, { "epoch": 73.97333333333333, "grad_norm": 0.28515625, "learning_rate": 0.00029902337413946094, "loss": 0.4769, "step": 27740 }, { "epoch": 74.0, "grad_norm": 0.294921875, "learning_rate": 0.0002990226577086094, "loss": 0.4662, "step": 27750 }, { "epoch": 74.0, "eval_loss": 0.48103514313697815, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.8958, "eval_samples_per_second": 1.617, "eval_steps_per_second": 0.101, "step": 27750 }, { "epoch": 74.02666666666667, "grad_norm": 0.30859375, "learning_rate": 0.00029902194101593435, "loss": 0.486, "step": 27760 }, { "epoch": 74.05333333333333, "grad_norm": 0.28515625, "learning_rate": 0.0002990212240614369, "loss": 0.4917, "step": 27770 }, { "epoch": 74.08, "grad_norm": 0.23046875, "learning_rate": 0.00029902050684511833, "loss": 0.4784, "step": 27780 }, { "epoch": 74.10666666666667, "grad_norm": 0.31640625, "learning_rate": 0.00029901978936698007, "loss": 0.4742, "step": 27790 }, { "epoch": 74.13333333333334, "grad_norm": 0.263671875, "learning_rate": 0.0002990190716270232, "loss": 0.4755, "step": 27800 }, { "epoch": 74.16, "grad_norm": 0.42578125, "learning_rate": 0.000299018353625249, "loss": 0.4799, "step": 27810 }, { "epoch": 74.18666666666667, "grad_norm": 0.27734375, "learning_rate": 0.0002990176353616588, "loss": 0.4715, "step": 27820 }, { "epoch": 74.21333333333334, "grad_norm": 0.376953125, "learning_rate": 0.0002990169168362538, "loss": 0.4669, "step": 27830 }, { "epoch": 74.24, "grad_norm": 0.248046875, "learning_rate": 0.0002990161980490354, "loss": 0.4707, "step": 27840 }, { "epoch": 74.26666666666667, "grad_norm": 0.2734375, "learning_rate": 0.0002990154790000047, "loss": 0.4745, "step": 27850 }, { "epoch": 74.29333333333334, "grad_norm": 0.314453125, "learning_rate": 0.00029901475968916304, "loss": 0.4691, "step": 27860 }, { "epoch": 74.32, "grad_norm": 0.220703125, "learning_rate": 0.00029901404011651163, "loss": 0.4726, "step": 27870 }, { "epoch": 74.34666666666666, "grad_norm": 0.462890625, "learning_rate": 0.00029901332028205174, "loss": 0.4807, "step": 27880 }, { "epoch": 74.37333333333333, "grad_norm": 0.41796875, "learning_rate": 0.00029901260018578473, "loss": 0.4775, "step": 27890 }, { "epoch": 74.4, "grad_norm": 0.30859375, "learning_rate": 0.0002990118798277118, "loss": 0.4734, "step": 27900 }, { "epoch": 74.42666666666666, "grad_norm": 0.294921875, "learning_rate": 0.00029901115920783416, "loss": 0.4788, "step": 27910 }, { "epoch": 74.45333333333333, "grad_norm": 0.357421875, "learning_rate": 0.00029901043832615315, "loss": 0.4817, "step": 27920 }, { "epoch": 74.48, "grad_norm": 0.431640625, "learning_rate": 0.00029900971718267, "loss": 0.4876, "step": 27930 }, { "epoch": 74.50666666666666, "grad_norm": 0.345703125, "learning_rate": 0.000299008995777386, "loss": 0.4771, "step": 27940 }, { "epoch": 74.53333333333333, "grad_norm": 0.3046875, "learning_rate": 0.00029900827411030246, "loss": 0.4716, "step": 27950 }, { "epoch": 74.56, "grad_norm": 0.3515625, "learning_rate": 0.0002990075521814206, "loss": 0.4721, "step": 27960 }, { "epoch": 74.58666666666667, "grad_norm": 0.275390625, "learning_rate": 0.00029900682999074165, "loss": 0.4686, "step": 27970 }, { "epoch": 74.61333333333333, "grad_norm": 0.2041015625, "learning_rate": 0.00029900610753826696, "loss": 0.4546, "step": 27980 }, { "epoch": 74.64, "grad_norm": 0.306640625, "learning_rate": 0.00029900538482399773, "loss": 0.4586, "step": 27990 }, { "epoch": 74.66666666666667, "grad_norm": 0.478515625, "learning_rate": 0.00029900466184793525, "loss": 0.4742, "step": 28000 }, { "epoch": 74.69333333333333, "grad_norm": 0.30078125, "learning_rate": 0.00029900393861008077, "loss": 0.4574, "step": 28010 }, { "epoch": 74.72, "grad_norm": 0.32421875, "learning_rate": 0.00029900321511043565, "loss": 0.4757, "step": 28020 }, { "epoch": 74.74666666666667, "grad_norm": 0.2578125, "learning_rate": 0.000299002491349001, "loss": 0.4787, "step": 28030 }, { "epoch": 74.77333333333333, "grad_norm": 0.31640625, "learning_rate": 0.0002990017673257783, "loss": 0.4862, "step": 28040 }, { "epoch": 74.8, "grad_norm": 0.30078125, "learning_rate": 0.0002990010430407686, "loss": 0.4734, "step": 28050 }, { "epoch": 74.82666666666667, "grad_norm": 0.396484375, "learning_rate": 0.0002990003184939734, "loss": 0.4681, "step": 28060 }, { "epoch": 74.85333333333334, "grad_norm": 0.41015625, "learning_rate": 0.0002989995936853938, "loss": 0.4771, "step": 28070 }, { "epoch": 74.88, "grad_norm": 0.267578125, "learning_rate": 0.00029899886861503117, "loss": 0.4646, "step": 28080 }, { "epoch": 74.90666666666667, "grad_norm": 0.349609375, "learning_rate": 0.00029899814328288667, "loss": 0.467, "step": 28090 }, { "epoch": 74.93333333333334, "grad_norm": 0.357421875, "learning_rate": 0.00029899741768896166, "loss": 0.4691, "step": 28100 }, { "epoch": 74.96, "grad_norm": 0.32421875, "learning_rate": 0.00029899669183325745, "loss": 0.4658, "step": 28110 }, { "epoch": 74.98666666666666, "grad_norm": 0.30078125, "learning_rate": 0.0002989959657157753, "loss": 0.4805, "step": 28120 }, { "epoch": 75.0, "eval_loss": 0.48107996582984924, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.6286, "eval_samples_per_second": 1.505, "eval_steps_per_second": 0.094, "step": 28125 }, { "epoch": 75.01333333333334, "grad_norm": 0.2451171875, "learning_rate": 0.0002989952393365164, "loss": 0.47, "step": 28130 }, { "epoch": 75.04, "grad_norm": 0.296875, "learning_rate": 0.00029899451269548206, "loss": 0.4943, "step": 28140 }, { "epoch": 75.06666666666666, "grad_norm": 0.30078125, "learning_rate": 0.00029899378579267366, "loss": 0.4818, "step": 28150 }, { "epoch": 75.09333333333333, "grad_norm": 0.30078125, "learning_rate": 0.0002989930586280923, "loss": 0.4762, "step": 28160 }, { "epoch": 75.12, "grad_norm": 0.259765625, "learning_rate": 0.0002989923312017394, "loss": 0.4724, "step": 28170 }, { "epoch": 75.14666666666666, "grad_norm": 0.275390625, "learning_rate": 0.00029899160351361617, "loss": 0.4821, "step": 28180 }, { "epoch": 75.17333333333333, "grad_norm": 0.392578125, "learning_rate": 0.00029899087556372396, "loss": 0.4723, "step": 28190 }, { "epoch": 75.2, "grad_norm": 0.251953125, "learning_rate": 0.000298990147352064, "loss": 0.4707, "step": 28200 }, { "epoch": 75.22666666666667, "grad_norm": 0.333984375, "learning_rate": 0.00029898941887863744, "loss": 0.4678, "step": 28210 }, { "epoch": 75.25333333333333, "grad_norm": 0.30078125, "learning_rate": 0.0002989886901434458, "loss": 0.4683, "step": 28220 }, { "epoch": 75.28, "grad_norm": 0.28125, "learning_rate": 0.00029898796114649027, "loss": 0.4817, "step": 28230 }, { "epoch": 75.30666666666667, "grad_norm": 0.302734375, "learning_rate": 0.0002989872318877721, "loss": 0.4631, "step": 28240 }, { "epoch": 75.33333333333333, "grad_norm": 0.291015625, "learning_rate": 0.0002989865023672925, "loss": 0.4781, "step": 28250 }, { "epoch": 75.36, "grad_norm": 0.33984375, "learning_rate": 0.00029898577258505283, "loss": 0.4802, "step": 28260 }, { "epoch": 75.38666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002989850425410545, "loss": 0.4718, "step": 28270 }, { "epoch": 75.41333333333333, "grad_norm": 0.357421875, "learning_rate": 0.0002989843122352985, "loss": 0.4762, "step": 28280 }, { "epoch": 75.44, "grad_norm": 0.271484375, "learning_rate": 0.00029898358166778637, "loss": 0.4796, "step": 28290 }, { "epoch": 75.46666666666667, "grad_norm": 0.423828125, "learning_rate": 0.0002989828508385193, "loss": 0.4885, "step": 28300 }, { "epoch": 75.49333333333334, "grad_norm": 0.349609375, "learning_rate": 0.00029898211974749864, "loss": 0.4798, "step": 28310 }, { "epoch": 75.52, "grad_norm": 0.244140625, "learning_rate": 0.0002989813883947255, "loss": 0.4743, "step": 28320 }, { "epoch": 75.54666666666667, "grad_norm": 0.314453125, "learning_rate": 0.0002989806567802013, "loss": 0.4714, "step": 28330 }, { "epoch": 75.57333333333334, "grad_norm": 0.28515625, "learning_rate": 0.00029897992490392737, "loss": 0.4708, "step": 28340 }, { "epoch": 75.6, "grad_norm": 0.294921875, "learning_rate": 0.00029897919276590485, "loss": 0.4642, "step": 28350 }, { "epoch": 75.62666666666667, "grad_norm": 0.271484375, "learning_rate": 0.00029897846036613517, "loss": 0.4508, "step": 28360 }, { "epoch": 75.65333333333334, "grad_norm": 0.392578125, "learning_rate": 0.0002989777277046195, "loss": 0.4708, "step": 28370 }, { "epoch": 75.68, "grad_norm": 0.3046875, "learning_rate": 0.00029897699478135923, "loss": 0.4623, "step": 28380 }, { "epoch": 75.70666666666666, "grad_norm": 0.267578125, "learning_rate": 0.00029897626159635553, "loss": 0.4626, "step": 28390 }, { "epoch": 75.73333333333333, "grad_norm": 0.296875, "learning_rate": 0.00029897552814960976, "loss": 0.4814, "step": 28400 }, { "epoch": 75.76, "grad_norm": 0.41015625, "learning_rate": 0.00029897479444112327, "loss": 0.4826, "step": 28410 }, { "epoch": 75.78666666666666, "grad_norm": 0.34765625, "learning_rate": 0.0002989740604708972, "loss": 0.481, "step": 28420 }, { "epoch": 75.81333333333333, "grad_norm": 0.279296875, "learning_rate": 0.00029897332623893296, "loss": 0.467, "step": 28430 }, { "epoch": 75.84, "grad_norm": 0.3125, "learning_rate": 0.0002989725917452318, "loss": 0.4723, "step": 28440 }, { "epoch": 75.86666666666666, "grad_norm": 0.2060546875, "learning_rate": 0.000298971856989795, "loss": 0.4717, "step": 28450 }, { "epoch": 75.89333333333333, "grad_norm": 0.287109375, "learning_rate": 0.0002989711219726239, "loss": 0.4633, "step": 28460 }, { "epoch": 75.92, "grad_norm": 0.3125, "learning_rate": 0.0002989703866937197, "loss": 0.4723, "step": 28470 }, { "epoch": 75.94666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002989696511530838, "loss": 0.4656, "step": 28480 }, { "epoch": 75.97333333333333, "grad_norm": 0.43359375, "learning_rate": 0.0002989689153507174, "loss": 0.4776, "step": 28490 }, { "epoch": 76.0, "grad_norm": 0.228515625, "learning_rate": 0.0002989681792866219, "loss": 0.4662, "step": 28500 }, { "epoch": 76.0, "eval_loss": 0.4805218577384949, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.9242, "eval_samples_per_second": 1.465, "eval_steps_per_second": 0.092, "step": 28500 }, { "epoch": 76.02666666666667, "grad_norm": 0.390625, "learning_rate": 0.00029896744296079844, "loss": 0.4858, "step": 28510 }, { "epoch": 76.05333333333333, "grad_norm": 0.265625, "learning_rate": 0.0002989667063732484, "loss": 0.4921, "step": 28520 }, { "epoch": 76.08, "grad_norm": 0.306640625, "learning_rate": 0.00029896596952397314, "loss": 0.4785, "step": 28530 }, { "epoch": 76.10666666666667, "grad_norm": 0.26171875, "learning_rate": 0.00029896523241297384, "loss": 0.4735, "step": 28540 }, { "epoch": 76.13333333333334, "grad_norm": 0.37109375, "learning_rate": 0.0002989644950402518, "loss": 0.4754, "step": 28550 }, { "epoch": 76.16, "grad_norm": 0.3203125, "learning_rate": 0.00029896375740580844, "loss": 0.4797, "step": 28560 }, { "epoch": 76.18666666666667, "grad_norm": 0.28125, "learning_rate": 0.00029896301950964495, "loss": 0.4723, "step": 28570 }, { "epoch": 76.21333333333334, "grad_norm": 0.208984375, "learning_rate": 0.0002989622813517626, "loss": 0.4666, "step": 28580 }, { "epoch": 76.24, "grad_norm": 0.29296875, "learning_rate": 0.0002989615429321628, "loss": 0.47, "step": 28590 }, { "epoch": 76.26666666666667, "grad_norm": 0.28125, "learning_rate": 0.0002989608042508467, "loss": 0.4749, "step": 28600 }, { "epoch": 76.29333333333334, "grad_norm": 0.37890625, "learning_rate": 0.00029896006530781577, "loss": 0.4691, "step": 28610 }, { "epoch": 76.32, "grad_norm": 0.376953125, "learning_rate": 0.0002989593261030712, "loss": 0.4725, "step": 28620 }, { "epoch": 76.34666666666666, "grad_norm": 0.30078125, "learning_rate": 0.0002989585866366143, "loss": 0.4805, "step": 28630 }, { "epoch": 76.37333333333333, "grad_norm": 0.2490234375, "learning_rate": 0.0002989578469084464, "loss": 0.4767, "step": 28640 }, { "epoch": 76.4, "grad_norm": 0.236328125, "learning_rate": 0.0002989571069185687, "loss": 0.4728, "step": 28650 }, { "epoch": 76.42666666666666, "grad_norm": 0.326171875, "learning_rate": 0.00029895636666698265, "loss": 0.4792, "step": 28660 }, { "epoch": 76.45333333333333, "grad_norm": 0.2890625, "learning_rate": 0.00029895562615368944, "loss": 0.4813, "step": 28670 }, { "epoch": 76.48, "grad_norm": 0.3046875, "learning_rate": 0.00029895488537869043, "loss": 0.4874, "step": 28680 }, { "epoch": 76.50666666666666, "grad_norm": 0.255859375, "learning_rate": 0.00029895414434198686, "loss": 0.477, "step": 28690 }, { "epoch": 76.53333333333333, "grad_norm": 0.2109375, "learning_rate": 0.00029895340304358014, "loss": 0.4713, "step": 28700 }, { "epoch": 76.56, "grad_norm": 0.35546875, "learning_rate": 0.00029895266148347147, "loss": 0.4719, "step": 28710 }, { "epoch": 76.58666666666667, "grad_norm": 0.27734375, "learning_rate": 0.0002989519196616622, "loss": 0.4679, "step": 28720 }, { "epoch": 76.61333333333333, "grad_norm": 0.1796875, "learning_rate": 0.0002989511775781536, "loss": 0.4542, "step": 28730 }, { "epoch": 76.64, "grad_norm": 0.279296875, "learning_rate": 0.000298950435232947, "loss": 0.4587, "step": 28740 }, { "epoch": 76.66666666666667, "grad_norm": 0.3046875, "learning_rate": 0.0002989496926260437, "loss": 0.4748, "step": 28750 }, { "epoch": 76.69333333333333, "grad_norm": 0.263671875, "learning_rate": 0.00029894894975744505, "loss": 0.4576, "step": 28760 }, { "epoch": 76.72, "grad_norm": 0.36328125, "learning_rate": 0.00029894820662715224, "loss": 0.4743, "step": 28770 }, { "epoch": 76.74666666666667, "grad_norm": 0.306640625, "learning_rate": 0.0002989474632351667, "loss": 0.4789, "step": 28780 }, { "epoch": 76.77333333333333, "grad_norm": 0.33984375, "learning_rate": 0.00029894671958148963, "loss": 0.486, "step": 28790 }, { "epoch": 76.8, "grad_norm": 0.375, "learning_rate": 0.00029894597566612244, "loss": 0.473, "step": 28800 }, { "epoch": 76.82666666666667, "grad_norm": 0.287109375, "learning_rate": 0.0002989452314890663, "loss": 0.4678, "step": 28810 }, { "epoch": 76.85333333333334, "grad_norm": 0.2109375, "learning_rate": 0.00029894448705032264, "loss": 0.4765, "step": 28820 }, { "epoch": 76.88, "grad_norm": 0.2734375, "learning_rate": 0.0002989437423498928, "loss": 0.4644, "step": 28830 }, { "epoch": 76.90666666666667, "grad_norm": 0.283203125, "learning_rate": 0.00029894299738777796, "loss": 0.4671, "step": 28840 }, { "epoch": 76.93333333333334, "grad_norm": 0.2431640625, "learning_rate": 0.0002989422521639795, "loss": 0.4691, "step": 28850 }, { "epoch": 76.96, "grad_norm": 0.3359375, "learning_rate": 0.0002989415066784987, "loss": 0.4668, "step": 28860 }, { "epoch": 76.98666666666666, "grad_norm": 0.318359375, "learning_rate": 0.0002989407609313369, "loss": 0.4813, "step": 28870 }, { "epoch": 77.0, "eval_loss": 0.4802263081073761, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.9162, "eval_samples_per_second": 1.614, "eval_steps_per_second": 0.101, "step": 28875 }, { "epoch": 77.01333333333334, "grad_norm": 0.294921875, "learning_rate": 0.0002989400149224954, "loss": 0.4696, "step": 28880 }, { "epoch": 77.04, "grad_norm": 0.318359375, "learning_rate": 0.00029893926865197547, "loss": 0.4937, "step": 28890 }, { "epoch": 77.06666666666666, "grad_norm": 0.322265625, "learning_rate": 0.0002989385221197785, "loss": 0.4809, "step": 28900 }, { "epoch": 77.09333333333333, "grad_norm": 0.24609375, "learning_rate": 0.00029893777532590573, "loss": 0.476, "step": 28910 }, { "epoch": 77.12, "grad_norm": 0.337890625, "learning_rate": 0.00029893702827035854, "loss": 0.4722, "step": 28920 }, { "epoch": 77.14666666666666, "grad_norm": 0.291015625, "learning_rate": 0.00029893628095313817, "loss": 0.482, "step": 28930 }, { "epoch": 77.17333333333333, "grad_norm": 0.36328125, "learning_rate": 0.000298935533374246, "loss": 0.4718, "step": 28940 }, { "epoch": 77.2, "grad_norm": 0.25, "learning_rate": 0.0002989347855336833, "loss": 0.4707, "step": 28950 }, { "epoch": 77.22666666666667, "grad_norm": 0.2890625, "learning_rate": 0.0002989340374314514, "loss": 0.4683, "step": 28960 }, { "epoch": 77.25333333333333, "grad_norm": 0.3515625, "learning_rate": 0.00029893328906755156, "loss": 0.4678, "step": 28970 }, { "epoch": 77.28, "grad_norm": 0.33984375, "learning_rate": 0.0002989325404419852, "loss": 0.4817, "step": 28980 }, { "epoch": 77.30666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002989317915547535, "loss": 0.4625, "step": 28990 }, { "epoch": 77.33333333333333, "grad_norm": 0.2451171875, "learning_rate": 0.0002989310424058579, "loss": 0.4777, "step": 29000 }, { "epoch": 77.36, "grad_norm": 0.341796875, "learning_rate": 0.0002989302929952997, "loss": 0.4806, "step": 29010 }, { "epoch": 77.38666666666667, "grad_norm": 0.330078125, "learning_rate": 0.00029892954332308024, "loss": 0.4721, "step": 29020 }, { "epoch": 77.41333333333333, "grad_norm": 0.3984375, "learning_rate": 0.0002989287933892007, "loss": 0.4769, "step": 29030 }, { "epoch": 77.44, "grad_norm": 0.287109375, "learning_rate": 0.00029892804319366247, "loss": 0.4787, "step": 29040 }, { "epoch": 77.46666666666667, "grad_norm": 0.296875, "learning_rate": 0.00029892729273646695, "loss": 0.4891, "step": 29050 }, { "epoch": 77.49333333333334, "grad_norm": 0.2890625, "learning_rate": 0.00029892654201761534, "loss": 0.4801, "step": 29060 }, { "epoch": 77.52, "grad_norm": 0.212890625, "learning_rate": 0.000298925791037109, "loss": 0.4739, "step": 29070 }, { "epoch": 77.54666666666667, "grad_norm": 0.259765625, "learning_rate": 0.00029892503979494925, "loss": 0.4704, "step": 29080 }, { "epoch": 77.57333333333334, "grad_norm": 0.212890625, "learning_rate": 0.0002989242882911375, "loss": 0.4702, "step": 29090 }, { "epoch": 77.6, "grad_norm": 0.28515625, "learning_rate": 0.0002989235365256749, "loss": 0.4638, "step": 29100 }, { "epoch": 77.62666666666667, "grad_norm": 0.353515625, "learning_rate": 0.00029892278449856287, "loss": 0.4503, "step": 29110 }, { "epoch": 77.65333333333334, "grad_norm": 0.435546875, "learning_rate": 0.0002989220322098027, "loss": 0.4705, "step": 29120 }, { "epoch": 77.68, "grad_norm": 0.439453125, "learning_rate": 0.0002989212796593958, "loss": 0.4616, "step": 29130 }, { "epoch": 77.70666666666666, "grad_norm": 0.322265625, "learning_rate": 0.00029892052684734347, "loss": 0.462, "step": 29140 }, { "epoch": 77.73333333333333, "grad_norm": 0.279296875, "learning_rate": 0.00029891977377364686, "loss": 0.482, "step": 29150 }, { "epoch": 77.76, "grad_norm": 0.326171875, "learning_rate": 0.0002989190204383075, "loss": 0.483, "step": 29160 }, { "epoch": 77.78666666666666, "grad_norm": 0.3125, "learning_rate": 0.00029891826684132656, "loss": 0.4815, "step": 29170 }, { "epoch": 77.81333333333333, "grad_norm": 0.51171875, "learning_rate": 0.00029891751298270547, "loss": 0.4664, "step": 29180 }, { "epoch": 77.84, "grad_norm": 0.314453125, "learning_rate": 0.0002989167588624456, "loss": 0.4723, "step": 29190 }, { "epoch": 77.86666666666666, "grad_norm": 0.2890625, "learning_rate": 0.0002989160044805481, "loss": 0.4722, "step": 29200 }, { "epoch": 77.89333333333333, "grad_norm": 0.26171875, "learning_rate": 0.0002989152498370144, "loss": 0.4622, "step": 29210 }, { "epoch": 77.92, "grad_norm": 0.2490234375, "learning_rate": 0.00029891449493184584, "loss": 0.4729, "step": 29220 }, { "epoch": 77.94666666666667, "grad_norm": 0.34375, "learning_rate": 0.00029891373976504375, "loss": 0.4653, "step": 29230 }, { "epoch": 77.97333333333333, "grad_norm": 0.458984375, "learning_rate": 0.0002989129843366094, "loss": 0.4763, "step": 29240 }, { "epoch": 78.0, "grad_norm": 0.380859375, "learning_rate": 0.00029891222864654416, "loss": 0.4653, "step": 29250 }, { "epoch": 78.0, "eval_loss": 0.4812386631965637, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.6074, "eval_samples_per_second": 1.508, "eval_steps_per_second": 0.094, "step": 29250 }, { "epoch": 78.02666666666667, "grad_norm": 0.2490234375, "learning_rate": 0.0002989114726948493, "loss": 0.4855, "step": 29260 }, { "epoch": 78.05333333333333, "grad_norm": 0.28125, "learning_rate": 0.00029891071648152623, "loss": 0.4916, "step": 29270 }, { "epoch": 78.08, "grad_norm": 0.3125, "learning_rate": 0.0002989099600065763, "loss": 0.4788, "step": 29280 }, { "epoch": 78.10666666666667, "grad_norm": 0.2890625, "learning_rate": 0.0002989092032700007, "loss": 0.4733, "step": 29290 }, { "epoch": 78.13333333333334, "grad_norm": 0.421875, "learning_rate": 0.00029890844627180084, "loss": 0.4754, "step": 29300 }, { "epoch": 78.16, "grad_norm": 0.451171875, "learning_rate": 0.00029890768901197806, "loss": 0.4797, "step": 29310 }, { "epoch": 78.18666666666667, "grad_norm": 0.4453125, "learning_rate": 0.00029890693149053373, "loss": 0.4719, "step": 29320 }, { "epoch": 78.21333333333334, "grad_norm": 0.546875, "learning_rate": 0.0002989061737074691, "loss": 0.467, "step": 29330 }, { "epoch": 78.24, "grad_norm": 0.34375, "learning_rate": 0.0002989054156627855, "loss": 0.4708, "step": 29340 }, { "epoch": 78.26666666666667, "grad_norm": 0.3125, "learning_rate": 0.00029890465735648436, "loss": 0.475, "step": 29350 }, { "epoch": 78.29333333333334, "grad_norm": 0.2421875, "learning_rate": 0.0002989038987885669, "loss": 0.4686, "step": 29360 }, { "epoch": 78.32, "grad_norm": 0.267578125, "learning_rate": 0.00029890313995903454, "loss": 0.4722, "step": 29370 }, { "epoch": 78.34666666666666, "grad_norm": 0.265625, "learning_rate": 0.00029890238086788853, "loss": 0.4811, "step": 29380 }, { "epoch": 78.37333333333333, "grad_norm": 0.36328125, "learning_rate": 0.0002989016215151303, "loss": 0.477, "step": 29390 }, { "epoch": 78.4, "grad_norm": 0.3515625, "learning_rate": 0.0002989008619007611, "loss": 0.4726, "step": 29400 }, { "epoch": 78.42666666666666, "grad_norm": 0.28515625, "learning_rate": 0.00029890010202478234, "loss": 0.479, "step": 29410 }, { "epoch": 78.45333333333333, "grad_norm": 0.3671875, "learning_rate": 0.00029889934188719524, "loss": 0.4813, "step": 29420 }, { "epoch": 78.48, "grad_norm": 0.29296875, "learning_rate": 0.0002988985814880012, "loss": 0.4875, "step": 29430 }, { "epoch": 78.50666666666666, "grad_norm": 0.267578125, "learning_rate": 0.0002988978208272016, "loss": 0.4772, "step": 29440 }, { "epoch": 78.53333333333333, "grad_norm": 0.255859375, "learning_rate": 0.0002988970599047978, "loss": 0.4712, "step": 29450 }, { "epoch": 78.56, "grad_norm": 0.255859375, "learning_rate": 0.000298896298720791, "loss": 0.4723, "step": 29460 }, { "epoch": 78.58666666666667, "grad_norm": 0.267578125, "learning_rate": 0.00029889553727518265, "loss": 0.4682, "step": 29470 }, { "epoch": 78.61333333333333, "grad_norm": 0.240234375, "learning_rate": 0.000298894775567974, "loss": 0.4543, "step": 29480 }, { "epoch": 78.64, "grad_norm": 0.326171875, "learning_rate": 0.0002988940135991665, "loss": 0.4586, "step": 29490 }, { "epoch": 78.66666666666667, "grad_norm": 0.3984375, "learning_rate": 0.00029889325136876136, "loss": 0.4745, "step": 29500 }, { "epoch": 78.69333333333333, "grad_norm": 0.271484375, "learning_rate": 0.0002988924888767601, "loss": 0.4574, "step": 29510 }, { "epoch": 78.72, "grad_norm": 0.2734375, "learning_rate": 0.00029889172612316384, "loss": 0.4733, "step": 29520 }, { "epoch": 78.74666666666667, "grad_norm": 0.26953125, "learning_rate": 0.0002988909631079741, "loss": 0.4785, "step": 29530 }, { "epoch": 78.77333333333333, "grad_norm": 0.22265625, "learning_rate": 0.0002988901998311921, "loss": 0.4861, "step": 29540 }, { "epoch": 78.8, "grad_norm": 0.287109375, "learning_rate": 0.00029888943629281925, "loss": 0.4731, "step": 29550 }, { "epoch": 78.82666666666667, "grad_norm": 0.412109375, "learning_rate": 0.00029888867249285684, "loss": 0.4675, "step": 29560 }, { "epoch": 78.85333333333334, "grad_norm": 0.4296875, "learning_rate": 0.00029888790843130627, "loss": 0.4764, "step": 29570 }, { "epoch": 78.88, "grad_norm": 0.23828125, "learning_rate": 0.0002988871441081688, "loss": 0.4647, "step": 29580 }, { "epoch": 78.90666666666667, "grad_norm": 0.3046875, "learning_rate": 0.0002988863795234459, "loss": 0.4674, "step": 29590 }, { "epoch": 78.93333333333334, "grad_norm": 0.27734375, "learning_rate": 0.00029888561467713887, "loss": 0.469, "step": 29600 }, { "epoch": 78.96, "grad_norm": 0.337890625, "learning_rate": 0.00029888484956924896, "loss": 0.4669, "step": 29610 }, { "epoch": 78.98666666666666, "grad_norm": 0.251953125, "learning_rate": 0.0002988840841997776, "loss": 0.4804, "step": 29620 }, { "epoch": 79.0, "eval_loss": 0.48059168457984924, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.1909, "eval_samples_per_second": 1.57, "eval_steps_per_second": 0.098, "step": 29625 }, { "epoch": 79.01333333333334, "grad_norm": 0.279296875, "learning_rate": 0.0002988833185687261, "loss": 0.4694, "step": 29630 }, { "epoch": 79.04, "grad_norm": 0.251953125, "learning_rate": 0.0002988825526760958, "loss": 0.4937, "step": 29640 }, { "epoch": 79.06666666666666, "grad_norm": 0.37890625, "learning_rate": 0.0002988817865218881, "loss": 0.4809, "step": 29650 }, { "epoch": 79.09333333333333, "grad_norm": 0.431640625, "learning_rate": 0.0002988810201061043, "loss": 0.4764, "step": 29660 }, { "epoch": 79.12, "grad_norm": 0.404296875, "learning_rate": 0.0002988802534287458, "loss": 0.4723, "step": 29670 }, { "epoch": 79.14666666666666, "grad_norm": 0.32421875, "learning_rate": 0.0002988794864898138, "loss": 0.4817, "step": 29680 }, { "epoch": 79.17333333333333, "grad_norm": 0.30859375, "learning_rate": 0.00029887871928930984, "loss": 0.4719, "step": 29690 }, { "epoch": 79.2, "grad_norm": 0.29296875, "learning_rate": 0.00029887795182723516, "loss": 0.4698, "step": 29700 }, { "epoch": 79.22666666666667, "grad_norm": 0.275390625, "learning_rate": 0.0002988771841035911, "loss": 0.4685, "step": 29710 }, { "epoch": 79.25333333333333, "grad_norm": 0.322265625, "learning_rate": 0.00029887641611837907, "loss": 0.4675, "step": 29720 }, { "epoch": 79.28, "grad_norm": 0.361328125, "learning_rate": 0.0002988756478716004, "loss": 0.4813, "step": 29730 }, { "epoch": 79.30666666666667, "grad_norm": 0.390625, "learning_rate": 0.0002988748793632564, "loss": 0.4627, "step": 29740 }, { "epoch": 79.33333333333333, "grad_norm": 0.291015625, "learning_rate": 0.0002988741105933484, "loss": 0.4781, "step": 29750 }, { "epoch": 79.36, "grad_norm": 0.279296875, "learning_rate": 0.00029887334156187786, "loss": 0.4806, "step": 29760 }, { "epoch": 79.38666666666667, "grad_norm": 0.265625, "learning_rate": 0.0002988725722688461, "loss": 0.4716, "step": 29770 }, { "epoch": 79.41333333333333, "grad_norm": 0.349609375, "learning_rate": 0.00029887180271425437, "loss": 0.4762, "step": 29780 }, { "epoch": 79.44, "grad_norm": 0.318359375, "learning_rate": 0.0002988710328981041, "loss": 0.4789, "step": 29790 }, { "epoch": 79.46666666666667, "grad_norm": 0.2421875, "learning_rate": 0.00029887026282039665, "loss": 0.4893, "step": 29800 }, { "epoch": 79.49333333333334, "grad_norm": 0.31640625, "learning_rate": 0.00029886949248113335, "loss": 0.4795, "step": 29810 }, { "epoch": 79.52, "grad_norm": 0.2373046875, "learning_rate": 0.0002988687218803156, "loss": 0.4743, "step": 29820 }, { "epoch": 79.54666666666667, "grad_norm": 0.26953125, "learning_rate": 0.00029886795101794465, "loss": 0.471, "step": 29830 }, { "epoch": 79.57333333333334, "grad_norm": 0.32421875, "learning_rate": 0.00029886717989402196, "loss": 0.4703, "step": 29840 }, { "epoch": 79.6, "grad_norm": 0.2578125, "learning_rate": 0.00029886640850854883, "loss": 0.464, "step": 29850 }, { "epoch": 79.62666666666667, "grad_norm": 0.328125, "learning_rate": 0.00029886563686152667, "loss": 0.4506, "step": 29860 }, { "epoch": 79.65333333333334, "grad_norm": 0.369140625, "learning_rate": 0.00029886486495295673, "loss": 0.4702, "step": 29870 }, { "epoch": 79.68, "grad_norm": 0.439453125, "learning_rate": 0.0002988640927828404, "loss": 0.4616, "step": 29880 }, { "epoch": 79.70666666666666, "grad_norm": 0.27734375, "learning_rate": 0.0002988633203511792, "loss": 0.4624, "step": 29890 }, { "epoch": 79.73333333333333, "grad_norm": 0.279296875, "learning_rate": 0.00029886254765797425, "loss": 0.4812, "step": 29900 }, { "epoch": 79.76, "grad_norm": 0.361328125, "learning_rate": 0.00029886177470322706, "loss": 0.4826, "step": 29910 }, { "epoch": 79.78666666666666, "grad_norm": 0.345703125, "learning_rate": 0.00029886100148693886, "loss": 0.4811, "step": 29920 }, { "epoch": 79.81333333333333, "grad_norm": 0.3203125, "learning_rate": 0.0002988602280091112, "loss": 0.4666, "step": 29930 }, { "epoch": 79.84, "grad_norm": 0.39453125, "learning_rate": 0.00029885945426974525, "loss": 0.4721, "step": 29940 }, { "epoch": 79.86666666666666, "grad_norm": 0.283203125, "learning_rate": 0.0002988586802688425, "loss": 0.4713, "step": 29950 }, { "epoch": 79.89333333333333, "grad_norm": 0.3359375, "learning_rate": 0.00029885790600640426, "loss": 0.4634, "step": 29960 }, { "epoch": 79.92, "grad_norm": 0.46484375, "learning_rate": 0.0002988571314824318, "loss": 0.4728, "step": 29970 }, { "epoch": 79.94666666666667, "grad_norm": 0.447265625, "learning_rate": 0.0002988563566969267, "loss": 0.4658, "step": 29980 }, { "epoch": 79.97333333333333, "grad_norm": 0.33203125, "learning_rate": 0.0002988555816498901, "loss": 0.4765, "step": 29990 }, { "epoch": 80.0, "grad_norm": 0.369140625, "learning_rate": 0.00029885480634132345, "loss": 0.4661, "step": 30000 }, { "epoch": 80.0, "eval_loss": 0.4805583655834198, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.3038, "eval_samples_per_second": 1.553, "eval_steps_per_second": 0.097, "step": 30000 }, { "epoch": 80.02666666666667, "grad_norm": 0.3203125, "learning_rate": 0.0002988540307712281, "loss": 0.4855, "step": 30010 }, { "epoch": 80.05333333333333, "grad_norm": 0.2373046875, "learning_rate": 0.00029885325493960547, "loss": 0.4912, "step": 30020 }, { "epoch": 80.08, "grad_norm": 0.3671875, "learning_rate": 0.00029885247884645685, "loss": 0.4778, "step": 30030 }, { "epoch": 80.10666666666667, "grad_norm": 0.265625, "learning_rate": 0.0002988517024917837, "loss": 0.4733, "step": 30040 }, { "epoch": 80.13333333333334, "grad_norm": 0.376953125, "learning_rate": 0.0002988509258755872, "loss": 0.4748, "step": 30050 }, { "epoch": 80.16, "grad_norm": 0.40625, "learning_rate": 0.0002988501489978689, "loss": 0.4796, "step": 30060 }, { "epoch": 80.18666666666667, "grad_norm": 0.353515625, "learning_rate": 0.00029884937185863016, "loss": 0.4716, "step": 30070 }, { "epoch": 80.21333333333334, "grad_norm": 0.392578125, "learning_rate": 0.0002988485944578722, "loss": 0.4665, "step": 30080 }, { "epoch": 80.24, "grad_norm": 0.33984375, "learning_rate": 0.00029884781679559647, "loss": 0.4706, "step": 30090 }, { "epoch": 80.26666666666667, "grad_norm": 0.265625, "learning_rate": 0.00029884703887180436, "loss": 0.4743, "step": 30100 }, { "epoch": 80.29333333333334, "grad_norm": 0.26171875, "learning_rate": 0.0002988462606864972, "loss": 0.4684, "step": 30110 }, { "epoch": 80.32, "grad_norm": 0.259765625, "learning_rate": 0.00029884548223967636, "loss": 0.4722, "step": 30120 }, { "epoch": 80.34666666666666, "grad_norm": 0.3125, "learning_rate": 0.0002988447035313432, "loss": 0.4802, "step": 30130 }, { "epoch": 80.37333333333333, "grad_norm": 0.375, "learning_rate": 0.00029884392456149916, "loss": 0.4759, "step": 30140 }, { "epoch": 80.4, "grad_norm": 0.30078125, "learning_rate": 0.0002988431453301455, "loss": 0.4732, "step": 30150 }, { "epoch": 80.42666666666666, "grad_norm": 0.6796875, "learning_rate": 0.00029884236583728365, "loss": 0.4792, "step": 30160 }, { "epoch": 80.45333333333333, "grad_norm": 1.046875, "learning_rate": 0.000298841586082915, "loss": 0.485, "step": 30170 }, { "epoch": 80.48, "grad_norm": 0.59375, "learning_rate": 0.00029884080606704084, "loss": 0.4903, "step": 30180 }, { "epoch": 80.50666666666666, "grad_norm": 0.451171875, "learning_rate": 0.0002988400257896626, "loss": 0.4783, "step": 30190 }, { "epoch": 80.53333333333333, "grad_norm": 0.30859375, "learning_rate": 0.00029883924525078167, "loss": 0.4707, "step": 30200 }, { "epoch": 80.56, "grad_norm": 0.267578125, "learning_rate": 0.00029883846445039936, "loss": 0.4717, "step": 30210 }, { "epoch": 80.58666666666667, "grad_norm": 0.28515625, "learning_rate": 0.00029883768338851715, "loss": 0.4685, "step": 30220 }, { "epoch": 80.61333333333333, "grad_norm": 0.18359375, "learning_rate": 0.00029883690206513626, "loss": 0.4535, "step": 30230 }, { "epoch": 80.64, "grad_norm": 0.2294921875, "learning_rate": 0.00029883612048025817, "loss": 0.4585, "step": 30240 }, { "epoch": 80.66666666666667, "grad_norm": 0.259765625, "learning_rate": 0.0002988353386338842, "loss": 0.4739, "step": 30250 }, { "epoch": 80.69333333333333, "grad_norm": 0.27734375, "learning_rate": 0.00029883455652601575, "loss": 0.4573, "step": 30260 }, { "epoch": 80.72, "grad_norm": 0.3359375, "learning_rate": 0.00029883377415665423, "loss": 0.474, "step": 30270 }, { "epoch": 80.74666666666667, "grad_norm": 0.189453125, "learning_rate": 0.00029883299152580093, "loss": 0.4784, "step": 30280 }, { "epoch": 80.77333333333333, "grad_norm": 0.244140625, "learning_rate": 0.0002988322086334573, "loss": 0.4862, "step": 30290 }, { "epoch": 80.8, "grad_norm": 0.2236328125, "learning_rate": 0.0002988314254796246, "loss": 0.4731, "step": 30300 }, { "epoch": 80.82666666666667, "grad_norm": 0.2255859375, "learning_rate": 0.00029883064206430443, "loss": 0.4674, "step": 30310 }, { "epoch": 80.85333333333334, "grad_norm": 0.46875, "learning_rate": 0.000298829858387498, "loss": 0.4767, "step": 30320 }, { "epoch": 80.88, "grad_norm": 0.271484375, "learning_rate": 0.00029882907444920664, "loss": 0.4645, "step": 30330 }, { "epoch": 80.90666666666667, "grad_norm": 0.32421875, "learning_rate": 0.00029882829024943186, "loss": 0.4676, "step": 30340 }, { "epoch": 80.93333333333334, "grad_norm": 0.19140625, "learning_rate": 0.00029882750578817495, "loss": 0.4686, "step": 30350 }, { "epoch": 80.96, "grad_norm": 0.24609375, "learning_rate": 0.0002988267210654373, "loss": 0.4661, "step": 30360 }, { "epoch": 80.98666666666666, "grad_norm": 0.310546875, "learning_rate": 0.00029882593608122036, "loss": 0.4798, "step": 30370 }, { "epoch": 81.0, "eval_loss": 0.4806881844997406, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.3578, "eval_samples_per_second": 1.545, "eval_steps_per_second": 0.097, "step": 30375 }, { "epoch": 81.01333333333334, "grad_norm": 0.28125, "learning_rate": 0.00029882515083552545, "loss": 0.47, "step": 30380 }, { "epoch": 81.04, "grad_norm": 0.287109375, "learning_rate": 0.000298824365328354, "loss": 0.4937, "step": 30390 }, { "epoch": 81.06666666666666, "grad_norm": 0.3671875, "learning_rate": 0.00029882357955970723, "loss": 0.4813, "step": 30400 }, { "epoch": 81.09333333333333, "grad_norm": 0.275390625, "learning_rate": 0.0002988227935295867, "loss": 0.4761, "step": 30410 }, { "epoch": 81.12, "grad_norm": 0.2255859375, "learning_rate": 0.0002988220072379937, "loss": 0.4725, "step": 30420 }, { "epoch": 81.14666666666666, "grad_norm": 0.271484375, "learning_rate": 0.0002988212206849297, "loss": 0.4818, "step": 30430 }, { "epoch": 81.17333333333333, "grad_norm": 0.298828125, "learning_rate": 0.000298820433870396, "loss": 0.4717, "step": 30440 }, { "epoch": 81.2, "grad_norm": 0.330078125, "learning_rate": 0.00029881964679439395, "loss": 0.47, "step": 30450 }, { "epoch": 81.22666666666667, "grad_norm": 0.259765625, "learning_rate": 0.0002988188594569251, "loss": 0.4676, "step": 30460 }, { "epoch": 81.25333333333333, "grad_norm": 0.2373046875, "learning_rate": 0.0002988180718579906, "loss": 0.4679, "step": 30470 }, { "epoch": 81.28, "grad_norm": 0.361328125, "learning_rate": 0.000298817283997592, "loss": 0.4817, "step": 30480 }, { "epoch": 81.30666666666667, "grad_norm": 0.357421875, "learning_rate": 0.00029881649587573065, "loss": 0.463, "step": 30490 }, { "epoch": 81.33333333333333, "grad_norm": 0.283203125, "learning_rate": 0.0002988157074924079, "loss": 0.478, "step": 30500 }, { "epoch": 81.36, "grad_norm": 0.310546875, "learning_rate": 0.0002988149188476251, "loss": 0.4796, "step": 30510 }, { "epoch": 81.38666666666667, "grad_norm": 0.408203125, "learning_rate": 0.0002988141299413838, "loss": 0.4716, "step": 30520 }, { "epoch": 81.41333333333333, "grad_norm": 0.435546875, "learning_rate": 0.00029881334077368524, "loss": 0.4765, "step": 30530 }, { "epoch": 81.44, "grad_norm": 0.373046875, "learning_rate": 0.0002988125513445309, "loss": 0.4791, "step": 30540 }, { "epoch": 81.46666666666667, "grad_norm": 0.25390625, "learning_rate": 0.00029881176165392196, "loss": 0.4884, "step": 30550 }, { "epoch": 81.49333333333334, "grad_norm": 0.36328125, "learning_rate": 0.0002988109717018601, "loss": 0.4794, "step": 30560 }, { "epoch": 81.52, "grad_norm": 0.2294921875, "learning_rate": 0.00029881018148834653, "loss": 0.4741, "step": 30570 }, { "epoch": 81.54666666666667, "grad_norm": 0.2734375, "learning_rate": 0.0002988093910133826, "loss": 0.4711, "step": 30580 }, { "epoch": 81.57333333333334, "grad_norm": 0.2275390625, "learning_rate": 0.0002988086002769699, "loss": 0.4702, "step": 30590 }, { "epoch": 81.6, "grad_norm": 0.39453125, "learning_rate": 0.00029880780927910966, "loss": 0.4643, "step": 30600 }, { "epoch": 81.62666666666667, "grad_norm": 0.3046875, "learning_rate": 0.00029880701801980326, "loss": 0.4513, "step": 30610 }, { "epoch": 81.65333333333334, "grad_norm": 0.2890625, "learning_rate": 0.00029880622649905214, "loss": 0.4706, "step": 30620 }, { "epoch": 81.68, "grad_norm": 0.349609375, "learning_rate": 0.0002988054347168577, "loss": 0.4626, "step": 30630 }, { "epoch": 81.70666666666666, "grad_norm": 0.41796875, "learning_rate": 0.0002988046426732214, "loss": 0.4623, "step": 30640 }, { "epoch": 81.73333333333333, "grad_norm": 0.2890625, "learning_rate": 0.00029880385036814444, "loss": 0.4812, "step": 30650 }, { "epoch": 81.76, "grad_norm": 0.3671875, "learning_rate": 0.00029880305780162833, "loss": 0.4827, "step": 30660 }, { "epoch": 81.78666666666666, "grad_norm": 0.35546875, "learning_rate": 0.00029880226497367443, "loss": 0.4811, "step": 30670 }, { "epoch": 81.81333333333333, "grad_norm": 0.306640625, "learning_rate": 0.0002988014718842842, "loss": 0.4662, "step": 30680 }, { "epoch": 81.84, "grad_norm": 0.28125, "learning_rate": 0.000298800678533459, "loss": 0.4723, "step": 30690 }, { "epoch": 81.86666666666666, "grad_norm": 0.275390625, "learning_rate": 0.0002987998849212002, "loss": 0.4713, "step": 30700 }, { "epoch": 81.89333333333333, "grad_norm": 0.30078125, "learning_rate": 0.00029879909104750925, "loss": 0.4626, "step": 30710 }, { "epoch": 81.92, "grad_norm": 0.30859375, "learning_rate": 0.00029879829691238744, "loss": 0.4729, "step": 30720 }, { "epoch": 81.94666666666667, "grad_norm": 0.294921875, "learning_rate": 0.00029879750251583624, "loss": 0.4649, "step": 30730 }, { "epoch": 81.97333333333333, "grad_norm": 0.32421875, "learning_rate": 0.000298796707857857, "loss": 0.4773, "step": 30740 }, { "epoch": 82.0, "grad_norm": 0.291015625, "learning_rate": 0.00029879591293845116, "loss": 0.4664, "step": 30750 }, { "epoch": 82.0, "eval_loss": 0.4804117679595947, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.1678, "eval_samples_per_second": 1.574, "eval_steps_per_second": 0.098, "step": 30750 }, { "epoch": 82.02666666666667, "grad_norm": 0.3203125, "learning_rate": 0.00029879511775762014, "loss": 0.4853, "step": 30760 }, { "epoch": 82.05333333333333, "grad_norm": 0.392578125, "learning_rate": 0.00029879432231536533, "loss": 0.4913, "step": 30770 }, { "epoch": 82.08, "grad_norm": 0.259765625, "learning_rate": 0.00029879352661168806, "loss": 0.4789, "step": 30780 }, { "epoch": 82.10666666666667, "grad_norm": 0.2470703125, "learning_rate": 0.00029879273064658976, "loss": 0.4736, "step": 30790 }, { "epoch": 82.13333333333334, "grad_norm": 0.341796875, "learning_rate": 0.00029879193442007183, "loss": 0.4739, "step": 30800 }, { "epoch": 82.16, "grad_norm": 0.365234375, "learning_rate": 0.0002987911379321357, "loss": 0.4794, "step": 30810 }, { "epoch": 82.18666666666667, "grad_norm": 0.359375, "learning_rate": 0.0002987903411827827, "loss": 0.4711, "step": 30820 }, { "epoch": 82.21333333333334, "grad_norm": 0.34765625, "learning_rate": 0.00029878954417201435, "loss": 0.4663, "step": 30830 }, { "epoch": 82.24, "grad_norm": 0.333984375, "learning_rate": 0.00029878874689983194, "loss": 0.4707, "step": 30840 }, { "epoch": 82.26666666666667, "grad_norm": 0.2333984375, "learning_rate": 0.0002987879493662369, "loss": 0.4751, "step": 30850 }, { "epoch": 82.29333333333334, "grad_norm": 0.220703125, "learning_rate": 0.0002987871515712306, "loss": 0.4685, "step": 30860 }, { "epoch": 82.32, "grad_norm": 0.283203125, "learning_rate": 0.00029878635351481453, "loss": 0.4719, "step": 30870 }, { "epoch": 82.34666666666666, "grad_norm": 0.333984375, "learning_rate": 0.00029878555519699003, "loss": 0.4801, "step": 30880 }, { "epoch": 82.37333333333333, "grad_norm": 0.41015625, "learning_rate": 0.00029878475661775854, "loss": 0.4753, "step": 30890 }, { "epoch": 82.4, "grad_norm": 0.3203125, "learning_rate": 0.0002987839577771214, "loss": 0.4728, "step": 30900 }, { "epoch": 82.42666666666666, "grad_norm": 0.263671875, "learning_rate": 0.00029878315867508, "loss": 0.4793, "step": 30910 }, { "epoch": 82.45333333333333, "grad_norm": 0.37109375, "learning_rate": 0.0002987823593116359, "loss": 0.4804, "step": 30920 }, { "epoch": 82.48, "grad_norm": 0.4140625, "learning_rate": 0.0002987815596867903, "loss": 0.4876, "step": 30930 }, { "epoch": 82.50666666666666, "grad_norm": 0.28515625, "learning_rate": 0.0002987807598005448, "loss": 0.4765, "step": 30940 }, { "epoch": 82.53333333333333, "grad_norm": 0.271484375, "learning_rate": 0.00029877995965290065, "loss": 0.4707, "step": 30950 }, { "epoch": 82.56, "grad_norm": 0.388671875, "learning_rate": 0.0002987791592438593, "loss": 0.4719, "step": 30960 }, { "epoch": 82.58666666666667, "grad_norm": 0.2734375, "learning_rate": 0.0002987783585734222, "loss": 0.4677, "step": 30970 }, { "epoch": 82.61333333333333, "grad_norm": 0.2353515625, "learning_rate": 0.00029877755764159074, "loss": 0.4539, "step": 30980 }, { "epoch": 82.64, "grad_norm": 0.236328125, "learning_rate": 0.00029877675644836624, "loss": 0.4587, "step": 30990 }, { "epoch": 82.66666666666667, "grad_norm": 0.40625, "learning_rate": 0.0002987759549937503, "loss": 0.4742, "step": 31000 }, { "epoch": 82.69333333333333, "grad_norm": 0.2451171875, "learning_rate": 0.0002987751532777441, "loss": 0.457, "step": 31010 }, { "epoch": 82.72, "grad_norm": 0.28125, "learning_rate": 0.00029877435130034924, "loss": 0.4747, "step": 31020 }, { "epoch": 82.74666666666667, "grad_norm": 0.251953125, "learning_rate": 0.000298773549061567, "loss": 0.4779, "step": 31030 }, { "epoch": 82.77333333333333, "grad_norm": 0.28125, "learning_rate": 0.00029877274656139885, "loss": 0.4861, "step": 31040 }, { "epoch": 82.8, "grad_norm": 0.26953125, "learning_rate": 0.0002987719437998462, "loss": 0.4733, "step": 31050 }, { "epoch": 82.82666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002987711407769104, "loss": 0.4674, "step": 31060 }, { "epoch": 82.85333333333334, "grad_norm": 0.33984375, "learning_rate": 0.00029877033749259297, "loss": 0.4761, "step": 31070 }, { "epoch": 82.88, "grad_norm": 0.294921875, "learning_rate": 0.0002987695339468952, "loss": 0.4643, "step": 31080 }, { "epoch": 82.90666666666667, "grad_norm": 0.328125, "learning_rate": 0.00029876873013981865, "loss": 0.4669, "step": 31090 }, { "epoch": 82.93333333333334, "grad_norm": 0.29296875, "learning_rate": 0.0002987679260713645, "loss": 0.4685, "step": 31100 }, { "epoch": 82.96, "grad_norm": 0.3046875, "learning_rate": 0.00029876712174153446, "loss": 0.4668, "step": 31110 }, { "epoch": 82.98666666666666, "grad_norm": 0.26953125, "learning_rate": 0.0002987663171503297, "loss": 0.4802, "step": 31120 }, { "epoch": 83.0, "eval_loss": 0.48024803400039673, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.8308, "eval_samples_per_second": 1.628, "eval_steps_per_second": 0.102, "step": 31125 }, { "epoch": 83.01333333333334, "grad_norm": 0.251953125, "learning_rate": 0.0002987655122977518, "loss": 0.4696, "step": 31130 }, { "epoch": 83.04, "grad_norm": 0.35546875, "learning_rate": 0.000298764707183802, "loss": 0.4939, "step": 31140 }, { "epoch": 83.06666666666666, "grad_norm": 0.267578125, "learning_rate": 0.0002987639018084819, "loss": 0.4816, "step": 31150 }, { "epoch": 83.09333333333333, "grad_norm": 0.2578125, "learning_rate": 0.00029876309617179276, "loss": 0.4755, "step": 31160 }, { "epoch": 83.12, "grad_norm": 0.2490234375, "learning_rate": 0.0002987622902737361, "loss": 0.4729, "step": 31170 }, { "epoch": 83.14666666666666, "grad_norm": 0.294921875, "learning_rate": 0.0002987614841143133, "loss": 0.4816, "step": 31180 }, { "epoch": 83.17333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002987606776935257, "loss": 0.472, "step": 31190 }, { "epoch": 83.2, "grad_norm": 0.35546875, "learning_rate": 0.00029875987101137485, "loss": 0.47, "step": 31200 }, { "epoch": 83.22666666666667, "grad_norm": 0.26953125, "learning_rate": 0.00029875906406786213, "loss": 0.4682, "step": 31210 }, { "epoch": 83.25333333333333, "grad_norm": 0.328125, "learning_rate": 0.00029875825686298893, "loss": 0.4684, "step": 31220 }, { "epoch": 83.28, "grad_norm": 0.35546875, "learning_rate": 0.00029875744939675665, "loss": 0.4813, "step": 31230 }, { "epoch": 83.30666666666667, "grad_norm": 0.259765625, "learning_rate": 0.00029875664166916676, "loss": 0.4621, "step": 31240 }, { "epoch": 83.33333333333333, "grad_norm": 0.265625, "learning_rate": 0.0002987558336802206, "loss": 0.4775, "step": 31250 }, { "epoch": 83.36, "grad_norm": 0.27734375, "learning_rate": 0.0002987550254299197, "loss": 0.4795, "step": 31260 }, { "epoch": 83.38666666666667, "grad_norm": 0.3828125, "learning_rate": 0.00029875421691826545, "loss": 0.4714, "step": 31270 }, { "epoch": 83.41333333333333, "grad_norm": 0.36328125, "learning_rate": 0.0002987534081452592, "loss": 0.4755, "step": 31280 }, { "epoch": 83.44, "grad_norm": 0.2158203125, "learning_rate": 0.0002987525991109024, "loss": 0.4789, "step": 31290 }, { "epoch": 83.46666666666667, "grad_norm": 0.365234375, "learning_rate": 0.00029875178981519647, "loss": 0.4879, "step": 31300 }, { "epoch": 83.49333333333334, "grad_norm": 0.51953125, "learning_rate": 0.00029875098025814286, "loss": 0.4793, "step": 31310 }, { "epoch": 83.52, "grad_norm": 0.2890625, "learning_rate": 0.000298750170439743, "loss": 0.4736, "step": 31320 }, { "epoch": 83.54666666666667, "grad_norm": 0.259765625, "learning_rate": 0.0002987493603599983, "loss": 0.4708, "step": 31330 }, { "epoch": 83.57333333333334, "grad_norm": 0.28125, "learning_rate": 0.00029874855001891013, "loss": 0.4702, "step": 31340 }, { "epoch": 83.6, "grad_norm": 0.359375, "learning_rate": 0.00029874773941648, "loss": 0.4641, "step": 31350 }, { "epoch": 83.62666666666667, "grad_norm": 0.310546875, "learning_rate": 0.0002987469285527093, "loss": 0.4512, "step": 31360 }, { "epoch": 83.65333333333334, "grad_norm": 0.40625, "learning_rate": 0.0002987461174275994, "loss": 0.4703, "step": 31370 }, { "epoch": 83.68, "grad_norm": 0.28125, "learning_rate": 0.0002987453060411518, "loss": 0.4619, "step": 31380 }, { "epoch": 83.70666666666666, "grad_norm": 0.310546875, "learning_rate": 0.0002987444943933679, "loss": 0.4629, "step": 31390 }, { "epoch": 83.73333333333333, "grad_norm": 0.291015625, "learning_rate": 0.0002987436824842491, "loss": 0.4817, "step": 31400 }, { "epoch": 83.76, "grad_norm": 0.294921875, "learning_rate": 0.0002987428703137969, "loss": 0.4827, "step": 31410 }, { "epoch": 83.78666666666666, "grad_norm": 0.322265625, "learning_rate": 0.00029874205788201267, "loss": 0.4816, "step": 31420 }, { "epoch": 83.81333333333333, "grad_norm": 0.41796875, "learning_rate": 0.0002987412451888978, "loss": 0.4666, "step": 31430 }, { "epoch": 83.84, "grad_norm": 0.423828125, "learning_rate": 0.0002987404322344538, "loss": 0.4718, "step": 31440 }, { "epoch": 83.86666666666666, "grad_norm": 0.24609375, "learning_rate": 0.00029873961901868203, "loss": 0.4709, "step": 31450 }, { "epoch": 83.89333333333333, "grad_norm": 0.267578125, "learning_rate": 0.000298738805541584, "loss": 0.4624, "step": 31460 }, { "epoch": 83.92, "grad_norm": 0.41796875, "learning_rate": 0.00029873799180316107, "loss": 0.4729, "step": 31470 }, { "epoch": 83.94666666666667, "grad_norm": 0.396484375, "learning_rate": 0.00029873717780341466, "loss": 0.4648, "step": 31480 }, { "epoch": 83.97333333333333, "grad_norm": 0.447265625, "learning_rate": 0.00029873636354234626, "loss": 0.4776, "step": 31490 }, { "epoch": 84.0, "grad_norm": 0.349609375, "learning_rate": 0.00029873554901995727, "loss": 0.4658, "step": 31500 }, { "epoch": 84.0, "eval_loss": 0.48183757066726685, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.5507, "eval_samples_per_second": 1.675, "eval_steps_per_second": 0.105, "step": 31500 }, { "epoch": 84.02666666666667, "grad_norm": 0.279296875, "learning_rate": 0.00029873473423624905, "loss": 0.4854, "step": 31510 }, { "epoch": 84.05333333333333, "grad_norm": 0.3515625, "learning_rate": 0.0002987339191912232, "loss": 0.4905, "step": 31520 }, { "epoch": 84.08, "grad_norm": 0.2119140625, "learning_rate": 0.00029873310388488103, "loss": 0.4782, "step": 31530 }, { "epoch": 84.10666666666667, "grad_norm": 0.275390625, "learning_rate": 0.000298732288317224, "loss": 0.4729, "step": 31540 }, { "epoch": 84.13333333333334, "grad_norm": 0.34375, "learning_rate": 0.0002987314724882535, "loss": 0.475, "step": 31550 }, { "epoch": 84.16, "grad_norm": 0.34765625, "learning_rate": 0.000298730656397971, "loss": 0.4785, "step": 31560 }, { "epoch": 84.18666666666667, "grad_norm": 0.26953125, "learning_rate": 0.000298729840046378, "loss": 0.4714, "step": 31570 }, { "epoch": 84.21333333333334, "grad_norm": 0.24609375, "learning_rate": 0.00029872902343347583, "loss": 0.4656, "step": 31580 }, { "epoch": 84.24, "grad_norm": 0.357421875, "learning_rate": 0.000298728206559266, "loss": 0.4699, "step": 31590 }, { "epoch": 84.26666666666667, "grad_norm": 0.2734375, "learning_rate": 0.00029872738942374985, "loss": 0.4742, "step": 31600 }, { "epoch": 84.29333333333334, "grad_norm": 0.279296875, "learning_rate": 0.0002987265720269289, "loss": 0.4685, "step": 31610 }, { "epoch": 84.32, "grad_norm": 0.236328125, "learning_rate": 0.00029872575436880463, "loss": 0.4715, "step": 31620 }, { "epoch": 84.34666666666666, "grad_norm": 0.287109375, "learning_rate": 0.0002987249364493783, "loss": 0.4804, "step": 31630 }, { "epoch": 84.37333333333333, "grad_norm": 0.349609375, "learning_rate": 0.00029872411826865154, "loss": 0.4758, "step": 31640 }, { "epoch": 84.4, "grad_norm": 0.20703125, "learning_rate": 0.00029872329982662564, "loss": 0.472, "step": 31650 }, { "epoch": 84.42666666666666, "grad_norm": 0.2275390625, "learning_rate": 0.0002987224811233022, "loss": 0.4787, "step": 31660 }, { "epoch": 84.45333333333333, "grad_norm": 0.310546875, "learning_rate": 0.0002987216621586825, "loss": 0.4805, "step": 31670 }, { "epoch": 84.48, "grad_norm": 0.28125, "learning_rate": 0.000298720842932768, "loss": 0.4872, "step": 31680 }, { "epoch": 84.50666666666666, "grad_norm": 0.318359375, "learning_rate": 0.0002987200234455602, "loss": 0.4768, "step": 31690 }, { "epoch": 84.53333333333333, "grad_norm": 0.259765625, "learning_rate": 0.00029871920369706055, "loss": 0.4707, "step": 31700 }, { "epoch": 84.56, "grad_norm": 0.248046875, "learning_rate": 0.00029871838368727044, "loss": 0.4719, "step": 31710 }, { "epoch": 84.58666666666667, "grad_norm": 0.26953125, "learning_rate": 0.00029871756341619135, "loss": 0.4668, "step": 31720 }, { "epoch": 84.61333333333333, "grad_norm": 0.435546875, "learning_rate": 0.0002987167428838247, "loss": 0.453, "step": 31730 }, { "epoch": 84.64, "grad_norm": 0.27734375, "learning_rate": 0.00029871592209017187, "loss": 0.4585, "step": 31740 }, { "epoch": 84.66666666666667, "grad_norm": 0.34375, "learning_rate": 0.0002987151010352344, "loss": 0.4739, "step": 31750 }, { "epoch": 84.69333333333333, "grad_norm": 0.337890625, "learning_rate": 0.0002987142797190137, "loss": 0.4565, "step": 31760 }, { "epoch": 84.72, "grad_norm": 0.28125, "learning_rate": 0.00029871345814151126, "loss": 0.4742, "step": 31770 }, { "epoch": 84.74666666666667, "grad_norm": 0.31640625, "learning_rate": 0.0002987126363027284, "loss": 0.4786, "step": 31780 }, { "epoch": 84.77333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029871181420266667, "loss": 0.486, "step": 31790 }, { "epoch": 84.8, "grad_norm": 0.40234375, "learning_rate": 0.00029871099184132743, "loss": 0.4731, "step": 31800 }, { "epoch": 84.82666666666667, "grad_norm": 0.2890625, "learning_rate": 0.0002987101692187123, "loss": 0.4663, "step": 31810 }, { "epoch": 84.85333333333334, "grad_norm": 0.240234375, "learning_rate": 0.0002987093463348225, "loss": 0.4756, "step": 31820 }, { "epoch": 84.88, "grad_norm": 0.2431640625, "learning_rate": 0.0002987085231896596, "loss": 0.4643, "step": 31830 }, { "epoch": 84.90666666666667, "grad_norm": 0.279296875, "learning_rate": 0.000298707699783225, "loss": 0.4665, "step": 31840 }, { "epoch": 84.93333333333334, "grad_norm": 0.255859375, "learning_rate": 0.00029870687611552023, "loss": 0.4678, "step": 31850 }, { "epoch": 84.96, "grad_norm": 0.29296875, "learning_rate": 0.0002987060521865466, "loss": 0.4666, "step": 31860 }, { "epoch": 84.98666666666666, "grad_norm": 0.34765625, "learning_rate": 0.0002987052279963057, "loss": 0.4805, "step": 31870 }, { "epoch": 85.0, "eval_loss": 0.48072928190231323, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.7018, "eval_samples_per_second": 1.649, "eval_steps_per_second": 0.103, "step": 31875 }, { "epoch": 85.01333333333334, "grad_norm": 0.2333984375, "learning_rate": 0.00029870440354479893, "loss": 0.4689, "step": 31880 }, { "epoch": 85.04, "grad_norm": 0.244140625, "learning_rate": 0.00029870357883202765, "loss": 0.4933, "step": 31890 }, { "epoch": 85.06666666666666, "grad_norm": 0.419921875, "learning_rate": 0.0002987027538579934, "loss": 0.4812, "step": 31900 }, { "epoch": 85.09333333333333, "grad_norm": 0.291015625, "learning_rate": 0.0002987019286226977, "loss": 0.4754, "step": 31910 }, { "epoch": 85.12, "grad_norm": 0.248046875, "learning_rate": 0.0002987011031261418, "loss": 0.4721, "step": 31920 }, { "epoch": 85.14666666666666, "grad_norm": 0.283203125, "learning_rate": 0.0002987002773683273, "loss": 0.4811, "step": 31930 }, { "epoch": 85.17333333333333, "grad_norm": 0.29296875, "learning_rate": 0.00029869945134925564, "loss": 0.4715, "step": 31940 }, { "epoch": 85.2, "grad_norm": 0.3046875, "learning_rate": 0.00029869862506892817, "loss": 0.4698, "step": 31950 }, { "epoch": 85.22666666666667, "grad_norm": 0.3203125, "learning_rate": 0.00029869779852734646, "loss": 0.4683, "step": 31960 }, { "epoch": 85.25333333333333, "grad_norm": 0.306640625, "learning_rate": 0.0002986969717245119, "loss": 0.467, "step": 31970 }, { "epoch": 85.28, "grad_norm": 0.3515625, "learning_rate": 0.000298696144660426, "loss": 0.4812, "step": 31980 }, { "epoch": 85.30666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002986953173350901, "loss": 0.4616, "step": 31990 }, { "epoch": 85.33333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029869448974850576, "loss": 0.4779, "step": 32000 }, { "epoch": 85.36, "grad_norm": 0.47265625, "learning_rate": 0.0002986936619006744, "loss": 0.4797, "step": 32010 }, { "epoch": 85.38666666666667, "grad_norm": 0.291015625, "learning_rate": 0.0002986928337915975, "loss": 0.4714, "step": 32020 }, { "epoch": 85.41333333333333, "grad_norm": 0.318359375, "learning_rate": 0.00029869200542127647, "loss": 0.4752, "step": 32030 }, { "epoch": 85.44, "grad_norm": 0.2333984375, "learning_rate": 0.00029869117678971277, "loss": 0.4787, "step": 32040 }, { "epoch": 85.46666666666667, "grad_norm": 0.314453125, "learning_rate": 0.00029869034789690784, "loss": 0.4874, "step": 32050 }, { "epoch": 85.49333333333334, "grad_norm": 0.431640625, "learning_rate": 0.00029868951874286327, "loss": 0.4802, "step": 32060 }, { "epoch": 85.52, "grad_norm": 0.328125, "learning_rate": 0.00029868868932758034, "loss": 0.474, "step": 32070 }, { "epoch": 85.54666666666667, "grad_norm": 0.255859375, "learning_rate": 0.0002986878596510606, "loss": 0.4711, "step": 32080 }, { "epoch": 85.57333333333334, "grad_norm": 0.2373046875, "learning_rate": 0.0002986870297133055, "loss": 0.4699, "step": 32090 }, { "epoch": 85.6, "grad_norm": 0.28125, "learning_rate": 0.0002986861995143164, "loss": 0.4635, "step": 32100 }, { "epoch": 85.62666666666667, "grad_norm": 0.275390625, "learning_rate": 0.000298685369054095, "loss": 0.4502, "step": 32110 }, { "epoch": 85.65333333333334, "grad_norm": 0.302734375, "learning_rate": 0.0002986845383326425, "loss": 0.4706, "step": 32120 }, { "epoch": 85.68, "grad_norm": 0.2236328125, "learning_rate": 0.00029868370734996045, "loss": 0.4617, "step": 32130 }, { "epoch": 85.70666666666666, "grad_norm": 0.365234375, "learning_rate": 0.0002986828761060504, "loss": 0.4619, "step": 32140 }, { "epoch": 85.73333333333333, "grad_norm": 0.27734375, "learning_rate": 0.0002986820446009136, "loss": 0.4807, "step": 32150 }, { "epoch": 85.76, "grad_norm": 0.341796875, "learning_rate": 0.00029868121283455176, "loss": 0.4818, "step": 32160 }, { "epoch": 85.78666666666666, "grad_norm": 0.2265625, "learning_rate": 0.0002986803808069662, "loss": 0.4811, "step": 32170 }, { "epoch": 85.81333333333333, "grad_norm": 0.337890625, "learning_rate": 0.0002986795485181584, "loss": 0.4663, "step": 32180 }, { "epoch": 85.84, "grad_norm": 0.283203125, "learning_rate": 0.00029867871596812986, "loss": 0.4723, "step": 32190 }, { "epoch": 85.86666666666666, "grad_norm": 0.234375, "learning_rate": 0.000298677883156882, "loss": 0.4709, "step": 32200 }, { "epoch": 85.89333333333333, "grad_norm": 0.294921875, "learning_rate": 0.00029867705008441634, "loss": 0.4625, "step": 32210 }, { "epoch": 85.92, "grad_norm": 0.318359375, "learning_rate": 0.00029867621675073417, "loss": 0.4726, "step": 32220 }, { "epoch": 85.94666666666667, "grad_norm": 0.46875, "learning_rate": 0.0002986753831558372, "loss": 0.4655, "step": 32230 }, { "epoch": 85.97333333333333, "grad_norm": 0.373046875, "learning_rate": 0.0002986745492997267, "loss": 0.4775, "step": 32240 }, { "epoch": 86.0, "grad_norm": 0.345703125, "learning_rate": 0.0002986737151824043, "loss": 0.4658, "step": 32250 }, { "epoch": 86.0, "eval_loss": 0.48104819655418396, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.7417, "eval_samples_per_second": 1.49, "eval_steps_per_second": 0.093, "step": 32250 }, { "epoch": 86.02666666666667, "grad_norm": 0.423828125, "learning_rate": 0.0002986728808038713, "loss": 0.4851, "step": 32260 }, { "epoch": 86.05333333333333, "grad_norm": 0.36328125, "learning_rate": 0.0002986720461641293, "loss": 0.491, "step": 32270 }, { "epoch": 86.08, "grad_norm": 0.2734375, "learning_rate": 0.00029867121126317967, "loss": 0.4782, "step": 32280 }, { "epoch": 86.10666666666667, "grad_norm": 0.265625, "learning_rate": 0.000298670376101024, "loss": 0.4731, "step": 32290 }, { "epoch": 86.13333333333334, "grad_norm": 0.3203125, "learning_rate": 0.00029866954067766355, "loss": 0.4752, "step": 32300 }, { "epoch": 86.16, "grad_norm": 0.2890625, "learning_rate": 0.0002986687049931, "loss": 0.4786, "step": 32310 }, { "epoch": 86.18666666666667, "grad_norm": 0.279296875, "learning_rate": 0.0002986678690473347, "loss": 0.4708, "step": 32320 }, { "epoch": 86.21333333333334, "grad_norm": 0.27734375, "learning_rate": 0.00029866703284036917, "loss": 0.4655, "step": 32330 }, { "epoch": 86.24, "grad_norm": 0.283203125, "learning_rate": 0.00029866619637220485, "loss": 0.47, "step": 32340 }, { "epoch": 86.26666666666667, "grad_norm": 0.2294921875, "learning_rate": 0.0002986653596428432, "loss": 0.4741, "step": 32350 }, { "epoch": 86.29333333333334, "grad_norm": 0.2119140625, "learning_rate": 0.00029866452265228573, "loss": 0.4685, "step": 32360 }, { "epoch": 86.32, "grad_norm": 0.26171875, "learning_rate": 0.0002986636854005339, "loss": 0.4712, "step": 32370 }, { "epoch": 86.34666666666666, "grad_norm": 0.2890625, "learning_rate": 0.0002986628478875892, "loss": 0.4796, "step": 32380 }, { "epoch": 86.37333333333333, "grad_norm": 0.27734375, "learning_rate": 0.000298662010113453, "loss": 0.4762, "step": 32390 }, { "epoch": 86.4, "grad_norm": 0.2431640625, "learning_rate": 0.0002986611720781269, "loss": 0.4724, "step": 32400 }, { "epoch": 86.42666666666666, "grad_norm": 0.28515625, "learning_rate": 0.0002986603337816123, "loss": 0.4788, "step": 32410 }, { "epoch": 86.45333333333333, "grad_norm": 0.43359375, "learning_rate": 0.00029865949522391065, "loss": 0.4804, "step": 32420 }, { "epoch": 86.48, "grad_norm": 0.29296875, "learning_rate": 0.00029865865640502353, "loss": 0.4869, "step": 32430 }, { "epoch": 86.50666666666666, "grad_norm": 0.306640625, "learning_rate": 0.00029865781732495226, "loss": 0.4764, "step": 32440 }, { "epoch": 86.53333333333333, "grad_norm": 0.365234375, "learning_rate": 0.0002986569779836985, "loss": 0.4705, "step": 32450 }, { "epoch": 86.56, "grad_norm": 0.38671875, "learning_rate": 0.00029865613838126354, "loss": 0.4715, "step": 32460 }, { "epoch": 86.58666666666667, "grad_norm": 0.306640625, "learning_rate": 0.000298655298517649, "loss": 0.467, "step": 32470 }, { "epoch": 86.61333333333333, "grad_norm": 0.3046875, "learning_rate": 0.0002986544583928563, "loss": 0.4536, "step": 32480 }, { "epoch": 86.64, "grad_norm": 0.259765625, "learning_rate": 0.0002986536180068869, "loss": 0.4579, "step": 32490 }, { "epoch": 86.66666666666667, "grad_norm": 0.470703125, "learning_rate": 0.0002986527773597422, "loss": 0.4735, "step": 32500 }, { "epoch": 86.69333333333333, "grad_norm": 0.3046875, "learning_rate": 0.0002986519364514239, "loss": 0.4572, "step": 32510 }, { "epoch": 86.72, "grad_norm": 0.3125, "learning_rate": 0.00029865109528193326, "loss": 0.4737, "step": 32520 }, { "epoch": 86.74666666666667, "grad_norm": 0.306640625, "learning_rate": 0.00029865025385127184, "loss": 0.4781, "step": 32530 }, { "epoch": 86.77333333333333, "grad_norm": 0.384765625, "learning_rate": 0.0002986494121594412, "loss": 0.4864, "step": 32540 }, { "epoch": 86.8, "grad_norm": 0.3203125, "learning_rate": 0.00029864857020644265, "loss": 0.4727, "step": 32550 }, { "epoch": 86.82666666666667, "grad_norm": 0.29296875, "learning_rate": 0.0002986477279922778, "loss": 0.4676, "step": 32560 }, { "epoch": 86.85333333333334, "grad_norm": 0.30859375, "learning_rate": 0.0002986468855169481, "loss": 0.4765, "step": 32570 }, { "epoch": 86.88, "grad_norm": 0.267578125, "learning_rate": 0.000298646042780455, "loss": 0.4636, "step": 32580 }, { "epoch": 86.90666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002986451997828, "loss": 0.4672, "step": 32590 }, { "epoch": 86.93333333333334, "grad_norm": 0.283203125, "learning_rate": 0.0002986443565239845, "loss": 0.4687, "step": 32600 }, { "epoch": 86.96, "grad_norm": 0.392578125, "learning_rate": 0.00029864351300401017, "loss": 0.466, "step": 32610 }, { "epoch": 86.98666666666666, "grad_norm": 0.337890625, "learning_rate": 0.00029864266922287834, "loss": 0.4798, "step": 32620 }, { "epoch": 87.0, "eval_loss": 0.4798685312271118, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.9855, "eval_samples_per_second": 1.602, "eval_steps_per_second": 0.1, "step": 32625 }, { "epoch": 87.01333333333334, "grad_norm": 0.22265625, "learning_rate": 0.00029864182518059057, "loss": 0.4695, "step": 32630 }, { "epoch": 87.04, "grad_norm": 0.322265625, "learning_rate": 0.00029864098087714825, "loss": 0.4932, "step": 32640 }, { "epoch": 87.06666666666666, "grad_norm": 0.3671875, "learning_rate": 0.00029864013631255296, "loss": 0.4814, "step": 32650 }, { "epoch": 87.09333333333333, "grad_norm": 0.3203125, "learning_rate": 0.00029863929148680617, "loss": 0.4764, "step": 32660 }, { "epoch": 87.12, "grad_norm": 0.34765625, "learning_rate": 0.0002986384463999093, "loss": 0.4726, "step": 32670 }, { "epoch": 87.14666666666666, "grad_norm": 0.279296875, "learning_rate": 0.00029863760105186386, "loss": 0.4808, "step": 32680 }, { "epoch": 87.17333333333333, "grad_norm": 0.24609375, "learning_rate": 0.00029863675544267133, "loss": 0.4709, "step": 32690 }, { "epoch": 87.2, "grad_norm": 0.302734375, "learning_rate": 0.00029863590957233325, "loss": 0.4694, "step": 32700 }, { "epoch": 87.22666666666667, "grad_norm": 0.26953125, "learning_rate": 0.0002986350634408511, "loss": 0.4674, "step": 32710 }, { "epoch": 87.25333333333333, "grad_norm": 0.3046875, "learning_rate": 0.00029863421704822633, "loss": 0.4673, "step": 32720 }, { "epoch": 87.28, "grad_norm": 0.35546875, "learning_rate": 0.00029863337039446035, "loss": 0.4809, "step": 32730 }, { "epoch": 87.30666666666667, "grad_norm": 0.28125, "learning_rate": 0.00029863252347955485, "loss": 0.462, "step": 32740 }, { "epoch": 87.33333333333333, "grad_norm": 0.2578125, "learning_rate": 0.0002986316763035112, "loss": 0.4772, "step": 32750 }, { "epoch": 87.36, "grad_norm": 0.2490234375, "learning_rate": 0.0002986308288663308, "loss": 0.4793, "step": 32760 }, { "epoch": 87.38666666666667, "grad_norm": 0.3359375, "learning_rate": 0.0002986299811680153, "loss": 0.4715, "step": 32770 }, { "epoch": 87.41333333333333, "grad_norm": 0.322265625, "learning_rate": 0.00029862913320856605, "loss": 0.4755, "step": 32780 }, { "epoch": 87.44, "grad_norm": 0.333984375, "learning_rate": 0.00029862828498798466, "loss": 0.4785, "step": 32790 }, { "epoch": 87.46666666666667, "grad_norm": 0.404296875, "learning_rate": 0.0002986274365062725, "loss": 0.4883, "step": 32800 }, { "epoch": 87.49333333333334, "grad_norm": 0.369140625, "learning_rate": 0.0002986265877634312, "loss": 0.4802, "step": 32810 }, { "epoch": 87.52, "grad_norm": 0.408203125, "learning_rate": 0.00029862573875946214, "loss": 0.4742, "step": 32820 }, { "epoch": 87.54666666666667, "grad_norm": 0.349609375, "learning_rate": 0.00029862488949436694, "loss": 0.4708, "step": 32830 }, { "epoch": 87.57333333333334, "grad_norm": 0.298828125, "learning_rate": 0.0002986240399681469, "loss": 0.4696, "step": 32840 }, { "epoch": 87.6, "grad_norm": 0.3046875, "learning_rate": 0.00029862319018080364, "loss": 0.4636, "step": 32850 }, { "epoch": 87.62666666666667, "grad_norm": 0.2470703125, "learning_rate": 0.00029862234013233865, "loss": 0.451, "step": 32860 }, { "epoch": 87.65333333333334, "grad_norm": 0.255859375, "learning_rate": 0.0002986214898227534, "loss": 0.4692, "step": 32870 }, { "epoch": 87.68, "grad_norm": 0.283203125, "learning_rate": 0.00029862063925204934, "loss": 0.4608, "step": 32880 }, { "epoch": 87.70666666666666, "grad_norm": 0.306640625, "learning_rate": 0.000298619788420228, "loss": 0.462, "step": 32890 }, { "epoch": 87.73333333333333, "grad_norm": 0.349609375, "learning_rate": 0.000298618937327291, "loss": 0.4811, "step": 32900 }, { "epoch": 87.76, "grad_norm": 0.2890625, "learning_rate": 0.0002986180859732396, "loss": 0.4822, "step": 32910 }, { "epoch": 87.78666666666666, "grad_norm": 0.48828125, "learning_rate": 0.00029861723435807547, "loss": 0.4806, "step": 32920 }, { "epoch": 87.81333333333333, "grad_norm": 0.43359375, "learning_rate": 0.00029861638248180006, "loss": 0.4659, "step": 32930 }, { "epoch": 87.84, "grad_norm": 0.337890625, "learning_rate": 0.00029861553034441483, "loss": 0.4715, "step": 32940 }, { "epoch": 87.86666666666666, "grad_norm": 0.328125, "learning_rate": 0.0002986146779459213, "loss": 0.4707, "step": 32950 }, { "epoch": 87.89333333333333, "grad_norm": 0.291015625, "learning_rate": 0.00029861382528632103, "loss": 0.4624, "step": 32960 }, { "epoch": 87.92, "grad_norm": 0.341796875, "learning_rate": 0.00029861297236561545, "loss": 0.4724, "step": 32970 }, { "epoch": 87.94666666666667, "grad_norm": 0.208984375, "learning_rate": 0.000298612119183806, "loss": 0.465, "step": 32980 }, { "epoch": 87.97333333333333, "grad_norm": 0.302734375, "learning_rate": 0.0002986112657408943, "loss": 0.4768, "step": 32990 }, { "epoch": 88.0, "grad_norm": 0.203125, "learning_rate": 0.0002986104120368818, "loss": 0.4652, "step": 33000 }, { "epoch": 88.0, "eval_loss": 0.4803306758403778, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.9873, "eval_samples_per_second": 1.602, "eval_steps_per_second": 0.1, "step": 33000 }, { "epoch": 88.02666666666667, "grad_norm": 0.40234375, "learning_rate": 0.00029860955807177003, "loss": 0.4856, "step": 33010 }, { "epoch": 88.05333333333333, "grad_norm": 0.25, "learning_rate": 0.0002986087038455604, "loss": 0.4915, "step": 33020 }, { "epoch": 88.08, "grad_norm": 0.22265625, "learning_rate": 0.0002986078493582545, "loss": 0.4781, "step": 33030 }, { "epoch": 88.10666666666667, "grad_norm": 0.2314453125, "learning_rate": 0.0002986069946098538, "loss": 0.4728, "step": 33040 }, { "epoch": 88.13333333333334, "grad_norm": 0.349609375, "learning_rate": 0.0002986061396003598, "loss": 0.4753, "step": 33050 }, { "epoch": 88.16, "grad_norm": 0.279296875, "learning_rate": 0.00029860528432977404, "loss": 0.4796, "step": 33060 }, { "epoch": 88.18666666666667, "grad_norm": 0.2314453125, "learning_rate": 0.00029860442879809794, "loss": 0.471, "step": 33070 }, { "epoch": 88.21333333333334, "grad_norm": 0.3046875, "learning_rate": 0.00029860357300533306, "loss": 0.4663, "step": 33080 }, { "epoch": 88.24, "grad_norm": 0.263671875, "learning_rate": 0.0002986027169514809, "loss": 0.4697, "step": 33090 }, { "epoch": 88.26666666666667, "grad_norm": 0.373046875, "learning_rate": 0.00029860186063654294, "loss": 0.4741, "step": 33100 }, { "epoch": 88.29333333333334, "grad_norm": 0.306640625, "learning_rate": 0.0002986010040605207, "loss": 0.468, "step": 33110 }, { "epoch": 88.32, "grad_norm": 0.33203125, "learning_rate": 0.00029860014722341574, "loss": 0.4711, "step": 33120 }, { "epoch": 88.34666666666666, "grad_norm": 0.326171875, "learning_rate": 0.0002985992901252295, "loss": 0.4801, "step": 33130 }, { "epoch": 88.37333333333333, "grad_norm": 0.392578125, "learning_rate": 0.0002985984327659635, "loss": 0.4761, "step": 33140 }, { "epoch": 88.4, "grad_norm": 0.5546875, "learning_rate": 0.00029859757514561923, "loss": 0.4725, "step": 33150 }, { "epoch": 88.42666666666666, "grad_norm": 0.32421875, "learning_rate": 0.0002985967172641982, "loss": 0.4788, "step": 33160 }, { "epoch": 88.45333333333333, "grad_norm": 0.46875, "learning_rate": 0.0002985958591217019, "loss": 0.4807, "step": 33170 }, { "epoch": 88.48, "grad_norm": 0.322265625, "learning_rate": 0.0002985950007181319, "loss": 0.4867, "step": 33180 }, { "epoch": 88.50666666666666, "grad_norm": 0.275390625, "learning_rate": 0.00029859414205348975, "loss": 0.4763, "step": 33190 }, { "epoch": 88.53333333333333, "grad_norm": 0.23828125, "learning_rate": 0.00029859328312777675, "loss": 0.4701, "step": 33200 }, { "epoch": 88.56, "grad_norm": 0.263671875, "learning_rate": 0.00029859242394099464, "loss": 0.4712, "step": 33210 }, { "epoch": 88.58666666666667, "grad_norm": 0.3125, "learning_rate": 0.00029859156449314484, "loss": 0.4678, "step": 33220 }, { "epoch": 88.61333333333333, "grad_norm": 0.26953125, "learning_rate": 0.00029859070478422875, "loss": 0.4534, "step": 33230 }, { "epoch": 88.64, "grad_norm": 0.26171875, "learning_rate": 0.00029858984481424805, "loss": 0.4579, "step": 33240 }, { "epoch": 88.66666666666667, "grad_norm": 0.310546875, "learning_rate": 0.0002985889845832042, "loss": 0.4737, "step": 33250 }, { "epoch": 88.69333333333333, "grad_norm": 0.2734375, "learning_rate": 0.0002985881240910987, "loss": 0.4564, "step": 33260 }, { "epoch": 88.72, "grad_norm": 0.283203125, "learning_rate": 0.00029858726333793306, "loss": 0.4737, "step": 33270 }, { "epoch": 88.74666666666667, "grad_norm": 0.2138671875, "learning_rate": 0.00029858640232370874, "loss": 0.4786, "step": 33280 }, { "epoch": 88.77333333333333, "grad_norm": 0.326171875, "learning_rate": 0.00029858554104842733, "loss": 0.4854, "step": 33290 }, { "epoch": 88.8, "grad_norm": 0.26171875, "learning_rate": 0.0002985846795120903, "loss": 0.4718, "step": 33300 }, { "epoch": 88.82666666666667, "grad_norm": 0.306640625, "learning_rate": 0.0002985838177146992, "loss": 0.4665, "step": 33310 }, { "epoch": 88.85333333333334, "grad_norm": 0.263671875, "learning_rate": 0.00029858295565625555, "loss": 0.4757, "step": 33320 }, { "epoch": 88.88, "grad_norm": 0.265625, "learning_rate": 0.0002985820933367608, "loss": 0.4638, "step": 33330 }, { "epoch": 88.90666666666667, "grad_norm": 0.42578125, "learning_rate": 0.00029858123075621656, "loss": 0.4667, "step": 33340 }, { "epoch": 88.93333333333334, "grad_norm": 0.28515625, "learning_rate": 0.00029858036791462417, "loss": 0.4678, "step": 33350 }, { "epoch": 88.96, "grad_norm": 0.326171875, "learning_rate": 0.0002985795048119854, "loss": 0.4661, "step": 33360 }, { "epoch": 88.98666666666666, "grad_norm": 0.244140625, "learning_rate": 0.0002985786414483015, "loss": 0.4806, "step": 33370 }, { "epoch": 89.0, "eval_loss": 0.48046040534973145, "eval_model_preparation_time": 0.0016, "eval_runtime": 11.5105, "eval_samples_per_second": 1.39, "eval_steps_per_second": 0.087, "step": 33375 }, { "epoch": 89.01333333333334, "grad_norm": 0.244140625, "learning_rate": 0.00029857777782357417, "loss": 0.4689, "step": 33380 }, { "epoch": 89.04, "grad_norm": 0.267578125, "learning_rate": 0.00029857691393780493, "loss": 0.4924, "step": 33390 }, { "epoch": 89.06666666666666, "grad_norm": 0.357421875, "learning_rate": 0.0002985760497909952, "loss": 0.4813, "step": 33400 }, { "epoch": 89.09333333333333, "grad_norm": 0.361328125, "learning_rate": 0.00029857518538314653, "loss": 0.4757, "step": 33410 }, { "epoch": 89.12, "grad_norm": 0.333984375, "learning_rate": 0.00029857432071426045, "loss": 0.4715, "step": 33420 }, { "epoch": 89.14666666666666, "grad_norm": 0.353515625, "learning_rate": 0.0002985734557843385, "loss": 0.4811, "step": 33430 }, { "epoch": 89.17333333333333, "grad_norm": 0.314453125, "learning_rate": 0.00029857259059338224, "loss": 0.472, "step": 33440 }, { "epoch": 89.2, "grad_norm": 0.29296875, "learning_rate": 0.00029857172514139303, "loss": 0.47, "step": 33450 }, { "epoch": 89.22666666666667, "grad_norm": 0.40625, "learning_rate": 0.0002985708594283725, "loss": 0.4672, "step": 33460 }, { "epoch": 89.25333333333333, "grad_norm": 0.380859375, "learning_rate": 0.0002985699934543222, "loss": 0.4681, "step": 33470 }, { "epoch": 89.28, "grad_norm": 0.361328125, "learning_rate": 0.00029856912721924354, "loss": 0.4815, "step": 33480 }, { "epoch": 89.30666666666667, "grad_norm": 0.263671875, "learning_rate": 0.0002985682607231382, "loss": 0.4625, "step": 33490 }, { "epoch": 89.33333333333333, "grad_norm": 0.23046875, "learning_rate": 0.0002985673939660076, "loss": 0.4775, "step": 33500 }, { "epoch": 89.36, "grad_norm": 0.2578125, "learning_rate": 0.00029856652694785325, "loss": 0.4799, "step": 33510 }, { "epoch": 89.38666666666667, "grad_norm": 0.259765625, "learning_rate": 0.0002985656596686767, "loss": 0.4709, "step": 33520 }, { "epoch": 89.41333333333333, "grad_norm": 0.314453125, "learning_rate": 0.0002985647921284795, "loss": 0.4756, "step": 33530 }, { "epoch": 89.44, "grad_norm": 0.306640625, "learning_rate": 0.0002985639243272631, "loss": 0.4786, "step": 33540 }, { "epoch": 89.46666666666667, "grad_norm": 0.2470703125, "learning_rate": 0.0002985630562650291, "loss": 0.4879, "step": 33550 }, { "epoch": 89.49333333333334, "grad_norm": 0.279296875, "learning_rate": 0.00029856218794177905, "loss": 0.4795, "step": 33560 }, { "epoch": 89.52, "grad_norm": 0.365234375, "learning_rate": 0.00029856131935751437, "loss": 0.4736, "step": 33570 }, { "epoch": 89.54666666666667, "grad_norm": 0.2470703125, "learning_rate": 0.0002985604505122367, "loss": 0.4702, "step": 33580 }, { "epoch": 89.57333333333334, "grad_norm": 0.29296875, "learning_rate": 0.0002985595814059474, "loss": 0.4695, "step": 33590 }, { "epoch": 89.6, "grad_norm": 0.314453125, "learning_rate": 0.00029855871203864824, "loss": 0.4631, "step": 33600 }, { "epoch": 89.62666666666667, "grad_norm": 0.3046875, "learning_rate": 0.0002985578424103405, "loss": 0.4506, "step": 33610 }, { "epoch": 89.65333333333334, "grad_norm": 0.255859375, "learning_rate": 0.0002985569725210259, "loss": 0.4697, "step": 33620 }, { "epoch": 89.68, "grad_norm": 0.28125, "learning_rate": 0.00029855610237070583, "loss": 0.4623, "step": 33630 }, { "epoch": 89.70666666666666, "grad_norm": 0.423828125, "learning_rate": 0.0002985552319593819, "loss": 0.4619, "step": 33640 }, { "epoch": 89.73333333333333, "grad_norm": 0.287109375, "learning_rate": 0.00029855436128705564, "loss": 0.4804, "step": 33650 }, { "epoch": 89.76, "grad_norm": 0.287109375, "learning_rate": 0.00029855349035372855, "loss": 0.4822, "step": 33660 }, { "epoch": 89.78666666666666, "grad_norm": 0.287109375, "learning_rate": 0.0002985526191594022, "loss": 0.4807, "step": 33670 }, { "epoch": 89.81333333333333, "grad_norm": 0.48828125, "learning_rate": 0.000298551747704078, "loss": 0.4661, "step": 33680 }, { "epoch": 89.84, "grad_norm": 0.341796875, "learning_rate": 0.0002985508759877576, "loss": 0.4711, "step": 33690 }, { "epoch": 89.86666666666666, "grad_norm": 0.3515625, "learning_rate": 0.0002985500040104425, "loss": 0.4707, "step": 33700 }, { "epoch": 89.89333333333333, "grad_norm": 0.333984375, "learning_rate": 0.0002985491317721343, "loss": 0.4621, "step": 33710 }, { "epoch": 89.92, "grad_norm": 0.3828125, "learning_rate": 0.00029854825927283436, "loss": 0.4728, "step": 33720 }, { "epoch": 89.94666666666667, "grad_norm": 0.28515625, "learning_rate": 0.0002985473865125444, "loss": 0.4649, "step": 33730 }, { "epoch": 89.97333333333333, "grad_norm": 0.302734375, "learning_rate": 0.0002985465134912658, "loss": 0.476, "step": 33740 }, { "epoch": 90.0, "grad_norm": 0.357421875, "learning_rate": 0.00029854564020900023, "loss": 0.465, "step": 33750 }, { "epoch": 90.0, "eval_loss": 0.47980237007141113, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.8873, "eval_samples_per_second": 1.618, "eval_steps_per_second": 0.101, "step": 33750 }, { "epoch": 90.02666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002985447666657491, "loss": 0.485, "step": 33760 }, { "epoch": 90.05333333333333, "grad_norm": 0.337890625, "learning_rate": 0.00029854389286151407, "loss": 0.4917, "step": 33770 }, { "epoch": 90.08, "grad_norm": 0.345703125, "learning_rate": 0.0002985430187962965, "loss": 0.4785, "step": 33780 }, { "epoch": 90.10666666666667, "grad_norm": 0.244140625, "learning_rate": 0.00029854214447009816, "loss": 0.4731, "step": 33790 }, { "epoch": 90.13333333333334, "grad_norm": 0.306640625, "learning_rate": 0.0002985412698829204, "loss": 0.474, "step": 33800 }, { "epoch": 90.16, "grad_norm": 0.376953125, "learning_rate": 0.00029854039503476485, "loss": 0.4788, "step": 33810 }, { "epoch": 90.18666666666667, "grad_norm": 0.31640625, "learning_rate": 0.000298539519925633, "loss": 0.4712, "step": 33820 }, { "epoch": 90.21333333333334, "grad_norm": 0.359375, "learning_rate": 0.00029853864455552635, "loss": 0.4662, "step": 33830 }, { "epoch": 90.24, "grad_norm": 0.326171875, "learning_rate": 0.00029853776892444655, "loss": 0.4693, "step": 33840 }, { "epoch": 90.26666666666667, "grad_norm": 0.33203125, "learning_rate": 0.00029853689303239507, "loss": 0.474, "step": 33850 }, { "epoch": 90.29333333333334, "grad_norm": 0.2890625, "learning_rate": 0.0002985360168793734, "loss": 0.4683, "step": 33860 }, { "epoch": 90.32, "grad_norm": 0.25390625, "learning_rate": 0.00029853514046538325, "loss": 0.472, "step": 33870 }, { "epoch": 90.34666666666666, "grad_norm": 0.30078125, "learning_rate": 0.00029853426379042596, "loss": 0.4796, "step": 33880 }, { "epoch": 90.37333333333333, "grad_norm": 0.29296875, "learning_rate": 0.0002985333868545032, "loss": 0.476, "step": 33890 }, { "epoch": 90.4, "grad_norm": 0.220703125, "learning_rate": 0.0002985325096576164, "loss": 0.4725, "step": 33900 }, { "epoch": 90.42666666666666, "grad_norm": 0.30078125, "learning_rate": 0.0002985316321997672, "loss": 0.4783, "step": 33910 }, { "epoch": 90.45333333333333, "grad_norm": 0.35546875, "learning_rate": 0.0002985307544809571, "loss": 0.4805, "step": 33920 }, { "epoch": 90.48, "grad_norm": 0.306640625, "learning_rate": 0.0002985298765011877, "loss": 0.4873, "step": 33930 }, { "epoch": 90.50666666666666, "grad_norm": 0.21484375, "learning_rate": 0.00029852899826046046, "loss": 0.4763, "step": 33940 }, { "epoch": 90.53333333333333, "grad_norm": 0.26953125, "learning_rate": 0.000298528119758777, "loss": 0.4701, "step": 33950 }, { "epoch": 90.56, "grad_norm": 0.2578125, "learning_rate": 0.00029852724099613877, "loss": 0.4713, "step": 33960 }, { "epoch": 90.58666666666667, "grad_norm": 0.5390625, "learning_rate": 0.0002985263619725474, "loss": 0.4675, "step": 33970 }, { "epoch": 90.61333333333333, "grad_norm": 0.32421875, "learning_rate": 0.0002985254826880044, "loss": 0.4533, "step": 33980 }, { "epoch": 90.64, "grad_norm": 0.279296875, "learning_rate": 0.0002985246031425113, "loss": 0.4584, "step": 33990 }, { "epoch": 90.66666666666667, "grad_norm": 0.2734375, "learning_rate": 0.00029852372333606967, "loss": 0.4738, "step": 34000 }, { "epoch": 90.69333333333333, "grad_norm": 0.25, "learning_rate": 0.000298522843268681, "loss": 0.4567, "step": 34010 }, { "epoch": 90.72, "grad_norm": 0.2412109375, "learning_rate": 0.0002985219629403469, "loss": 0.4737, "step": 34020 }, { "epoch": 90.74666666666667, "grad_norm": 0.2734375, "learning_rate": 0.00029852108235106894, "loss": 0.4777, "step": 34030 }, { "epoch": 90.77333333333333, "grad_norm": 0.28515625, "learning_rate": 0.0002985202015008486, "loss": 0.4856, "step": 34040 }, { "epoch": 90.8, "grad_norm": 0.314453125, "learning_rate": 0.00029851932038968746, "loss": 0.4718, "step": 34050 }, { "epoch": 90.82666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002985184390175871, "loss": 0.4672, "step": 34060 }, { "epoch": 90.85333333333334, "grad_norm": 0.474609375, "learning_rate": 0.000298517557384549, "loss": 0.4761, "step": 34070 }, { "epoch": 90.88, "grad_norm": 0.375, "learning_rate": 0.00029851667549057463, "loss": 0.4638, "step": 34080 }, { "epoch": 90.90666666666667, "grad_norm": 0.30078125, "learning_rate": 0.0002985157933356658, "loss": 0.4665, "step": 34090 }, { "epoch": 90.93333333333334, "grad_norm": 0.318359375, "learning_rate": 0.00029851491091982383, "loss": 0.468, "step": 34100 }, { "epoch": 90.96, "grad_norm": 0.341796875, "learning_rate": 0.0002985140282430504, "loss": 0.4657, "step": 34110 }, { "epoch": 90.98666666666666, "grad_norm": 0.3515625, "learning_rate": 0.00029851314530534694, "loss": 0.48, "step": 34120 }, { "epoch": 91.0, "eval_loss": 0.4798223376274109, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.5524, "eval_samples_per_second": 1.516, "eval_steps_per_second": 0.095, "step": 34125 }, { "epoch": 91.01333333333334, "grad_norm": 0.34765625, "learning_rate": 0.0002985122621067151, "loss": 0.4693, "step": 34130 }, { "epoch": 91.04, "grad_norm": 0.412109375, "learning_rate": 0.00029851137864715644, "loss": 0.4938, "step": 34140 }, { "epoch": 91.06666666666666, "grad_norm": 0.42578125, "learning_rate": 0.00029851049492667244, "loss": 0.4816, "step": 34150 }, { "epoch": 91.09333333333333, "grad_norm": 0.248046875, "learning_rate": 0.0002985096109452647, "loss": 0.4753, "step": 34160 }, { "epoch": 91.12, "grad_norm": 0.298828125, "learning_rate": 0.00029850872670293476, "loss": 0.4715, "step": 34170 }, { "epoch": 91.14666666666666, "grad_norm": 0.341796875, "learning_rate": 0.0002985078421996841, "loss": 0.4809, "step": 34180 }, { "epoch": 91.17333333333333, "grad_norm": 0.271484375, "learning_rate": 0.0002985069574355145, "loss": 0.4713, "step": 34190 }, { "epoch": 91.2, "grad_norm": 0.265625, "learning_rate": 0.00029850607241042724, "loss": 0.4694, "step": 34200 }, { "epoch": 91.22666666666667, "grad_norm": 0.279296875, "learning_rate": 0.00029850518712442404, "loss": 0.4676, "step": 34210 }, { "epoch": 91.25333333333333, "grad_norm": 0.220703125, "learning_rate": 0.0002985043015775064, "loss": 0.4666, "step": 34220 }, { "epoch": 91.28, "grad_norm": 0.37890625, "learning_rate": 0.0002985034157696759, "loss": 0.4807, "step": 34230 }, { "epoch": 91.30666666666667, "grad_norm": 0.376953125, "learning_rate": 0.00029850252970093407, "loss": 0.4618, "step": 34240 }, { "epoch": 91.33333333333333, "grad_norm": 0.30859375, "learning_rate": 0.00029850164337128247, "loss": 0.4774, "step": 34250 }, { "epoch": 91.36, "grad_norm": 0.3046875, "learning_rate": 0.0002985007567807227, "loss": 0.4795, "step": 34260 }, { "epoch": 91.38666666666667, "grad_norm": 0.375, "learning_rate": 0.0002984998699292563, "loss": 0.4714, "step": 34270 }, { "epoch": 91.41333333333333, "grad_norm": 0.5234375, "learning_rate": 0.0002984989828168848, "loss": 0.4753, "step": 34280 }, { "epoch": 91.44, "grad_norm": 0.31640625, "learning_rate": 0.00029849809544360974, "loss": 0.4789, "step": 34290 }, { "epoch": 91.46666666666667, "grad_norm": 0.271484375, "learning_rate": 0.00029849720780943275, "loss": 0.4875, "step": 34300 }, { "epoch": 91.49333333333334, "grad_norm": 0.4140625, "learning_rate": 0.0002984963199143553, "loss": 0.4795, "step": 34310 }, { "epoch": 91.52, "grad_norm": 0.2216796875, "learning_rate": 0.00029849543175837907, "loss": 0.4733, "step": 34320 }, { "epoch": 91.54666666666667, "grad_norm": 0.26171875, "learning_rate": 0.00029849454334150553, "loss": 0.4702, "step": 34330 }, { "epoch": 91.57333333333334, "grad_norm": 0.2099609375, "learning_rate": 0.00029849365466373624, "loss": 0.4698, "step": 34340 }, { "epoch": 91.6, "grad_norm": 0.294921875, "learning_rate": 0.00029849276572507284, "loss": 0.4632, "step": 34350 }, { "epoch": 91.62666666666667, "grad_norm": 0.23828125, "learning_rate": 0.0002984918765255168, "loss": 0.4502, "step": 34360 }, { "epoch": 91.65333333333334, "grad_norm": 0.388671875, "learning_rate": 0.0002984909870650697, "loss": 0.4697, "step": 34370 }, { "epoch": 91.68, "grad_norm": 0.271484375, "learning_rate": 0.00029849009734373317, "loss": 0.4613, "step": 34380 }, { "epoch": 91.70666666666666, "grad_norm": 0.29296875, "learning_rate": 0.00029848920736150864, "loss": 0.462, "step": 34390 }, { "epoch": 91.73333333333333, "grad_norm": 0.2265625, "learning_rate": 0.0002984883171183978, "loss": 0.4806, "step": 34400 }, { "epoch": 91.76, "grad_norm": 0.458984375, "learning_rate": 0.0002984874266144022, "loss": 0.4822, "step": 34410 }, { "epoch": 91.78666666666666, "grad_norm": 0.314453125, "learning_rate": 0.0002984865358495233, "loss": 0.4804, "step": 34420 }, { "epoch": 91.81333333333333, "grad_norm": 0.2578125, "learning_rate": 0.0002984856448237629, "loss": 0.4656, "step": 34430 }, { "epoch": 91.84, "grad_norm": 0.37890625, "learning_rate": 0.00029848475353712225, "loss": 0.4722, "step": 34440 }, { "epoch": 91.86666666666666, "grad_norm": 0.34765625, "learning_rate": 0.0002984838619896031, "loss": 0.4713, "step": 34450 }, { "epoch": 91.89333333333333, "grad_norm": 0.29296875, "learning_rate": 0.00029848297018120705, "loss": 0.4615, "step": 34460 }, { "epoch": 91.92, "grad_norm": 0.28125, "learning_rate": 0.00029848207811193557, "loss": 0.4724, "step": 34470 }, { "epoch": 91.94666666666667, "grad_norm": 0.388671875, "learning_rate": 0.0002984811857817903, "loss": 0.4649, "step": 34480 }, { "epoch": 91.97333333333333, "grad_norm": 0.54296875, "learning_rate": 0.0002984802931907727, "loss": 0.4762, "step": 34490 }, { "epoch": 92.0, "grad_norm": 0.33203125, "learning_rate": 0.0002984794003388845, "loss": 0.4657, "step": 34500 }, { "epoch": 92.0, "eval_loss": 0.4802961051464081, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.1935, "eval_samples_per_second": 1.57, "eval_steps_per_second": 0.098, "step": 34500 }, { "epoch": 92.02666666666667, "grad_norm": 0.275390625, "learning_rate": 0.0002984785072261271, "loss": 0.4849, "step": 34510 }, { "epoch": 92.05333333333333, "grad_norm": 0.287109375, "learning_rate": 0.00029847761385250215, "loss": 0.4904, "step": 34520 }, { "epoch": 92.08, "grad_norm": 0.27734375, "learning_rate": 0.00029847672021801125, "loss": 0.478, "step": 34530 }, { "epoch": 92.10666666666667, "grad_norm": 0.2451171875, "learning_rate": 0.00029847582632265595, "loss": 0.4734, "step": 34540 }, { "epoch": 92.13333333333334, "grad_norm": 0.322265625, "learning_rate": 0.0002984749321664378, "loss": 0.4742, "step": 34550 }, { "epoch": 92.16, "grad_norm": 0.28515625, "learning_rate": 0.00029847403774935834, "loss": 0.4787, "step": 34560 }, { "epoch": 92.18666666666667, "grad_norm": 0.2158203125, "learning_rate": 0.0002984731430714192, "loss": 0.4709, "step": 34570 }, { "epoch": 92.21333333333334, "grad_norm": 0.275390625, "learning_rate": 0.00029847224813262196, "loss": 0.4652, "step": 34580 }, { "epoch": 92.24, "grad_norm": 0.337890625, "learning_rate": 0.00029847135293296814, "loss": 0.4688, "step": 34590 }, { "epoch": 92.26666666666667, "grad_norm": 0.3125, "learning_rate": 0.00029847045747245934, "loss": 0.4734, "step": 34600 }, { "epoch": 92.29333333333334, "grad_norm": 0.28515625, "learning_rate": 0.00029846956175109713, "loss": 0.4675, "step": 34610 }, { "epoch": 92.32, "grad_norm": 0.255859375, "learning_rate": 0.0002984686657688831, "loss": 0.4719, "step": 34620 }, { "epoch": 92.34666666666666, "grad_norm": 0.373046875, "learning_rate": 0.0002984677695258188, "loss": 0.4791, "step": 34630 }, { "epoch": 92.37333333333333, "grad_norm": 0.294921875, "learning_rate": 0.0002984668730219058, "loss": 0.4754, "step": 34640 }, { "epoch": 92.4, "grad_norm": 0.275390625, "learning_rate": 0.0002984659762571457, "loss": 0.4725, "step": 34650 }, { "epoch": 92.42666666666666, "grad_norm": 0.357421875, "learning_rate": 0.00029846507923154004, "loss": 0.4782, "step": 34660 }, { "epoch": 92.45333333333333, "grad_norm": 0.32421875, "learning_rate": 0.0002984641819450904, "loss": 0.4804, "step": 34670 }, { "epoch": 92.48, "grad_norm": 0.2470703125, "learning_rate": 0.00029846328439779845, "loss": 0.487, "step": 34680 }, { "epoch": 92.50666666666666, "grad_norm": 0.3046875, "learning_rate": 0.00029846238658966565, "loss": 0.4764, "step": 34690 }, { "epoch": 92.53333333333333, "grad_norm": 0.2236328125, "learning_rate": 0.00029846148852069365, "loss": 0.4704, "step": 34700 }, { "epoch": 92.56, "grad_norm": 0.25390625, "learning_rate": 0.00029846059019088397, "loss": 0.4711, "step": 34710 }, { "epoch": 92.58666666666667, "grad_norm": 0.375, "learning_rate": 0.00029845969160023823, "loss": 0.4668, "step": 34720 }, { "epoch": 92.61333333333333, "grad_norm": 0.314453125, "learning_rate": 0.00029845879274875795, "loss": 0.4525, "step": 34730 }, { "epoch": 92.64, "grad_norm": 0.328125, "learning_rate": 0.0002984578936364448, "loss": 0.4581, "step": 34740 }, { "epoch": 92.66666666666667, "grad_norm": 0.298828125, "learning_rate": 0.00029845699426330033, "loss": 0.4735, "step": 34750 }, { "epoch": 92.69333333333333, "grad_norm": 0.2265625, "learning_rate": 0.0002984560946293261, "loss": 0.4571, "step": 34760 }, { "epoch": 92.72, "grad_norm": 0.25390625, "learning_rate": 0.00029845519473452363, "loss": 0.4734, "step": 34770 }, { "epoch": 92.74666666666667, "grad_norm": 0.42578125, "learning_rate": 0.00029845429457889467, "loss": 0.478, "step": 34780 }, { "epoch": 92.77333333333333, "grad_norm": 0.41796875, "learning_rate": 0.0002984533941624406, "loss": 0.4851, "step": 34790 }, { "epoch": 92.8, "grad_norm": 0.400390625, "learning_rate": 0.00029845249348516316, "loss": 0.4726, "step": 34800 }, { "epoch": 92.82666666666667, "grad_norm": 0.306640625, "learning_rate": 0.00029845159254706386, "loss": 0.4669, "step": 34810 }, { "epoch": 92.85333333333334, "grad_norm": 0.337890625, "learning_rate": 0.0002984506913481443, "loss": 0.4756, "step": 34820 }, { "epoch": 92.88, "grad_norm": 0.33203125, "learning_rate": 0.00029844978988840604, "loss": 0.4639, "step": 34830 }, { "epoch": 92.90666666666667, "grad_norm": 0.23046875, "learning_rate": 0.00029844888816785067, "loss": 0.4665, "step": 34840 }, { "epoch": 92.93333333333334, "grad_norm": 0.26171875, "learning_rate": 0.0002984479861864798, "loss": 0.4681, "step": 34850 }, { "epoch": 92.96, "grad_norm": 0.216796875, "learning_rate": 0.000298447083944295, "loss": 0.4662, "step": 34860 }, { "epoch": 92.98666666666666, "grad_norm": 0.328125, "learning_rate": 0.0002984461814412978, "loss": 0.4795, "step": 34870 }, { "epoch": 93.0, "eval_loss": 0.48105791211128235, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.8036, "eval_samples_per_second": 1.632, "eval_steps_per_second": 0.102, "step": 34875 }, { "epoch": 93.01333333333334, "grad_norm": 0.275390625, "learning_rate": 0.00029844527867749, "loss": 0.4688, "step": 34880 }, { "epoch": 93.04, "grad_norm": 0.291015625, "learning_rate": 0.00029844437565287293, "loss": 0.4933, "step": 34890 }, { "epoch": 93.06666666666666, "grad_norm": 0.51171875, "learning_rate": 0.00029844347236744823, "loss": 0.4807, "step": 34900 }, { "epoch": 93.09333333333333, "grad_norm": 0.373046875, "learning_rate": 0.0002984425688212176, "loss": 0.4752, "step": 34910 }, { "epoch": 93.12, "grad_norm": 0.271484375, "learning_rate": 0.00029844166501418254, "loss": 0.4723, "step": 34920 }, { "epoch": 93.14666666666666, "grad_norm": 0.384765625, "learning_rate": 0.00029844076094634464, "loss": 0.4807, "step": 34930 }, { "epoch": 93.17333333333333, "grad_norm": 0.291015625, "learning_rate": 0.0002984398566177055, "loss": 0.4715, "step": 34940 }, { "epoch": 93.2, "grad_norm": 0.314453125, "learning_rate": 0.00029843895202826676, "loss": 0.4699, "step": 34950 }, { "epoch": 93.22666666666667, "grad_norm": 0.306640625, "learning_rate": 0.00029843804717803, "loss": 0.4674, "step": 34960 }, { "epoch": 93.25333333333333, "grad_norm": 0.345703125, "learning_rate": 0.00029843714206699665, "loss": 0.4666, "step": 34970 }, { "epoch": 93.28, "grad_norm": 0.29296875, "learning_rate": 0.00029843623669516847, "loss": 0.4804, "step": 34980 }, { "epoch": 93.30666666666667, "grad_norm": 0.337890625, "learning_rate": 0.000298435331062547, "loss": 0.462, "step": 34990 }, { "epoch": 93.33333333333333, "grad_norm": 0.291015625, "learning_rate": 0.0002984344251691339, "loss": 0.4775, "step": 35000 }, { "epoch": 93.36, "grad_norm": 0.251953125, "learning_rate": 0.0002984335190149306, "loss": 0.4793, "step": 35010 }, { "epoch": 93.38666666666667, "grad_norm": 0.31640625, "learning_rate": 0.0002984326125999389, "loss": 0.4713, "step": 35020 }, { "epoch": 93.41333333333333, "grad_norm": 0.244140625, "learning_rate": 0.00029843170592416015, "loss": 0.4749, "step": 35030 }, { "epoch": 93.44, "grad_norm": 0.1982421875, "learning_rate": 0.00029843079898759616, "loss": 0.478, "step": 35040 }, { "epoch": 93.46666666666667, "grad_norm": 0.248046875, "learning_rate": 0.00029842989179024843, "loss": 0.4874, "step": 35050 }, { "epoch": 93.49333333333334, "grad_norm": 0.375, "learning_rate": 0.0002984289843321185, "loss": 0.4796, "step": 35060 }, { "epoch": 93.52, "grad_norm": 0.26171875, "learning_rate": 0.0002984280766132081, "loss": 0.4733, "step": 35070 }, { "epoch": 93.54666666666667, "grad_norm": 0.34765625, "learning_rate": 0.00029842716863351875, "loss": 0.4705, "step": 35080 }, { "epoch": 93.57333333333334, "grad_norm": 0.310546875, "learning_rate": 0.00029842626039305203, "loss": 0.4698, "step": 35090 }, { "epoch": 93.6, "grad_norm": 0.421875, "learning_rate": 0.0002984253518918096, "loss": 0.4627, "step": 35100 }, { "epoch": 93.62666666666667, "grad_norm": 0.322265625, "learning_rate": 0.00029842444312979294, "loss": 0.4507, "step": 35110 }, { "epoch": 93.65333333333334, "grad_norm": 0.33984375, "learning_rate": 0.0002984235341070037, "loss": 0.4702, "step": 35120 }, { "epoch": 93.68, "grad_norm": 0.37109375, "learning_rate": 0.00029842262482344354, "loss": 0.461, "step": 35130 }, { "epoch": 93.70666666666666, "grad_norm": 0.37890625, "learning_rate": 0.00029842171527911404, "loss": 0.4621, "step": 35140 }, { "epoch": 93.73333333333333, "grad_norm": 0.3125, "learning_rate": 0.0002984208054740167, "loss": 0.4813, "step": 35150 }, { "epoch": 93.76, "grad_norm": 0.3203125, "learning_rate": 0.0002984198954081532, "loss": 0.4824, "step": 35160 }, { "epoch": 93.78666666666666, "grad_norm": 0.31640625, "learning_rate": 0.00029841898508152514, "loss": 0.4804, "step": 35170 }, { "epoch": 93.81333333333333, "grad_norm": 0.35546875, "learning_rate": 0.0002984180744941341, "loss": 0.4657, "step": 35180 }, { "epoch": 93.84, "grad_norm": 0.306640625, "learning_rate": 0.0002984171636459817, "loss": 0.4718, "step": 35190 }, { "epoch": 93.86666666666666, "grad_norm": 0.3046875, "learning_rate": 0.00029841625253706946, "loss": 0.4705, "step": 35200 }, { "epoch": 93.89333333333333, "grad_norm": 0.244140625, "learning_rate": 0.00029841534116739914, "loss": 0.4623, "step": 35210 }, { "epoch": 93.92, "grad_norm": 0.291015625, "learning_rate": 0.00029841442953697217, "loss": 0.4716, "step": 35220 }, { "epoch": 93.94666666666667, "grad_norm": 0.330078125, "learning_rate": 0.00029841351764579025, "loss": 0.4652, "step": 35230 }, { "epoch": 93.97333333333333, "grad_norm": 0.3125, "learning_rate": 0.00029841260549385494, "loss": 0.4763, "step": 35240 }, { "epoch": 94.0, "grad_norm": 0.361328125, "learning_rate": 0.0002984116930811679, "loss": 0.4654, "step": 35250 }, { "epoch": 94.0, "eval_loss": 0.48085930943489075, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.2211, "eval_samples_per_second": 1.565, "eval_steps_per_second": 0.098, "step": 35250 }, { "epoch": 94.02666666666667, "grad_norm": 0.31640625, "learning_rate": 0.0002984107804077307, "loss": 0.4845, "step": 35260 }, { "epoch": 94.05333333333333, "grad_norm": 0.3984375, "learning_rate": 0.00029840986747354495, "loss": 0.4904, "step": 35270 }, { "epoch": 94.08, "grad_norm": 0.2431640625, "learning_rate": 0.0002984089542786122, "loss": 0.4772, "step": 35280 }, { "epoch": 94.10666666666667, "grad_norm": 0.2451171875, "learning_rate": 0.0002984080408229341, "loss": 0.4732, "step": 35290 }, { "epoch": 94.13333333333334, "grad_norm": 0.22265625, "learning_rate": 0.00029840712710651226, "loss": 0.4748, "step": 35300 }, { "epoch": 94.16, "grad_norm": 0.30078125, "learning_rate": 0.0002984062131293483, "loss": 0.4782, "step": 35310 }, { "epoch": 94.18666666666667, "grad_norm": 0.259765625, "learning_rate": 0.0002984052988914438, "loss": 0.4708, "step": 35320 }, { "epoch": 94.21333333333334, "grad_norm": 0.271484375, "learning_rate": 0.00029840438439280036, "loss": 0.4656, "step": 35330 }, { "epoch": 94.24, "grad_norm": 0.27734375, "learning_rate": 0.0002984034696334196, "loss": 0.4698, "step": 35340 }, { "epoch": 94.26666666666667, "grad_norm": 0.279296875, "learning_rate": 0.0002984025546133031, "loss": 0.4733, "step": 35350 }, { "epoch": 94.29333333333334, "grad_norm": 0.32421875, "learning_rate": 0.00029840163933245254, "loss": 0.4673, "step": 35360 }, { "epoch": 94.32, "grad_norm": 0.357421875, "learning_rate": 0.00029840072379086946, "loss": 0.4717, "step": 35370 }, { "epoch": 94.34666666666666, "grad_norm": 0.28515625, "learning_rate": 0.0002983998079885555, "loss": 0.4795, "step": 35380 }, { "epoch": 94.37333333333333, "grad_norm": 0.376953125, "learning_rate": 0.0002983988919255122, "loss": 0.4755, "step": 35390 }, { "epoch": 94.4, "grad_norm": 0.255859375, "learning_rate": 0.00029839797560174126, "loss": 0.4723, "step": 35400 }, { "epoch": 94.42666666666666, "grad_norm": 0.44921875, "learning_rate": 0.00029839705901724427, "loss": 0.4785, "step": 35410 }, { "epoch": 94.45333333333333, "grad_norm": 0.353515625, "learning_rate": 0.00029839614217202283, "loss": 0.4802, "step": 35420 }, { "epoch": 94.48, "grad_norm": 0.296875, "learning_rate": 0.0002983952250660785, "loss": 0.4866, "step": 35430 }, { "epoch": 94.50666666666666, "grad_norm": 0.365234375, "learning_rate": 0.000298394307699413, "loss": 0.4765, "step": 35440 }, { "epoch": 94.53333333333333, "grad_norm": 0.341796875, "learning_rate": 0.00029839339007202783, "loss": 0.471, "step": 35450 }, { "epoch": 94.56, "grad_norm": 0.375, "learning_rate": 0.00029839247218392464, "loss": 0.4709, "step": 35460 }, { "epoch": 94.58666666666667, "grad_norm": 0.400390625, "learning_rate": 0.00029839155403510513, "loss": 0.4668, "step": 35470 }, { "epoch": 94.61333333333333, "grad_norm": 0.263671875, "learning_rate": 0.0002983906356255708, "loss": 0.4531, "step": 35480 }, { "epoch": 94.64, "grad_norm": 0.2734375, "learning_rate": 0.0002983897169553233, "loss": 0.4575, "step": 35490 }, { "epoch": 94.66666666666667, "grad_norm": 0.466796875, "learning_rate": 0.00029838879802436427, "loss": 0.473, "step": 35500 }, { "epoch": 94.69333333333333, "grad_norm": 0.2275390625, "learning_rate": 0.00029838787883269526, "loss": 0.4567, "step": 35510 }, { "epoch": 94.72, "grad_norm": 0.28125, "learning_rate": 0.00029838695938031796, "loss": 0.4732, "step": 35520 }, { "epoch": 94.74666666666667, "grad_norm": 0.3359375, "learning_rate": 0.00029838603966723395, "loss": 0.4779, "step": 35530 }, { "epoch": 94.77333333333333, "grad_norm": 0.2578125, "learning_rate": 0.00029838511969344485, "loss": 0.4856, "step": 35540 }, { "epoch": 94.8, "grad_norm": 0.35546875, "learning_rate": 0.0002983841994589523, "loss": 0.4726, "step": 35550 }, { "epoch": 94.82666666666667, "grad_norm": 0.2890625, "learning_rate": 0.0002983832789637578, "loss": 0.4663, "step": 35560 }, { "epoch": 94.85333333333334, "grad_norm": 0.26171875, "learning_rate": 0.0002983823582078631, "loss": 0.4761, "step": 35570 }, { "epoch": 94.88, "grad_norm": 0.310546875, "learning_rate": 0.0002983814371912698, "loss": 0.4641, "step": 35580 }, { "epoch": 94.90666666666667, "grad_norm": 0.4453125, "learning_rate": 0.0002983805159139795, "loss": 0.4665, "step": 35590 }, { "epoch": 94.93333333333334, "grad_norm": 0.330078125, "learning_rate": 0.0002983795943759938, "loss": 0.468, "step": 35600 }, { "epoch": 94.96, "grad_norm": 0.259765625, "learning_rate": 0.0002983786725773143, "loss": 0.4663, "step": 35610 }, { "epoch": 94.98666666666666, "grad_norm": 0.330078125, "learning_rate": 0.00029837775051794267, "loss": 0.4799, "step": 35620 }, { "epoch": 95.0, "eval_loss": 0.4803951382637024, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.5518, "eval_samples_per_second": 1.516, "eval_steps_per_second": 0.095, "step": 35625 }, { "epoch": 95.01333333333334, "grad_norm": 0.306640625, "learning_rate": 0.0002983768281978805, "loss": 0.4695, "step": 35630 }, { "epoch": 95.04, "grad_norm": 0.314453125, "learning_rate": 0.00029837590561712944, "loss": 0.4935, "step": 35640 }, { "epoch": 95.06666666666666, "grad_norm": 0.244140625, "learning_rate": 0.0002983749827756911, "loss": 0.4807, "step": 35650 }, { "epoch": 95.09333333333333, "grad_norm": 0.349609375, "learning_rate": 0.00029837405967356705, "loss": 0.4756, "step": 35660 }, { "epoch": 95.12, "grad_norm": 0.365234375, "learning_rate": 0.000298373136310759, "loss": 0.4726, "step": 35670 }, { "epoch": 95.14666666666666, "grad_norm": 0.265625, "learning_rate": 0.0002983722126872685, "loss": 0.4815, "step": 35680 }, { "epoch": 95.17333333333333, "grad_norm": 0.37890625, "learning_rate": 0.00029837128880309723, "loss": 0.471, "step": 35690 }, { "epoch": 95.2, "grad_norm": 0.28515625, "learning_rate": 0.00029837036465824675, "loss": 0.4692, "step": 35700 }, { "epoch": 95.22666666666667, "grad_norm": 0.267578125, "learning_rate": 0.00029836944025271876, "loss": 0.4664, "step": 35710 }, { "epoch": 95.25333333333333, "grad_norm": 0.439453125, "learning_rate": 0.0002983685155865148, "loss": 0.4671, "step": 35720 }, { "epoch": 95.28, "grad_norm": 0.3125, "learning_rate": 0.00029836759065963656, "loss": 0.4803, "step": 35730 }, { "epoch": 95.30666666666667, "grad_norm": 0.2255859375, "learning_rate": 0.00029836666547208564, "loss": 0.4619, "step": 35740 }, { "epoch": 95.33333333333333, "grad_norm": 0.380859375, "learning_rate": 0.0002983657400238636, "loss": 0.4775, "step": 35750 }, { "epoch": 95.36, "grad_norm": 0.31640625, "learning_rate": 0.00029836481431497224, "loss": 0.4784, "step": 35760 }, { "epoch": 95.38666666666667, "grad_norm": 0.3046875, "learning_rate": 0.000298363888345413, "loss": 0.4708, "step": 35770 }, { "epoch": 95.41333333333333, "grad_norm": 0.294921875, "learning_rate": 0.00029836296211518764, "loss": 0.4755, "step": 35780 }, { "epoch": 95.44, "grad_norm": 0.2451171875, "learning_rate": 0.00029836203562429777, "loss": 0.4788, "step": 35790 }, { "epoch": 95.46666666666667, "grad_norm": 0.28515625, "learning_rate": 0.0002983611088727449, "loss": 0.4874, "step": 35800 }, { "epoch": 95.49333333333334, "grad_norm": 0.390625, "learning_rate": 0.0002983601818605307, "loss": 0.4789, "step": 35810 }, { "epoch": 95.52, "grad_norm": 0.251953125, "learning_rate": 0.00029835925458765694, "loss": 0.473, "step": 35820 }, { "epoch": 95.54666666666667, "grad_norm": 0.302734375, "learning_rate": 0.00029835832705412513, "loss": 0.4703, "step": 35830 }, { "epoch": 95.57333333333334, "grad_norm": 0.271484375, "learning_rate": 0.00029835739925993687, "loss": 0.4697, "step": 35840 }, { "epoch": 95.6, "grad_norm": 0.318359375, "learning_rate": 0.0002983564712050939, "loss": 0.4631, "step": 35850 }, { "epoch": 95.62666666666667, "grad_norm": 0.2734375, "learning_rate": 0.0002983555428895977, "loss": 0.4496, "step": 35860 }, { "epoch": 95.65333333333334, "grad_norm": 0.314453125, "learning_rate": 0.00029835461431345, "loss": 0.4692, "step": 35870 }, { "epoch": 95.68, "grad_norm": 0.353515625, "learning_rate": 0.0002983536854766525, "loss": 0.4613, "step": 35880 }, { "epoch": 95.70666666666666, "grad_norm": 0.357421875, "learning_rate": 0.0002983527563792067, "loss": 0.4619, "step": 35890 }, { "epoch": 95.73333333333333, "grad_norm": 0.28125, "learning_rate": 0.0002983518270211143, "loss": 0.4808, "step": 35900 }, { "epoch": 95.76, "grad_norm": 0.32421875, "learning_rate": 0.0002983508974023769, "loss": 0.4816, "step": 35910 }, { "epoch": 95.78666666666666, "grad_norm": 0.330078125, "learning_rate": 0.0002983499675229961, "loss": 0.48, "step": 35920 }, { "epoch": 95.81333333333333, "grad_norm": 0.349609375, "learning_rate": 0.00029834903738297367, "loss": 0.4658, "step": 35930 }, { "epoch": 95.84, "grad_norm": 0.271484375, "learning_rate": 0.0002983481069823112, "loss": 0.4714, "step": 35940 }, { "epoch": 95.86666666666666, "grad_norm": 0.322265625, "learning_rate": 0.00029834717632101017, "loss": 0.4711, "step": 35950 }, { "epoch": 95.89333333333333, "grad_norm": 0.255859375, "learning_rate": 0.0002983462453990724, "loss": 0.4621, "step": 35960 }, { "epoch": 95.92, "grad_norm": 0.2890625, "learning_rate": 0.0002983453142164994, "loss": 0.4719, "step": 35970 }, { "epoch": 95.94666666666667, "grad_norm": 0.26171875, "learning_rate": 0.00029834438277329285, "loss": 0.4654, "step": 35980 }, { "epoch": 95.97333333333333, "grad_norm": 0.298828125, "learning_rate": 0.0002983434510694544, "loss": 0.4763, "step": 35990 }, { "epoch": 96.0, "grad_norm": 0.337890625, "learning_rate": 0.0002983425191049858, "loss": 0.4651, "step": 36000 }, { "epoch": 96.0, "eval_loss": 0.48041442036628723, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.5207, "eval_samples_per_second": 1.521, "eval_steps_per_second": 0.095, "step": 36000 }, { "epoch": 96.02666666666667, "grad_norm": 0.337890625, "learning_rate": 0.00029834158687988847, "loss": 0.4847, "step": 36010 }, { "epoch": 96.05333333333333, "grad_norm": 0.28125, "learning_rate": 0.0002983406543941641, "loss": 0.4905, "step": 36020 }, { "epoch": 96.08, "grad_norm": 0.4140625, "learning_rate": 0.0002983397216478145, "loss": 0.4774, "step": 36030 }, { "epoch": 96.10666666666667, "grad_norm": 0.322265625, "learning_rate": 0.0002983387886408411, "loss": 0.4722, "step": 36040 }, { "epoch": 96.13333333333334, "grad_norm": 0.392578125, "learning_rate": 0.0002983378553732456, "loss": 0.4741, "step": 36050 }, { "epoch": 96.16, "grad_norm": 0.40234375, "learning_rate": 0.0002983369218450297, "loss": 0.4787, "step": 36060 }, { "epoch": 96.18666666666667, "grad_norm": 0.392578125, "learning_rate": 0.00029833598805619507, "loss": 0.4715, "step": 36070 }, { "epoch": 96.21333333333334, "grad_norm": 0.40625, "learning_rate": 0.0002983350540067432, "loss": 0.4657, "step": 36080 }, { "epoch": 96.24, "grad_norm": 0.3125, "learning_rate": 0.00029833411969667584, "loss": 0.4699, "step": 36090 }, { "epoch": 96.26666666666667, "grad_norm": 0.2578125, "learning_rate": 0.00029833318512599463, "loss": 0.4739, "step": 36100 }, { "epoch": 96.29333333333334, "grad_norm": 0.310546875, "learning_rate": 0.00029833225029470115, "loss": 0.4675, "step": 36110 }, { "epoch": 96.32, "grad_norm": 0.33984375, "learning_rate": 0.0002983313152027971, "loss": 0.4717, "step": 36120 }, { "epoch": 96.34666666666666, "grad_norm": 0.33203125, "learning_rate": 0.0002983303798502841, "loss": 0.4791, "step": 36130 }, { "epoch": 96.37333333333333, "grad_norm": 0.310546875, "learning_rate": 0.00029832944423716383, "loss": 0.4754, "step": 36140 }, { "epoch": 96.4, "grad_norm": 0.3046875, "learning_rate": 0.0002983285083634379, "loss": 0.4722, "step": 36150 }, { "epoch": 96.42666666666666, "grad_norm": 0.287109375, "learning_rate": 0.0002983275722291079, "loss": 0.4782, "step": 36160 }, { "epoch": 96.45333333333333, "grad_norm": 0.353515625, "learning_rate": 0.0002983266358341756, "loss": 0.4802, "step": 36170 }, { "epoch": 96.48, "grad_norm": 0.30078125, "learning_rate": 0.0002983256991786425, "loss": 0.4868, "step": 36180 }, { "epoch": 96.50666666666666, "grad_norm": 0.2392578125, "learning_rate": 0.00029832476226251037, "loss": 0.4763, "step": 36190 }, { "epoch": 96.53333333333333, "grad_norm": 0.26171875, "learning_rate": 0.0002983238250857808, "loss": 0.4693, "step": 36200 }, { "epoch": 96.56, "grad_norm": 0.275390625, "learning_rate": 0.00029832288764845545, "loss": 0.471, "step": 36210 }, { "epoch": 96.58666666666667, "grad_norm": 0.34765625, "learning_rate": 0.000298321949950536, "loss": 0.467, "step": 36220 }, { "epoch": 96.61333333333333, "grad_norm": 0.2490234375, "learning_rate": 0.000298321011992024, "loss": 0.4521, "step": 36230 }, { "epoch": 96.64, "grad_norm": 0.3984375, "learning_rate": 0.0002983200737729212, "loss": 0.4576, "step": 36240 }, { "epoch": 96.66666666666667, "grad_norm": 0.42578125, "learning_rate": 0.00029831913529322916, "loss": 0.4734, "step": 36250 }, { "epoch": 96.69333333333333, "grad_norm": 0.244140625, "learning_rate": 0.0002983181965529496, "loss": 0.4563, "step": 36260 }, { "epoch": 96.72, "grad_norm": 0.337890625, "learning_rate": 0.0002983172575520841, "loss": 0.4737, "step": 36270 }, { "epoch": 96.74666666666667, "grad_norm": 0.302734375, "learning_rate": 0.0002983163182906344, "loss": 0.4773, "step": 36280 }, { "epoch": 96.77333333333333, "grad_norm": 0.3046875, "learning_rate": 0.0002983153787686021, "loss": 0.4845, "step": 36290 }, { "epoch": 96.8, "grad_norm": 0.314453125, "learning_rate": 0.0002983144389859888, "loss": 0.4719, "step": 36300 }, { "epoch": 96.82666666666667, "grad_norm": 0.345703125, "learning_rate": 0.0002983134989427963, "loss": 0.4663, "step": 36310 }, { "epoch": 96.85333333333334, "grad_norm": 0.302734375, "learning_rate": 0.00029831255863902606, "loss": 0.4755, "step": 36320 }, { "epoch": 96.88, "grad_norm": 0.30078125, "learning_rate": 0.0002983116180746799, "loss": 0.4638, "step": 36330 }, { "epoch": 96.90666666666667, "grad_norm": 0.283203125, "learning_rate": 0.0002983106772497594, "loss": 0.4668, "step": 36340 }, { "epoch": 96.93333333333334, "grad_norm": 0.310546875, "learning_rate": 0.0002983097361642662, "loss": 0.4682, "step": 36350 }, { "epoch": 96.96, "grad_norm": 0.255859375, "learning_rate": 0.00029830879481820193, "loss": 0.4659, "step": 36360 }, { "epoch": 96.98666666666666, "grad_norm": 0.25, "learning_rate": 0.00029830785321156833, "loss": 0.4792, "step": 36370 }, { "epoch": 97.0, "eval_loss": 0.4807257354259491, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.5628, "eval_samples_per_second": 1.515, "eval_steps_per_second": 0.095, "step": 36375 }, { "epoch": 97.01333333333334, "grad_norm": 0.34375, "learning_rate": 0.00029830691134436697, "loss": 0.469, "step": 36380 }, { "epoch": 97.04, "grad_norm": 0.330078125, "learning_rate": 0.00029830596921659957, "loss": 0.4937, "step": 36390 }, { "epoch": 97.06666666666666, "grad_norm": 0.326171875, "learning_rate": 0.00029830502682826775, "loss": 0.4805, "step": 36400 }, { "epoch": 97.09333333333333, "grad_norm": 0.318359375, "learning_rate": 0.0002983040841793732, "loss": 0.4752, "step": 36410 }, { "epoch": 97.12, "grad_norm": 0.310546875, "learning_rate": 0.00029830314126991746, "loss": 0.4715, "step": 36420 }, { "epoch": 97.14666666666666, "grad_norm": 0.3828125, "learning_rate": 0.0002983021980999024, "loss": 0.4797, "step": 36430 }, { "epoch": 97.17333333333333, "grad_norm": 0.423828125, "learning_rate": 0.00029830125466932946, "loss": 0.4714, "step": 36440 }, { "epoch": 97.2, "grad_norm": 0.4453125, "learning_rate": 0.0002983003109782004, "loss": 0.4694, "step": 36450 }, { "epoch": 97.22666666666667, "grad_norm": 0.337890625, "learning_rate": 0.00029829936702651684, "loss": 0.4668, "step": 36460 }, { "epoch": 97.25333333333333, "grad_norm": 0.37109375, "learning_rate": 0.00029829842281428056, "loss": 0.4673, "step": 36470 }, { "epoch": 97.28, "grad_norm": 0.314453125, "learning_rate": 0.00029829747834149304, "loss": 0.4804, "step": 36480 }, { "epoch": 97.30666666666667, "grad_norm": 0.263671875, "learning_rate": 0.00029829653360815607, "loss": 0.4615, "step": 36490 }, { "epoch": 97.33333333333333, "grad_norm": 0.23828125, "learning_rate": 0.00029829558861427127, "loss": 0.4769, "step": 36500 }, { "epoch": 97.36, "grad_norm": 0.392578125, "learning_rate": 0.0002982946433598403, "loss": 0.4796, "step": 36510 }, { "epoch": 97.38666666666667, "grad_norm": 0.41796875, "learning_rate": 0.0002982936978448647, "loss": 0.4708, "step": 36520 }, { "epoch": 97.41333333333333, "grad_norm": 0.3515625, "learning_rate": 0.0002982927520693464, "loss": 0.4753, "step": 36530 }, { "epoch": 97.44, "grad_norm": 0.314453125, "learning_rate": 0.00029829180603328684, "loss": 0.4777, "step": 36540 }, { "epoch": 97.46666666666667, "grad_norm": 0.33984375, "learning_rate": 0.00029829085973668776, "loss": 0.4882, "step": 36550 }, { "epoch": 97.49333333333334, "grad_norm": 0.294921875, "learning_rate": 0.0002982899131795508, "loss": 0.4797, "step": 36560 }, { "epoch": 97.52, "grad_norm": 0.25390625, "learning_rate": 0.0002982889663618776, "loss": 0.4733, "step": 36570 }, { "epoch": 97.54666666666667, "grad_norm": 0.234375, "learning_rate": 0.0002982880192836699, "loss": 0.4705, "step": 36580 }, { "epoch": 97.57333333333334, "grad_norm": 0.22265625, "learning_rate": 0.00029828707194492934, "loss": 0.4696, "step": 36590 }, { "epoch": 97.6, "grad_norm": 0.375, "learning_rate": 0.00029828612434565756, "loss": 0.4635, "step": 36600 }, { "epoch": 97.62666666666667, "grad_norm": 0.2392578125, "learning_rate": 0.00029828517648585617, "loss": 0.4503, "step": 36610 }, { "epoch": 97.65333333333334, "grad_norm": 0.62890625, "learning_rate": 0.00029828422836552696, "loss": 0.47, "step": 36620 }, { "epoch": 97.68, "grad_norm": 0.34765625, "learning_rate": 0.00029828327998467156, "loss": 0.4609, "step": 36630 }, { "epoch": 97.70666666666666, "grad_norm": 0.451171875, "learning_rate": 0.00029828233134329154, "loss": 0.4614, "step": 36640 }, { "epoch": 97.73333333333333, "grad_norm": 0.291015625, "learning_rate": 0.0002982813824413887, "loss": 0.4802, "step": 36650 }, { "epoch": 97.76, "grad_norm": 0.404296875, "learning_rate": 0.0002982804332789646, "loss": 0.482, "step": 36660 }, { "epoch": 97.78666666666666, "grad_norm": 0.388671875, "learning_rate": 0.00029827948385602093, "loss": 0.4809, "step": 36670 }, { "epoch": 97.81333333333333, "grad_norm": 0.3828125, "learning_rate": 0.00029827853417255945, "loss": 0.4649, "step": 36680 }, { "epoch": 97.84, "grad_norm": 0.3671875, "learning_rate": 0.00029827758422858175, "loss": 0.4717, "step": 36690 }, { "epoch": 97.86666666666666, "grad_norm": 0.37109375, "learning_rate": 0.00029827663402408946, "loss": 0.4709, "step": 36700 }, { "epoch": 97.89333333333333, "grad_norm": 0.4765625, "learning_rate": 0.00029827568355908425, "loss": 0.4617, "step": 36710 }, { "epoch": 97.92, "grad_norm": 0.345703125, "learning_rate": 0.00029827473283356793, "loss": 0.4722, "step": 36720 }, { "epoch": 97.94666666666667, "grad_norm": 0.28125, "learning_rate": 0.00029827378184754205, "loss": 0.4649, "step": 36730 }, { "epoch": 97.97333333333333, "grad_norm": 0.396484375, "learning_rate": 0.0002982728306010083, "loss": 0.4762, "step": 36740 }, { "epoch": 98.0, "grad_norm": 0.3046875, "learning_rate": 0.0002982718790939684, "loss": 0.4653, "step": 36750 }, { "epoch": 98.0, "eval_loss": 0.4806678295135498, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.9011, "eval_samples_per_second": 1.468, "eval_steps_per_second": 0.092, "step": 36750 }, { "epoch": 98.02666666666667, "grad_norm": 0.388671875, "learning_rate": 0.00029827092732642393, "loss": 0.4849, "step": 36760 }, { "epoch": 98.05333333333333, "grad_norm": 0.3203125, "learning_rate": 0.0002982699752983766, "loss": 0.4905, "step": 36770 }, { "epoch": 98.08, "grad_norm": 0.546875, "learning_rate": 0.00029826902300982813, "loss": 0.4775, "step": 36780 }, { "epoch": 98.10666666666667, "grad_norm": 0.458984375, "learning_rate": 0.00029826807046078014, "loss": 0.4729, "step": 36790 }, { "epoch": 98.13333333333334, "grad_norm": 0.267578125, "learning_rate": 0.00029826711765123436, "loss": 0.4738, "step": 36800 }, { "epoch": 98.16, "grad_norm": 0.396484375, "learning_rate": 0.00029826616458119236, "loss": 0.4782, "step": 36810 }, { "epoch": 98.18666666666667, "grad_norm": 0.330078125, "learning_rate": 0.00029826521125065594, "loss": 0.4706, "step": 36820 }, { "epoch": 98.21333333333334, "grad_norm": 0.234375, "learning_rate": 0.00029826425765962667, "loss": 0.4655, "step": 36830 }, { "epoch": 98.24, "grad_norm": 0.296875, "learning_rate": 0.00029826330380810633, "loss": 0.4698, "step": 36840 }, { "epoch": 98.26666666666667, "grad_norm": 0.251953125, "learning_rate": 0.00029826234969609645, "loss": 0.4734, "step": 36850 }, { "epoch": 98.29333333333334, "grad_norm": 0.361328125, "learning_rate": 0.0002982613953235989, "loss": 0.467, "step": 36860 }, { "epoch": 98.32, "grad_norm": 0.298828125, "learning_rate": 0.0002982604406906152, "loss": 0.4711, "step": 36870 }, { "epoch": 98.34666666666666, "grad_norm": 0.34375, "learning_rate": 0.000298259485797147, "loss": 0.4794, "step": 36880 }, { "epoch": 98.37333333333333, "grad_norm": 0.322265625, "learning_rate": 0.00029825853064319613, "loss": 0.4754, "step": 36890 }, { "epoch": 98.4, "grad_norm": 0.244140625, "learning_rate": 0.0002982575752287642, "loss": 0.4721, "step": 36900 }, { "epoch": 98.42666666666666, "grad_norm": 0.265625, "learning_rate": 0.0002982566195538529, "loss": 0.4787, "step": 36910 }, { "epoch": 98.45333333333333, "grad_norm": 0.359375, "learning_rate": 0.0002982556636184638, "loss": 0.48, "step": 36920 }, { "epoch": 98.48, "grad_norm": 0.279296875, "learning_rate": 0.00029825470742259877, "loss": 0.487, "step": 36930 }, { "epoch": 98.50666666666666, "grad_norm": 0.248046875, "learning_rate": 0.00029825375096625934, "loss": 0.4761, "step": 36940 }, { "epoch": 98.53333333333333, "grad_norm": 0.248046875, "learning_rate": 0.00029825279424944723, "loss": 0.4703, "step": 36950 }, { "epoch": 98.56, "grad_norm": 0.291015625, "learning_rate": 0.00029825183727216417, "loss": 0.4703, "step": 36960 }, { "epoch": 98.58666666666667, "grad_norm": 0.23828125, "learning_rate": 0.0002982508800344118, "loss": 0.4668, "step": 36970 }, { "epoch": 98.61333333333333, "grad_norm": 0.2021484375, "learning_rate": 0.0002982499225361918, "loss": 0.4524, "step": 36980 }, { "epoch": 98.64, "grad_norm": 0.3046875, "learning_rate": 0.00029824896477750586, "loss": 0.4575, "step": 36990 }, { "epoch": 98.66666666666667, "grad_norm": 0.34375, "learning_rate": 0.00029824800675835563, "loss": 0.4738, "step": 37000 }, { "epoch": 98.69333333333333, "grad_norm": 0.34375, "learning_rate": 0.00029824704847874285, "loss": 0.4561, "step": 37010 }, { "epoch": 98.72, "grad_norm": 0.349609375, "learning_rate": 0.00029824608993866915, "loss": 0.4733, "step": 37020 }, { "epoch": 98.74666666666667, "grad_norm": 0.236328125, "learning_rate": 0.0002982451311381362, "loss": 0.4774, "step": 37030 }, { "epoch": 98.77333333333333, "grad_norm": 0.396484375, "learning_rate": 0.0002982441720771458, "loss": 0.4845, "step": 37040 }, { "epoch": 98.8, "grad_norm": 0.314453125, "learning_rate": 0.00029824321275569957, "loss": 0.4724, "step": 37050 }, { "epoch": 98.82666666666667, "grad_norm": 0.306640625, "learning_rate": 0.0002982422531737991, "loss": 0.4665, "step": 37060 }, { "epoch": 98.85333333333334, "grad_norm": 0.271484375, "learning_rate": 0.00029824129333144624, "loss": 0.476, "step": 37070 }, { "epoch": 98.88, "grad_norm": 0.28125, "learning_rate": 0.00029824033322864256, "loss": 0.4641, "step": 37080 }, { "epoch": 98.90666666666667, "grad_norm": 0.3046875, "learning_rate": 0.00029823937286538977, "loss": 0.4658, "step": 37090 }, { "epoch": 98.93333333333334, "grad_norm": 0.302734375, "learning_rate": 0.00029823841224168966, "loss": 0.4684, "step": 37100 }, { "epoch": 98.96, "grad_norm": 0.30078125, "learning_rate": 0.00029823745135754376, "loss": 0.4661, "step": 37110 }, { "epoch": 98.98666666666666, "grad_norm": 0.345703125, "learning_rate": 0.00029823649021295384, "loss": 0.4795, "step": 37120 }, { "epoch": 99.0, "eval_loss": 0.4802570939064026, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.9453, "eval_samples_per_second": 1.462, "eval_steps_per_second": 0.091, "step": 37125 }, { "epoch": 99.01333333333334, "grad_norm": 0.359375, "learning_rate": 0.00029823552880792154, "loss": 0.4695, "step": 37130 }, { "epoch": 99.04, "grad_norm": 0.259765625, "learning_rate": 0.00029823456714244865, "loss": 0.4936, "step": 37140 }, { "epoch": 99.06666666666666, "grad_norm": 0.3046875, "learning_rate": 0.00029823360521653673, "loss": 0.4806, "step": 37150 }, { "epoch": 99.09333333333333, "grad_norm": 0.279296875, "learning_rate": 0.0002982326430301876, "loss": 0.4756, "step": 37160 }, { "epoch": 99.12, "grad_norm": 0.392578125, "learning_rate": 0.0002982316805834028, "loss": 0.4718, "step": 37170 }, { "epoch": 99.14666666666666, "grad_norm": 0.41796875, "learning_rate": 0.0002982307178761842, "loss": 0.4809, "step": 37180 }, { "epoch": 99.17333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029822975490853337, "loss": 0.4712, "step": 37190 }, { "epoch": 99.2, "grad_norm": 0.306640625, "learning_rate": 0.00029822879168045203, "loss": 0.4701, "step": 37200 }, { "epoch": 99.22666666666667, "grad_norm": 0.26171875, "learning_rate": 0.00029822782819194187, "loss": 0.4669, "step": 37210 }, { "epoch": 99.25333333333333, "grad_norm": 0.265625, "learning_rate": 0.0002982268644430045, "loss": 0.467, "step": 37220 }, { "epoch": 99.28, "grad_norm": 0.306640625, "learning_rate": 0.00029822590043364176, "loss": 0.4808, "step": 37230 }, { "epoch": 99.30666666666667, "grad_norm": 0.283203125, "learning_rate": 0.00029822493616385535, "loss": 0.462, "step": 37240 }, { "epoch": 99.33333333333333, "grad_norm": 0.388671875, "learning_rate": 0.0002982239716336468, "loss": 0.4776, "step": 37250 }, { "epoch": 99.36, "grad_norm": 0.31640625, "learning_rate": 0.000298223006843018, "loss": 0.4789, "step": 37260 }, { "epoch": 99.38666666666667, "grad_norm": 0.359375, "learning_rate": 0.00029822204179197044, "loss": 0.4706, "step": 37270 }, { "epoch": 99.41333333333333, "grad_norm": 0.30859375, "learning_rate": 0.000298221076480506, "loss": 0.4755, "step": 37280 }, { "epoch": 99.44, "grad_norm": 0.2490234375, "learning_rate": 0.0002982201109086263, "loss": 0.4781, "step": 37290 }, { "epoch": 99.46666666666667, "grad_norm": 0.328125, "learning_rate": 0.00029821914507633296, "loss": 0.4876, "step": 37300 }, { "epoch": 99.49333333333334, "grad_norm": 0.326171875, "learning_rate": 0.00029821817898362783, "loss": 0.4791, "step": 37310 }, { "epoch": 99.52, "grad_norm": 0.353515625, "learning_rate": 0.00029821721263051246, "loss": 0.4731, "step": 37320 }, { "epoch": 99.54666666666667, "grad_norm": 0.408203125, "learning_rate": 0.00029821624601698865, "loss": 0.4702, "step": 37330 }, { "epoch": 99.57333333333334, "grad_norm": 0.44140625, "learning_rate": 0.00029821527914305806, "loss": 0.4691, "step": 37340 }, { "epoch": 99.6, "grad_norm": 0.3125, "learning_rate": 0.0002982143120087224, "loss": 0.4626, "step": 37350 }, { "epoch": 99.62666666666667, "grad_norm": 0.2197265625, "learning_rate": 0.0002982133446139833, "loss": 0.4501, "step": 37360 }, { "epoch": 99.65333333333334, "grad_norm": 0.31640625, "learning_rate": 0.0002982123769588426, "loss": 0.4697, "step": 37370 }, { "epoch": 99.68, "grad_norm": 0.384765625, "learning_rate": 0.00029821140904330194, "loss": 0.4614, "step": 37380 }, { "epoch": 99.70666666666666, "grad_norm": 0.365234375, "learning_rate": 0.00029821044086736294, "loss": 0.4617, "step": 37390 }, { "epoch": 99.73333333333333, "grad_norm": 0.423828125, "learning_rate": 0.0002982094724310274, "loss": 0.4804, "step": 37400 }, { "epoch": 99.76, "grad_norm": 0.44140625, "learning_rate": 0.00029820850373429695, "loss": 0.4819, "step": 37410 }, { "epoch": 99.78666666666666, "grad_norm": 0.265625, "learning_rate": 0.0002982075347771734, "loss": 0.4809, "step": 37420 }, { "epoch": 99.81333333333333, "grad_norm": 0.419921875, "learning_rate": 0.00029820656555965827, "loss": 0.466, "step": 37430 }, { "epoch": 99.84, "grad_norm": 0.33203125, "learning_rate": 0.0002982055960817534, "loss": 0.4708, "step": 37440 }, { "epoch": 99.86666666666666, "grad_norm": 0.263671875, "learning_rate": 0.00029820462634346054, "loss": 0.4712, "step": 37450 }, { "epoch": 99.89333333333333, "grad_norm": 0.2578125, "learning_rate": 0.0002982036563447813, "loss": 0.4615, "step": 37460 }, { "epoch": 99.92, "grad_norm": 0.279296875, "learning_rate": 0.00029820268608571733, "loss": 0.472, "step": 37470 }, { "epoch": 99.94666666666667, "grad_norm": 0.34765625, "learning_rate": 0.00029820171556627046, "loss": 0.4642, "step": 37480 }, { "epoch": 99.97333333333333, "grad_norm": 0.2734375, "learning_rate": 0.00029820074478644236, "loss": 0.4754, "step": 37490 }, { "epoch": 100.0, "grad_norm": 0.314453125, "learning_rate": 0.0002981997737462347, "loss": 0.4642, "step": 37500 }, { "epoch": 100.0, "eval_loss": 0.480648934841156, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.0038, "eval_samples_per_second": 1.599, "eval_steps_per_second": 0.1, "step": 37500 }, { "epoch": 100.02666666666667, "grad_norm": 0.28515625, "learning_rate": 0.0002981988024456492, "loss": 0.4849, "step": 37510 }, { "epoch": 100.05333333333333, "grad_norm": 0.263671875, "learning_rate": 0.0002981978308846876, "loss": 0.4902, "step": 37520 }, { "epoch": 100.08, "grad_norm": 0.31640625, "learning_rate": 0.0002981968590633515, "loss": 0.4771, "step": 37530 }, { "epoch": 100.10666666666667, "grad_norm": 0.296875, "learning_rate": 0.00029819588698164277, "loss": 0.4719, "step": 37540 }, { "epoch": 100.13333333333334, "grad_norm": 0.4296875, "learning_rate": 0.00029819491463956303, "loss": 0.4741, "step": 37550 }, { "epoch": 100.16, "grad_norm": 0.3515625, "learning_rate": 0.00029819394203711393, "loss": 0.4785, "step": 37560 }, { "epoch": 100.18666666666667, "grad_norm": 0.291015625, "learning_rate": 0.00029819296917429726, "loss": 0.4705, "step": 37570 }, { "epoch": 100.21333333333334, "grad_norm": 0.298828125, "learning_rate": 0.00029819199605111475, "loss": 0.4656, "step": 37580 }, { "epoch": 100.24, "grad_norm": 0.30859375, "learning_rate": 0.000298191022667568, "loss": 0.4696, "step": 37590 }, { "epoch": 100.26666666666667, "grad_norm": 0.287109375, "learning_rate": 0.0002981900490236589, "loss": 0.4733, "step": 37600 }, { "epoch": 100.29333333333334, "grad_norm": 0.400390625, "learning_rate": 0.00029818907511938893, "loss": 0.4675, "step": 37610 }, { "epoch": 100.32, "grad_norm": 0.4296875, "learning_rate": 0.00029818810095476, "loss": 0.471, "step": 37620 }, { "epoch": 100.34666666666666, "grad_norm": 0.3046875, "learning_rate": 0.00029818712652977374, "loss": 0.4788, "step": 37630 }, { "epoch": 100.37333333333333, "grad_norm": 0.28515625, "learning_rate": 0.00029818615184443187, "loss": 0.4755, "step": 37640 }, { "epoch": 100.4, "grad_norm": 0.251953125, "learning_rate": 0.0002981851768987361, "loss": 0.4713, "step": 37650 }, { "epoch": 100.42666666666666, "grad_norm": 0.328125, "learning_rate": 0.0002981842016926881, "loss": 0.4781, "step": 37660 }, { "epoch": 100.45333333333333, "grad_norm": 0.25390625, "learning_rate": 0.00029818322622628964, "loss": 0.4798, "step": 37670 }, { "epoch": 100.48, "grad_norm": 0.390625, "learning_rate": 0.00029818225049954236, "loss": 0.4867, "step": 37680 }, { "epoch": 100.50666666666666, "grad_norm": 0.50390625, "learning_rate": 0.0002981812745124481, "loss": 0.4764, "step": 37690 }, { "epoch": 100.53333333333333, "grad_norm": 0.2734375, "learning_rate": 0.00029818029826500855, "loss": 0.4697, "step": 37700 }, { "epoch": 100.56, "grad_norm": 0.291015625, "learning_rate": 0.0002981793217572253, "loss": 0.4707, "step": 37710 }, { "epoch": 100.58666666666667, "grad_norm": 0.365234375, "learning_rate": 0.0002981783449891002, "loss": 0.4665, "step": 37720 }, { "epoch": 100.61333333333333, "grad_norm": 0.275390625, "learning_rate": 0.00029817736796063484, "loss": 0.452, "step": 37730 }, { "epoch": 100.64, "grad_norm": 0.2470703125, "learning_rate": 0.0002981763906718311, "loss": 0.4574, "step": 37740 }, { "epoch": 100.66666666666667, "grad_norm": 0.2431640625, "learning_rate": 0.00029817541312269054, "loss": 0.4733, "step": 37750 }, { "epoch": 100.69333333333333, "grad_norm": 0.291015625, "learning_rate": 0.000298174435313215, "loss": 0.4558, "step": 37760 }, { "epoch": 100.72, "grad_norm": 0.251953125, "learning_rate": 0.0002981734572434061, "loss": 0.4734, "step": 37770 }, { "epoch": 100.74666666666667, "grad_norm": 0.283203125, "learning_rate": 0.00029817247891326563, "loss": 0.4776, "step": 37780 }, { "epoch": 100.77333333333333, "grad_norm": 0.306640625, "learning_rate": 0.00029817150032279525, "loss": 0.4846, "step": 37790 }, { "epoch": 100.8, "grad_norm": 0.263671875, "learning_rate": 0.00029817052147199677, "loss": 0.4719, "step": 37800 }, { "epoch": 100.82666666666667, "grad_norm": 0.26171875, "learning_rate": 0.0002981695423608718, "loss": 0.4658, "step": 37810 }, { "epoch": 100.85333333333334, "grad_norm": 0.298828125, "learning_rate": 0.0002981685629894221, "loss": 0.4757, "step": 37820 }, { "epoch": 100.88, "grad_norm": 0.2353515625, "learning_rate": 0.0002981675833576494, "loss": 0.4634, "step": 37830 }, { "epoch": 100.90666666666667, "grad_norm": 0.2314453125, "learning_rate": 0.00029816660346555546, "loss": 0.4664, "step": 37840 }, { "epoch": 100.93333333333334, "grad_norm": 0.2275390625, "learning_rate": 0.00029816562331314196, "loss": 0.4679, "step": 37850 }, { "epoch": 100.96, "grad_norm": 0.30859375, "learning_rate": 0.0002981646429004106, "loss": 0.4662, "step": 37860 }, { "epoch": 100.98666666666666, "grad_norm": 0.322265625, "learning_rate": 0.00029816366222736317, "loss": 0.4791, "step": 37870 }, { "epoch": 101.0, "eval_loss": 0.4809539318084717, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.7941, "eval_samples_per_second": 1.634, "eval_steps_per_second": 0.102, "step": 37875 }, { "epoch": 101.01333333333334, "grad_norm": 0.32421875, "learning_rate": 0.0002981626812940013, "loss": 0.4689, "step": 37880 }, { "epoch": 101.04, "grad_norm": 0.224609375, "learning_rate": 0.00029816170010032674, "loss": 0.4927, "step": 37890 }, { "epoch": 101.06666666666666, "grad_norm": 0.314453125, "learning_rate": 0.00029816071864634133, "loss": 0.481, "step": 37900 }, { "epoch": 101.09333333333333, "grad_norm": 0.353515625, "learning_rate": 0.0002981597369320466, "loss": 0.4753, "step": 37910 }, { "epoch": 101.12, "grad_norm": 0.333984375, "learning_rate": 0.00029815875495744446, "loss": 0.4713, "step": 37920 }, { "epoch": 101.14666666666666, "grad_norm": 0.291015625, "learning_rate": 0.0002981577727225365, "loss": 0.48, "step": 37930 }, { "epoch": 101.17333333333333, "grad_norm": 0.29296875, "learning_rate": 0.00029815679022732454, "loss": 0.4705, "step": 37940 }, { "epoch": 101.2, "grad_norm": 0.25390625, "learning_rate": 0.0002981558074718102, "loss": 0.4693, "step": 37950 }, { "epoch": 101.22666666666667, "grad_norm": 0.357421875, "learning_rate": 0.00029815482445599535, "loss": 0.4668, "step": 37960 }, { "epoch": 101.25333333333333, "grad_norm": 0.322265625, "learning_rate": 0.0002981538411798816, "loss": 0.4668, "step": 37970 }, { "epoch": 101.28, "grad_norm": 0.33984375, "learning_rate": 0.0002981528576434707, "loss": 0.4801, "step": 37980 }, { "epoch": 101.30666666666667, "grad_norm": 0.373046875, "learning_rate": 0.00029815187384676445, "loss": 0.4613, "step": 37990 }, { "epoch": 101.33333333333333, "grad_norm": 0.29296875, "learning_rate": 0.0002981508897897645, "loss": 0.4769, "step": 38000 }, { "epoch": 101.36, "grad_norm": 0.283203125, "learning_rate": 0.00029814990547247255, "loss": 0.4786, "step": 38010 }, { "epoch": 101.38666666666667, "grad_norm": 0.248046875, "learning_rate": 0.00029814892089489043, "loss": 0.4704, "step": 38020 }, { "epoch": 101.41333333333333, "grad_norm": 0.447265625, "learning_rate": 0.00029814793605701984, "loss": 0.4746, "step": 38030 }, { "epoch": 101.44, "grad_norm": 0.31640625, "learning_rate": 0.00029814695095886244, "loss": 0.4782, "step": 38040 }, { "epoch": 101.46666666666667, "grad_norm": 0.26953125, "learning_rate": 0.00029814596560042003, "loss": 0.487, "step": 38050 }, { "epoch": 101.49333333333334, "grad_norm": 0.37109375, "learning_rate": 0.00029814497998169434, "loss": 0.4788, "step": 38060 }, { "epoch": 101.52, "grad_norm": 0.361328125, "learning_rate": 0.00029814399410268706, "loss": 0.4734, "step": 38070 }, { "epoch": 101.54666666666667, "grad_norm": 0.279296875, "learning_rate": 0.0002981430079633999, "loss": 0.4702, "step": 38080 }, { "epoch": 101.57333333333334, "grad_norm": 0.240234375, "learning_rate": 0.0002981420215638347, "loss": 0.4695, "step": 38090 }, { "epoch": 101.6, "grad_norm": 0.32421875, "learning_rate": 0.00029814103490399314, "loss": 0.4633, "step": 38100 }, { "epoch": 101.62666666666667, "grad_norm": 0.375, "learning_rate": 0.0002981400479838769, "loss": 0.4498, "step": 38110 }, { "epoch": 101.65333333333334, "grad_norm": 0.255859375, "learning_rate": 0.00029813906080348784, "loss": 0.4692, "step": 38120 }, { "epoch": 101.68, "grad_norm": 0.251953125, "learning_rate": 0.00029813807336282757, "loss": 0.4609, "step": 38130 }, { "epoch": 101.70666666666666, "grad_norm": 0.2890625, "learning_rate": 0.00029813708566189784, "loss": 0.4614, "step": 38140 }, { "epoch": 101.73333333333333, "grad_norm": 0.271484375, "learning_rate": 0.0002981360977007004, "loss": 0.4796, "step": 38150 }, { "epoch": 101.76, "grad_norm": 0.34765625, "learning_rate": 0.0002981351094792371, "loss": 0.4813, "step": 38160 }, { "epoch": 101.78666666666666, "grad_norm": 0.34765625, "learning_rate": 0.00029813412099750946, "loss": 0.4804, "step": 38170 }, { "epoch": 101.81333333333333, "grad_norm": 0.36328125, "learning_rate": 0.00029813313225551943, "loss": 0.4651, "step": 38180 }, { "epoch": 101.84, "grad_norm": 0.314453125, "learning_rate": 0.00029813214325326857, "loss": 0.4714, "step": 38190 }, { "epoch": 101.86666666666666, "grad_norm": 0.337890625, "learning_rate": 0.0002981311539907587, "loss": 0.4709, "step": 38200 }, { "epoch": 101.89333333333333, "grad_norm": 0.2275390625, "learning_rate": 0.0002981301644679916, "loss": 0.4609, "step": 38210 }, { "epoch": 101.92, "grad_norm": 0.322265625, "learning_rate": 0.000298129174684969, "loss": 0.4719, "step": 38220 }, { "epoch": 101.94666666666667, "grad_norm": 0.310546875, "learning_rate": 0.00029812818464169255, "loss": 0.4649, "step": 38230 }, { "epoch": 101.97333333333333, "grad_norm": 0.36328125, "learning_rate": 0.000298127194338164, "loss": 0.4762, "step": 38240 }, { "epoch": 102.0, "grad_norm": 0.41015625, "learning_rate": 0.0002981262037743852, "loss": 0.4645, "step": 38250 }, { "epoch": 102.0, "eval_loss": 0.48175567388534546, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.3943, "eval_samples_per_second": 1.539, "eval_steps_per_second": 0.096, "step": 38250 }, { "epoch": 102.02666666666667, "grad_norm": 0.296875, "learning_rate": 0.0002981252129503578, "loss": 0.484, "step": 38260 }, { "epoch": 102.05333333333333, "grad_norm": 0.33203125, "learning_rate": 0.0002981242218660836, "loss": 0.4902, "step": 38270 }, { "epoch": 102.08, "grad_norm": 0.462890625, "learning_rate": 0.00029812323052156426, "loss": 0.4776, "step": 38280 }, { "epoch": 102.10666666666667, "grad_norm": 0.416015625, "learning_rate": 0.00029812223891680155, "loss": 0.4727, "step": 38290 }, { "epoch": 102.13333333333334, "grad_norm": 0.373046875, "learning_rate": 0.0002981212470517973, "loss": 0.474, "step": 38300 }, { "epoch": 102.16, "grad_norm": 0.33984375, "learning_rate": 0.0002981202549265531, "loss": 0.4785, "step": 38310 }, { "epoch": 102.18666666666667, "grad_norm": 0.2021484375, "learning_rate": 0.0002981192625410708, "loss": 0.4705, "step": 38320 }, { "epoch": 102.21333333333334, "grad_norm": 0.248046875, "learning_rate": 0.00029811826989535216, "loss": 0.4655, "step": 38330 }, { "epoch": 102.24, "grad_norm": 0.275390625, "learning_rate": 0.00029811727698939884, "loss": 0.4695, "step": 38340 }, { "epoch": 102.26666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029811628382321267, "loss": 0.4737, "step": 38350 }, { "epoch": 102.29333333333334, "grad_norm": 0.43359375, "learning_rate": 0.0002981152903967953, "loss": 0.4678, "step": 38360 }, { "epoch": 102.32, "grad_norm": 0.435546875, "learning_rate": 0.00029811429671014857, "loss": 0.4713, "step": 38370 }, { "epoch": 102.34666666666666, "grad_norm": 0.369140625, "learning_rate": 0.00029811330276327416, "loss": 0.479, "step": 38380 }, { "epoch": 102.37333333333333, "grad_norm": 0.44140625, "learning_rate": 0.0002981123085561738, "loss": 0.4751, "step": 38390 }, { "epoch": 102.4, "grad_norm": 0.3359375, "learning_rate": 0.0002981113140888494, "loss": 0.4718, "step": 38400 }, { "epoch": 102.42666666666666, "grad_norm": 0.3125, "learning_rate": 0.00029811031936130246, "loss": 0.4786, "step": 38410 }, { "epoch": 102.45333333333333, "grad_norm": 0.306640625, "learning_rate": 0.0002981093243735349, "loss": 0.4801, "step": 38420 }, { "epoch": 102.48, "grad_norm": 0.3359375, "learning_rate": 0.0002981083291255484, "loss": 0.4866, "step": 38430 }, { "epoch": 102.50666666666666, "grad_norm": 0.3046875, "learning_rate": 0.0002981073336173447, "loss": 0.4758, "step": 38440 }, { "epoch": 102.53333333333333, "grad_norm": 0.25390625, "learning_rate": 0.00029810633784892567, "loss": 0.4702, "step": 38450 }, { "epoch": 102.56, "grad_norm": 0.33203125, "learning_rate": 0.0002981053418202929, "loss": 0.4708, "step": 38460 }, { "epoch": 102.58666666666667, "grad_norm": 0.33984375, "learning_rate": 0.00029810434553144817, "loss": 0.4667, "step": 38470 }, { "epoch": 102.61333333333333, "grad_norm": 0.28125, "learning_rate": 0.0002981033489823933, "loss": 0.4526, "step": 38480 }, { "epoch": 102.64, "grad_norm": 0.2119140625, "learning_rate": 0.0002981023521731301, "loss": 0.4573, "step": 38490 }, { "epoch": 102.66666666666667, "grad_norm": 0.310546875, "learning_rate": 0.0002981013551036601, "loss": 0.4731, "step": 38500 }, { "epoch": 102.69333333333333, "grad_norm": 0.279296875, "learning_rate": 0.0002981003577739852, "loss": 0.4562, "step": 38510 }, { "epoch": 102.72, "grad_norm": 0.333984375, "learning_rate": 0.00029809936018410717, "loss": 0.4738, "step": 38520 }, { "epoch": 102.74666666666667, "grad_norm": 0.365234375, "learning_rate": 0.00029809836233402775, "loss": 0.4775, "step": 38530 }, { "epoch": 102.77333333333333, "grad_norm": 0.375, "learning_rate": 0.00029809736422374864, "loss": 0.4845, "step": 38540 }, { "epoch": 102.8, "grad_norm": 0.328125, "learning_rate": 0.00029809636585327164, "loss": 0.472, "step": 38550 }, { "epoch": 102.82666666666667, "grad_norm": 0.267578125, "learning_rate": 0.0002980953672225984, "loss": 0.4657, "step": 38560 }, { "epoch": 102.85333333333334, "grad_norm": 0.412109375, "learning_rate": 0.00029809436833173083, "loss": 0.4747, "step": 38570 }, { "epoch": 102.88, "grad_norm": 0.330078125, "learning_rate": 0.00029809336918067066, "loss": 0.4635, "step": 38580 }, { "epoch": 102.90666666666667, "grad_norm": 0.33203125, "learning_rate": 0.00029809236976941953, "loss": 0.4657, "step": 38590 }, { "epoch": 102.93333333333334, "grad_norm": 0.294921875, "learning_rate": 0.00029809137009797934, "loss": 0.4685, "step": 38600 }, { "epoch": 102.96, "grad_norm": 0.3203125, "learning_rate": 0.0002980903701663517, "loss": 0.4663, "step": 38610 }, { "epoch": 102.98666666666666, "grad_norm": 0.302734375, "learning_rate": 0.00029808936997453844, "loss": 0.4792, "step": 38620 }, { "epoch": 103.0, "eval_loss": 0.47996532917022705, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.0526, "eval_samples_per_second": 1.592, "eval_steps_per_second": 0.099, "step": 38625 }, { "epoch": 103.01333333333334, "grad_norm": 0.30859375, "learning_rate": 0.0002980883695225413, "loss": 0.4684, "step": 38630 }, { "epoch": 103.04, "grad_norm": 0.3515625, "learning_rate": 0.0002980873688103621, "loss": 0.4925, "step": 38640 }, { "epoch": 103.06666666666666, "grad_norm": 0.275390625, "learning_rate": 0.0002980863678380026, "loss": 0.4806, "step": 38650 }, { "epoch": 103.09333333333333, "grad_norm": 0.318359375, "learning_rate": 0.0002980853666054645, "loss": 0.4748, "step": 38660 }, { "epoch": 103.12, "grad_norm": 0.26953125, "learning_rate": 0.0002980843651127495, "loss": 0.472, "step": 38670 }, { "epoch": 103.14666666666666, "grad_norm": 0.29296875, "learning_rate": 0.0002980833633598595, "loss": 0.4801, "step": 38680 }, { "epoch": 103.17333333333333, "grad_norm": 0.3671875, "learning_rate": 0.0002980823613467961, "loss": 0.4712, "step": 38690 }, { "epoch": 103.2, "grad_norm": 0.337890625, "learning_rate": 0.0002980813590735612, "loss": 0.469, "step": 38700 }, { "epoch": 103.22666666666667, "grad_norm": 0.306640625, "learning_rate": 0.0002980803565401565, "loss": 0.4664, "step": 38710 }, { "epoch": 103.25333333333333, "grad_norm": 0.291015625, "learning_rate": 0.0002980793537465838, "loss": 0.4663, "step": 38720 }, { "epoch": 103.28, "grad_norm": 0.2890625, "learning_rate": 0.0002980783506928449, "loss": 0.4806, "step": 38730 }, { "epoch": 103.30666666666667, "grad_norm": 0.232421875, "learning_rate": 0.00029807734737894137, "loss": 0.4613, "step": 38740 }, { "epoch": 103.33333333333333, "grad_norm": 0.234375, "learning_rate": 0.0002980763438048752, "loss": 0.477, "step": 38750 }, { "epoch": 103.36, "grad_norm": 0.33984375, "learning_rate": 0.000298075339970648, "loss": 0.4788, "step": 38760 }, { "epoch": 103.38666666666667, "grad_norm": 0.30859375, "learning_rate": 0.00029807433587626154, "loss": 0.4707, "step": 38770 }, { "epoch": 103.41333333333333, "grad_norm": 0.4140625, "learning_rate": 0.00029807333152171773, "loss": 0.4753, "step": 38780 }, { "epoch": 103.44, "grad_norm": 0.341796875, "learning_rate": 0.0002980723269070182, "loss": 0.4777, "step": 38790 }, { "epoch": 103.46666666666667, "grad_norm": 0.337890625, "learning_rate": 0.00029807132203216473, "loss": 0.4874, "step": 38800 }, { "epoch": 103.49333333333334, "grad_norm": 0.34765625, "learning_rate": 0.0002980703168971591, "loss": 0.479, "step": 38810 }, { "epoch": 103.52, "grad_norm": 0.298828125, "learning_rate": 0.00029806931150200316, "loss": 0.4723, "step": 38820 }, { "epoch": 103.54666666666667, "grad_norm": 0.341796875, "learning_rate": 0.0002980683058466985, "loss": 0.4698, "step": 38830 }, { "epoch": 103.57333333333334, "grad_norm": 0.3203125, "learning_rate": 0.00029806729993124705, "loss": 0.4691, "step": 38840 }, { "epoch": 103.6, "grad_norm": 0.390625, "learning_rate": 0.0002980662937556505, "loss": 0.4632, "step": 38850 }, { "epoch": 103.62666666666667, "grad_norm": 0.27734375, "learning_rate": 0.0002980652873199106, "loss": 0.4501, "step": 38860 }, { "epoch": 103.65333333333334, "grad_norm": 0.2890625, "learning_rate": 0.0002980642806240292, "loss": 0.4692, "step": 38870 }, { "epoch": 103.68, "grad_norm": 0.32421875, "learning_rate": 0.000298063273668008, "loss": 0.4604, "step": 38880 }, { "epoch": 103.70666666666666, "grad_norm": 0.333984375, "learning_rate": 0.0002980622664518488, "loss": 0.4616, "step": 38890 }, { "epoch": 103.73333333333333, "grad_norm": 0.263671875, "learning_rate": 0.0002980612589755533, "loss": 0.4807, "step": 38900 }, { "epoch": 103.76, "grad_norm": 0.330078125, "learning_rate": 0.00029806025123912337, "loss": 0.4809, "step": 38910 }, { "epoch": 103.78666666666666, "grad_norm": 0.310546875, "learning_rate": 0.00029805924324256074, "loss": 0.4796, "step": 38920 }, { "epoch": 103.81333333333333, "grad_norm": 0.30859375, "learning_rate": 0.00029805823498586716, "loss": 0.4656, "step": 38930 }, { "epoch": 103.84, "grad_norm": 0.361328125, "learning_rate": 0.00029805722646904443, "loss": 0.471, "step": 38940 }, { "epoch": 103.86666666666666, "grad_norm": 0.251953125, "learning_rate": 0.0002980562176920943, "loss": 0.4702, "step": 38950 }, { "epoch": 103.89333333333333, "grad_norm": 0.34375, "learning_rate": 0.00029805520865501853, "loss": 0.462, "step": 38960 }, { "epoch": 103.92, "grad_norm": 0.330078125, "learning_rate": 0.000298054199357819, "loss": 0.472, "step": 38970 }, { "epoch": 103.94666666666667, "grad_norm": 0.255859375, "learning_rate": 0.0002980531898004973, "loss": 0.4643, "step": 38980 }, { "epoch": 103.97333333333333, "grad_norm": 0.318359375, "learning_rate": 0.0002980521799830554, "loss": 0.4761, "step": 38990 }, { "epoch": 104.0, "grad_norm": 0.337890625, "learning_rate": 0.0002980511699054949, "loss": 0.4645, "step": 39000 }, { "epoch": 104.0, "eval_loss": 0.4795394241809845, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.7369, "eval_samples_per_second": 1.49, "eval_steps_per_second": 0.093, "step": 39000 }, { "epoch": 104.02666666666667, "grad_norm": 0.3515625, "learning_rate": 0.00029805015956781773, "loss": 0.4843, "step": 39010 }, { "epoch": 104.05333333333333, "grad_norm": 0.259765625, "learning_rate": 0.00029804914897002554, "loss": 0.4906, "step": 39020 }, { "epoch": 104.08, "grad_norm": 0.38671875, "learning_rate": 0.0002980481381121202, "loss": 0.4774, "step": 39030 }, { "epoch": 104.10666666666667, "grad_norm": 0.333984375, "learning_rate": 0.00029804712699410334, "loss": 0.4723, "step": 39040 }, { "epoch": 104.13333333333334, "grad_norm": 0.349609375, "learning_rate": 0.0002980461156159769, "loss": 0.4736, "step": 39050 }, { "epoch": 104.16, "grad_norm": 0.3359375, "learning_rate": 0.00029804510397774263, "loss": 0.4792, "step": 39060 }, { "epoch": 104.18666666666667, "grad_norm": 0.36328125, "learning_rate": 0.0002980440920794022, "loss": 0.4707, "step": 39070 }, { "epoch": 104.21333333333334, "grad_norm": 0.42578125, "learning_rate": 0.00029804307992095744, "loss": 0.465, "step": 39080 }, { "epoch": 104.24, "grad_norm": 0.310546875, "learning_rate": 0.0002980420675024102, "loss": 0.4689, "step": 39090 }, { "epoch": 104.26666666666667, "grad_norm": 0.283203125, "learning_rate": 0.0002980410548237622, "loss": 0.4735, "step": 39100 }, { "epoch": 104.29333333333334, "grad_norm": 0.376953125, "learning_rate": 0.00029804004188501527, "loss": 0.4675, "step": 39110 }, { "epoch": 104.32, "grad_norm": 0.3046875, "learning_rate": 0.0002980390286861711, "loss": 0.4709, "step": 39120 }, { "epoch": 104.34666666666666, "grad_norm": 0.31640625, "learning_rate": 0.0002980380152272315, "loss": 0.4788, "step": 39130 }, { "epoch": 104.37333333333333, "grad_norm": 0.35546875, "learning_rate": 0.00029803700150819826, "loss": 0.4754, "step": 39140 }, { "epoch": 104.4, "grad_norm": 0.357421875, "learning_rate": 0.0002980359875290732, "loss": 0.4713, "step": 39150 }, { "epoch": 104.42666666666666, "grad_norm": 0.427734375, "learning_rate": 0.000298034973289858, "loss": 0.4783, "step": 39160 }, { "epoch": 104.45333333333333, "grad_norm": 0.322265625, "learning_rate": 0.00029803395879055456, "loss": 0.4797, "step": 39170 }, { "epoch": 104.48, "grad_norm": 0.33203125, "learning_rate": 0.00029803294403116465, "loss": 0.4865, "step": 39180 }, { "epoch": 104.50666666666666, "grad_norm": 0.2578125, "learning_rate": 0.00029803192901169, "loss": 0.4755, "step": 39190 }, { "epoch": 104.53333333333333, "grad_norm": 0.353515625, "learning_rate": 0.00029803091373213235, "loss": 0.4699, "step": 39200 }, { "epoch": 104.56, "grad_norm": 0.26953125, "learning_rate": 0.0002980298981924936, "loss": 0.4708, "step": 39210 }, { "epoch": 104.58666666666667, "grad_norm": 0.267578125, "learning_rate": 0.0002980288823927754, "loss": 0.4661, "step": 39220 }, { "epoch": 104.61333333333333, "grad_norm": 0.1982421875, "learning_rate": 0.00029802786633297966, "loss": 0.4527, "step": 39230 }, { "epoch": 104.64, "grad_norm": 0.306640625, "learning_rate": 0.00029802685001310814, "loss": 0.4575, "step": 39240 }, { "epoch": 104.66666666666667, "grad_norm": 0.3046875, "learning_rate": 0.00029802583343316254, "loss": 0.4732, "step": 39250 }, { "epoch": 104.69333333333333, "grad_norm": 0.322265625, "learning_rate": 0.00029802481659314475, "loss": 0.4562, "step": 39260 }, { "epoch": 104.72, "grad_norm": 0.2890625, "learning_rate": 0.0002980237994930565, "loss": 0.4731, "step": 39270 }, { "epoch": 104.74666666666667, "grad_norm": 0.36328125, "learning_rate": 0.00029802278213289957, "loss": 0.4775, "step": 39280 }, { "epoch": 104.77333333333333, "grad_norm": 0.353515625, "learning_rate": 0.0002980217645126758, "loss": 0.4846, "step": 39290 }, { "epoch": 104.8, "grad_norm": 0.28515625, "learning_rate": 0.00029802074663238696, "loss": 0.4713, "step": 39300 }, { "epoch": 104.82666666666667, "grad_norm": 0.26171875, "learning_rate": 0.0002980197284920348, "loss": 0.4662, "step": 39310 }, { "epoch": 104.85333333333334, "grad_norm": 0.369140625, "learning_rate": 0.00029801871009162113, "loss": 0.4752, "step": 39320 }, { "epoch": 104.88, "grad_norm": 0.263671875, "learning_rate": 0.00029801769143114777, "loss": 0.4635, "step": 39330 }, { "epoch": 104.90666666666667, "grad_norm": 0.275390625, "learning_rate": 0.0002980166725106165, "loss": 0.4655, "step": 39340 }, { "epoch": 104.93333333333334, "grad_norm": 0.333984375, "learning_rate": 0.000298015653330029, "loss": 0.4679, "step": 39350 }, { "epoch": 104.96, "grad_norm": 0.298828125, "learning_rate": 0.00029801463388938725, "loss": 0.4651, "step": 39360 }, { "epoch": 104.98666666666666, "grad_norm": 0.390625, "learning_rate": 0.00029801361418869293, "loss": 0.4797, "step": 39370 }, { "epoch": 105.0, "eval_loss": 0.4803178310394287, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.7476, "eval_samples_per_second": 1.641, "eval_steps_per_second": 0.103, "step": 39375 }, { "epoch": 105.01333333333334, "grad_norm": 0.4296875, "learning_rate": 0.0002980125942279478, "loss": 0.4686, "step": 39380 }, { "epoch": 105.04, "grad_norm": 0.408203125, "learning_rate": 0.0002980115740071537, "loss": 0.4933, "step": 39390 }, { "epoch": 105.06666666666666, "grad_norm": 0.333984375, "learning_rate": 0.00029801055352631243, "loss": 0.48, "step": 39400 }, { "epoch": 105.09333333333333, "grad_norm": 0.2890625, "learning_rate": 0.0002980095327854258, "loss": 0.4745, "step": 39410 }, { "epoch": 105.12, "grad_norm": 0.310546875, "learning_rate": 0.0002980085117844956, "loss": 0.4716, "step": 39420 }, { "epoch": 105.14666666666666, "grad_norm": 0.28125, "learning_rate": 0.00029800749052352353, "loss": 0.4807, "step": 39430 }, { "epoch": 105.17333333333333, "grad_norm": 0.333984375, "learning_rate": 0.00029800646900251143, "loss": 0.4713, "step": 39440 }, { "epoch": 105.2, "grad_norm": 0.384765625, "learning_rate": 0.0002980054472214612, "loss": 0.469, "step": 39450 }, { "epoch": 105.22666666666667, "grad_norm": 0.365234375, "learning_rate": 0.0002980044251803745, "loss": 0.4664, "step": 39460 }, { "epoch": 105.25333333333333, "grad_norm": 0.25, "learning_rate": 0.00029800340287925326, "loss": 0.4668, "step": 39470 }, { "epoch": 105.28, "grad_norm": 0.376953125, "learning_rate": 0.00029800238031809913, "loss": 0.4803, "step": 39480 }, { "epoch": 105.30666666666667, "grad_norm": 0.28125, "learning_rate": 0.000298001357496914, "loss": 0.4608, "step": 39490 }, { "epoch": 105.33333333333333, "grad_norm": 0.287109375, "learning_rate": 0.00029800033441569965, "loss": 0.4766, "step": 39500 }, { "epoch": 105.36, "grad_norm": 0.30859375, "learning_rate": 0.0002979993110744578, "loss": 0.4783, "step": 39510 }, { "epoch": 105.38666666666667, "grad_norm": 0.3828125, "learning_rate": 0.0002979982874731904, "loss": 0.4706, "step": 39520 }, { "epoch": 105.41333333333333, "grad_norm": 0.341796875, "learning_rate": 0.00029799726361189906, "loss": 0.4752, "step": 39530 }, { "epoch": 105.44, "grad_norm": 0.310546875, "learning_rate": 0.0002979962394905858, "loss": 0.4779, "step": 39540 }, { "epoch": 105.46666666666667, "grad_norm": 0.376953125, "learning_rate": 0.00029799521510925225, "loss": 0.4871, "step": 39550 }, { "epoch": 105.49333333333334, "grad_norm": 0.44140625, "learning_rate": 0.0002979941904679003, "loss": 0.4789, "step": 39560 }, { "epoch": 105.52, "grad_norm": 0.3203125, "learning_rate": 0.00029799316556653165, "loss": 0.4727, "step": 39570 }, { "epoch": 105.54666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002979921404051482, "loss": 0.47, "step": 39580 }, { "epoch": 105.57333333333334, "grad_norm": 0.36328125, "learning_rate": 0.00029799111498375163, "loss": 0.4687, "step": 39590 }, { "epoch": 105.6, "grad_norm": 0.306640625, "learning_rate": 0.00029799008930234393, "loss": 0.4626, "step": 39600 }, { "epoch": 105.62666666666667, "grad_norm": 0.3359375, "learning_rate": 0.00029798906336092677, "loss": 0.45, "step": 39610 }, { "epoch": 105.65333333333334, "grad_norm": 0.291015625, "learning_rate": 0.000297988037159502, "loss": 0.4699, "step": 39620 }, { "epoch": 105.68, "grad_norm": 0.30078125, "learning_rate": 0.0002979870106980713, "loss": 0.4608, "step": 39630 }, { "epoch": 105.70666666666666, "grad_norm": 0.337890625, "learning_rate": 0.0002979859839766367, "loss": 0.4608, "step": 39640 }, { "epoch": 105.73333333333333, "grad_norm": 0.361328125, "learning_rate": 0.0002979849569951998, "loss": 0.4803, "step": 39650 }, { "epoch": 105.76, "grad_norm": 0.384765625, "learning_rate": 0.0002979839297537625, "loss": 0.4818, "step": 39660 }, { "epoch": 105.78666666666666, "grad_norm": 0.365234375, "learning_rate": 0.00029798290225232664, "loss": 0.4803, "step": 39670 }, { "epoch": 105.81333333333333, "grad_norm": 0.384765625, "learning_rate": 0.000297981874490894, "loss": 0.4658, "step": 39680 }, { "epoch": 105.84, "grad_norm": 0.330078125, "learning_rate": 0.00029798084646946623, "loss": 0.4714, "step": 39690 }, { "epoch": 105.86666666666666, "grad_norm": 0.31640625, "learning_rate": 0.0002979798181880454, "loss": 0.47, "step": 39700 }, { "epoch": 105.89333333333333, "grad_norm": 0.298828125, "learning_rate": 0.0002979787896466331, "loss": 0.4613, "step": 39710 }, { "epoch": 105.92, "grad_norm": 0.42578125, "learning_rate": 0.00029797776084523127, "loss": 0.4722, "step": 39720 }, { "epoch": 105.94666666666667, "grad_norm": 0.318359375, "learning_rate": 0.0002979767317838416, "loss": 0.464, "step": 39730 }, { "epoch": 105.97333333333333, "grad_norm": 0.27734375, "learning_rate": 0.00029797570246246604, "loss": 0.4754, "step": 39740 }, { "epoch": 106.0, "grad_norm": 0.310546875, "learning_rate": 0.00029797467288110625, "loss": 0.4648, "step": 39750 }, { "epoch": 106.0, "eval_loss": 0.47966986894607544, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.7977, "eval_samples_per_second": 1.482, "eval_steps_per_second": 0.093, "step": 39750 }, { "epoch": 106.02666666666667, "grad_norm": 0.26171875, "learning_rate": 0.00029797364303976417, "loss": 0.4845, "step": 39760 }, { "epoch": 106.05333333333333, "grad_norm": 0.291015625, "learning_rate": 0.00029797261293844156, "loss": 0.4906, "step": 39770 }, { "epoch": 106.08, "grad_norm": 0.34765625, "learning_rate": 0.0002979715825771402, "loss": 0.4774, "step": 39780 }, { "epoch": 106.10666666666667, "grad_norm": 0.294921875, "learning_rate": 0.0002979705519558619, "loss": 0.4722, "step": 39790 }, { "epoch": 106.13333333333334, "grad_norm": 0.3125, "learning_rate": 0.0002979695210746085, "loss": 0.4735, "step": 39800 }, { "epoch": 106.16, "grad_norm": 0.37109375, "learning_rate": 0.00029796848993338186, "loss": 0.4786, "step": 39810 }, { "epoch": 106.18666666666667, "grad_norm": 0.345703125, "learning_rate": 0.0002979674585321837, "loss": 0.4703, "step": 39820 }, { "epoch": 106.21333333333334, "grad_norm": 0.26953125, "learning_rate": 0.00029796642687101584, "loss": 0.4649, "step": 39830 }, { "epoch": 106.24, "grad_norm": 0.3515625, "learning_rate": 0.00029796539494988017, "loss": 0.4683, "step": 39840 }, { "epoch": 106.26666666666667, "grad_norm": 0.3046875, "learning_rate": 0.00029796436276877846, "loss": 0.4738, "step": 39850 }, { "epoch": 106.29333333333334, "grad_norm": 0.392578125, "learning_rate": 0.00029796333032771244, "loss": 0.4677, "step": 39860 }, { "epoch": 106.32, "grad_norm": 0.318359375, "learning_rate": 0.00029796229762668407, "loss": 0.4702, "step": 39870 }, { "epoch": 106.34666666666666, "grad_norm": 0.455078125, "learning_rate": 0.0002979612646656951, "loss": 0.4795, "step": 39880 }, { "epoch": 106.37333333333333, "grad_norm": 0.361328125, "learning_rate": 0.0002979602314447473, "loss": 0.4748, "step": 39890 }, { "epoch": 106.4, "grad_norm": 0.259765625, "learning_rate": 0.00029795919796384257, "loss": 0.4716, "step": 39900 }, { "epoch": 106.42666666666666, "grad_norm": 0.2890625, "learning_rate": 0.0002979581642229826, "loss": 0.4779, "step": 39910 }, { "epoch": 106.45333333333333, "grad_norm": 0.28125, "learning_rate": 0.00029795713022216937, "loss": 0.4798, "step": 39920 }, { "epoch": 106.48, "grad_norm": 0.279296875, "learning_rate": 0.0002979560959614046, "loss": 0.4864, "step": 39930 }, { "epoch": 106.50666666666666, "grad_norm": 0.310546875, "learning_rate": 0.0002979550614406901, "loss": 0.4762, "step": 39940 }, { "epoch": 106.53333333333333, "grad_norm": 0.2373046875, "learning_rate": 0.0002979540266600277, "loss": 0.4695, "step": 39950 }, { "epoch": 106.56, "grad_norm": 0.34375, "learning_rate": 0.00029795299161941926, "loss": 0.4705, "step": 39960 }, { "epoch": 106.58666666666667, "grad_norm": 0.380859375, "learning_rate": 0.00029795195631886657, "loss": 0.4662, "step": 39970 }, { "epoch": 106.61333333333333, "grad_norm": 0.322265625, "learning_rate": 0.0002979509207583714, "loss": 0.4529, "step": 39980 }, { "epoch": 106.64, "grad_norm": 0.279296875, "learning_rate": 0.00029794988493793564, "loss": 0.4574, "step": 39990 }, { "epoch": 106.66666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002979488488575611, "loss": 0.4732, "step": 40000 }, { "epoch": 106.69333333333333, "grad_norm": 0.26953125, "learning_rate": 0.00029794781251724957, "loss": 0.4556, "step": 40010 }, { "epoch": 106.72, "grad_norm": 0.267578125, "learning_rate": 0.0002979467759170029, "loss": 0.4732, "step": 40020 }, { "epoch": 106.74666666666667, "grad_norm": 0.259765625, "learning_rate": 0.00029794573905682283, "loss": 0.4771, "step": 40030 }, { "epoch": 106.77333333333333, "grad_norm": 0.435546875, "learning_rate": 0.0002979447019367113, "loss": 0.485, "step": 40040 }, { "epoch": 106.8, "grad_norm": 0.25, "learning_rate": 0.0002979436645566701, "loss": 0.4724, "step": 40050 }, { "epoch": 106.82666666666667, "grad_norm": 0.259765625, "learning_rate": 0.00029794262691670105, "loss": 0.4667, "step": 40060 }, { "epoch": 106.85333333333334, "grad_norm": 0.36328125, "learning_rate": 0.0002979415890168059, "loss": 0.4752, "step": 40070 }, { "epoch": 106.88, "grad_norm": 0.435546875, "learning_rate": 0.00029794055085698655, "loss": 0.4635, "step": 40080 }, { "epoch": 106.90666666666667, "grad_norm": 0.369140625, "learning_rate": 0.0002979395124372448, "loss": 0.466, "step": 40090 }, { "epoch": 106.93333333333334, "grad_norm": 0.33203125, "learning_rate": 0.00029793847375758246, "loss": 0.4676, "step": 40100 }, { "epoch": 106.96, "grad_norm": 0.287109375, "learning_rate": 0.00029793743481800145, "loss": 0.466, "step": 40110 }, { "epoch": 106.98666666666666, "grad_norm": 0.30078125, "learning_rate": 0.00029793639561850345, "loss": 0.479, "step": 40120 }, { "epoch": 107.0, "eval_loss": 0.48041215538978577, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.0882, "eval_samples_per_second": 1.586, "eval_steps_per_second": 0.099, "step": 40125 }, { "epoch": 107.01333333333334, "grad_norm": 0.34375, "learning_rate": 0.0002979353561590904, "loss": 0.4689, "step": 40130 }, { "epoch": 107.04, "grad_norm": 0.302734375, "learning_rate": 0.000297934316439764, "loss": 0.4929, "step": 40140 }, { "epoch": 107.06666666666666, "grad_norm": 0.376953125, "learning_rate": 0.0002979332764605262, "loss": 0.4798, "step": 40150 }, { "epoch": 107.09333333333333, "grad_norm": 0.41015625, "learning_rate": 0.0002979322362213788, "loss": 0.4746, "step": 40160 }, { "epoch": 107.12, "grad_norm": 0.443359375, "learning_rate": 0.0002979311957223236, "loss": 0.4713, "step": 40170 }, { "epoch": 107.14666666666666, "grad_norm": 0.3125, "learning_rate": 0.0002979301549633624, "loss": 0.48, "step": 40180 }, { "epoch": 107.17333333333333, "grad_norm": 0.353515625, "learning_rate": 0.0002979291139444971, "loss": 0.4706, "step": 40190 }, { "epoch": 107.2, "grad_norm": 0.287109375, "learning_rate": 0.00029792807266572954, "loss": 0.469, "step": 40200 }, { "epoch": 107.22666666666667, "grad_norm": 0.27734375, "learning_rate": 0.00029792703112706145, "loss": 0.4658, "step": 40210 }, { "epoch": 107.25333333333333, "grad_norm": 0.28125, "learning_rate": 0.00029792598932849477, "loss": 0.467, "step": 40220 }, { "epoch": 107.28, "grad_norm": 0.392578125, "learning_rate": 0.00029792494727003127, "loss": 0.4804, "step": 40230 }, { "epoch": 107.30666666666667, "grad_norm": 0.33203125, "learning_rate": 0.00029792390495167275, "loss": 0.4612, "step": 40240 }, { "epoch": 107.33333333333333, "grad_norm": 0.32421875, "learning_rate": 0.0002979228623734211, "loss": 0.4765, "step": 40250 }, { "epoch": 107.36, "grad_norm": 0.375, "learning_rate": 0.0002979218195352781, "loss": 0.4787, "step": 40260 }, { "epoch": 107.38666666666667, "grad_norm": 0.306640625, "learning_rate": 0.00029792077643724563, "loss": 0.4702, "step": 40270 }, { "epoch": 107.41333333333333, "grad_norm": 0.34375, "learning_rate": 0.00029791973307932555, "loss": 0.4752, "step": 40280 }, { "epoch": 107.44, "grad_norm": 0.21484375, "learning_rate": 0.0002979186894615196, "loss": 0.4782, "step": 40290 }, { "epoch": 107.46666666666667, "grad_norm": 0.255859375, "learning_rate": 0.0002979176455838297, "loss": 0.4866, "step": 40300 }, { "epoch": 107.49333333333334, "grad_norm": 0.390625, "learning_rate": 0.0002979166014462576, "loss": 0.4777, "step": 40310 }, { "epoch": 107.52, "grad_norm": 0.49609375, "learning_rate": 0.0002979155570488052, "loss": 0.4726, "step": 40320 }, { "epoch": 107.54666666666667, "grad_norm": 0.357421875, "learning_rate": 0.00029791451239147434, "loss": 0.4697, "step": 40330 }, { "epoch": 107.57333333333334, "grad_norm": 0.310546875, "learning_rate": 0.0002979134674742668, "loss": 0.4693, "step": 40340 }, { "epoch": 107.6, "grad_norm": 0.392578125, "learning_rate": 0.0002979124222971844, "loss": 0.4629, "step": 40350 }, { "epoch": 107.62666666666667, "grad_norm": 0.40234375, "learning_rate": 0.00029791137686022915, "loss": 0.4501, "step": 40360 }, { "epoch": 107.65333333333334, "grad_norm": 0.314453125, "learning_rate": 0.0002979103311634027, "loss": 0.4696, "step": 40370 }, { "epoch": 107.68, "grad_norm": 0.26953125, "learning_rate": 0.0002979092852067069, "loss": 0.461, "step": 40380 }, { "epoch": 107.70666666666666, "grad_norm": 0.37890625, "learning_rate": 0.00029790823899014375, "loss": 0.4607, "step": 40390 }, { "epoch": 107.73333333333333, "grad_norm": 0.3125, "learning_rate": 0.00029790719251371485, "loss": 0.4806, "step": 40400 }, { "epoch": 107.76, "grad_norm": 0.384765625, "learning_rate": 0.00029790614577742227, "loss": 0.4815, "step": 40410 }, { "epoch": 107.78666666666666, "grad_norm": 0.373046875, "learning_rate": 0.0002979050987812676, "loss": 0.4802, "step": 40420 }, { "epoch": 107.81333333333333, "grad_norm": 0.482421875, "learning_rate": 0.00029790405152525296, "loss": 0.4652, "step": 40430 }, { "epoch": 107.84, "grad_norm": 0.3359375, "learning_rate": 0.00029790300400938, "loss": 0.471, "step": 40440 }, { "epoch": 107.86666666666666, "grad_norm": 0.5, "learning_rate": 0.00029790195623365063, "loss": 0.4706, "step": 40450 }, { "epoch": 107.89333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029790090819806664, "loss": 0.4613, "step": 40460 }, { "epoch": 107.92, "grad_norm": 0.294921875, "learning_rate": 0.0002978998599026299, "loss": 0.4717, "step": 40470 }, { "epoch": 107.94666666666667, "grad_norm": 0.287109375, "learning_rate": 0.00029789881134734223, "loss": 0.464, "step": 40480 }, { "epoch": 107.97333333333333, "grad_norm": 0.375, "learning_rate": 0.00029789776253220555, "loss": 0.476, "step": 40490 }, { "epoch": 108.0, "grad_norm": 0.337890625, "learning_rate": 0.0002978967134572216, "loss": 0.4653, "step": 40500 }, { "epoch": 108.0, "eval_loss": 0.4787892997264862, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.2779, "eval_samples_per_second": 1.557, "eval_steps_per_second": 0.097, "step": 40500 }, { "epoch": 108.02666666666667, "grad_norm": 0.28125, "learning_rate": 0.00029789566412239234, "loss": 0.4844, "step": 40510 }, { "epoch": 108.05333333333333, "grad_norm": 0.306640625, "learning_rate": 0.0002978946145277195, "loss": 0.4897, "step": 40520 }, { "epoch": 108.08, "grad_norm": 0.357421875, "learning_rate": 0.00029789356467320503, "loss": 0.4772, "step": 40530 }, { "epoch": 108.10666666666667, "grad_norm": 0.31640625, "learning_rate": 0.0002978925145588507, "loss": 0.4727, "step": 40540 }, { "epoch": 108.13333333333334, "grad_norm": 0.283203125, "learning_rate": 0.00029789146418465827, "loss": 0.4737, "step": 40550 }, { "epoch": 108.16, "grad_norm": 0.310546875, "learning_rate": 0.00029789041355062976, "loss": 0.478, "step": 40560 }, { "epoch": 108.18666666666667, "grad_norm": 0.2138671875, "learning_rate": 0.00029788936265676694, "loss": 0.4702, "step": 40570 }, { "epoch": 108.21333333333334, "grad_norm": 0.2890625, "learning_rate": 0.00029788831150307166, "loss": 0.4647, "step": 40580 }, { "epoch": 108.24, "grad_norm": 0.458984375, "learning_rate": 0.00029788726008954576, "loss": 0.469, "step": 40590 }, { "epoch": 108.26666666666667, "grad_norm": 0.3515625, "learning_rate": 0.00029788620841619107, "loss": 0.4732, "step": 40600 }, { "epoch": 108.29333333333334, "grad_norm": 0.361328125, "learning_rate": 0.0002978851564830095, "loss": 0.4676, "step": 40610 }, { "epoch": 108.32, "grad_norm": 0.330078125, "learning_rate": 0.00029788410429000284, "loss": 0.4709, "step": 40620 }, { "epoch": 108.34666666666666, "grad_norm": 0.412109375, "learning_rate": 0.000297883051837173, "loss": 0.4781, "step": 40630 }, { "epoch": 108.37333333333333, "grad_norm": 0.34765625, "learning_rate": 0.0002978819991245217, "loss": 0.4749, "step": 40640 }, { "epoch": 108.4, "grad_norm": 0.341796875, "learning_rate": 0.00029788094615205095, "loss": 0.4721, "step": 40650 }, { "epoch": 108.42666666666666, "grad_norm": 0.34765625, "learning_rate": 0.0002978798929197625, "loss": 0.4772, "step": 40660 }, { "epoch": 108.45333333333333, "grad_norm": 0.4296875, "learning_rate": 0.0002978788394276582, "loss": 0.4805, "step": 40670 }, { "epoch": 108.48, "grad_norm": 0.443359375, "learning_rate": 0.00029787778567573996, "loss": 0.4864, "step": 40680 }, { "epoch": 108.50666666666666, "grad_norm": 0.400390625, "learning_rate": 0.0002978767316640096, "loss": 0.4762, "step": 40690 }, { "epoch": 108.53333333333333, "grad_norm": 0.234375, "learning_rate": 0.00029787567739246896, "loss": 0.47, "step": 40700 }, { "epoch": 108.56, "grad_norm": 0.26171875, "learning_rate": 0.0002978746228611199, "loss": 0.4702, "step": 40710 }, { "epoch": 108.58666666666667, "grad_norm": 0.234375, "learning_rate": 0.00029787356806996426, "loss": 0.4666, "step": 40720 }, { "epoch": 108.61333333333333, "grad_norm": 0.2119140625, "learning_rate": 0.0002978725130190039, "loss": 0.4525, "step": 40730 }, { "epoch": 108.64, "grad_norm": 0.298828125, "learning_rate": 0.00029787145770824073, "loss": 0.4577, "step": 40740 }, { "epoch": 108.66666666666667, "grad_norm": 0.298828125, "learning_rate": 0.0002978704021376765, "loss": 0.4728, "step": 40750 }, { "epoch": 108.69333333333333, "grad_norm": 0.34375, "learning_rate": 0.00029786934630731315, "loss": 0.4557, "step": 40760 }, { "epoch": 108.72, "grad_norm": 0.328125, "learning_rate": 0.0002978682902171525, "loss": 0.4726, "step": 40770 }, { "epoch": 108.74666666666667, "grad_norm": 0.310546875, "learning_rate": 0.00029786723386719644, "loss": 0.4775, "step": 40780 }, { "epoch": 108.77333333333333, "grad_norm": 0.32421875, "learning_rate": 0.00029786617725744677, "loss": 0.4851, "step": 40790 }, { "epoch": 108.8, "grad_norm": 0.3515625, "learning_rate": 0.0002978651203879054, "loss": 0.4717, "step": 40800 }, { "epoch": 108.82666666666667, "grad_norm": 0.306640625, "learning_rate": 0.0002978640632585741, "loss": 0.4666, "step": 40810 }, { "epoch": 108.85333333333334, "grad_norm": 0.337890625, "learning_rate": 0.00029786300586945487, "loss": 0.4755, "step": 40820 }, { "epoch": 108.88, "grad_norm": 0.296875, "learning_rate": 0.00029786194822054946, "loss": 0.4639, "step": 40830 }, { "epoch": 108.90666666666667, "grad_norm": 0.271484375, "learning_rate": 0.0002978608903118597, "loss": 0.4662, "step": 40840 }, { "epoch": 108.93333333333334, "grad_norm": 0.2314453125, "learning_rate": 0.00029785983214338754, "loss": 0.4676, "step": 40850 }, { "epoch": 108.96, "grad_norm": 0.375, "learning_rate": 0.0002978587737151348, "loss": 0.4663, "step": 40860 }, { "epoch": 108.98666666666666, "grad_norm": 0.26171875, "learning_rate": 0.00029785771502710334, "loss": 0.4794, "step": 40870 }, { "epoch": 109.0, "eval_loss": 0.47901442646980286, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.8116, "eval_samples_per_second": 1.631, "eval_steps_per_second": 0.102, "step": 40875 }, { "epoch": 109.01333333333334, "grad_norm": 0.3359375, "learning_rate": 0.000297856656079295, "loss": 0.4682, "step": 40880 }, { "epoch": 109.04, "grad_norm": 0.35546875, "learning_rate": 0.0002978555968717117, "loss": 0.493, "step": 40890 }, { "epoch": 109.06666666666666, "grad_norm": 0.4296875, "learning_rate": 0.00029785453740435524, "loss": 0.4806, "step": 40900 }, { "epoch": 109.09333333333333, "grad_norm": 0.279296875, "learning_rate": 0.00029785347767722747, "loss": 0.4747, "step": 40910 }, { "epoch": 109.12, "grad_norm": 0.30859375, "learning_rate": 0.00029785241769033033, "loss": 0.4716, "step": 40920 }, { "epoch": 109.14666666666666, "grad_norm": 0.5078125, "learning_rate": 0.00029785135744366567, "loss": 0.48, "step": 40930 }, { "epoch": 109.17333333333333, "grad_norm": 0.365234375, "learning_rate": 0.0002978502969372353, "loss": 0.4701, "step": 40940 }, { "epoch": 109.2, "grad_norm": 0.25390625, "learning_rate": 0.00029784923617104104, "loss": 0.4691, "step": 40950 }, { "epoch": 109.22666666666667, "grad_norm": 0.302734375, "learning_rate": 0.0002978481751450849, "loss": 0.4664, "step": 40960 }, { "epoch": 109.25333333333333, "grad_norm": 0.298828125, "learning_rate": 0.0002978471138593686, "loss": 0.4665, "step": 40970 }, { "epoch": 109.28, "grad_norm": 0.3984375, "learning_rate": 0.00029784605231389404, "loss": 0.4802, "step": 40980 }, { "epoch": 109.30666666666667, "grad_norm": 0.40625, "learning_rate": 0.00029784499050866317, "loss": 0.4616, "step": 40990 }, { "epoch": 109.33333333333333, "grad_norm": 0.328125, "learning_rate": 0.00029784392844367784, "loss": 0.4772, "step": 41000 }, { "epoch": 109.36, "grad_norm": 0.333984375, "learning_rate": 0.00029784286611893985, "loss": 0.4785, "step": 41010 }, { "epoch": 109.38666666666667, "grad_norm": 0.373046875, "learning_rate": 0.000297841803534451, "loss": 0.4702, "step": 41020 }, { "epoch": 109.41333333333333, "grad_norm": 0.396484375, "learning_rate": 0.00029784074069021333, "loss": 0.4754, "step": 41030 }, { "epoch": 109.44, "grad_norm": 0.25390625, "learning_rate": 0.00029783967758622865, "loss": 0.478, "step": 41040 }, { "epoch": 109.46666666666667, "grad_norm": 0.296875, "learning_rate": 0.00029783861422249874, "loss": 0.4874, "step": 41050 }, { "epoch": 109.49333333333334, "grad_norm": 0.39453125, "learning_rate": 0.00029783755059902553, "loss": 0.4787, "step": 41060 }, { "epoch": 109.52, "grad_norm": 0.2734375, "learning_rate": 0.0002978364867158109, "loss": 0.4719, "step": 41070 }, { "epoch": 109.54666666666667, "grad_norm": 0.294921875, "learning_rate": 0.00029783542257285674, "loss": 0.4698, "step": 41080 }, { "epoch": 109.57333333333334, "grad_norm": 0.248046875, "learning_rate": 0.00029783435817016483, "loss": 0.4685, "step": 41090 }, { "epoch": 109.6, "grad_norm": 0.337890625, "learning_rate": 0.00029783329350773716, "loss": 0.4626, "step": 41100 }, { "epoch": 109.62666666666667, "grad_norm": 0.376953125, "learning_rate": 0.0002978322285855755, "loss": 0.4493, "step": 41110 }, { "epoch": 109.65333333333334, "grad_norm": 0.40234375, "learning_rate": 0.00029783116340368173, "loss": 0.4691, "step": 41120 }, { "epoch": 109.68, "grad_norm": 0.396484375, "learning_rate": 0.0002978300979620578, "loss": 0.4601, "step": 41130 }, { "epoch": 109.70666666666666, "grad_norm": 0.353515625, "learning_rate": 0.0002978290322607055, "loss": 0.4612, "step": 41140 }, { "epoch": 109.73333333333333, "grad_norm": 0.328125, "learning_rate": 0.00029782796629962676, "loss": 0.4806, "step": 41150 }, { "epoch": 109.76, "grad_norm": 0.404296875, "learning_rate": 0.00029782690007882344, "loss": 0.4818, "step": 41160 }, { "epoch": 109.78666666666666, "grad_norm": 0.33984375, "learning_rate": 0.00029782583359829737, "loss": 0.4797, "step": 41170 }, { "epoch": 109.81333333333333, "grad_norm": 0.3671875, "learning_rate": 0.0002978247668580505, "loss": 0.4654, "step": 41180 }, { "epoch": 109.84, "grad_norm": 0.3203125, "learning_rate": 0.0002978236998580846, "loss": 0.471, "step": 41190 }, { "epoch": 109.86666666666666, "grad_norm": 0.326171875, "learning_rate": 0.0002978226325984016, "loss": 0.4706, "step": 41200 }, { "epoch": 109.89333333333333, "grad_norm": 0.306640625, "learning_rate": 0.0002978215650790034, "loss": 0.4612, "step": 41210 }, { "epoch": 109.92, "grad_norm": 0.26953125, "learning_rate": 0.00029782049729989193, "loss": 0.472, "step": 41220 }, { "epoch": 109.94666666666667, "grad_norm": 0.345703125, "learning_rate": 0.0002978194292610689, "loss": 0.4642, "step": 41230 }, { "epoch": 109.97333333333333, "grad_norm": 0.26171875, "learning_rate": 0.00029781836096253627, "loss": 0.4754, "step": 41240 }, { "epoch": 110.0, "grad_norm": 0.2431640625, "learning_rate": 0.00029781729240429595, "loss": 0.4642, "step": 41250 }, { "epoch": 110.0, "eval_loss": 0.47956129908561707, "eval_model_preparation_time": 0.0016, "eval_runtime": 11.0804, "eval_samples_per_second": 1.444, "eval_steps_per_second": 0.09, "step": 41250 }, { "epoch": 110.02666666666667, "grad_norm": 0.42578125, "learning_rate": 0.0002978162235863498, "loss": 0.4841, "step": 41260 }, { "epoch": 110.05333333333333, "grad_norm": 0.33984375, "learning_rate": 0.0002978151545086997, "loss": 0.4894, "step": 41270 }, { "epoch": 110.08, "grad_norm": 0.259765625, "learning_rate": 0.0002978140851713475, "loss": 0.4773, "step": 41280 }, { "epoch": 110.10666666666667, "grad_norm": 0.28515625, "learning_rate": 0.00029781301557429507, "loss": 0.4721, "step": 41290 }, { "epoch": 110.13333333333334, "grad_norm": 0.341796875, "learning_rate": 0.00029781194571754435, "loss": 0.4734, "step": 41300 }, { "epoch": 110.16, "grad_norm": 0.369140625, "learning_rate": 0.0002978108756010972, "loss": 0.4783, "step": 41310 }, { "epoch": 110.18666666666667, "grad_norm": 0.283203125, "learning_rate": 0.00029780980522495546, "loss": 0.4705, "step": 41320 }, { "epoch": 110.21333333333334, "grad_norm": 0.330078125, "learning_rate": 0.000297808734589121, "loss": 0.4647, "step": 41330 }, { "epoch": 110.24, "grad_norm": 0.31640625, "learning_rate": 0.0002978076636935958, "loss": 0.4684, "step": 41340 }, { "epoch": 110.26666666666667, "grad_norm": 0.234375, "learning_rate": 0.00029780659253838166, "loss": 0.473, "step": 41350 }, { "epoch": 110.29333333333334, "grad_norm": 0.26953125, "learning_rate": 0.00029780552112348047, "loss": 0.4672, "step": 41360 }, { "epoch": 110.32, "grad_norm": 0.283203125, "learning_rate": 0.00029780444944889416, "loss": 0.4712, "step": 41370 }, { "epoch": 110.34666666666666, "grad_norm": 0.3125, "learning_rate": 0.0002978033775146245, "loss": 0.4787, "step": 41380 }, { "epoch": 110.37333333333333, "grad_norm": 0.28515625, "learning_rate": 0.0002978023053206735, "loss": 0.4751, "step": 41390 }, { "epoch": 110.4, "grad_norm": 0.306640625, "learning_rate": 0.00029780123286704297, "loss": 0.4714, "step": 41400 }, { "epoch": 110.42666666666666, "grad_norm": 0.2412109375, "learning_rate": 0.0002978001601537348, "loss": 0.4778, "step": 41410 }, { "epoch": 110.45333333333333, "grad_norm": 0.453125, "learning_rate": 0.00029779908718075097, "loss": 0.4793, "step": 41420 }, { "epoch": 110.48, "grad_norm": 0.45703125, "learning_rate": 0.0002977980139480932, "loss": 0.4864, "step": 41430 }, { "epoch": 110.50666666666666, "grad_norm": 0.298828125, "learning_rate": 0.0002977969404557635, "loss": 0.4767, "step": 41440 }, { "epoch": 110.53333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0002977958667037637, "loss": 0.4697, "step": 41450 }, { "epoch": 110.56, "grad_norm": 0.2373046875, "learning_rate": 0.00029779479269209576, "loss": 0.4709, "step": 41460 }, { "epoch": 110.58666666666667, "grad_norm": 0.328125, "learning_rate": 0.00029779371842076144, "loss": 0.4664, "step": 41470 }, { "epoch": 110.61333333333333, "grad_norm": 0.3046875, "learning_rate": 0.00029779264388976275, "loss": 0.452, "step": 41480 }, { "epoch": 110.64, "grad_norm": 0.240234375, "learning_rate": 0.00029779156909910155, "loss": 0.4574, "step": 41490 }, { "epoch": 110.66666666666667, "grad_norm": 0.244140625, "learning_rate": 0.0002977904940487796, "loss": 0.4732, "step": 41500 }, { "epoch": 110.69333333333333, "grad_norm": 0.25390625, "learning_rate": 0.00029778941873879897, "loss": 0.4559, "step": 41510 }, { "epoch": 110.72, "grad_norm": 0.306640625, "learning_rate": 0.0002977883431691615, "loss": 0.4738, "step": 41520 }, { "epoch": 110.74666666666667, "grad_norm": 0.4453125, "learning_rate": 0.000297787267339869, "loss": 0.4776, "step": 41530 }, { "epoch": 110.77333333333333, "grad_norm": 0.267578125, "learning_rate": 0.00029778619125092343, "loss": 0.4847, "step": 41540 }, { "epoch": 110.8, "grad_norm": 0.30859375, "learning_rate": 0.00029778511490232665, "loss": 0.472, "step": 41550 }, { "epoch": 110.82666666666667, "grad_norm": 0.453125, "learning_rate": 0.0002977840382940806, "loss": 0.4653, "step": 41560 }, { "epoch": 110.85333333333334, "grad_norm": 0.306640625, "learning_rate": 0.0002977829614261871, "loss": 0.4749, "step": 41570 }, { "epoch": 110.88, "grad_norm": 0.291015625, "learning_rate": 0.0002977818842986481, "loss": 0.4636, "step": 41580 }, { "epoch": 110.90666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002977808069114654, "loss": 0.466, "step": 41590 }, { "epoch": 110.93333333333334, "grad_norm": 0.267578125, "learning_rate": 0.00029777972926464105, "loss": 0.4678, "step": 41600 }, { "epoch": 110.96, "grad_norm": 0.25390625, "learning_rate": 0.0002977786513581769, "loss": 0.4655, "step": 41610 }, { "epoch": 110.98666666666666, "grad_norm": 0.357421875, "learning_rate": 0.0002977775731920747, "loss": 0.4793, "step": 41620 }, { "epoch": 111.0, "eval_loss": 0.47923967242240906, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.9483, "eval_samples_per_second": 1.608, "eval_steps_per_second": 0.101, "step": 41625 }, { "epoch": 111.01333333333334, "grad_norm": 0.30078125, "learning_rate": 0.00029777649476633644, "loss": 0.4685, "step": 41630 }, { "epoch": 111.04, "grad_norm": 0.232421875, "learning_rate": 0.0002977754160809641, "loss": 0.4923, "step": 41640 }, { "epoch": 111.06666666666666, "grad_norm": 0.294921875, "learning_rate": 0.00029777433713595945, "loss": 0.4804, "step": 41650 }, { "epoch": 111.09333333333333, "grad_norm": 0.3046875, "learning_rate": 0.0002977732579313244, "loss": 0.475, "step": 41660 }, { "epoch": 111.12, "grad_norm": 0.2578125, "learning_rate": 0.0002977721784670609, "loss": 0.4712, "step": 41670 }, { "epoch": 111.14666666666666, "grad_norm": 0.443359375, "learning_rate": 0.00029777109874317087, "loss": 0.4799, "step": 41680 }, { "epoch": 111.17333333333333, "grad_norm": 0.396484375, "learning_rate": 0.0002977700187596561, "loss": 0.4701, "step": 41690 }, { "epoch": 111.2, "grad_norm": 0.380859375, "learning_rate": 0.0002977689385165186, "loss": 0.4689, "step": 41700 }, { "epoch": 111.22666666666667, "grad_norm": 0.326171875, "learning_rate": 0.0002977678580137602, "loss": 0.4666, "step": 41710 }, { "epoch": 111.25333333333333, "grad_norm": 0.423828125, "learning_rate": 0.00029776677725138276, "loss": 0.4664, "step": 41720 }, { "epoch": 111.28, "grad_norm": 0.3671875, "learning_rate": 0.0002977656962293883, "loss": 0.4792, "step": 41730 }, { "epoch": 111.30666666666667, "grad_norm": 0.341796875, "learning_rate": 0.00029776461494777863, "loss": 0.4605, "step": 41740 }, { "epoch": 111.33333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0002977635334065557, "loss": 0.4765, "step": 41750 }, { "epoch": 111.36, "grad_norm": 0.396484375, "learning_rate": 0.0002977624516057213, "loss": 0.4786, "step": 41760 }, { "epoch": 111.38666666666667, "grad_norm": 0.455078125, "learning_rate": 0.0002977613695452775, "loss": 0.4706, "step": 41770 }, { "epoch": 111.41333333333333, "grad_norm": 0.29296875, "learning_rate": 0.0002977602872252261, "loss": 0.4748, "step": 41780 }, { "epoch": 111.44, "grad_norm": 0.267578125, "learning_rate": 0.00029775920464556897, "loss": 0.478, "step": 41790 }, { "epoch": 111.46666666666667, "grad_norm": 0.296875, "learning_rate": 0.00029775812180630806, "loss": 0.4873, "step": 41800 }, { "epoch": 111.49333333333334, "grad_norm": 0.38671875, "learning_rate": 0.0002977570387074453, "loss": 0.4784, "step": 41810 }, { "epoch": 111.52, "grad_norm": 0.3984375, "learning_rate": 0.00029775595534898257, "loss": 0.4735, "step": 41820 }, { "epoch": 111.54666666666667, "grad_norm": 0.2373046875, "learning_rate": 0.0002977548717309218, "loss": 0.4691, "step": 41830 }, { "epoch": 111.57333333333334, "grad_norm": 0.345703125, "learning_rate": 0.00029775378785326477, "loss": 0.4689, "step": 41840 }, { "epoch": 111.6, "grad_norm": 0.40625, "learning_rate": 0.0002977527037160135, "loss": 0.4623, "step": 41850 }, { "epoch": 111.62666666666667, "grad_norm": 0.271484375, "learning_rate": 0.0002977516193191699, "loss": 0.4491, "step": 41860 }, { "epoch": 111.65333333333334, "grad_norm": 0.3125, "learning_rate": 0.00029775053466273585, "loss": 0.4691, "step": 41870 }, { "epoch": 111.68, "grad_norm": 0.265625, "learning_rate": 0.0002977494497467132, "loss": 0.4605, "step": 41880 }, { "epoch": 111.70666666666666, "grad_norm": 0.380859375, "learning_rate": 0.00029774836457110396, "loss": 0.4614, "step": 41890 }, { "epoch": 111.73333333333333, "grad_norm": 0.345703125, "learning_rate": 0.00029774727913591, "loss": 0.4806, "step": 41900 }, { "epoch": 111.76, "grad_norm": 0.271484375, "learning_rate": 0.00029774619344113317, "loss": 0.4818, "step": 41910 }, { "epoch": 111.78666666666666, "grad_norm": 0.2890625, "learning_rate": 0.0002977451074867754, "loss": 0.4805, "step": 41920 }, { "epoch": 111.81333333333333, "grad_norm": 0.369140625, "learning_rate": 0.0002977440212728386, "loss": 0.4646, "step": 41930 }, { "epoch": 111.84, "grad_norm": 0.3828125, "learning_rate": 0.00029774293479932474, "loss": 0.4709, "step": 41940 }, { "epoch": 111.86666666666666, "grad_norm": 0.306640625, "learning_rate": 0.0002977418480662357, "loss": 0.4701, "step": 41950 }, { "epoch": 111.89333333333333, "grad_norm": 0.302734375, "learning_rate": 0.0002977407610735733, "loss": 0.4612, "step": 41960 }, { "epoch": 111.92, "grad_norm": 0.294921875, "learning_rate": 0.0002977396738213396, "loss": 0.4714, "step": 41970 }, { "epoch": 111.94666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002977385863095364, "loss": 0.4636, "step": 41980 }, { "epoch": 111.97333333333333, "grad_norm": 0.30859375, "learning_rate": 0.0002977374985381656, "loss": 0.4752, "step": 41990 }, { "epoch": 112.0, "grad_norm": 0.392578125, "learning_rate": 0.0002977364105072292, "loss": 0.465, "step": 42000 }, { "epoch": 112.0, "eval_loss": 0.4801514148712158, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.2003, "eval_samples_per_second": 1.569, "eval_steps_per_second": 0.098, "step": 42000 }, { "epoch": 112.02666666666667, "grad_norm": 0.283203125, "learning_rate": 0.0002977353222167291, "loss": 0.4844, "step": 42010 }, { "epoch": 112.05333333333333, "grad_norm": 0.28125, "learning_rate": 0.00029773423366666714, "loss": 0.4898, "step": 42020 }, { "epoch": 112.08, "grad_norm": 0.404296875, "learning_rate": 0.00029773314485704525, "loss": 0.4769, "step": 42030 }, { "epoch": 112.10666666666667, "grad_norm": 0.28515625, "learning_rate": 0.0002977320557878654, "loss": 0.472, "step": 42040 }, { "epoch": 112.13333333333334, "grad_norm": 0.44140625, "learning_rate": 0.0002977309664591294, "loss": 0.4743, "step": 42050 }, { "epoch": 112.16, "grad_norm": 0.37890625, "learning_rate": 0.00029772987687083933, "loss": 0.4785, "step": 42060 }, { "epoch": 112.18666666666667, "grad_norm": 0.3046875, "learning_rate": 0.00029772878702299694, "loss": 0.4702, "step": 42070 }, { "epoch": 112.21333333333334, "grad_norm": 0.361328125, "learning_rate": 0.00029772769691560424, "loss": 0.465, "step": 42080 }, { "epoch": 112.24, "grad_norm": 0.3515625, "learning_rate": 0.0002977266065486631, "loss": 0.4689, "step": 42090 }, { "epoch": 112.26666666666667, "grad_norm": 0.2578125, "learning_rate": 0.00029772551592217546, "loss": 0.473, "step": 42100 }, { "epoch": 112.29333333333334, "grad_norm": 0.365234375, "learning_rate": 0.0002977244250361432, "loss": 0.4669, "step": 42110 }, { "epoch": 112.32, "grad_norm": 0.29296875, "learning_rate": 0.00029772333389056825, "loss": 0.4701, "step": 42120 }, { "epoch": 112.34666666666666, "grad_norm": 0.25, "learning_rate": 0.00029772224248545255, "loss": 0.4787, "step": 42130 }, { "epoch": 112.37333333333333, "grad_norm": 0.32421875, "learning_rate": 0.00029772115082079805, "loss": 0.4751, "step": 42140 }, { "epoch": 112.4, "grad_norm": 0.4609375, "learning_rate": 0.00029772005889660663, "loss": 0.4709, "step": 42150 }, { "epoch": 112.42666666666666, "grad_norm": 0.318359375, "learning_rate": 0.00029771896671288014, "loss": 0.4776, "step": 42160 }, { "epoch": 112.45333333333333, "grad_norm": 0.32421875, "learning_rate": 0.00029771787426962064, "loss": 0.48, "step": 42170 }, { "epoch": 112.48, "grad_norm": 0.283203125, "learning_rate": 0.0002977167815668299, "loss": 0.486, "step": 42180 }, { "epoch": 112.50666666666666, "grad_norm": 0.365234375, "learning_rate": 0.00029771568860450994, "loss": 0.4755, "step": 42190 }, { "epoch": 112.53333333333333, "grad_norm": 0.24609375, "learning_rate": 0.0002977145953826627, "loss": 0.4687, "step": 42200 }, { "epoch": 112.56, "grad_norm": 0.318359375, "learning_rate": 0.00029771350190128997, "loss": 0.4704, "step": 42210 }, { "epoch": 112.58666666666667, "grad_norm": 0.38671875, "learning_rate": 0.0002977124081603938, "loss": 0.4669, "step": 42220 }, { "epoch": 112.61333333333333, "grad_norm": 0.3828125, "learning_rate": 0.00029771131415997607, "loss": 0.4526, "step": 42230 }, { "epoch": 112.64, "grad_norm": 0.296875, "learning_rate": 0.0002977102199000387, "loss": 0.4574, "step": 42240 }, { "epoch": 112.66666666666667, "grad_norm": 0.330078125, "learning_rate": 0.0002977091253805836, "loss": 0.4725, "step": 42250 }, { "epoch": 112.69333333333333, "grad_norm": 0.328125, "learning_rate": 0.0002977080306016127, "loss": 0.4557, "step": 42260 }, { "epoch": 112.72, "grad_norm": 0.328125, "learning_rate": 0.0002977069355631279, "loss": 0.4731, "step": 42270 }, { "epoch": 112.74666666666667, "grad_norm": 0.470703125, "learning_rate": 0.0002977058402651312, "loss": 0.4772, "step": 42280 }, { "epoch": 112.77333333333333, "grad_norm": 0.478515625, "learning_rate": 0.0002977047447076245, "loss": 0.4848, "step": 42290 }, { "epoch": 112.8, "grad_norm": 0.30078125, "learning_rate": 0.0002977036488906096, "loss": 0.4706, "step": 42300 }, { "epoch": 112.82666666666667, "grad_norm": 0.3046875, "learning_rate": 0.0002977025528140886, "loss": 0.4664, "step": 42310 }, { "epoch": 112.85333333333334, "grad_norm": 0.373046875, "learning_rate": 0.00029770145647806334, "loss": 0.4748, "step": 42320 }, { "epoch": 112.88, "grad_norm": 0.361328125, "learning_rate": 0.00029770035988253574, "loss": 0.4634, "step": 42330 }, { "epoch": 112.90666666666667, "grad_norm": 0.31640625, "learning_rate": 0.00029769926302750777, "loss": 0.4654, "step": 42340 }, { "epoch": 112.93333333333334, "grad_norm": 0.2236328125, "learning_rate": 0.0002976981659129813, "loss": 0.4668, "step": 42350 }, { "epoch": 112.96, "grad_norm": 0.244140625, "learning_rate": 0.00029769706853895834, "loss": 0.4655, "step": 42360 }, { "epoch": 112.98666666666666, "grad_norm": 0.326171875, "learning_rate": 0.0002976959709054407, "loss": 0.4789, "step": 42370 }, { "epoch": 113.0, "eval_loss": 0.4794241786003113, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.5463, "eval_samples_per_second": 1.517, "eval_steps_per_second": 0.095, "step": 42375 }, { "epoch": 113.01333333333334, "grad_norm": 0.26953125, "learning_rate": 0.00029769487301243045, "loss": 0.4678, "step": 42380 }, { "epoch": 113.04, "grad_norm": 0.2734375, "learning_rate": 0.0002976937748599294, "loss": 0.4923, "step": 42390 }, { "epoch": 113.06666666666666, "grad_norm": 0.4296875, "learning_rate": 0.0002976926764479395, "loss": 0.4798, "step": 42400 }, { "epoch": 113.09333333333333, "grad_norm": 0.26953125, "learning_rate": 0.0002976915777764628, "loss": 0.4748, "step": 42410 }, { "epoch": 113.12, "grad_norm": 0.373046875, "learning_rate": 0.000297690478845501, "loss": 0.4715, "step": 42420 }, { "epoch": 113.14666666666666, "grad_norm": 0.25390625, "learning_rate": 0.00029768937965505627, "loss": 0.48, "step": 42430 }, { "epoch": 113.17333333333333, "grad_norm": 0.3046875, "learning_rate": 0.00029768828020513037, "loss": 0.4706, "step": 42440 }, { "epoch": 113.2, "grad_norm": 0.33203125, "learning_rate": 0.00029768718049572534, "loss": 0.4686, "step": 42450 }, { "epoch": 113.22666666666667, "grad_norm": 0.26171875, "learning_rate": 0.0002976860805268431, "loss": 0.4668, "step": 42460 }, { "epoch": 113.25333333333333, "grad_norm": 0.296875, "learning_rate": 0.00029768498029848544, "loss": 0.4664, "step": 42470 }, { "epoch": 113.28, "grad_norm": 0.36328125, "learning_rate": 0.0002976838798106545, "loss": 0.4798, "step": 42480 }, { "epoch": 113.30666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002976827790633521, "loss": 0.4604, "step": 42490 }, { "epoch": 113.33333333333333, "grad_norm": 0.2490234375, "learning_rate": 0.0002976816780565802, "loss": 0.477, "step": 42500 }, { "epoch": 113.36, "grad_norm": 0.291015625, "learning_rate": 0.0002976805767903407, "loss": 0.4788, "step": 42510 }, { "epoch": 113.38666666666667, "grad_norm": 0.36328125, "learning_rate": 0.00029767947526463556, "loss": 0.4705, "step": 42520 }, { "epoch": 113.41333333333333, "grad_norm": 0.2734375, "learning_rate": 0.0002976783734794667, "loss": 0.4746, "step": 42530 }, { "epoch": 113.44, "grad_norm": 0.353515625, "learning_rate": 0.00029767727143483613, "loss": 0.4773, "step": 42540 }, { "epoch": 113.46666666666667, "grad_norm": 0.5390625, "learning_rate": 0.0002976761691307457, "loss": 0.4871, "step": 42550 }, { "epoch": 113.49333333333334, "grad_norm": 0.330078125, "learning_rate": 0.00029767506656719735, "loss": 0.4782, "step": 42560 }, { "epoch": 113.52, "grad_norm": 0.251953125, "learning_rate": 0.0002976739637441931, "loss": 0.4726, "step": 42570 }, { "epoch": 113.54666666666667, "grad_norm": 0.3203125, "learning_rate": 0.00029767286066173477, "loss": 0.4699, "step": 42580 }, { "epoch": 113.57333333333334, "grad_norm": 0.27734375, "learning_rate": 0.0002976717573198244, "loss": 0.469, "step": 42590 }, { "epoch": 113.6, "grad_norm": 0.318359375, "learning_rate": 0.00029767065371846384, "loss": 0.4624, "step": 42600 }, { "epoch": 113.62666666666667, "grad_norm": 0.251953125, "learning_rate": 0.00029766954985765515, "loss": 0.449, "step": 42610 }, { "epoch": 113.65333333333334, "grad_norm": 0.251953125, "learning_rate": 0.0002976684457374001, "loss": 0.4687, "step": 42620 }, { "epoch": 113.68, "grad_norm": 0.349609375, "learning_rate": 0.00029766734135770084, "loss": 0.4605, "step": 42630 }, { "epoch": 113.70666666666666, "grad_norm": 0.421875, "learning_rate": 0.0002976662367185592, "loss": 0.4611, "step": 42640 }, { "epoch": 113.73333333333333, "grad_norm": 0.275390625, "learning_rate": 0.000297665131819977, "loss": 0.4801, "step": 42650 }, { "epoch": 113.76, "grad_norm": 0.275390625, "learning_rate": 0.0002976640266619564, "loss": 0.4816, "step": 42660 }, { "epoch": 113.78666666666666, "grad_norm": 0.302734375, "learning_rate": 0.0002976629212444991, "loss": 0.4797, "step": 42670 }, { "epoch": 113.81333333333333, "grad_norm": 0.365234375, "learning_rate": 0.0002976618155676073, "loss": 0.4657, "step": 42680 }, { "epoch": 113.84, "grad_norm": 0.3828125, "learning_rate": 0.0002976607096312828, "loss": 0.4704, "step": 42690 }, { "epoch": 113.86666666666666, "grad_norm": 0.279296875, "learning_rate": 0.0002976596034355276, "loss": 0.4706, "step": 42700 }, { "epoch": 113.89333333333333, "grad_norm": 0.314453125, "learning_rate": 0.00029765849698034356, "loss": 0.4607, "step": 42710 }, { "epoch": 113.92, "grad_norm": 0.314453125, "learning_rate": 0.0002976573902657327, "loss": 0.4721, "step": 42720 }, { "epoch": 113.94666666666667, "grad_norm": 0.32421875, "learning_rate": 0.00029765628329169694, "loss": 0.4637, "step": 42730 }, { "epoch": 113.97333333333333, "grad_norm": 0.3046875, "learning_rate": 0.0002976551760582382, "loss": 0.4752, "step": 42740 }, { "epoch": 114.0, "grad_norm": 0.28515625, "learning_rate": 0.0002976540685653585, "loss": 0.4651, "step": 42750 }, { "epoch": 114.0, "eval_loss": 0.4796581268310547, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.6668, "eval_samples_per_second": 1.5, "eval_steps_per_second": 0.094, "step": 42750 }, { "epoch": 114.02666666666667, "grad_norm": 0.3515625, "learning_rate": 0.0002976529608130597, "loss": 0.4842, "step": 42760 }, { "epoch": 114.05333333333333, "grad_norm": 0.40625, "learning_rate": 0.00029765185280134377, "loss": 0.4899, "step": 42770 }, { "epoch": 114.08, "grad_norm": 0.42578125, "learning_rate": 0.0002976507445302127, "loss": 0.4774, "step": 42780 }, { "epoch": 114.10666666666667, "grad_norm": 0.37109375, "learning_rate": 0.00029764963599966833, "loss": 0.4719, "step": 42790 }, { "epoch": 114.13333333333334, "grad_norm": 0.494140625, "learning_rate": 0.00029764852720971276, "loss": 0.4739, "step": 42800 }, { "epoch": 114.16, "grad_norm": 0.404296875, "learning_rate": 0.0002976474181603478, "loss": 0.4781, "step": 42810 }, { "epoch": 114.18666666666667, "grad_norm": 0.201171875, "learning_rate": 0.00029764630885157554, "loss": 0.4698, "step": 42820 }, { "epoch": 114.21333333333334, "grad_norm": 0.298828125, "learning_rate": 0.0002976451992833978, "loss": 0.4648, "step": 42830 }, { "epoch": 114.24, "grad_norm": 0.361328125, "learning_rate": 0.0002976440894558166, "loss": 0.4698, "step": 42840 }, { "epoch": 114.26666666666667, "grad_norm": 0.2431640625, "learning_rate": 0.0002976429793688339, "loss": 0.4731, "step": 42850 }, { "epoch": 114.29333333333334, "grad_norm": 0.2490234375, "learning_rate": 0.0002976418690224515, "loss": 0.467, "step": 42860 }, { "epoch": 114.32, "grad_norm": 0.31640625, "learning_rate": 0.0002976407584166716, "loss": 0.4703, "step": 42870 }, { "epoch": 114.34666666666666, "grad_norm": 0.26953125, "learning_rate": 0.0002976396475514959, "loss": 0.4788, "step": 42880 }, { "epoch": 114.37333333333333, "grad_norm": 0.283203125, "learning_rate": 0.00029763853642692656, "loss": 0.4743, "step": 42890 }, { "epoch": 114.4, "grad_norm": 0.33984375, "learning_rate": 0.00029763742504296546, "loss": 0.4711, "step": 42900 }, { "epoch": 114.42666666666666, "grad_norm": 0.478515625, "learning_rate": 0.00029763631339961447, "loss": 0.4771, "step": 42910 }, { "epoch": 114.45333333333333, "grad_norm": 0.390625, "learning_rate": 0.00029763520149687564, "loss": 0.4793, "step": 42920 }, { "epoch": 114.48, "grad_norm": 0.474609375, "learning_rate": 0.0002976340893347509, "loss": 0.4862, "step": 42930 }, { "epoch": 114.50666666666666, "grad_norm": 0.376953125, "learning_rate": 0.0002976329769132421, "loss": 0.4753, "step": 42940 }, { "epoch": 114.53333333333333, "grad_norm": 0.48828125, "learning_rate": 0.00029763186423235145, "loss": 0.4691, "step": 42950 }, { "epoch": 114.56, "grad_norm": 0.380859375, "learning_rate": 0.00029763075129208064, "loss": 0.4707, "step": 42960 }, { "epoch": 114.58666666666667, "grad_norm": 0.41015625, "learning_rate": 0.0002976296380924318, "loss": 0.4663, "step": 42970 }, { "epoch": 114.61333333333333, "grad_norm": 0.251953125, "learning_rate": 0.0002976285246334068, "loss": 0.4525, "step": 42980 }, { "epoch": 114.64, "grad_norm": 0.265625, "learning_rate": 0.00029762741091500755, "loss": 0.4572, "step": 42990 }, { "epoch": 114.66666666666667, "grad_norm": 0.27734375, "learning_rate": 0.00029762629693723614, "loss": 0.4724, "step": 43000 }, { "epoch": 114.69333333333333, "grad_norm": 0.3203125, "learning_rate": 0.00029762518270009446, "loss": 0.4558, "step": 43010 }, { "epoch": 114.72, "grad_norm": 0.30078125, "learning_rate": 0.00029762406820358446, "loss": 0.473, "step": 43020 }, { "epoch": 114.74666666666667, "grad_norm": 0.375, "learning_rate": 0.0002976229534477081, "loss": 0.4767, "step": 43030 }, { "epoch": 114.77333333333333, "grad_norm": 0.302734375, "learning_rate": 0.0002976218384324673, "loss": 0.4848, "step": 43040 }, { "epoch": 114.8, "grad_norm": 0.353515625, "learning_rate": 0.0002976207231578641, "loss": 0.4718, "step": 43050 }, { "epoch": 114.82666666666667, "grad_norm": 0.408203125, "learning_rate": 0.0002976196076239004, "loss": 0.4654, "step": 43060 }, { "epoch": 114.85333333333334, "grad_norm": 0.30078125, "learning_rate": 0.0002976184918305782, "loss": 0.4749, "step": 43070 }, { "epoch": 114.88, "grad_norm": 0.3515625, "learning_rate": 0.00029761737577789943, "loss": 0.463, "step": 43080 }, { "epoch": 114.90666666666667, "grad_norm": 0.28515625, "learning_rate": 0.00029761625946586606, "loss": 0.4658, "step": 43090 }, { "epoch": 114.93333333333334, "grad_norm": 0.21484375, "learning_rate": 0.00029761514289448004, "loss": 0.4678, "step": 43100 }, { "epoch": 114.96, "grad_norm": 0.3515625, "learning_rate": 0.0002976140260637434, "loss": 0.4658, "step": 43110 }, { "epoch": 114.98666666666666, "grad_norm": 0.3671875, "learning_rate": 0.000297612908973658, "loss": 0.4793, "step": 43120 }, { "epoch": 115.0, "eval_loss": 0.4808712601661682, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.2067, "eval_samples_per_second": 1.568, "eval_steps_per_second": 0.098, "step": 43125 }, { "epoch": 115.01333333333334, "grad_norm": 0.341796875, "learning_rate": 0.0002976117916242259, "loss": 0.4681, "step": 43130 }, { "epoch": 115.04, "grad_norm": 0.310546875, "learning_rate": 0.00029761067401544894, "loss": 0.4929, "step": 43140 }, { "epoch": 115.06666666666666, "grad_norm": 0.36328125, "learning_rate": 0.0002976095561473292, "loss": 0.48, "step": 43150 }, { "epoch": 115.09333333333333, "grad_norm": 0.271484375, "learning_rate": 0.0002976084380198686, "loss": 0.4749, "step": 43160 }, { "epoch": 115.12, "grad_norm": 0.2578125, "learning_rate": 0.0002976073196330691, "loss": 0.4716, "step": 43170 }, { "epoch": 115.14666666666666, "grad_norm": 0.3046875, "learning_rate": 0.00029760620098693273, "loss": 0.48, "step": 43180 }, { "epoch": 115.17333333333333, "grad_norm": 0.255859375, "learning_rate": 0.0002976050820814613, "loss": 0.4709, "step": 43190 }, { "epoch": 115.2, "grad_norm": 0.2890625, "learning_rate": 0.0002976039629166569, "loss": 0.469, "step": 43200 }, { "epoch": 115.22666666666667, "grad_norm": 0.26953125, "learning_rate": 0.0002976028434925215, "loss": 0.4668, "step": 43210 }, { "epoch": 115.25333333333333, "grad_norm": 0.3125, "learning_rate": 0.000297601723809057, "loss": 0.4669, "step": 43220 }, { "epoch": 115.28, "grad_norm": 0.3671875, "learning_rate": 0.00029760060386626545, "loss": 0.4802, "step": 43230 }, { "epoch": 115.30666666666667, "grad_norm": 0.306640625, "learning_rate": 0.00029759948366414867, "loss": 0.461, "step": 43240 }, { "epoch": 115.33333333333333, "grad_norm": 0.314453125, "learning_rate": 0.0002975983632027088, "loss": 0.4762, "step": 43250 }, { "epoch": 115.36, "grad_norm": 0.314453125, "learning_rate": 0.00029759724248194775, "loss": 0.4794, "step": 43260 }, { "epoch": 115.38666666666667, "grad_norm": 0.412109375, "learning_rate": 0.00029759612150186745, "loss": 0.4701, "step": 43270 }, { "epoch": 115.41333333333333, "grad_norm": 0.4453125, "learning_rate": 0.0002975950002624699, "loss": 0.4749, "step": 43280 }, { "epoch": 115.44, "grad_norm": 0.255859375, "learning_rate": 0.00029759387876375704, "loss": 0.478, "step": 43290 }, { "epoch": 115.46666666666667, "grad_norm": 0.33984375, "learning_rate": 0.0002975927570057309, "loss": 0.488, "step": 43300 }, { "epoch": 115.49333333333334, "grad_norm": 0.359375, "learning_rate": 0.0002975916349883934, "loss": 0.4784, "step": 43310 }, { "epoch": 115.52, "grad_norm": 0.29296875, "learning_rate": 0.0002975905127117465, "loss": 0.4729, "step": 43320 }, { "epoch": 115.54666666666667, "grad_norm": 0.333984375, "learning_rate": 0.00029758939017579224, "loss": 0.4695, "step": 43330 }, { "epoch": 115.57333333333334, "grad_norm": 0.298828125, "learning_rate": 0.00029758826738053253, "loss": 0.4689, "step": 43340 }, { "epoch": 115.6, "grad_norm": 0.353515625, "learning_rate": 0.0002975871443259694, "loss": 0.4629, "step": 43350 }, { "epoch": 115.62666666666667, "grad_norm": 0.275390625, "learning_rate": 0.00029758602101210473, "loss": 0.4496, "step": 43360 }, { "epoch": 115.65333333333334, "grad_norm": 0.306640625, "learning_rate": 0.0002975848974389406, "loss": 0.4695, "step": 43370 }, { "epoch": 115.68, "grad_norm": 0.2421875, "learning_rate": 0.0002975837736064789, "loss": 0.4606, "step": 43380 }, { "epoch": 115.70666666666666, "grad_norm": 0.35546875, "learning_rate": 0.00029758264951472164, "loss": 0.4603, "step": 43390 }, { "epoch": 115.73333333333333, "grad_norm": 0.46484375, "learning_rate": 0.00029758152516367085, "loss": 0.4803, "step": 43400 }, { "epoch": 115.76, "grad_norm": 0.3671875, "learning_rate": 0.0002975804005533284, "loss": 0.4816, "step": 43410 }, { "epoch": 115.78666666666666, "grad_norm": 0.271484375, "learning_rate": 0.0002975792756836963, "loss": 0.48, "step": 43420 }, { "epoch": 115.81333333333333, "grad_norm": 0.447265625, "learning_rate": 0.0002975781505547766, "loss": 0.4653, "step": 43430 }, { "epoch": 115.84, "grad_norm": 0.388671875, "learning_rate": 0.0002975770251665712, "loss": 0.4708, "step": 43440 }, { "epoch": 115.86666666666666, "grad_norm": 0.279296875, "learning_rate": 0.000297575899519082, "loss": 0.4703, "step": 43450 }, { "epoch": 115.89333333333333, "grad_norm": 0.361328125, "learning_rate": 0.0002975747736123112, "loss": 0.4607, "step": 43460 }, { "epoch": 115.92, "grad_norm": 0.33203125, "learning_rate": 0.0002975736474462606, "loss": 0.4714, "step": 43470 }, { "epoch": 115.94666666666667, "grad_norm": 0.3203125, "learning_rate": 0.00029757252102093225, "loss": 0.4646, "step": 43480 }, { "epoch": 115.97333333333333, "grad_norm": 0.279296875, "learning_rate": 0.0002975713943363281, "loss": 0.4753, "step": 43490 }, { "epoch": 116.0, "grad_norm": 0.322265625, "learning_rate": 0.00029757026739245007, "loss": 0.4636, "step": 43500 }, { "epoch": 116.0, "eval_loss": 0.4808787405490875, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.7649, "eval_samples_per_second": 1.639, "eval_steps_per_second": 0.102, "step": 43500 }, { "epoch": 116.02666666666667, "grad_norm": 0.28125, "learning_rate": 0.0002975691401893003, "loss": 0.4842, "step": 43510 }, { "epoch": 116.05333333333333, "grad_norm": 0.33203125, "learning_rate": 0.00029756801272688065, "loss": 0.4897, "step": 43520 }, { "epoch": 116.08, "grad_norm": 0.3125, "learning_rate": 0.00029756688500519313, "loss": 0.4768, "step": 43530 }, { "epoch": 116.10666666666667, "grad_norm": 0.22265625, "learning_rate": 0.00029756575702423975, "loss": 0.4726, "step": 43540 }, { "epoch": 116.13333333333334, "grad_norm": 0.271484375, "learning_rate": 0.0002975646287840224, "loss": 0.4738, "step": 43550 }, { "epoch": 116.16, "grad_norm": 0.287109375, "learning_rate": 0.0002975635002845432, "loss": 0.478, "step": 43560 }, { "epoch": 116.18666666666667, "grad_norm": 0.28515625, "learning_rate": 0.00029756237152580396, "loss": 0.47, "step": 43570 }, { "epoch": 116.21333333333334, "grad_norm": 0.392578125, "learning_rate": 0.00029756124250780686, "loss": 0.4647, "step": 43580 }, { "epoch": 116.24, "grad_norm": 0.390625, "learning_rate": 0.0002975601132305537, "loss": 0.468, "step": 43590 }, { "epoch": 116.26666666666667, "grad_norm": 0.28125, "learning_rate": 0.00029755898369404664, "loss": 0.4731, "step": 43600 }, { "epoch": 116.29333333333334, "grad_norm": 0.2373046875, "learning_rate": 0.0002975578538982875, "loss": 0.4676, "step": 43610 }, { "epoch": 116.32, "grad_norm": 0.3046875, "learning_rate": 0.0002975567238432784, "loss": 0.4704, "step": 43620 }, { "epoch": 116.34666666666666, "grad_norm": 0.310546875, "learning_rate": 0.0002975555935290212, "loss": 0.4787, "step": 43630 }, { "epoch": 116.37333333333333, "grad_norm": 0.30859375, "learning_rate": 0.000297554462955518, "loss": 0.4744, "step": 43640 }, { "epoch": 116.4, "grad_norm": 0.349609375, "learning_rate": 0.00029755333212277073, "loss": 0.4714, "step": 43650 }, { "epoch": 116.42666666666666, "grad_norm": 0.326171875, "learning_rate": 0.00029755220103078135, "loss": 0.4774, "step": 43660 }, { "epoch": 116.45333333333333, "grad_norm": 0.28125, "learning_rate": 0.0002975510696795519, "loss": 0.48, "step": 43670 }, { "epoch": 116.48, "grad_norm": 0.32421875, "learning_rate": 0.00029754993806908436, "loss": 0.4857, "step": 43680 }, { "epoch": 116.50666666666666, "grad_norm": 0.322265625, "learning_rate": 0.0002975488061993807, "loss": 0.4761, "step": 43690 }, { "epoch": 116.53333333333333, "grad_norm": 0.3359375, "learning_rate": 0.0002975476740704429, "loss": 0.4692, "step": 43700 }, { "epoch": 116.56, "grad_norm": 0.3125, "learning_rate": 0.00029754654168227297, "loss": 0.4703, "step": 43710 }, { "epoch": 116.58666666666667, "grad_norm": 0.345703125, "learning_rate": 0.0002975454090348729, "loss": 0.4665, "step": 43720 }, { "epoch": 116.61333333333333, "grad_norm": 0.34375, "learning_rate": 0.00029754427612824463, "loss": 0.4525, "step": 43730 }, { "epoch": 116.64, "grad_norm": 0.328125, "learning_rate": 0.00029754314296239024, "loss": 0.4574, "step": 43740 }, { "epoch": 116.66666666666667, "grad_norm": 0.37109375, "learning_rate": 0.0002975420095373117, "loss": 0.4729, "step": 43750 }, { "epoch": 116.69333333333333, "grad_norm": 0.26953125, "learning_rate": 0.0002975408758530109, "loss": 0.4562, "step": 43760 }, { "epoch": 116.72, "grad_norm": 0.37890625, "learning_rate": 0.00029753974190948994, "loss": 0.4727, "step": 43770 }, { "epoch": 116.74666666666667, "grad_norm": 0.4609375, "learning_rate": 0.00029753860770675083, "loss": 0.4767, "step": 43780 }, { "epoch": 116.77333333333333, "grad_norm": 0.380859375, "learning_rate": 0.00029753747324479546, "loss": 0.485, "step": 43790 }, { "epoch": 116.8, "grad_norm": 0.326171875, "learning_rate": 0.0002975363385236259, "loss": 0.4714, "step": 43800 }, { "epoch": 116.82666666666667, "grad_norm": 0.341796875, "learning_rate": 0.0002975352035432441, "loss": 0.4661, "step": 43810 }, { "epoch": 116.85333333333334, "grad_norm": 0.318359375, "learning_rate": 0.0002975340683036521, "loss": 0.4746, "step": 43820 }, { "epoch": 116.88, "grad_norm": 0.298828125, "learning_rate": 0.00029753293280485184, "loss": 0.4624, "step": 43830 }, { "epoch": 116.90666666666667, "grad_norm": 0.26171875, "learning_rate": 0.0002975317970468453, "loss": 0.4657, "step": 43840 }, { "epoch": 116.93333333333334, "grad_norm": 0.3359375, "learning_rate": 0.00029753066102963463, "loss": 0.4672, "step": 43850 }, { "epoch": 116.96, "grad_norm": 0.38671875, "learning_rate": 0.00029752952475322166, "loss": 0.466, "step": 43860 }, { "epoch": 116.98666666666666, "grad_norm": 0.314453125, "learning_rate": 0.0002975283882176084, "loss": 0.4789, "step": 43870 }, { "epoch": 117.0, "eval_loss": 0.4790605902671814, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.8144, "eval_samples_per_second": 1.63, "eval_steps_per_second": 0.102, "step": 43875 }, { "epoch": 117.01333333333334, "grad_norm": 0.359375, "learning_rate": 0.00029752725142279693, "loss": 0.4681, "step": 43880 }, { "epoch": 117.04, "grad_norm": 0.275390625, "learning_rate": 0.00029752611436878923, "loss": 0.4925, "step": 43890 }, { "epoch": 117.06666666666666, "grad_norm": 0.482421875, "learning_rate": 0.0002975249770555872, "loss": 0.4798, "step": 43900 }, { "epoch": 117.09333333333333, "grad_norm": 0.28125, "learning_rate": 0.000297523839483193, "loss": 0.4755, "step": 43910 }, { "epoch": 117.12, "grad_norm": 0.306640625, "learning_rate": 0.0002975227016516085, "loss": 0.471, "step": 43920 }, { "epoch": 117.14666666666666, "grad_norm": 0.251953125, "learning_rate": 0.0002975215635608357, "loss": 0.4792, "step": 43930 }, { "epoch": 117.17333333333333, "grad_norm": 0.328125, "learning_rate": 0.00029752042521087667, "loss": 0.4708, "step": 43940 }, { "epoch": 117.2, "grad_norm": 0.28515625, "learning_rate": 0.0002975192866017334, "loss": 0.4687, "step": 43950 }, { "epoch": 117.22666666666667, "grad_norm": 0.267578125, "learning_rate": 0.0002975181477334079, "loss": 0.4661, "step": 43960 }, { "epoch": 117.25333333333333, "grad_norm": 0.376953125, "learning_rate": 0.00029751700860590203, "loss": 0.4662, "step": 43970 }, { "epoch": 117.28, "grad_norm": 0.3515625, "learning_rate": 0.00029751586921921797, "loss": 0.4794, "step": 43980 }, { "epoch": 117.30666666666667, "grad_norm": 0.30859375, "learning_rate": 0.00029751472957335764, "loss": 0.4615, "step": 43990 }, { "epoch": 117.33333333333333, "grad_norm": 0.333984375, "learning_rate": 0.0002975135896683231, "loss": 0.477, "step": 44000 }, { "epoch": 117.36, "grad_norm": 0.32421875, "learning_rate": 0.00029751244950411627, "loss": 0.4783, "step": 44010 }, { "epoch": 117.38666666666667, "grad_norm": 0.388671875, "learning_rate": 0.00029751130908073917, "loss": 0.4705, "step": 44020 }, { "epoch": 117.41333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029751016839819384, "loss": 0.4746, "step": 44030 }, { "epoch": 117.44, "grad_norm": 0.3671875, "learning_rate": 0.00029750902745648224, "loss": 0.4778, "step": 44040 }, { "epoch": 117.46666666666667, "grad_norm": 0.404296875, "learning_rate": 0.00029750788625560647, "loss": 0.4873, "step": 44050 }, { "epoch": 117.49333333333334, "grad_norm": 0.353515625, "learning_rate": 0.00029750674479556843, "loss": 0.4787, "step": 44060 }, { "epoch": 117.52, "grad_norm": 0.29296875, "learning_rate": 0.00029750560307637014, "loss": 0.4729, "step": 44070 }, { "epoch": 117.54666666666667, "grad_norm": 0.306640625, "learning_rate": 0.00029750446109801364, "loss": 0.4697, "step": 44080 }, { "epoch": 117.57333333333334, "grad_norm": 0.27734375, "learning_rate": 0.00029750331886050095, "loss": 0.4696, "step": 44090 }, { "epoch": 117.6, "grad_norm": 0.345703125, "learning_rate": 0.00029750217636383407, "loss": 0.4623, "step": 44100 }, { "epoch": 117.62666666666667, "grad_norm": 0.275390625, "learning_rate": 0.00029750103360801495, "loss": 0.4496, "step": 44110 }, { "epoch": 117.65333333333334, "grad_norm": 0.326171875, "learning_rate": 0.0002974998905930457, "loss": 0.4692, "step": 44120 }, { "epoch": 117.68, "grad_norm": 0.353515625, "learning_rate": 0.0002974987473189282, "loss": 0.4602, "step": 44130 }, { "epoch": 117.70666666666666, "grad_norm": 0.435546875, "learning_rate": 0.00029749760378566456, "loss": 0.4603, "step": 44140 }, { "epoch": 117.73333333333333, "grad_norm": 0.3203125, "learning_rate": 0.0002974964599932567, "loss": 0.4803, "step": 44150 }, { "epoch": 117.76, "grad_norm": 0.484375, "learning_rate": 0.00029749531594170677, "loss": 0.4807, "step": 44160 }, { "epoch": 117.78666666666666, "grad_norm": 0.376953125, "learning_rate": 0.0002974941716310166, "loss": 0.4799, "step": 44170 }, { "epoch": 117.81333333333333, "grad_norm": 0.4453125, "learning_rate": 0.0002974930270611884, "loss": 0.4655, "step": 44180 }, { "epoch": 117.84, "grad_norm": 0.298828125, "learning_rate": 0.000297491882232224, "loss": 0.4709, "step": 44190 }, { "epoch": 117.86666666666666, "grad_norm": 0.375, "learning_rate": 0.0002974907371441255, "loss": 0.47, "step": 44200 }, { "epoch": 117.89333333333333, "grad_norm": 0.359375, "learning_rate": 0.0002974895917968949, "loss": 0.4611, "step": 44210 }, { "epoch": 117.92, "grad_norm": 0.2255859375, "learning_rate": 0.0002974884461905342, "loss": 0.4718, "step": 44220 }, { "epoch": 117.94666666666667, "grad_norm": 0.279296875, "learning_rate": 0.00029748730032504547, "loss": 0.4637, "step": 44230 }, { "epoch": 117.97333333333333, "grad_norm": 0.291015625, "learning_rate": 0.00029748615420043065, "loss": 0.4752, "step": 44240 }, { "epoch": 118.0, "grad_norm": 0.345703125, "learning_rate": 0.00029748500781669174, "loss": 0.4638, "step": 44250 }, { "epoch": 118.0, "eval_loss": 0.4791935682296753, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.4583, "eval_samples_per_second": 1.53, "eval_steps_per_second": 0.096, "step": 44250 }, { "epoch": 118.02666666666667, "grad_norm": 0.26953125, "learning_rate": 0.00029748386117383084, "loss": 0.4837, "step": 44260 }, { "epoch": 118.05333333333333, "grad_norm": 0.3984375, "learning_rate": 0.00029748271427184995, "loss": 0.4899, "step": 44270 }, { "epoch": 118.08, "grad_norm": 0.333984375, "learning_rate": 0.00029748156711075093, "loss": 0.4766, "step": 44280 }, { "epoch": 118.10666666666667, "grad_norm": 0.271484375, "learning_rate": 0.00029748041969053605, "loss": 0.472, "step": 44290 }, { "epoch": 118.13333333333334, "grad_norm": 0.3203125, "learning_rate": 0.00029747927201120714, "loss": 0.4732, "step": 44300 }, { "epoch": 118.16, "grad_norm": 0.32421875, "learning_rate": 0.0002974781240727663, "loss": 0.4783, "step": 44310 }, { "epoch": 118.18666666666667, "grad_norm": 0.28125, "learning_rate": 0.00029747697587521546, "loss": 0.4708, "step": 44320 }, { "epoch": 118.21333333333334, "grad_norm": 0.333984375, "learning_rate": 0.00029747582741855675, "loss": 0.4646, "step": 44330 }, { "epoch": 118.24, "grad_norm": 0.384765625, "learning_rate": 0.0002974746787027921, "loss": 0.4689, "step": 44340 }, { "epoch": 118.26666666666667, "grad_norm": 0.2373046875, "learning_rate": 0.0002974735297279236, "loss": 0.4728, "step": 44350 }, { "epoch": 118.29333333333334, "grad_norm": 0.291015625, "learning_rate": 0.0002974723804939532, "loss": 0.4664, "step": 44360 }, { "epoch": 118.32, "grad_norm": 0.24609375, "learning_rate": 0.00029747123100088297, "loss": 0.4707, "step": 44370 }, { "epoch": 118.34666666666666, "grad_norm": 0.384765625, "learning_rate": 0.00029747008124871493, "loss": 0.4788, "step": 44380 }, { "epoch": 118.37333333333333, "grad_norm": 0.357421875, "learning_rate": 0.00029746893123745104, "loss": 0.474, "step": 44390 }, { "epoch": 118.4, "grad_norm": 0.322265625, "learning_rate": 0.00029746778096709334, "loss": 0.4713, "step": 44400 }, { "epoch": 118.42666666666666, "grad_norm": 0.23046875, "learning_rate": 0.0002974666304376439, "loss": 0.4774, "step": 44410 }, { "epoch": 118.45333333333333, "grad_norm": 0.2734375, "learning_rate": 0.00029746547964910473, "loss": 0.4794, "step": 44420 }, { "epoch": 118.48, "grad_norm": 0.30078125, "learning_rate": 0.00029746432860147784, "loss": 0.4853, "step": 44430 }, { "epoch": 118.50666666666666, "grad_norm": 0.26953125, "learning_rate": 0.0002974631772947652, "loss": 0.4755, "step": 44440 }, { "epoch": 118.53333333333333, "grad_norm": 0.3203125, "learning_rate": 0.00029746202572896894, "loss": 0.4693, "step": 44450 }, { "epoch": 118.56, "grad_norm": 0.27734375, "learning_rate": 0.00029746087390409095, "loss": 0.4702, "step": 44460 }, { "epoch": 118.58666666666667, "grad_norm": 0.294921875, "learning_rate": 0.00029745972182013337, "loss": 0.4665, "step": 44470 }, { "epoch": 118.61333333333333, "grad_norm": 0.31640625, "learning_rate": 0.0002974585694770982, "loss": 0.4527, "step": 44480 }, { "epoch": 118.64, "grad_norm": 0.23046875, "learning_rate": 0.0002974574168749874, "loss": 0.4576, "step": 44490 }, { "epoch": 118.66666666666667, "grad_norm": 0.41015625, "learning_rate": 0.00029745626401380304, "loss": 0.4724, "step": 44500 }, { "epoch": 118.69333333333333, "grad_norm": 0.25390625, "learning_rate": 0.0002974551108935472, "loss": 0.455, "step": 44510 }, { "epoch": 118.72, "grad_norm": 0.392578125, "learning_rate": 0.00029745395751422176, "loss": 0.4728, "step": 44520 }, { "epoch": 118.74666666666667, "grad_norm": 0.322265625, "learning_rate": 0.00029745280387582894, "loss": 0.4765, "step": 44530 }, { "epoch": 118.77333333333333, "grad_norm": 0.37109375, "learning_rate": 0.0002974516499783706, "loss": 0.4842, "step": 44540 }, { "epoch": 118.8, "grad_norm": 0.37890625, "learning_rate": 0.00029745049582184885, "loss": 0.4714, "step": 44550 }, { "epoch": 118.82666666666667, "grad_norm": 0.337890625, "learning_rate": 0.0002974493414062657, "loss": 0.466, "step": 44560 }, { "epoch": 118.85333333333334, "grad_norm": 0.412109375, "learning_rate": 0.0002974481867316232, "loss": 0.4749, "step": 44570 }, { "epoch": 118.88, "grad_norm": 0.33203125, "learning_rate": 0.00029744703179792334, "loss": 0.4631, "step": 44580 }, { "epoch": 118.90666666666667, "grad_norm": 0.328125, "learning_rate": 0.00029744587660516814, "loss": 0.4656, "step": 44590 }, { "epoch": 118.93333333333334, "grad_norm": 0.287109375, "learning_rate": 0.0002974447211533597, "loss": 0.467, "step": 44600 }, { "epoch": 118.96, "grad_norm": 0.314453125, "learning_rate": 0.00029744356544249994, "loss": 0.4655, "step": 44610 }, { "epoch": 118.98666666666666, "grad_norm": 0.3359375, "learning_rate": 0.00029744240947259106, "loss": 0.4791, "step": 44620 }, { "epoch": 119.0, "eval_loss": 0.47937506437301636, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.9759, "eval_samples_per_second": 1.604, "eval_steps_per_second": 0.1, "step": 44625 }, { "epoch": 119.01333333333334, "grad_norm": 0.3046875, "learning_rate": 0.0002974412532436349, "loss": 0.4683, "step": 44630 }, { "epoch": 119.04, "grad_norm": 0.435546875, "learning_rate": 0.0002974400967556336, "loss": 0.4924, "step": 44640 }, { "epoch": 119.06666666666666, "grad_norm": 0.42578125, "learning_rate": 0.0002974389400085892, "loss": 0.4798, "step": 44650 }, { "epoch": 119.09333333333333, "grad_norm": 0.396484375, "learning_rate": 0.00029743778300250366, "loss": 0.4742, "step": 44660 }, { "epoch": 119.12, "grad_norm": 0.29296875, "learning_rate": 0.00029743662573737906, "loss": 0.4712, "step": 44670 }, { "epoch": 119.14666666666666, "grad_norm": 0.263671875, "learning_rate": 0.00029743546821321747, "loss": 0.4796, "step": 44680 }, { "epoch": 119.17333333333333, "grad_norm": 0.365234375, "learning_rate": 0.00029743431043002084, "loss": 0.4706, "step": 44690 }, { "epoch": 119.2, "grad_norm": 0.283203125, "learning_rate": 0.00029743315238779124, "loss": 0.4691, "step": 44700 }, { "epoch": 119.22666666666667, "grad_norm": 0.263671875, "learning_rate": 0.0002974319940865308, "loss": 0.4663, "step": 44710 }, { "epoch": 119.25333333333333, "grad_norm": 0.28515625, "learning_rate": 0.0002974308355262414, "loss": 0.4663, "step": 44720 }, { "epoch": 119.28, "grad_norm": 0.330078125, "learning_rate": 0.00029742967670692513, "loss": 0.4796, "step": 44730 }, { "epoch": 119.30666666666667, "grad_norm": 0.267578125, "learning_rate": 0.00029742851762858406, "loss": 0.4615, "step": 44740 }, { "epoch": 119.33333333333333, "grad_norm": 0.3515625, "learning_rate": 0.0002974273582912202, "loss": 0.4771, "step": 44750 }, { "epoch": 119.36, "grad_norm": 0.345703125, "learning_rate": 0.00029742619869483554, "loss": 0.478, "step": 44760 }, { "epoch": 119.38666666666667, "grad_norm": 0.41015625, "learning_rate": 0.00029742503883943225, "loss": 0.4705, "step": 44770 }, { "epoch": 119.41333333333333, "grad_norm": 0.41015625, "learning_rate": 0.00029742387872501224, "loss": 0.475, "step": 44780 }, { "epoch": 119.44, "grad_norm": 0.32421875, "learning_rate": 0.00029742271835157764, "loss": 0.4775, "step": 44790 }, { "epoch": 119.46666666666667, "grad_norm": 0.380859375, "learning_rate": 0.0002974215577191304, "loss": 0.4862, "step": 44800 }, { "epoch": 119.49333333333334, "grad_norm": 0.3515625, "learning_rate": 0.00029742039682767256, "loss": 0.4782, "step": 44810 }, { "epoch": 119.52, "grad_norm": 0.2451171875, "learning_rate": 0.00029741923567720626, "loss": 0.4724, "step": 44820 }, { "epoch": 119.54666666666667, "grad_norm": 0.322265625, "learning_rate": 0.0002974180742677335, "loss": 0.4687, "step": 44830 }, { "epoch": 119.57333333333334, "grad_norm": 0.37109375, "learning_rate": 0.00029741691259925626, "loss": 0.4681, "step": 44840 }, { "epoch": 119.6, "grad_norm": 0.400390625, "learning_rate": 0.0002974157506717767, "loss": 0.4623, "step": 44850 }, { "epoch": 119.62666666666667, "grad_norm": 0.37890625, "learning_rate": 0.0002974145884852967, "loss": 0.4492, "step": 44860 }, { "epoch": 119.65333333333334, "grad_norm": 0.3046875, "learning_rate": 0.0002974134260398184, "loss": 0.4691, "step": 44870 }, { "epoch": 119.68, "grad_norm": 0.3359375, "learning_rate": 0.0002974122633353438, "loss": 0.4607, "step": 44880 }, { "epoch": 119.70666666666666, "grad_norm": 0.388671875, "learning_rate": 0.00029741110037187507, "loss": 0.4608, "step": 44890 }, { "epoch": 119.73333333333333, "grad_norm": 0.34375, "learning_rate": 0.0002974099371494141, "loss": 0.4801, "step": 44900 }, { "epoch": 119.76, "grad_norm": 0.388671875, "learning_rate": 0.00029740877366796296, "loss": 0.4814, "step": 44910 }, { "epoch": 119.78666666666666, "grad_norm": 0.2578125, "learning_rate": 0.0002974076099275238, "loss": 0.4795, "step": 44920 }, { "epoch": 119.81333333333333, "grad_norm": 0.337890625, "learning_rate": 0.0002974064459280985, "loss": 0.4651, "step": 44930 }, { "epoch": 119.84, "grad_norm": 0.3671875, "learning_rate": 0.00029740528166968924, "loss": 0.4708, "step": 44940 }, { "epoch": 119.86666666666666, "grad_norm": 0.3515625, "learning_rate": 0.00029740411715229804, "loss": 0.4697, "step": 44950 }, { "epoch": 119.89333333333333, "grad_norm": 0.33984375, "learning_rate": 0.00029740295237592687, "loss": 0.4613, "step": 44960 }, { "epoch": 119.92, "grad_norm": 0.29296875, "learning_rate": 0.00029740178734057786, "loss": 0.4714, "step": 44970 }, { "epoch": 119.94666666666667, "grad_norm": 0.294921875, "learning_rate": 0.000297400622046253, "loss": 0.4638, "step": 44980 }, { "epoch": 119.97333333333333, "grad_norm": 0.33203125, "learning_rate": 0.00029739945649295444, "loss": 0.4755, "step": 44990 }, { "epoch": 120.0, "grad_norm": 0.3515625, "learning_rate": 0.0002973982906806841, "loss": 0.4641, "step": 45000 }, { "epoch": 120.0, "eval_loss": 0.4796341061592102, "eval_model_preparation_time": 0.0016, "eval_runtime": 11.2339, "eval_samples_per_second": 1.424, "eval_steps_per_second": 0.089, "step": 45000 }, { "epoch": 120.02666666666667, "grad_norm": 0.48046875, "learning_rate": 0.00029739712460944405, "loss": 0.4851, "step": 45010 }, { "epoch": 120.05333333333333, "grad_norm": 0.359375, "learning_rate": 0.00029739595827923645, "loss": 0.4904, "step": 45020 }, { "epoch": 120.08, "grad_norm": 0.28125, "learning_rate": 0.0002973947916900632, "loss": 0.4766, "step": 45030 }, { "epoch": 120.10666666666667, "grad_norm": 0.2890625, "learning_rate": 0.0002973936248419264, "loss": 0.4719, "step": 45040 }, { "epoch": 120.13333333333334, "grad_norm": 0.259765625, "learning_rate": 0.0002973924577348282, "loss": 0.4733, "step": 45050 }, { "epoch": 120.16, "grad_norm": 0.3515625, "learning_rate": 0.0002973912903687705, "loss": 0.4774, "step": 45060 }, { "epoch": 120.18666666666667, "grad_norm": 0.2734375, "learning_rate": 0.0002973901227437555, "loss": 0.4702, "step": 45070 }, { "epoch": 120.21333333333334, "grad_norm": 0.275390625, "learning_rate": 0.0002973889548597851, "loss": 0.4644, "step": 45080 }, { "epoch": 120.24, "grad_norm": 0.400390625, "learning_rate": 0.00029738778671686145, "loss": 0.4692, "step": 45090 }, { "epoch": 120.26666666666667, "grad_norm": 0.283203125, "learning_rate": 0.0002973866183149866, "loss": 0.4728, "step": 45100 }, { "epoch": 120.29333333333334, "grad_norm": 0.337890625, "learning_rate": 0.00029738544965416254, "loss": 0.4675, "step": 45110 }, { "epoch": 120.32, "grad_norm": 0.2236328125, "learning_rate": 0.00029738428073439134, "loss": 0.4706, "step": 45120 }, { "epoch": 120.34666666666666, "grad_norm": 0.359375, "learning_rate": 0.0002973831115556751, "loss": 0.4782, "step": 45130 }, { "epoch": 120.37333333333333, "grad_norm": 0.390625, "learning_rate": 0.00029738194211801586, "loss": 0.4746, "step": 45140 }, { "epoch": 120.4, "grad_norm": 0.318359375, "learning_rate": 0.0002973807724214157, "loss": 0.4714, "step": 45150 }, { "epoch": 120.42666666666666, "grad_norm": 0.46875, "learning_rate": 0.00029737960246587657, "loss": 0.4782, "step": 45160 }, { "epoch": 120.45333333333333, "grad_norm": 0.31640625, "learning_rate": 0.00029737843225140063, "loss": 0.4793, "step": 45170 }, { "epoch": 120.48, "grad_norm": 0.283203125, "learning_rate": 0.00029737726177798995, "loss": 0.4853, "step": 45180 }, { "epoch": 120.50666666666666, "grad_norm": 0.298828125, "learning_rate": 0.00029737609104564647, "loss": 0.4748, "step": 45190 }, { "epoch": 120.53333333333333, "grad_norm": 0.30859375, "learning_rate": 0.0002973749200543723, "loss": 0.4686, "step": 45200 }, { "epoch": 120.56, "grad_norm": 0.291015625, "learning_rate": 0.0002973737488041696, "loss": 0.4704, "step": 45210 }, { "epoch": 120.58666666666667, "grad_norm": 0.318359375, "learning_rate": 0.00029737257729504023, "loss": 0.466, "step": 45220 }, { "epoch": 120.61333333333333, "grad_norm": 0.34375, "learning_rate": 0.0002973714055269864, "loss": 0.4523, "step": 45230 }, { "epoch": 120.64, "grad_norm": 0.31640625, "learning_rate": 0.00029737023350001016, "loss": 0.4571, "step": 45240 }, { "epoch": 120.66666666666667, "grad_norm": 0.306640625, "learning_rate": 0.0002973690612141135, "loss": 0.4724, "step": 45250 }, { "epoch": 120.69333333333333, "grad_norm": 0.326171875, "learning_rate": 0.0002973678886692985, "loss": 0.4564, "step": 45260 }, { "epoch": 120.72, "grad_norm": 0.240234375, "learning_rate": 0.0002973667158655673, "loss": 0.4723, "step": 45270 }, { "epoch": 120.74666666666667, "grad_norm": 0.228515625, "learning_rate": 0.0002973655428029218, "loss": 0.4769, "step": 45280 }, { "epoch": 120.77333333333333, "grad_norm": 0.287109375, "learning_rate": 0.0002973643694813643, "loss": 0.4835, "step": 45290 }, { "epoch": 120.8, "grad_norm": 0.39453125, "learning_rate": 0.0002973631959008966, "loss": 0.4716, "step": 45300 }, { "epoch": 120.82666666666667, "grad_norm": 0.3671875, "learning_rate": 0.000297362022061521, "loss": 0.4661, "step": 45310 }, { "epoch": 120.85333333333334, "grad_norm": 0.34765625, "learning_rate": 0.00029736084796323927, "loss": 0.4749, "step": 45320 }, { "epoch": 120.88, "grad_norm": 0.291015625, "learning_rate": 0.00029735967360605377, "loss": 0.4629, "step": 45330 }, { "epoch": 120.90666666666667, "grad_norm": 0.32421875, "learning_rate": 0.0002973584989899664, "loss": 0.4658, "step": 45340 }, { "epoch": 120.93333333333334, "grad_norm": 0.244140625, "learning_rate": 0.00029735732411497926, "loss": 0.4665, "step": 45350 }, { "epoch": 120.96, "grad_norm": 0.359375, "learning_rate": 0.0002973561489810944, "loss": 0.4652, "step": 45360 }, { "epoch": 120.98666666666666, "grad_norm": 0.474609375, "learning_rate": 0.0002973549735883139, "loss": 0.4785, "step": 45370 }, { "epoch": 121.0, "eval_loss": 0.4802832305431366, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.0946, "eval_samples_per_second": 1.585, "eval_steps_per_second": 0.099, "step": 45375 }, { "epoch": 121.01333333333334, "grad_norm": 0.318359375, "learning_rate": 0.0002973537979366399, "loss": 0.4687, "step": 45380 }, { "epoch": 121.04, "grad_norm": 0.240234375, "learning_rate": 0.00029735262202607433, "loss": 0.4921, "step": 45390 }, { "epoch": 121.06666666666666, "grad_norm": 0.34765625, "learning_rate": 0.00029735144585661937, "loss": 0.4797, "step": 45400 }, { "epoch": 121.09333333333333, "grad_norm": 0.39453125, "learning_rate": 0.00029735026942827693, "loss": 0.4746, "step": 45410 }, { "epoch": 121.12, "grad_norm": 0.318359375, "learning_rate": 0.0002973490927410493, "loss": 0.4712, "step": 45420 }, { "epoch": 121.14666666666666, "grad_norm": 0.3125, "learning_rate": 0.0002973479157949384, "loss": 0.4799, "step": 45430 }, { "epoch": 121.17333333333333, "grad_norm": 0.384765625, "learning_rate": 0.0002973467385899463, "loss": 0.4701, "step": 45440 }, { "epoch": 121.2, "grad_norm": 0.26953125, "learning_rate": 0.0002973455611260751, "loss": 0.468, "step": 45450 }, { "epoch": 121.22666666666667, "grad_norm": 0.328125, "learning_rate": 0.00029734438340332683, "loss": 0.4665, "step": 45460 }, { "epoch": 121.25333333333333, "grad_norm": 0.31640625, "learning_rate": 0.0002973432054217036, "loss": 0.4663, "step": 45470 }, { "epoch": 121.28, "grad_norm": 0.37890625, "learning_rate": 0.0002973420271812075, "loss": 0.4798, "step": 45480 }, { "epoch": 121.30666666666667, "grad_norm": 0.298828125, "learning_rate": 0.0002973408486818406, "loss": 0.461, "step": 45490 }, { "epoch": 121.33333333333333, "grad_norm": 0.298828125, "learning_rate": 0.0002973396699236049, "loss": 0.4765, "step": 45500 }, { "epoch": 121.36, "grad_norm": 0.296875, "learning_rate": 0.0002973384909065026, "loss": 0.4781, "step": 45510 }, { "epoch": 121.38666666666667, "grad_norm": 0.37109375, "learning_rate": 0.00029733731163053556, "loss": 0.4701, "step": 45520 }, { "epoch": 121.41333333333333, "grad_norm": 0.3359375, "learning_rate": 0.00029733613209570605, "loss": 0.4742, "step": 45530 }, { "epoch": 121.44, "grad_norm": 0.267578125, "learning_rate": 0.00029733495230201606, "loss": 0.4778, "step": 45540 }, { "epoch": 121.46666666666667, "grad_norm": 0.291015625, "learning_rate": 0.00029733377224946765, "loss": 0.4865, "step": 45550 }, { "epoch": 121.49333333333334, "grad_norm": 0.310546875, "learning_rate": 0.0002973325919380629, "loss": 0.4776, "step": 45560 }, { "epoch": 121.52, "grad_norm": 0.330078125, "learning_rate": 0.000297331411367804, "loss": 0.4727, "step": 45570 }, { "epoch": 121.54666666666667, "grad_norm": 0.392578125, "learning_rate": 0.0002973302305386928, "loss": 0.4689, "step": 45580 }, { "epoch": 121.57333333333334, "grad_norm": 0.33984375, "learning_rate": 0.0002973290494507316, "loss": 0.4684, "step": 45590 }, { "epoch": 121.6, "grad_norm": 0.3046875, "learning_rate": 0.0002973278681039223, "loss": 0.4624, "step": 45600 }, { "epoch": 121.62666666666667, "grad_norm": 0.267578125, "learning_rate": 0.0002973266864982671, "loss": 0.4492, "step": 45610 }, { "epoch": 121.65333333333334, "grad_norm": 0.23046875, "learning_rate": 0.00029732550463376796, "loss": 0.4688, "step": 45620 }, { "epoch": 121.68, "grad_norm": 0.35546875, "learning_rate": 0.00029732432251042707, "loss": 0.4599, "step": 45630 }, { "epoch": 121.70666666666666, "grad_norm": 0.46875, "learning_rate": 0.00029732314012824646, "loss": 0.4605, "step": 45640 }, { "epoch": 121.73333333333333, "grad_norm": 0.30859375, "learning_rate": 0.0002973219574872282, "loss": 0.4801, "step": 45650 }, { "epoch": 121.76, "grad_norm": 0.435546875, "learning_rate": 0.0002973207745873744, "loss": 0.4807, "step": 45660 }, { "epoch": 121.78666666666666, "grad_norm": 0.349609375, "learning_rate": 0.00029731959142868705, "loss": 0.4798, "step": 45670 }, { "epoch": 121.81333333333333, "grad_norm": 0.4296875, "learning_rate": 0.00029731840801116834, "loss": 0.4652, "step": 45680 }, { "epoch": 121.84, "grad_norm": 0.419921875, "learning_rate": 0.0002973172243348203, "loss": 0.4706, "step": 45690 }, { "epoch": 121.86666666666666, "grad_norm": 0.443359375, "learning_rate": 0.000297316040399645, "loss": 0.4699, "step": 45700 }, { "epoch": 121.89333333333333, "grad_norm": 0.328125, "learning_rate": 0.0002973148562056445, "loss": 0.4611, "step": 45710 }, { "epoch": 121.92, "grad_norm": 0.275390625, "learning_rate": 0.0002973136717528209, "loss": 0.471, "step": 45720 }, { "epoch": 121.94666666666667, "grad_norm": 0.4140625, "learning_rate": 0.00029731248704117637, "loss": 0.464, "step": 45730 }, { "epoch": 121.97333333333333, "grad_norm": 0.41015625, "learning_rate": 0.00029731130207071287, "loss": 0.4748, "step": 45740 }, { "epoch": 122.0, "grad_norm": 0.33203125, "learning_rate": 0.00029731011684143254, "loss": 0.4637, "step": 45750 }, { "epoch": 122.0, "eval_loss": 0.48008567094802856, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.8847, "eval_samples_per_second": 1.47, "eval_steps_per_second": 0.092, "step": 45750 }, { "epoch": 122.02666666666667, "grad_norm": 0.353515625, "learning_rate": 0.0002973089313533374, "loss": 0.4841, "step": 45760 }, { "epoch": 122.05333333333333, "grad_norm": 0.28125, "learning_rate": 0.0002973077456064296, "loss": 0.4894, "step": 45770 }, { "epoch": 122.08, "grad_norm": 0.412109375, "learning_rate": 0.0002973065596007112, "loss": 0.477, "step": 45780 }, { "epoch": 122.10666666666667, "grad_norm": 0.2578125, "learning_rate": 0.00029730537333618433, "loss": 0.4715, "step": 45790 }, { "epoch": 122.13333333333334, "grad_norm": 0.330078125, "learning_rate": 0.000297304186812851, "loss": 0.473, "step": 45800 }, { "epoch": 122.16, "grad_norm": 0.357421875, "learning_rate": 0.00029730300003071334, "loss": 0.4781, "step": 45810 }, { "epoch": 122.18666666666667, "grad_norm": 0.28125, "learning_rate": 0.0002973018129897734, "loss": 0.47, "step": 45820 }, { "epoch": 122.21333333333334, "grad_norm": 0.408203125, "learning_rate": 0.00029730062569003333, "loss": 0.4648, "step": 45830 }, { "epoch": 122.24, "grad_norm": 0.2578125, "learning_rate": 0.0002972994381314951, "loss": 0.4683, "step": 45840 }, { "epoch": 122.26666666666667, "grad_norm": 0.259765625, "learning_rate": 0.00029729825031416093, "loss": 0.4729, "step": 45850 }, { "epoch": 122.29333333333334, "grad_norm": 0.34765625, "learning_rate": 0.00029729706223803284, "loss": 0.4668, "step": 45860 }, { "epoch": 122.32, "grad_norm": 0.33203125, "learning_rate": 0.0002972958739031129, "loss": 0.4707, "step": 45870 }, { "epoch": 122.34666666666666, "grad_norm": 0.3125, "learning_rate": 0.0002972946853094032, "loss": 0.4779, "step": 45880 }, { "epoch": 122.37333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002972934964569059, "loss": 0.4743, "step": 45890 }, { "epoch": 122.4, "grad_norm": 0.3828125, "learning_rate": 0.000297292307345623, "loss": 0.4713, "step": 45900 }, { "epoch": 122.42666666666666, "grad_norm": 0.443359375, "learning_rate": 0.00029729111797555666, "loss": 0.4775, "step": 45910 }, { "epoch": 122.45333333333333, "grad_norm": 0.3046875, "learning_rate": 0.0002972899283467089, "loss": 0.4787, "step": 45920 }, { "epoch": 122.48, "grad_norm": 0.310546875, "learning_rate": 0.00029728873845908185, "loss": 0.4861, "step": 45930 }, { "epoch": 122.50666666666666, "grad_norm": 0.26953125, "learning_rate": 0.0002972875483126776, "loss": 0.4742, "step": 45940 }, { "epoch": 122.53333333333333, "grad_norm": 0.22265625, "learning_rate": 0.0002972863579074983, "loss": 0.4687, "step": 45950 }, { "epoch": 122.56, "grad_norm": 0.328125, "learning_rate": 0.00029728516724354594, "loss": 0.4706, "step": 45960 }, { "epoch": 122.58666666666667, "grad_norm": 0.271484375, "learning_rate": 0.0002972839763208226, "loss": 0.4655, "step": 45970 }, { "epoch": 122.61333333333333, "grad_norm": 0.2353515625, "learning_rate": 0.0002972827851393305, "loss": 0.4526, "step": 45980 }, { "epoch": 122.64, "grad_norm": 0.27734375, "learning_rate": 0.00029728159369907166, "loss": 0.4568, "step": 45990 }, { "epoch": 122.66666666666667, "grad_norm": 0.396484375, "learning_rate": 0.00029728040200004813, "loss": 0.4731, "step": 46000 }, { "epoch": 122.69333333333333, "grad_norm": 0.31640625, "learning_rate": 0.0002972792100422621, "loss": 0.4549, "step": 46010 }, { "epoch": 122.72, "grad_norm": 0.32421875, "learning_rate": 0.0002972780178257155, "loss": 0.4724, "step": 46020 }, { "epoch": 122.74666666666667, "grad_norm": 0.33984375, "learning_rate": 0.0002972768253504106, "loss": 0.4772, "step": 46030 }, { "epoch": 122.77333333333333, "grad_norm": 0.376953125, "learning_rate": 0.0002972756326163494, "loss": 0.484, "step": 46040 }, { "epoch": 122.8, "grad_norm": 0.341796875, "learning_rate": 0.00029727443962353407, "loss": 0.4716, "step": 46050 }, { "epoch": 122.82666666666667, "grad_norm": 0.2431640625, "learning_rate": 0.00029727324637196664, "loss": 0.4653, "step": 46060 }, { "epoch": 122.85333333333334, "grad_norm": 0.330078125, "learning_rate": 0.0002972720528616492, "loss": 0.4748, "step": 46070 }, { "epoch": 122.88, "grad_norm": 0.302734375, "learning_rate": 0.0002972708590925839, "loss": 0.4626, "step": 46080 }, { "epoch": 122.90666666666667, "grad_norm": 0.263671875, "learning_rate": 0.0002972696650647728, "loss": 0.4653, "step": 46090 }, { "epoch": 122.93333333333334, "grad_norm": 0.41015625, "learning_rate": 0.000297268470778218, "loss": 0.4676, "step": 46100 }, { "epoch": 122.96, "grad_norm": 0.29296875, "learning_rate": 0.00029726727623292167, "loss": 0.4654, "step": 46110 }, { "epoch": 122.98666666666666, "grad_norm": 0.3984375, "learning_rate": 0.0002972660814288858, "loss": 0.4792, "step": 46120 }, { "epoch": 123.0, "eval_loss": 0.47855737805366516, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.2518, "eval_samples_per_second": 1.561, "eval_steps_per_second": 0.098, "step": 46125 }, { "epoch": 123.01333333333334, "grad_norm": 0.3125, "learning_rate": 0.0002972648863661125, "loss": 0.4678, "step": 46130 }, { "epoch": 123.04, "grad_norm": 0.251953125, "learning_rate": 0.00029726369104460395, "loss": 0.4923, "step": 46140 }, { "epoch": 123.06666666666666, "grad_norm": 0.333984375, "learning_rate": 0.00029726249546436215, "loss": 0.4795, "step": 46150 }, { "epoch": 123.09333333333333, "grad_norm": 0.294921875, "learning_rate": 0.00029726129962538933, "loss": 0.4745, "step": 46160 }, { "epoch": 123.12, "grad_norm": 0.3046875, "learning_rate": 0.0002972601035276875, "loss": 0.4709, "step": 46170 }, { "epoch": 123.14666666666666, "grad_norm": 0.30078125, "learning_rate": 0.00029725890717125875, "loss": 0.4801, "step": 46180 }, { "epoch": 123.17333333333333, "grad_norm": 0.345703125, "learning_rate": 0.0002972577105561052, "loss": 0.47, "step": 46190 }, { "epoch": 123.2, "grad_norm": 0.380859375, "learning_rate": 0.000297256513682229, "loss": 0.4686, "step": 46200 }, { "epoch": 123.22666666666667, "grad_norm": 0.2734375, "learning_rate": 0.00029725531654963217, "loss": 0.4666, "step": 46210 }, { "epoch": 123.25333333333333, "grad_norm": 0.2158203125, "learning_rate": 0.0002972541191583169, "loss": 0.4659, "step": 46220 }, { "epoch": 123.28, "grad_norm": 0.37890625, "learning_rate": 0.0002972529215082852, "loss": 0.4796, "step": 46230 }, { "epoch": 123.30666666666667, "grad_norm": 0.408203125, "learning_rate": 0.0002972517235995393, "loss": 0.4601, "step": 46240 }, { "epoch": 123.33333333333333, "grad_norm": 0.3125, "learning_rate": 0.0002972505254320812, "loss": 0.4762, "step": 46250 }, { "epoch": 123.36, "grad_norm": 0.23046875, "learning_rate": 0.00029724932700591304, "loss": 0.4785, "step": 46260 }, { "epoch": 123.38666666666667, "grad_norm": 0.37890625, "learning_rate": 0.00029724812832103686, "loss": 0.4694, "step": 46270 }, { "epoch": 123.41333333333333, "grad_norm": 0.2421875, "learning_rate": 0.00029724692937745486, "loss": 0.4741, "step": 46280 }, { "epoch": 123.44, "grad_norm": 0.38671875, "learning_rate": 0.00029724573017516915, "loss": 0.4774, "step": 46290 }, { "epoch": 123.46666666666667, "grad_norm": 0.30078125, "learning_rate": 0.00029724453071418175, "loss": 0.4869, "step": 46300 }, { "epoch": 123.49333333333334, "grad_norm": 0.3828125, "learning_rate": 0.0002972433309944949, "loss": 0.4782, "step": 46310 }, { "epoch": 123.52, "grad_norm": 0.3671875, "learning_rate": 0.00029724213101611053, "loss": 0.4726, "step": 46320 }, { "epoch": 123.54666666666667, "grad_norm": 0.33984375, "learning_rate": 0.0002972409307790309, "loss": 0.4695, "step": 46330 }, { "epoch": 123.57333333333334, "grad_norm": 0.2314453125, "learning_rate": 0.00029723973028325805, "loss": 0.4688, "step": 46340 }, { "epoch": 123.6, "grad_norm": 0.318359375, "learning_rate": 0.0002972385295287941, "loss": 0.4626, "step": 46350 }, { "epoch": 123.62666666666667, "grad_norm": 0.3359375, "learning_rate": 0.0002972373285156411, "loss": 0.4492, "step": 46360 }, { "epoch": 123.65333333333334, "grad_norm": 0.259765625, "learning_rate": 0.00029723612724380136, "loss": 0.4686, "step": 46370 }, { "epoch": 123.68, "grad_norm": 0.2890625, "learning_rate": 0.00029723492571327677, "loss": 0.4599, "step": 46380 }, { "epoch": 123.70666666666666, "grad_norm": 0.400390625, "learning_rate": 0.0002972337239240695, "loss": 0.4616, "step": 46390 }, { "epoch": 123.73333333333333, "grad_norm": 0.330078125, "learning_rate": 0.00029723252187618173, "loss": 0.4805, "step": 46400 }, { "epoch": 123.76, "grad_norm": 0.33984375, "learning_rate": 0.0002972313195696155, "loss": 0.481, "step": 46410 }, { "epoch": 123.78666666666666, "grad_norm": 0.2734375, "learning_rate": 0.000297230117004373, "loss": 0.4796, "step": 46420 }, { "epoch": 123.81333333333333, "grad_norm": 0.3203125, "learning_rate": 0.00029722891418045624, "loss": 0.4647, "step": 46430 }, { "epoch": 123.84, "grad_norm": 0.37890625, "learning_rate": 0.0002972277110978674, "loss": 0.4706, "step": 46440 }, { "epoch": 123.86666666666666, "grad_norm": 0.30078125, "learning_rate": 0.00029722650775660856, "loss": 0.4697, "step": 46450 }, { "epoch": 123.89333333333333, "grad_norm": 0.259765625, "learning_rate": 0.0002972253041566819, "loss": 0.4609, "step": 46460 }, { "epoch": 123.92, "grad_norm": 0.271484375, "learning_rate": 0.0002972241002980894, "loss": 0.4714, "step": 46470 }, { "epoch": 123.94666666666667, "grad_norm": 0.26171875, "learning_rate": 0.00029722289618083335, "loss": 0.4639, "step": 46480 }, { "epoch": 123.97333333333333, "grad_norm": 0.328125, "learning_rate": 0.0002972216918049158, "loss": 0.4759, "step": 46490 }, { "epoch": 124.0, "grad_norm": 0.328125, "learning_rate": 0.00029722048717033874, "loss": 0.4644, "step": 46500 }, { "epoch": 124.0, "eval_loss": 0.478996604681015, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.2562, "eval_samples_per_second": 1.56, "eval_steps_per_second": 0.098, "step": 46500 }, { "epoch": 124.02666666666667, "grad_norm": 0.255859375, "learning_rate": 0.00029721928227710446, "loss": 0.4836, "step": 46510 }, { "epoch": 124.05333333333333, "grad_norm": 0.412109375, "learning_rate": 0.000297218077125215, "loss": 0.4899, "step": 46520 }, { "epoch": 124.08, "grad_norm": 0.337890625, "learning_rate": 0.00029721687171467245, "loss": 0.476, "step": 46530 }, { "epoch": 124.10666666666667, "grad_norm": 0.294921875, "learning_rate": 0.000297215666045479, "loss": 0.4721, "step": 46540 }, { "epoch": 124.13333333333334, "grad_norm": 0.328125, "learning_rate": 0.0002972144601176367, "loss": 0.4734, "step": 46550 }, { "epoch": 124.16, "grad_norm": 0.375, "learning_rate": 0.00029721325393114776, "loss": 0.4774, "step": 46560 }, { "epoch": 124.18666666666667, "grad_norm": 0.46875, "learning_rate": 0.0002972120474860142, "loss": 0.4699, "step": 46570 }, { "epoch": 124.21333333333334, "grad_norm": 0.302734375, "learning_rate": 0.00029721084078223817, "loss": 0.4647, "step": 46580 }, { "epoch": 124.24, "grad_norm": 0.337890625, "learning_rate": 0.0002972096338198218, "loss": 0.4693, "step": 46590 }, { "epoch": 124.26666666666667, "grad_norm": 0.27734375, "learning_rate": 0.0002972084265987672, "loss": 0.4729, "step": 46600 }, { "epoch": 124.29333333333334, "grad_norm": 0.34765625, "learning_rate": 0.0002972072191190765, "loss": 0.4669, "step": 46610 }, { "epoch": 124.32, "grad_norm": 0.306640625, "learning_rate": 0.00029720601138075186, "loss": 0.4697, "step": 46620 }, { "epoch": 124.34666666666666, "grad_norm": 0.330078125, "learning_rate": 0.0002972048033837954, "loss": 0.4783, "step": 46630 }, { "epoch": 124.37333333333333, "grad_norm": 0.30078125, "learning_rate": 0.0002972035951282091, "loss": 0.4745, "step": 46640 }, { "epoch": 124.4, "grad_norm": 0.390625, "learning_rate": 0.00029720238661399526, "loss": 0.4708, "step": 46650 }, { "epoch": 124.42666666666666, "grad_norm": 0.2412109375, "learning_rate": 0.0002972011778411559, "loss": 0.4779, "step": 46660 }, { "epoch": 124.45333333333333, "grad_norm": 0.25, "learning_rate": 0.0002971999688096932, "loss": 0.4792, "step": 46670 }, { "epoch": 124.48, "grad_norm": 0.318359375, "learning_rate": 0.0002971987595196093, "loss": 0.4856, "step": 46680 }, { "epoch": 124.50666666666666, "grad_norm": 0.41015625, "learning_rate": 0.0002971975499709062, "loss": 0.4754, "step": 46690 }, { "epoch": 124.53333333333333, "grad_norm": 0.376953125, "learning_rate": 0.00029719634016358616, "loss": 0.4688, "step": 46700 }, { "epoch": 124.56, "grad_norm": 0.341796875, "learning_rate": 0.00029719513009765123, "loss": 0.4697, "step": 46710 }, { "epoch": 124.58666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029719391977310356, "loss": 0.4657, "step": 46720 }, { "epoch": 124.61333333333333, "grad_norm": 0.1875, "learning_rate": 0.00029719270918994526, "loss": 0.4521, "step": 46730 }, { "epoch": 124.64, "grad_norm": 0.271484375, "learning_rate": 0.00029719149834817857, "loss": 0.4568, "step": 46740 }, { "epoch": 124.66666666666667, "grad_norm": 0.318359375, "learning_rate": 0.0002971902872478054, "loss": 0.4727, "step": 46750 }, { "epoch": 124.69333333333333, "grad_norm": 0.384765625, "learning_rate": 0.0002971890758888281, "loss": 0.4552, "step": 46760 }, { "epoch": 124.72, "grad_norm": 0.263671875, "learning_rate": 0.0002971878642712486, "loss": 0.4725, "step": 46770 }, { "epoch": 124.74666666666667, "grad_norm": 0.3046875, "learning_rate": 0.00029718665239506924, "loss": 0.4767, "step": 46780 }, { "epoch": 124.77333333333333, "grad_norm": 0.365234375, "learning_rate": 0.000297185440260292, "loss": 0.4842, "step": 46790 }, { "epoch": 124.8, "grad_norm": 0.33984375, "learning_rate": 0.000297184227866919, "loss": 0.4713, "step": 46800 }, { "epoch": 124.82666666666667, "grad_norm": 0.341796875, "learning_rate": 0.0002971830152149524, "loss": 0.4664, "step": 46810 }, { "epoch": 124.85333333333334, "grad_norm": 0.498046875, "learning_rate": 0.0002971818023043944, "loss": 0.4745, "step": 46820 }, { "epoch": 124.88, "grad_norm": 0.345703125, "learning_rate": 0.0002971805891352471, "loss": 0.4628, "step": 46830 }, { "epoch": 124.90666666666667, "grad_norm": 0.30859375, "learning_rate": 0.0002971793757075126, "loss": 0.4662, "step": 46840 }, { "epoch": 124.93333333333334, "grad_norm": 0.25390625, "learning_rate": 0.000297178162021193, "loss": 0.4669, "step": 46850 }, { "epoch": 124.96, "grad_norm": 0.26953125, "learning_rate": 0.00029717694807629045, "loss": 0.4652, "step": 46860 }, { "epoch": 124.98666666666666, "grad_norm": 0.2265625, "learning_rate": 0.0002971757338728072, "loss": 0.4793, "step": 46870 }, { "epoch": 125.0, "eval_loss": 0.4781440794467926, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.8307, "eval_samples_per_second": 1.477, "eval_steps_per_second": 0.092, "step": 46875 }, { "epoch": 125.01333333333334, "grad_norm": 0.306640625, "learning_rate": 0.00029717451941074525, "loss": 0.4684, "step": 46880 }, { "epoch": 125.04, "grad_norm": 0.271484375, "learning_rate": 0.00029717330469010677, "loss": 0.4925, "step": 46890 }, { "epoch": 125.06666666666666, "grad_norm": 0.30859375, "learning_rate": 0.0002971720897108939, "loss": 0.4796, "step": 46900 }, { "epoch": 125.09333333333333, "grad_norm": 0.287109375, "learning_rate": 0.00029717087447310876, "loss": 0.4745, "step": 46910 }, { "epoch": 125.12, "grad_norm": 0.34375, "learning_rate": 0.00029716965897675344, "loss": 0.4713, "step": 46920 }, { "epoch": 125.14666666666666, "grad_norm": 0.30078125, "learning_rate": 0.0002971684432218302, "loss": 0.4797, "step": 46930 }, { "epoch": 125.17333333333333, "grad_norm": 0.330078125, "learning_rate": 0.00029716722720834115, "loss": 0.4707, "step": 46940 }, { "epoch": 125.2, "grad_norm": 0.330078125, "learning_rate": 0.0002971660109362883, "loss": 0.4685, "step": 46950 }, { "epoch": 125.22666666666667, "grad_norm": 0.283203125, "learning_rate": 0.00029716479440567394, "loss": 0.4667, "step": 46960 }, { "epoch": 125.25333333333333, "grad_norm": 0.259765625, "learning_rate": 0.00029716357761650007, "loss": 0.4658, "step": 46970 }, { "epoch": 125.28, "grad_norm": 0.2294921875, "learning_rate": 0.0002971623605687689, "loss": 0.4799, "step": 46980 }, { "epoch": 125.30666666666667, "grad_norm": 0.39453125, "learning_rate": 0.00029716114326248266, "loss": 0.4605, "step": 46990 }, { "epoch": 125.33333333333333, "grad_norm": 0.384765625, "learning_rate": 0.00029715992569764334, "loss": 0.4769, "step": 47000 }, { "epoch": 125.36, "grad_norm": 0.3125, "learning_rate": 0.00029715870787425314, "loss": 0.4779, "step": 47010 }, { "epoch": 125.38666666666667, "grad_norm": 0.345703125, "learning_rate": 0.00029715748979231417, "loss": 0.4707, "step": 47020 }, { "epoch": 125.41333333333333, "grad_norm": 0.412109375, "learning_rate": 0.0002971562714518286, "loss": 0.4745, "step": 47030 }, { "epoch": 125.44, "grad_norm": 0.4921875, "learning_rate": 0.0002971550528527986, "loss": 0.4773, "step": 47040 }, { "epoch": 125.46666666666667, "grad_norm": 0.3125, "learning_rate": 0.0002971538339952262, "loss": 0.4864, "step": 47050 }, { "epoch": 125.49333333333334, "grad_norm": 0.392578125, "learning_rate": 0.0002971526148791137, "loss": 0.4778, "step": 47060 }, { "epoch": 125.52, "grad_norm": 0.412109375, "learning_rate": 0.0002971513955044631, "loss": 0.4728, "step": 47070 }, { "epoch": 125.54666666666667, "grad_norm": 0.3515625, "learning_rate": 0.0002971501758712766, "loss": 0.4692, "step": 47080 }, { "epoch": 125.57333333333334, "grad_norm": 0.302734375, "learning_rate": 0.0002971489559795564, "loss": 0.468, "step": 47090 }, { "epoch": 125.6, "grad_norm": 0.287109375, "learning_rate": 0.00029714773582930454, "loss": 0.4618, "step": 47100 }, { "epoch": 125.62666666666667, "grad_norm": 0.26953125, "learning_rate": 0.00029714651542052324, "loss": 0.4493, "step": 47110 }, { "epoch": 125.65333333333334, "grad_norm": 0.255859375, "learning_rate": 0.0002971452947532146, "loss": 0.4687, "step": 47120 }, { "epoch": 125.68, "grad_norm": 0.267578125, "learning_rate": 0.0002971440738273808, "loss": 0.4604, "step": 47130 }, { "epoch": 125.70666666666666, "grad_norm": 0.25390625, "learning_rate": 0.00029714285264302386, "loss": 0.461, "step": 47140 }, { "epoch": 125.73333333333333, "grad_norm": 0.25, "learning_rate": 0.0002971416312001462, "loss": 0.4794, "step": 47150 }, { "epoch": 125.76, "grad_norm": 0.287109375, "learning_rate": 0.0002971404094987497, "loss": 0.4803, "step": 47160 }, { "epoch": 125.78666666666666, "grad_norm": 0.30859375, "learning_rate": 0.0002971391875388366, "loss": 0.4795, "step": 47170 }, { "epoch": 125.81333333333333, "grad_norm": 0.46484375, "learning_rate": 0.00029713796532040905, "loss": 0.4643, "step": 47180 }, { "epoch": 125.84, "grad_norm": 0.388671875, "learning_rate": 0.0002971367428434692, "loss": 0.4705, "step": 47190 }, { "epoch": 125.86666666666666, "grad_norm": 0.38671875, "learning_rate": 0.0002971355201080192, "loss": 0.4699, "step": 47200 }, { "epoch": 125.89333333333333, "grad_norm": 0.314453125, "learning_rate": 0.0002971342971140612, "loss": 0.4611, "step": 47210 }, { "epoch": 125.92, "grad_norm": 0.26953125, "learning_rate": 0.00029713307386159733, "loss": 0.4711, "step": 47220 }, { "epoch": 125.94666666666667, "grad_norm": 0.25390625, "learning_rate": 0.00029713185035062977, "loss": 0.4638, "step": 47230 }, { "epoch": 125.97333333333333, "grad_norm": 0.37109375, "learning_rate": 0.0002971306265811606, "loss": 0.4753, "step": 47240 }, { "epoch": 126.0, "grad_norm": 0.404296875, "learning_rate": 0.00029712940255319204, "loss": 0.4644, "step": 47250 }, { "epoch": 126.0, "eval_loss": 0.4798469841480255, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.3496, "eval_samples_per_second": 1.546, "eval_steps_per_second": 0.097, "step": 47250 }, { "epoch": 126.02666666666667, "grad_norm": 0.345703125, "learning_rate": 0.00029712817826672627, "loss": 0.4832, "step": 47260 }, { "epoch": 126.05333333333333, "grad_norm": 0.30078125, "learning_rate": 0.00029712695372176534, "loss": 0.4898, "step": 47270 }, { "epoch": 126.08, "grad_norm": 0.2578125, "learning_rate": 0.0002971257289183115, "loss": 0.4771, "step": 47280 }, { "epoch": 126.10666666666667, "grad_norm": 0.333984375, "learning_rate": 0.0002971245038563668, "loss": 0.4716, "step": 47290 }, { "epoch": 126.13333333333334, "grad_norm": 0.263671875, "learning_rate": 0.0002971232785359335, "loss": 0.4734, "step": 47300 }, { "epoch": 126.16, "grad_norm": 0.3515625, "learning_rate": 0.0002971220529570137, "loss": 0.4778, "step": 47310 }, { "epoch": 126.18666666666667, "grad_norm": 0.2734375, "learning_rate": 0.0002971208271196095, "loss": 0.4695, "step": 47320 }, { "epoch": 126.21333333333334, "grad_norm": 0.330078125, "learning_rate": 0.0002971196010237231, "loss": 0.4644, "step": 47330 }, { "epoch": 126.24, "grad_norm": 0.28125, "learning_rate": 0.00029711837466935676, "loss": 0.4687, "step": 47340 }, { "epoch": 126.26666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002971171480565125, "loss": 0.4723, "step": 47350 }, { "epoch": 126.29333333333334, "grad_norm": 0.486328125, "learning_rate": 0.00029711592118519245, "loss": 0.4671, "step": 47360 }, { "epoch": 126.32, "grad_norm": 0.349609375, "learning_rate": 0.0002971146940553989, "loss": 0.4704, "step": 47370 }, { "epoch": 126.34666666666666, "grad_norm": 0.265625, "learning_rate": 0.00029711346666713386, "loss": 0.4785, "step": 47380 }, { "epoch": 126.37333333333333, "grad_norm": 0.28515625, "learning_rate": 0.0002971122390203996, "loss": 0.4742, "step": 47390 }, { "epoch": 126.4, "grad_norm": 0.287109375, "learning_rate": 0.00029711101111519825, "loss": 0.4702, "step": 47400 }, { "epoch": 126.42666666666666, "grad_norm": 0.234375, "learning_rate": 0.0002971097829515319, "loss": 0.4773, "step": 47410 }, { "epoch": 126.45333333333333, "grad_norm": 0.3203125, "learning_rate": 0.0002971085545294028, "loss": 0.4792, "step": 47420 }, { "epoch": 126.48, "grad_norm": 0.49609375, "learning_rate": 0.00029710732584881306, "loss": 0.4853, "step": 47430 }, { "epoch": 126.50666666666666, "grad_norm": 0.52734375, "learning_rate": 0.0002971060969097649, "loss": 0.475, "step": 47440 }, { "epoch": 126.53333333333333, "grad_norm": 0.333984375, "learning_rate": 0.00029710486771226035, "loss": 0.4694, "step": 47450 }, { "epoch": 126.56, "grad_norm": 0.29296875, "learning_rate": 0.0002971036382563017, "loss": 0.4704, "step": 47460 }, { "epoch": 126.58666666666667, "grad_norm": 0.3515625, "learning_rate": 0.000297102408541891, "loss": 0.4666, "step": 47470 }, { "epoch": 126.61333333333333, "grad_norm": 0.318359375, "learning_rate": 0.0002971011785690305, "loss": 0.4518, "step": 47480 }, { "epoch": 126.64, "grad_norm": 0.40625, "learning_rate": 0.00029709994833772237, "loss": 0.4578, "step": 47490 }, { "epoch": 126.66666666666667, "grad_norm": 0.275390625, "learning_rate": 0.00029709871784796866, "loss": 0.4728, "step": 47500 }, { "epoch": 126.69333333333333, "grad_norm": 0.296875, "learning_rate": 0.00029709748709977167, "loss": 0.4551, "step": 47510 }, { "epoch": 126.72, "grad_norm": 0.22265625, "learning_rate": 0.00029709625609313346, "loss": 0.4729, "step": 47520 }, { "epoch": 126.74666666666667, "grad_norm": 0.22265625, "learning_rate": 0.00029709502482805626, "loss": 0.4774, "step": 47530 }, { "epoch": 126.77333333333333, "grad_norm": 0.28125, "learning_rate": 0.00029709379330454213, "loss": 0.4844, "step": 47540 }, { "epoch": 126.8, "grad_norm": 0.271484375, "learning_rate": 0.00029709256152259334, "loss": 0.4708, "step": 47550 }, { "epoch": 126.82666666666667, "grad_norm": 0.255859375, "learning_rate": 0.000297091329482212, "loss": 0.4653, "step": 47560 }, { "epoch": 126.85333333333334, "grad_norm": 0.33984375, "learning_rate": 0.00029709009718340034, "loss": 0.4742, "step": 47570 }, { "epoch": 126.88, "grad_norm": 0.298828125, "learning_rate": 0.0002970888646261605, "loss": 0.4627, "step": 47580 }, { "epoch": 126.90666666666667, "grad_norm": 0.34765625, "learning_rate": 0.0002970876318104945, "loss": 0.4648, "step": 47590 }, { "epoch": 126.93333333333334, "grad_norm": 0.279296875, "learning_rate": 0.00029708639873640474, "loss": 0.4666, "step": 47600 }, { "epoch": 126.96, "grad_norm": 0.27734375, "learning_rate": 0.00029708516540389327, "loss": 0.4647, "step": 47610 }, { "epoch": 126.98666666666666, "grad_norm": 0.26953125, "learning_rate": 0.0002970839318129622, "loss": 0.4781, "step": 47620 }, { "epoch": 127.0, "eval_loss": 0.47838637232780457, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.6113, "eval_samples_per_second": 1.508, "eval_steps_per_second": 0.094, "step": 47625 }, { "epoch": 127.01333333333334, "grad_norm": 0.298828125, "learning_rate": 0.0002970826979636138, "loss": 0.4677, "step": 47630 }, { "epoch": 127.04, "grad_norm": 0.291015625, "learning_rate": 0.0002970814638558502, "loss": 0.4926, "step": 47640 }, { "epoch": 127.06666666666666, "grad_norm": 0.408203125, "learning_rate": 0.00029708022948967354, "loss": 0.4799, "step": 47650 }, { "epoch": 127.09333333333333, "grad_norm": 0.326171875, "learning_rate": 0.0002970789948650861, "loss": 0.4745, "step": 47660 }, { "epoch": 127.12, "grad_norm": 0.28125, "learning_rate": 0.0002970777599820899, "loss": 0.4704, "step": 47670 }, { "epoch": 127.14666666666666, "grad_norm": 0.361328125, "learning_rate": 0.0002970765248406871, "loss": 0.4794, "step": 47680 }, { "epoch": 127.17333333333333, "grad_norm": 0.369140625, "learning_rate": 0.00029707528944088006, "loss": 0.4701, "step": 47690 }, { "epoch": 127.2, "grad_norm": 0.404296875, "learning_rate": 0.0002970740537826708, "loss": 0.4684, "step": 47700 }, { "epoch": 127.22666666666667, "grad_norm": 0.5234375, "learning_rate": 0.0002970728178660615, "loss": 0.4663, "step": 47710 }, { "epoch": 127.25333333333333, "grad_norm": 0.5625, "learning_rate": 0.00029707158169105436, "loss": 0.4663, "step": 47720 }, { "epoch": 127.28, "grad_norm": 0.369140625, "learning_rate": 0.00029707034525765154, "loss": 0.4801, "step": 47730 }, { "epoch": 127.30666666666667, "grad_norm": 0.30859375, "learning_rate": 0.00029706910856585526, "loss": 0.4606, "step": 47740 }, { "epoch": 127.33333333333333, "grad_norm": 0.283203125, "learning_rate": 0.00029706787161566764, "loss": 0.4764, "step": 47750 }, { "epoch": 127.36, "grad_norm": 0.310546875, "learning_rate": 0.00029706663440709084, "loss": 0.4788, "step": 47760 }, { "epoch": 127.38666666666667, "grad_norm": 0.54296875, "learning_rate": 0.0002970653969401271, "loss": 0.4702, "step": 47770 }, { "epoch": 127.41333333333333, "grad_norm": 0.341796875, "learning_rate": 0.00029706415921477856, "loss": 0.4746, "step": 47780 }, { "epoch": 127.44, "grad_norm": 0.294921875, "learning_rate": 0.00029706292123104735, "loss": 0.4769, "step": 47790 }, { "epoch": 127.46666666666667, "grad_norm": 0.359375, "learning_rate": 0.0002970616829889357, "loss": 0.4867, "step": 47800 }, { "epoch": 127.49333333333334, "grad_norm": 0.3984375, "learning_rate": 0.00029706044448844576, "loss": 0.478, "step": 47810 }, { "epoch": 127.52, "grad_norm": 0.2470703125, "learning_rate": 0.0002970592057295797, "loss": 0.4725, "step": 47820 }, { "epoch": 127.54666666666667, "grad_norm": 0.298828125, "learning_rate": 0.0002970579667123398, "loss": 0.4688, "step": 47830 }, { "epoch": 127.57333333333334, "grad_norm": 0.255859375, "learning_rate": 0.0002970567274367281, "loss": 0.4684, "step": 47840 }, { "epoch": 127.6, "grad_norm": 0.388671875, "learning_rate": 0.0002970554879027468, "loss": 0.4613, "step": 47850 }, { "epoch": 127.62666666666667, "grad_norm": 0.3125, "learning_rate": 0.0002970542481103981, "loss": 0.4488, "step": 47860 }, { "epoch": 127.65333333333334, "grad_norm": 0.349609375, "learning_rate": 0.00029705300805968424, "loss": 0.4684, "step": 47870 }, { "epoch": 127.68, "grad_norm": 0.375, "learning_rate": 0.0002970517677506073, "loss": 0.4601, "step": 47880 }, { "epoch": 127.70666666666666, "grad_norm": 0.314453125, "learning_rate": 0.0002970505271831695, "loss": 0.4603, "step": 47890 }, { "epoch": 127.73333333333333, "grad_norm": 0.3671875, "learning_rate": 0.00029704928635737306, "loss": 0.4793, "step": 47900 }, { "epoch": 127.76, "grad_norm": 0.369140625, "learning_rate": 0.0002970480452732201, "loss": 0.4805, "step": 47910 }, { "epoch": 127.78666666666666, "grad_norm": 0.271484375, "learning_rate": 0.0002970468039307128, "loss": 0.4791, "step": 47920 }, { "epoch": 127.81333333333333, "grad_norm": 0.3515625, "learning_rate": 0.0002970455623298533, "loss": 0.4643, "step": 47930 }, { "epoch": 127.84, "grad_norm": 0.50390625, "learning_rate": 0.00029704432047064394, "loss": 0.4696, "step": 47940 }, { "epoch": 127.86666666666666, "grad_norm": 0.443359375, "learning_rate": 0.0002970430783530868, "loss": 0.47, "step": 47950 }, { "epoch": 127.89333333333333, "grad_norm": 0.359375, "learning_rate": 0.0002970418359771841, "loss": 0.4608, "step": 47960 }, { "epoch": 127.92, "grad_norm": 0.365234375, "learning_rate": 0.00029704059334293787, "loss": 0.4716, "step": 47970 }, { "epoch": 127.94666666666667, "grad_norm": 0.38671875, "learning_rate": 0.00029703935045035046, "loss": 0.4634, "step": 47980 }, { "epoch": 127.97333333333333, "grad_norm": 0.380859375, "learning_rate": 0.000297038107299424, "loss": 0.4752, "step": 47990 }, { "epoch": 128.0, "grad_norm": 0.38671875, "learning_rate": 0.0002970368638901607, "loss": 0.4643, "step": 48000 }, { "epoch": 128.0, "eval_loss": 0.47970858216285706, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.9496, "eval_samples_per_second": 1.608, "eval_steps_per_second": 0.101, "step": 48000 }, { "epoch": 128.02666666666667, "grad_norm": 0.466796875, "learning_rate": 0.0002970356202225628, "loss": 0.4841, "step": 48010 }, { "epoch": 128.05333333333334, "grad_norm": 0.30078125, "learning_rate": 0.0002970343762966323, "loss": 0.4894, "step": 48020 }, { "epoch": 128.08, "grad_norm": 0.3359375, "learning_rate": 0.00029703313211237154, "loss": 0.4765, "step": 48030 }, { "epoch": 128.10666666666665, "grad_norm": 0.30078125, "learning_rate": 0.0002970318876697827, "loss": 0.4722, "step": 48040 }, { "epoch": 128.13333333333333, "grad_norm": 0.388671875, "learning_rate": 0.00029703064296886787, "loss": 0.4733, "step": 48050 }, { "epoch": 128.16, "grad_norm": 0.333984375, "learning_rate": 0.0002970293980096293, "loss": 0.4777, "step": 48060 }, { "epoch": 128.18666666666667, "grad_norm": 0.275390625, "learning_rate": 0.0002970281527920692, "loss": 0.4689, "step": 48070 }, { "epoch": 128.21333333333334, "grad_norm": 0.318359375, "learning_rate": 0.0002970269073161897, "loss": 0.4643, "step": 48080 }, { "epoch": 128.24, "grad_norm": 0.37890625, "learning_rate": 0.00029702566158199304, "loss": 0.4688, "step": 48090 }, { "epoch": 128.26666666666668, "grad_norm": 0.28125, "learning_rate": 0.0002970244155894814, "loss": 0.4729, "step": 48100 }, { "epoch": 128.29333333333332, "grad_norm": 0.298828125, "learning_rate": 0.00029702316933865697, "loss": 0.4669, "step": 48110 }, { "epoch": 128.32, "grad_norm": 0.333984375, "learning_rate": 0.00029702192282952185, "loss": 0.4695, "step": 48120 }, { "epoch": 128.34666666666666, "grad_norm": 0.44140625, "learning_rate": 0.00029702067606207833, "loss": 0.4785, "step": 48130 }, { "epoch": 128.37333333333333, "grad_norm": 0.53125, "learning_rate": 0.00029701942903632864, "loss": 0.4739, "step": 48140 }, { "epoch": 128.4, "grad_norm": 0.46484375, "learning_rate": 0.0002970181817522749, "loss": 0.471, "step": 48150 }, { "epoch": 128.42666666666668, "grad_norm": 0.75390625, "learning_rate": 0.0002970169342099192, "loss": 0.4775, "step": 48160 }, { "epoch": 128.45333333333335, "grad_norm": 0.50390625, "learning_rate": 0.000297015686409264, "loss": 0.4797, "step": 48170 }, { "epoch": 128.48, "grad_norm": 0.345703125, "learning_rate": 0.0002970144383503112, "loss": 0.4853, "step": 48180 }, { "epoch": 128.50666666666666, "grad_norm": 0.310546875, "learning_rate": 0.00029701319003306323, "loss": 0.4752, "step": 48190 }, { "epoch": 128.53333333333333, "grad_norm": 0.2734375, "learning_rate": 0.0002970119414575221, "loss": 0.4686, "step": 48200 }, { "epoch": 128.56, "grad_norm": 0.322265625, "learning_rate": 0.0002970106926236901, "loss": 0.4697, "step": 48210 }, { "epoch": 128.58666666666667, "grad_norm": 0.296875, "learning_rate": 0.0002970094435315694, "loss": 0.4653, "step": 48220 }, { "epoch": 128.61333333333334, "grad_norm": 0.27734375, "learning_rate": 0.0002970081941811622, "loss": 0.4517, "step": 48230 }, { "epoch": 128.64, "grad_norm": 0.2294921875, "learning_rate": 0.00029700694457247075, "loss": 0.4569, "step": 48240 }, { "epoch": 128.66666666666666, "grad_norm": 0.2890625, "learning_rate": 0.00029700569470549716, "loss": 0.472, "step": 48250 }, { "epoch": 128.69333333333333, "grad_norm": 0.294921875, "learning_rate": 0.0002970044445802437, "loss": 0.4552, "step": 48260 }, { "epoch": 128.72, "grad_norm": 0.33203125, "learning_rate": 0.0002970031941967124, "loss": 0.472, "step": 48270 }, { "epoch": 128.74666666666667, "grad_norm": 0.2353515625, "learning_rate": 0.0002970019435549057, "loss": 0.4763, "step": 48280 }, { "epoch": 128.77333333333334, "grad_norm": 0.46875, "learning_rate": 0.0002970006926548256, "loss": 0.4842, "step": 48290 }, { "epoch": 128.8, "grad_norm": 0.326171875, "learning_rate": 0.00029699944149647446, "loss": 0.4708, "step": 48300 }, { "epoch": 128.82666666666665, "grad_norm": 0.302734375, "learning_rate": 0.00029699819007985434, "loss": 0.4657, "step": 48310 }, { "epoch": 128.85333333333332, "grad_norm": 0.275390625, "learning_rate": 0.0002969969384049675, "loss": 0.4748, "step": 48320 }, { "epoch": 128.88, "grad_norm": 0.326171875, "learning_rate": 0.0002969956864718161, "loss": 0.4618, "step": 48330 }, { "epoch": 128.90666666666667, "grad_norm": 0.33203125, "learning_rate": 0.00029699443428040246, "loss": 0.4652, "step": 48340 }, { "epoch": 128.93333333333334, "grad_norm": 0.30078125, "learning_rate": 0.0002969931818307286, "loss": 0.4673, "step": 48350 }, { "epoch": 128.96, "grad_norm": 0.296875, "learning_rate": 0.0002969919291227969, "loss": 0.4648, "step": 48360 }, { "epoch": 128.98666666666668, "grad_norm": 0.392578125, "learning_rate": 0.0002969906761566094, "loss": 0.4788, "step": 48370 }, { "epoch": 129.0, "eval_loss": 0.47966912388801575, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.9567, "eval_samples_per_second": 1.607, "eval_steps_per_second": 0.1, "step": 48375 }, { "epoch": 129.01333333333332, "grad_norm": 0.3359375, "learning_rate": 0.0002969894229321684, "loss": 0.4686, "step": 48380 }, { "epoch": 129.04, "grad_norm": 0.330078125, "learning_rate": 0.0002969881694494761, "loss": 0.4921, "step": 48390 }, { "epoch": 129.06666666666666, "grad_norm": 0.30078125, "learning_rate": 0.0002969869157085346, "loss": 0.4794, "step": 48400 }, { "epoch": 129.09333333333333, "grad_norm": 0.3359375, "learning_rate": 0.00029698566170934627, "loss": 0.4736, "step": 48410 }, { "epoch": 129.12, "grad_norm": 0.27734375, "learning_rate": 0.00029698440745191317, "loss": 0.471, "step": 48420 }, { "epoch": 129.14666666666668, "grad_norm": 0.328125, "learning_rate": 0.0002969831529362376, "loss": 0.479, "step": 48430 }, { "epoch": 129.17333333333335, "grad_norm": 0.427734375, "learning_rate": 0.0002969818981623217, "loss": 0.4695, "step": 48440 }, { "epoch": 129.2, "grad_norm": 0.373046875, "learning_rate": 0.0002969806431301677, "loss": 0.4678, "step": 48450 }, { "epoch": 129.22666666666666, "grad_norm": 0.388671875, "learning_rate": 0.00029697938783977777, "loss": 0.466, "step": 48460 }, { "epoch": 129.25333333333333, "grad_norm": 0.4765625, "learning_rate": 0.0002969781322911542, "loss": 0.4658, "step": 48470 }, { "epoch": 129.28, "grad_norm": 0.291015625, "learning_rate": 0.0002969768764842991, "loss": 0.4796, "step": 48480 }, { "epoch": 129.30666666666667, "grad_norm": 0.283203125, "learning_rate": 0.00029697562041921475, "loss": 0.4613, "step": 48490 }, { "epoch": 129.33333333333334, "grad_norm": 0.3984375, "learning_rate": 0.0002969743640959033, "loss": 0.4767, "step": 48500 }, { "epoch": 129.36, "grad_norm": 0.384765625, "learning_rate": 0.000296973107514367, "loss": 0.4786, "step": 48510 }, { "epoch": 129.38666666666666, "grad_norm": 0.392578125, "learning_rate": 0.00029697185067460805, "loss": 0.4697, "step": 48520 }, { "epoch": 129.41333333333333, "grad_norm": 0.28125, "learning_rate": 0.0002969705935766287, "loss": 0.4744, "step": 48530 }, { "epoch": 129.44, "grad_norm": 0.2578125, "learning_rate": 0.000296969336220431, "loss": 0.4768, "step": 48540 }, { "epoch": 129.46666666666667, "grad_norm": 0.453125, "learning_rate": 0.0002969680786060173, "loss": 0.4873, "step": 48550 }, { "epoch": 129.49333333333334, "grad_norm": 0.38671875, "learning_rate": 0.00029696682073338985, "loss": 0.4782, "step": 48560 }, { "epoch": 129.52, "grad_norm": 0.259765625, "learning_rate": 0.0002969655626025507, "loss": 0.4721, "step": 48570 }, { "epoch": 129.54666666666665, "grad_norm": 0.28125, "learning_rate": 0.0002969643042135022, "loss": 0.4689, "step": 48580 }, { "epoch": 129.57333333333332, "grad_norm": 0.23828125, "learning_rate": 0.0002969630455662465, "loss": 0.4687, "step": 48590 }, { "epoch": 129.6, "grad_norm": 0.28515625, "learning_rate": 0.0002969617866607858, "loss": 0.4625, "step": 48600 }, { "epoch": 129.62666666666667, "grad_norm": 0.2255859375, "learning_rate": 0.00029696052749712235, "loss": 0.4495, "step": 48610 }, { "epoch": 129.65333333333334, "grad_norm": 0.41015625, "learning_rate": 0.00029695926807525835, "loss": 0.4686, "step": 48620 }, { "epoch": 129.68, "grad_norm": 0.255859375, "learning_rate": 0.00029695800839519594, "loss": 0.46, "step": 48630 }, { "epoch": 129.70666666666668, "grad_norm": 0.298828125, "learning_rate": 0.0002969567484569375, "loss": 0.4605, "step": 48640 }, { "epoch": 129.73333333333332, "grad_norm": 0.296875, "learning_rate": 0.0002969554882604851, "loss": 0.4797, "step": 48650 }, { "epoch": 129.76, "grad_norm": 0.3515625, "learning_rate": 0.000296954227805841, "loss": 0.4812, "step": 48660 }, { "epoch": 129.78666666666666, "grad_norm": 0.25, "learning_rate": 0.0002969529670930074, "loss": 0.4795, "step": 48670 }, { "epoch": 129.81333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0002969517061219865, "loss": 0.4639, "step": 48680 }, { "epoch": 129.84, "grad_norm": 0.369140625, "learning_rate": 0.0002969504448927806, "loss": 0.4704, "step": 48690 }, { "epoch": 129.86666666666667, "grad_norm": 0.3203125, "learning_rate": 0.00029694918340539186, "loss": 0.4689, "step": 48700 }, { "epoch": 129.89333333333335, "grad_norm": 0.318359375, "learning_rate": 0.0002969479216598224, "loss": 0.4601, "step": 48710 }, { "epoch": 129.92, "grad_norm": 0.302734375, "learning_rate": 0.00029694665965607464, "loss": 0.4713, "step": 48720 }, { "epoch": 129.94666666666666, "grad_norm": 0.291015625, "learning_rate": 0.00029694539739415064, "loss": 0.463, "step": 48730 }, { "epoch": 129.97333333333333, "grad_norm": 0.5078125, "learning_rate": 0.0002969441348740527, "loss": 0.4752, "step": 48740 }, { "epoch": 130.0, "grad_norm": 0.3359375, "learning_rate": 0.000296942872095783, "loss": 0.4645, "step": 48750 }, { "epoch": 130.0, "eval_loss": 0.47943049669265747, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.9185, "eval_samples_per_second": 1.613, "eval_steps_per_second": 0.101, "step": 48750 }, { "epoch": 130.02666666666667, "grad_norm": 0.345703125, "learning_rate": 0.0002969416090593437, "loss": 0.4839, "step": 48760 }, { "epoch": 130.05333333333334, "grad_norm": 0.326171875, "learning_rate": 0.00029694034576473714, "loss": 0.4896, "step": 48770 }, { "epoch": 130.08, "grad_norm": 0.4453125, "learning_rate": 0.00029693908221196545, "loss": 0.4754, "step": 48780 }, { "epoch": 130.10666666666665, "grad_norm": 0.306640625, "learning_rate": 0.0002969378184010309, "loss": 0.4716, "step": 48790 }, { "epoch": 130.13333333333333, "grad_norm": 0.423828125, "learning_rate": 0.0002969365543319357, "loss": 0.4728, "step": 48800 }, { "epoch": 130.16, "grad_norm": 0.455078125, "learning_rate": 0.00029693529000468207, "loss": 0.477, "step": 48810 }, { "epoch": 130.18666666666667, "grad_norm": 0.375, "learning_rate": 0.0002969340254192722, "loss": 0.4699, "step": 48820 }, { "epoch": 130.21333333333334, "grad_norm": 0.26953125, "learning_rate": 0.00029693276057570834, "loss": 0.4641, "step": 48830 }, { "epoch": 130.24, "grad_norm": 0.33984375, "learning_rate": 0.00029693149547399273, "loss": 0.4682, "step": 48840 }, { "epoch": 130.26666666666668, "grad_norm": 0.287109375, "learning_rate": 0.00029693023011412756, "loss": 0.472, "step": 48850 }, { "epoch": 130.29333333333332, "grad_norm": 0.2412109375, "learning_rate": 0.0002969289644961151, "loss": 0.4671, "step": 48860 }, { "epoch": 130.32, "grad_norm": 0.458984375, "learning_rate": 0.00029692769861995746, "loss": 0.4702, "step": 48870 }, { "epoch": 130.34666666666666, "grad_norm": 0.3359375, "learning_rate": 0.000296926432485657, "loss": 0.4789, "step": 48880 }, { "epoch": 130.37333333333333, "grad_norm": 0.3671875, "learning_rate": 0.00029692516609321586, "loss": 0.4748, "step": 48890 }, { "epoch": 130.4, "grad_norm": 0.267578125, "learning_rate": 0.0002969238994426363, "loss": 0.471, "step": 48900 }, { "epoch": 130.42666666666668, "grad_norm": 0.322265625, "learning_rate": 0.00029692263253392056, "loss": 0.4774, "step": 48910 }, { "epoch": 130.45333333333335, "grad_norm": 0.34765625, "learning_rate": 0.0002969213653670708, "loss": 0.4787, "step": 48920 }, { "epoch": 130.48, "grad_norm": 0.298828125, "learning_rate": 0.00029692009794208933, "loss": 0.4856, "step": 48930 }, { "epoch": 130.50666666666666, "grad_norm": 0.28515625, "learning_rate": 0.00029691883025897834, "loss": 0.4752, "step": 48940 }, { "epoch": 130.53333333333333, "grad_norm": 0.306640625, "learning_rate": 0.00029691756231774, "loss": 0.4688, "step": 48950 }, { "epoch": 130.56, "grad_norm": 0.330078125, "learning_rate": 0.0002969162941183766, "loss": 0.4698, "step": 48960 }, { "epoch": 130.58666666666667, "grad_norm": 0.2412109375, "learning_rate": 0.00029691502566089043, "loss": 0.4654, "step": 48970 }, { "epoch": 130.61333333333334, "grad_norm": 0.26171875, "learning_rate": 0.0002969137569452836, "loss": 0.4517, "step": 48980 }, { "epoch": 130.64, "grad_norm": 0.275390625, "learning_rate": 0.0002969124879715584, "loss": 0.457, "step": 48990 }, { "epoch": 130.66666666666666, "grad_norm": 0.39453125, "learning_rate": 0.000296911218739717, "loss": 0.4729, "step": 49000 }, { "epoch": 130.69333333333333, "grad_norm": 0.3125, "learning_rate": 0.0002969099492497617, "loss": 0.4555, "step": 49010 }, { "epoch": 130.72, "grad_norm": 0.29296875, "learning_rate": 0.00029690867950169474, "loss": 0.4714, "step": 49020 }, { "epoch": 130.74666666666667, "grad_norm": 0.287109375, "learning_rate": 0.00029690740949551834, "loss": 0.4767, "step": 49030 }, { "epoch": 130.77333333333334, "grad_norm": 0.267578125, "learning_rate": 0.0002969061392312346, "loss": 0.4839, "step": 49040 }, { "epoch": 130.8, "grad_norm": 0.279296875, "learning_rate": 0.0002969048687088459, "loss": 0.4714, "step": 49050 }, { "epoch": 130.82666666666665, "grad_norm": 0.25, "learning_rate": 0.0002969035979283545, "loss": 0.4653, "step": 49060 }, { "epoch": 130.85333333333332, "grad_norm": 0.341796875, "learning_rate": 0.00029690232688976253, "loss": 0.4741, "step": 49070 }, { "epoch": 130.88, "grad_norm": 0.337890625, "learning_rate": 0.00029690105559307227, "loss": 0.4627, "step": 49080 }, { "epoch": 130.90666666666667, "grad_norm": 0.439453125, "learning_rate": 0.0002968997840382859, "loss": 0.4654, "step": 49090 }, { "epoch": 130.93333333333334, "grad_norm": 0.294921875, "learning_rate": 0.00029689851222540573, "loss": 0.4663, "step": 49100 }, { "epoch": 130.96, "grad_norm": 0.345703125, "learning_rate": 0.00029689724015443395, "loss": 0.465, "step": 49110 }, { "epoch": 130.98666666666668, "grad_norm": 0.357421875, "learning_rate": 0.0002968959678253728, "loss": 0.4788, "step": 49120 }, { "epoch": 131.0, "eval_loss": 0.47895506024360657, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.9459, "eval_samples_per_second": 1.462, "eval_steps_per_second": 0.091, "step": 49125 }, { "epoch": 131.01333333333332, "grad_norm": 0.3828125, "learning_rate": 0.00029689469523822454, "loss": 0.4677, "step": 49130 }, { "epoch": 131.04, "grad_norm": 0.263671875, "learning_rate": 0.0002968934223929914, "loss": 0.4924, "step": 49140 }, { "epoch": 131.06666666666666, "grad_norm": 0.40625, "learning_rate": 0.00029689214928967555, "loss": 0.4797, "step": 49150 }, { "epoch": 131.09333333333333, "grad_norm": 0.3125, "learning_rate": 0.0002968908759282793, "loss": 0.4743, "step": 49160 }, { "epoch": 131.12, "grad_norm": 0.3359375, "learning_rate": 0.00029688960230880493, "loss": 0.4702, "step": 49170 }, { "epoch": 131.14666666666668, "grad_norm": 0.345703125, "learning_rate": 0.0002968883284312545, "loss": 0.4795, "step": 49180 }, { "epoch": 131.17333333333335, "grad_norm": 0.431640625, "learning_rate": 0.0002968870542956305, "loss": 0.4697, "step": 49190 }, { "epoch": 131.2, "grad_norm": 0.322265625, "learning_rate": 0.0002968857799019349, "loss": 0.4685, "step": 49200 }, { "epoch": 131.22666666666666, "grad_norm": 0.361328125, "learning_rate": 0.0002968845052501702, "loss": 0.4661, "step": 49210 }, { "epoch": 131.25333333333333, "grad_norm": 0.28515625, "learning_rate": 0.0002968832303403384, "loss": 0.4657, "step": 49220 }, { "epoch": 131.28, "grad_norm": 0.392578125, "learning_rate": 0.0002968819551724419, "loss": 0.48, "step": 49230 }, { "epoch": 131.30666666666667, "grad_norm": 0.474609375, "learning_rate": 0.00029688067974648286, "loss": 0.4606, "step": 49240 }, { "epoch": 131.33333333333334, "grad_norm": 0.462890625, "learning_rate": 0.0002968794040624636, "loss": 0.4766, "step": 49250 }, { "epoch": 131.36, "grad_norm": 0.287109375, "learning_rate": 0.00029687812812038625, "loss": 0.4782, "step": 49260 }, { "epoch": 131.38666666666666, "grad_norm": 0.376953125, "learning_rate": 0.00029687685192025315, "loss": 0.4695, "step": 49270 }, { "epoch": 131.41333333333333, "grad_norm": 0.310546875, "learning_rate": 0.0002968755754620665, "loss": 0.4743, "step": 49280 }, { "epoch": 131.44, "grad_norm": 0.322265625, "learning_rate": 0.00029687429874582856, "loss": 0.4774, "step": 49290 }, { "epoch": 131.46666666666667, "grad_norm": 0.44921875, "learning_rate": 0.00029687302177154156, "loss": 0.4868, "step": 49300 }, { "epoch": 131.49333333333334, "grad_norm": 0.353515625, "learning_rate": 0.0002968717445392077, "loss": 0.4775, "step": 49310 }, { "epoch": 131.52, "grad_norm": 0.298828125, "learning_rate": 0.0002968704670488294, "loss": 0.4724, "step": 49320 }, { "epoch": 131.54666666666665, "grad_norm": 0.296875, "learning_rate": 0.00029686918930040863, "loss": 0.4699, "step": 49330 }, { "epoch": 131.57333333333332, "grad_norm": 0.296875, "learning_rate": 0.0002968679112939479, "loss": 0.4682, "step": 49340 }, { "epoch": 131.6, "grad_norm": 0.34375, "learning_rate": 0.00029686663302944924, "loss": 0.4619, "step": 49350 }, { "epoch": 131.62666666666667, "grad_norm": 0.263671875, "learning_rate": 0.00029686535450691503, "loss": 0.4493, "step": 49360 }, { "epoch": 131.65333333333334, "grad_norm": 0.224609375, "learning_rate": 0.0002968640757263475, "loss": 0.468, "step": 49370 }, { "epoch": 131.68, "grad_norm": 0.419921875, "learning_rate": 0.0002968627966877488, "loss": 0.4603, "step": 49380 }, { "epoch": 131.70666666666668, "grad_norm": 0.283203125, "learning_rate": 0.00029686151739112136, "loss": 0.4607, "step": 49390 }, { "epoch": 131.73333333333332, "grad_norm": 0.3515625, "learning_rate": 0.00029686023783646724, "loss": 0.4792, "step": 49400 }, { "epoch": 131.76, "grad_norm": 0.37109375, "learning_rate": 0.00029685895802378877, "loss": 0.4805, "step": 49410 }, { "epoch": 131.78666666666666, "grad_norm": 0.41796875, "learning_rate": 0.00029685767795308823, "loss": 0.479, "step": 49420 }, { "epoch": 131.81333333333333, "grad_norm": 0.455078125, "learning_rate": 0.0002968563976243678, "loss": 0.4645, "step": 49430 }, { "epoch": 131.84, "grad_norm": 0.345703125, "learning_rate": 0.00029685511703762975, "loss": 0.4707, "step": 49440 }, { "epoch": 131.86666666666667, "grad_norm": 0.427734375, "learning_rate": 0.0002968538361928764, "loss": 0.47, "step": 49450 }, { "epoch": 131.89333333333335, "grad_norm": 0.3046875, "learning_rate": 0.0002968525550901099, "loss": 0.4606, "step": 49460 }, { "epoch": 131.92, "grad_norm": 0.341796875, "learning_rate": 0.00029685127372933254, "loss": 0.471, "step": 49470 }, { "epoch": 131.94666666666666, "grad_norm": 0.244140625, "learning_rate": 0.0002968499921105466, "loss": 0.4636, "step": 49480 }, { "epoch": 131.97333333333333, "grad_norm": 0.21875, "learning_rate": 0.0002968487102337543, "loss": 0.4754, "step": 49490 }, { "epoch": 132.0, "grad_norm": 0.51953125, "learning_rate": 0.0002968474280989579, "loss": 0.4642, "step": 49500 }, { "epoch": 132.0, "eval_loss": 0.4787776470184326, "eval_model_preparation_time": 0.0016, "eval_runtime": 11.4216, "eval_samples_per_second": 1.401, "eval_steps_per_second": 0.088, "step": 49500 }, { "epoch": 132.02666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029684614570615967, "loss": 0.4831, "step": 49510 }, { "epoch": 132.05333333333334, "grad_norm": 0.287109375, "learning_rate": 0.00029684486305536187, "loss": 0.4898, "step": 49520 }, { "epoch": 132.08, "grad_norm": 0.353515625, "learning_rate": 0.00029684358014656667, "loss": 0.4761, "step": 49530 }, { "epoch": 132.10666666666665, "grad_norm": 0.21875, "learning_rate": 0.0002968422969797764, "loss": 0.4725, "step": 49540 }, { "epoch": 132.13333333333333, "grad_norm": 0.26953125, "learning_rate": 0.00029684101355499334, "loss": 0.4729, "step": 49550 }, { "epoch": 132.16, "grad_norm": 0.353515625, "learning_rate": 0.00029683972987221965, "loss": 0.4776, "step": 49560 }, { "epoch": 132.18666666666667, "grad_norm": 0.318359375, "learning_rate": 0.0002968384459314576, "loss": 0.4695, "step": 49570 }, { "epoch": 132.21333333333334, "grad_norm": 0.3125, "learning_rate": 0.00029683716173270957, "loss": 0.4646, "step": 49580 }, { "epoch": 132.24, "grad_norm": 0.267578125, "learning_rate": 0.0002968358772759777, "loss": 0.4676, "step": 49590 }, { "epoch": 132.26666666666668, "grad_norm": 0.369140625, "learning_rate": 0.00029683459256126427, "loss": 0.4726, "step": 49600 }, { "epoch": 132.29333333333332, "grad_norm": 0.3359375, "learning_rate": 0.00029683330758857157, "loss": 0.4667, "step": 49610 }, { "epoch": 132.32, "grad_norm": 0.248046875, "learning_rate": 0.0002968320223579018, "loss": 0.4697, "step": 49620 }, { "epoch": 132.34666666666666, "grad_norm": 0.349609375, "learning_rate": 0.0002968307368692572, "loss": 0.4782, "step": 49630 }, { "epoch": 132.37333333333333, "grad_norm": 0.4921875, "learning_rate": 0.00029682945112264014, "loss": 0.4745, "step": 49640 }, { "epoch": 132.4, "grad_norm": 0.443359375, "learning_rate": 0.0002968281651180528, "loss": 0.4713, "step": 49650 }, { "epoch": 132.42666666666668, "grad_norm": 0.3203125, "learning_rate": 0.0002968268788554975, "loss": 0.4767, "step": 49660 }, { "epoch": 132.45333333333335, "grad_norm": 0.349609375, "learning_rate": 0.00029682559233497644, "loss": 0.4792, "step": 49670 }, { "epoch": 132.48, "grad_norm": 0.32421875, "learning_rate": 0.00029682430555649184, "loss": 0.4857, "step": 49680 }, { "epoch": 132.50666666666666, "grad_norm": 0.392578125, "learning_rate": 0.0002968230185200461, "loss": 0.4744, "step": 49690 }, { "epoch": 132.53333333333333, "grad_norm": 0.259765625, "learning_rate": 0.00029682173122564135, "loss": 0.469, "step": 49700 }, { "epoch": 132.56, "grad_norm": 0.369140625, "learning_rate": 0.0002968204436732799, "loss": 0.4702, "step": 49710 }, { "epoch": 132.58666666666667, "grad_norm": 0.24609375, "learning_rate": 0.00029681915586296406, "loss": 0.4661, "step": 49720 }, { "epoch": 132.61333333333334, "grad_norm": 0.236328125, "learning_rate": 0.000296817867794696, "loss": 0.4518, "step": 49730 }, { "epoch": 132.64, "grad_norm": 0.29296875, "learning_rate": 0.000296816579468478, "loss": 0.4575, "step": 49740 }, { "epoch": 132.66666666666666, "grad_norm": 0.310546875, "learning_rate": 0.0002968152908843124, "loss": 0.4721, "step": 49750 }, { "epoch": 132.69333333333333, "grad_norm": 0.37890625, "learning_rate": 0.00029681400204220143, "loss": 0.4554, "step": 49760 }, { "epoch": 132.72, "grad_norm": 0.296875, "learning_rate": 0.0002968127129421473, "loss": 0.472, "step": 49770 }, { "epoch": 132.74666666666667, "grad_norm": 0.33203125, "learning_rate": 0.00029681142358415236, "loss": 0.4757, "step": 49780 }, { "epoch": 132.77333333333334, "grad_norm": 0.259765625, "learning_rate": 0.0002968101339682188, "loss": 0.4841, "step": 49790 }, { "epoch": 132.8, "grad_norm": 0.271484375, "learning_rate": 0.00029680884409434886, "loss": 0.4705, "step": 49800 }, { "epoch": 132.82666666666665, "grad_norm": 0.333984375, "learning_rate": 0.00029680755396254495, "loss": 0.466, "step": 49810 }, { "epoch": 132.85333333333332, "grad_norm": 0.36328125, "learning_rate": 0.0002968062635728092, "loss": 0.4745, "step": 49820 }, { "epoch": 132.88, "grad_norm": 0.310546875, "learning_rate": 0.00029680497292514395, "loss": 0.4631, "step": 49830 }, { "epoch": 132.90666666666667, "grad_norm": 0.314453125, "learning_rate": 0.00029680368201955145, "loss": 0.4654, "step": 49840 }, { "epoch": 132.93333333333334, "grad_norm": 0.2294921875, "learning_rate": 0.00029680239085603393, "loss": 0.467, "step": 49850 }, { "epoch": 132.96, "grad_norm": 0.27734375, "learning_rate": 0.0002968010994345937, "loss": 0.4645, "step": 49860 }, { "epoch": 132.98666666666668, "grad_norm": 0.365234375, "learning_rate": 0.000296799807755233, "loss": 0.4786, "step": 49870 }, { "epoch": 133.0, "eval_loss": 0.4792354702949524, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.5036, "eval_samples_per_second": 1.523, "eval_steps_per_second": 0.095, "step": 49875 }, { "epoch": 133.01333333333332, "grad_norm": 0.30859375, "learning_rate": 0.0002967985158179542, "loss": 0.4681, "step": 49880 }, { "epoch": 133.04, "grad_norm": 0.244140625, "learning_rate": 0.00029679722362275943, "loss": 0.4921, "step": 49890 }, { "epoch": 133.06666666666666, "grad_norm": 0.3671875, "learning_rate": 0.000296795931169651, "loss": 0.4797, "step": 49900 }, { "epoch": 133.09333333333333, "grad_norm": 0.33203125, "learning_rate": 0.00029679463845863125, "loss": 0.4746, "step": 49910 }, { "epoch": 133.12, "grad_norm": 0.349609375, "learning_rate": 0.0002967933454897024, "loss": 0.4712, "step": 49920 }, { "epoch": 133.14666666666668, "grad_norm": 0.318359375, "learning_rate": 0.00029679205226286666, "loss": 0.4798, "step": 49930 }, { "epoch": 133.17333333333335, "grad_norm": 0.376953125, "learning_rate": 0.0002967907587781264, "loss": 0.4697, "step": 49940 }, { "epoch": 133.2, "grad_norm": 0.302734375, "learning_rate": 0.00029678946503548386, "loss": 0.468, "step": 49950 }, { "epoch": 133.22666666666666, "grad_norm": 0.400390625, "learning_rate": 0.00029678817103494134, "loss": 0.4664, "step": 49960 }, { "epoch": 133.25333333333333, "grad_norm": 0.380859375, "learning_rate": 0.000296786876776501, "loss": 0.4654, "step": 49970 }, { "epoch": 133.28, "grad_norm": 0.318359375, "learning_rate": 0.00029678558226016525, "loss": 0.4786, "step": 49980 }, { "epoch": 133.30666666666667, "grad_norm": 0.26171875, "learning_rate": 0.00029678428748593634, "loss": 0.4603, "step": 49990 }, { "epoch": 133.33333333333334, "grad_norm": 0.26171875, "learning_rate": 0.0002967829924538165, "loss": 0.4756, "step": 50000 }, { "epoch": 133.36, "grad_norm": 0.298828125, "learning_rate": 0.000296781697163808, "loss": 0.4776, "step": 50010 }, { "epoch": 133.38666666666666, "grad_norm": 0.36328125, "learning_rate": 0.0002967804016159131, "loss": 0.4695, "step": 50020 }, { "epoch": 133.41333333333333, "grad_norm": 0.490234375, "learning_rate": 0.0002967791058101342, "loss": 0.4748, "step": 50030 }, { "epoch": 133.44, "grad_norm": 0.30859375, "learning_rate": 0.00029677780974647345, "loss": 0.4773, "step": 50040 }, { "epoch": 133.46666666666667, "grad_norm": 0.296875, "learning_rate": 0.00029677651342493316, "loss": 0.4864, "step": 50050 }, { "epoch": 133.49333333333334, "grad_norm": 0.396484375, "learning_rate": 0.00029677521684551565, "loss": 0.4777, "step": 50060 }, { "epoch": 133.52, "grad_norm": 0.314453125, "learning_rate": 0.00029677392000822315, "loss": 0.4722, "step": 50070 }, { "epoch": 133.54666666666665, "grad_norm": 0.29296875, "learning_rate": 0.00029677262291305794, "loss": 0.4701, "step": 50080 }, { "epoch": 133.57333333333332, "grad_norm": 0.341796875, "learning_rate": 0.0002967713255600223, "loss": 0.4683, "step": 50090 }, { "epoch": 133.6, "grad_norm": 0.384765625, "learning_rate": 0.00029677002794911857, "loss": 0.4618, "step": 50100 }, { "epoch": 133.62666666666667, "grad_norm": 0.396484375, "learning_rate": 0.00029676873008034887, "loss": 0.4487, "step": 50110 }, { "epoch": 133.65333333333334, "grad_norm": 0.279296875, "learning_rate": 0.0002967674319537157, "loss": 0.468, "step": 50120 }, { "epoch": 133.68, "grad_norm": 0.232421875, "learning_rate": 0.0002967661335692212, "loss": 0.4605, "step": 50130 }, { "epoch": 133.70666666666668, "grad_norm": 0.376953125, "learning_rate": 0.00029676483492686764, "loss": 0.4606, "step": 50140 }, { "epoch": 133.73333333333332, "grad_norm": 0.30078125, "learning_rate": 0.00029676353602665743, "loss": 0.4794, "step": 50150 }, { "epoch": 133.76, "grad_norm": 0.416015625, "learning_rate": 0.00029676223686859267, "loss": 0.4806, "step": 50160 }, { "epoch": 133.78666666666666, "grad_norm": 0.236328125, "learning_rate": 0.00029676093745267584, "loss": 0.4786, "step": 50170 }, { "epoch": 133.81333333333333, "grad_norm": 0.40234375, "learning_rate": 0.000296759637778909, "loss": 0.4646, "step": 50180 }, { "epoch": 133.84, "grad_norm": 0.4296875, "learning_rate": 0.0002967583378472947, "loss": 0.471, "step": 50190 }, { "epoch": 133.86666666666667, "grad_norm": 0.30078125, "learning_rate": 0.00029675703765783494, "loss": 0.4692, "step": 50200 }, { "epoch": 133.89333333333335, "grad_norm": 0.25390625, "learning_rate": 0.0002967557372105322, "loss": 0.4609, "step": 50210 }, { "epoch": 133.92, "grad_norm": 0.37890625, "learning_rate": 0.00029675443650538873, "loss": 0.4713, "step": 50220 }, { "epoch": 133.94666666666666, "grad_norm": 0.421875, "learning_rate": 0.0002967531355424068, "loss": 0.4639, "step": 50230 }, { "epoch": 133.97333333333333, "grad_norm": 0.32421875, "learning_rate": 0.00029675183432158864, "loss": 0.4759, "step": 50240 }, { "epoch": 134.0, "grad_norm": 0.54296875, "learning_rate": 0.0002967505328429366, "loss": 0.4638, "step": 50250 }, { "epoch": 134.0, "eval_loss": 0.47991687059402466, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.8196, "eval_samples_per_second": 1.629, "eval_steps_per_second": 0.102, "step": 50250 }, { "epoch": 134.02666666666667, "grad_norm": 0.369140625, "learning_rate": 0.00029674923110645295, "loss": 0.4837, "step": 50260 }, { "epoch": 134.05333333333334, "grad_norm": 0.3125, "learning_rate": 0.00029674792911214, "loss": 0.4895, "step": 50270 }, { "epoch": 134.08, "grad_norm": 0.26953125, "learning_rate": 0.00029674662685999996, "loss": 0.4755, "step": 50280 }, { "epoch": 134.10666666666665, "grad_norm": 0.33984375, "learning_rate": 0.0002967453243500353, "loss": 0.4715, "step": 50290 }, { "epoch": 134.13333333333333, "grad_norm": 0.279296875, "learning_rate": 0.000296744021582248, "loss": 0.4738, "step": 50300 }, { "epoch": 134.16, "grad_norm": 0.314453125, "learning_rate": 0.0002967427185566407, "loss": 0.4776, "step": 50310 }, { "epoch": 134.18666666666667, "grad_norm": 0.25390625, "learning_rate": 0.00029674141527321544, "loss": 0.4694, "step": 50320 }, { "epoch": 134.21333333333334, "grad_norm": 0.34765625, "learning_rate": 0.0002967401117319746, "loss": 0.4645, "step": 50330 }, { "epoch": 134.24, "grad_norm": 0.373046875, "learning_rate": 0.00029673880793292044, "loss": 0.4684, "step": 50340 }, { "epoch": 134.26666666666668, "grad_norm": 0.2578125, "learning_rate": 0.00029673750387605534, "loss": 0.4731, "step": 50350 }, { "epoch": 134.29333333333332, "grad_norm": 0.416015625, "learning_rate": 0.00029673619956138144, "loss": 0.467, "step": 50360 }, { "epoch": 134.32, "grad_norm": 0.294921875, "learning_rate": 0.00029673489498890113, "loss": 0.4706, "step": 50370 }, { "epoch": 134.34666666666666, "grad_norm": 0.36328125, "learning_rate": 0.0002967335901586167, "loss": 0.4784, "step": 50380 }, { "epoch": 134.37333333333333, "grad_norm": 0.447265625, "learning_rate": 0.00029673228507053046, "loss": 0.4742, "step": 50390 }, { "epoch": 134.4, "grad_norm": 0.390625, "learning_rate": 0.00029673097972464466, "loss": 0.4707, "step": 50400 }, { "epoch": 134.42666666666668, "grad_norm": 0.3203125, "learning_rate": 0.0002967296741209616, "loss": 0.4772, "step": 50410 }, { "epoch": 134.45333333333335, "grad_norm": 0.3046875, "learning_rate": 0.00029672836825948357, "loss": 0.4792, "step": 50420 }, { "epoch": 134.48, "grad_norm": 0.357421875, "learning_rate": 0.0002967270621402129, "loss": 0.4849, "step": 50430 }, { "epoch": 134.50666666666666, "grad_norm": 0.296875, "learning_rate": 0.00029672575576315184, "loss": 0.4752, "step": 50440 }, { "epoch": 134.53333333333333, "grad_norm": 0.353515625, "learning_rate": 0.0002967244491283027, "loss": 0.4688, "step": 50450 }, { "epoch": 134.56, "grad_norm": 0.251953125, "learning_rate": 0.00029672314223566773, "loss": 0.47, "step": 50460 }, { "epoch": 134.58666666666667, "grad_norm": 0.298828125, "learning_rate": 0.0002967218350852494, "loss": 0.4659, "step": 50470 }, { "epoch": 134.61333333333334, "grad_norm": 0.232421875, "learning_rate": 0.0002967205276770498, "loss": 0.4511, "step": 50480 }, { "epoch": 134.64, "grad_norm": 0.275390625, "learning_rate": 0.00029671922001107124, "loss": 0.457, "step": 50490 }, { "epoch": 134.66666666666666, "grad_norm": 0.283203125, "learning_rate": 0.0002967179120873162, "loss": 0.472, "step": 50500 }, { "epoch": 134.69333333333333, "grad_norm": 0.3828125, "learning_rate": 0.0002967166039057868, "loss": 0.4553, "step": 50510 }, { "epoch": 134.72, "grad_norm": 0.291015625, "learning_rate": 0.00029671529546648545, "loss": 0.4721, "step": 50520 }, { "epoch": 134.74666666666667, "grad_norm": 0.326171875, "learning_rate": 0.0002967139867694144, "loss": 0.4771, "step": 50530 }, { "epoch": 134.77333333333334, "grad_norm": 0.328125, "learning_rate": 0.00029671267781457587, "loss": 0.484, "step": 50540 }, { "epoch": 134.8, "grad_norm": 0.365234375, "learning_rate": 0.0002967113686019723, "loss": 0.4713, "step": 50550 }, { "epoch": 134.82666666666665, "grad_norm": 0.392578125, "learning_rate": 0.00029671005913160597, "loss": 0.4659, "step": 50560 }, { "epoch": 134.85333333333332, "grad_norm": 0.302734375, "learning_rate": 0.00029670874940347907, "loss": 0.4745, "step": 50570 }, { "epoch": 134.88, "grad_norm": 0.35546875, "learning_rate": 0.000296707439417594, "loss": 0.4623, "step": 50580 }, { "epoch": 134.90666666666667, "grad_norm": 0.30859375, "learning_rate": 0.00029670612917395304, "loss": 0.4649, "step": 50590 }, { "epoch": 134.93333333333334, "grad_norm": 0.302734375, "learning_rate": 0.0002967048186725585, "loss": 0.4675, "step": 50600 }, { "epoch": 134.96, "grad_norm": 0.40234375, "learning_rate": 0.00029670350791341266, "loss": 0.4651, "step": 50610 }, { "epoch": 134.98666666666668, "grad_norm": 0.3125, "learning_rate": 0.00029670219689651784, "loss": 0.4785, "step": 50620 }, { "epoch": 135.0, "eval_loss": 0.48060470819473267, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.9735, "eval_samples_per_second": 1.604, "eval_steps_per_second": 0.1, "step": 50625 }, { "epoch": 135.01333333333332, "grad_norm": 0.388671875, "learning_rate": 0.0002967008856218763, "loss": 0.4674, "step": 50630 }, { "epoch": 135.04, "grad_norm": 0.28515625, "learning_rate": 0.0002966995740894904, "loss": 0.4918, "step": 50640 }, { "epoch": 135.06666666666666, "grad_norm": 0.431640625, "learning_rate": 0.00029669826229936243, "loss": 0.4794, "step": 50650 }, { "epoch": 135.09333333333333, "grad_norm": 0.283203125, "learning_rate": 0.00029669695025149467, "loss": 0.4739, "step": 50660 }, { "epoch": 135.12, "grad_norm": 0.283203125, "learning_rate": 0.00029669563794588945, "loss": 0.471, "step": 50670 }, { "epoch": 135.14666666666668, "grad_norm": 0.369140625, "learning_rate": 0.00029669432538254905, "loss": 0.4787, "step": 50680 }, { "epoch": 135.17333333333335, "grad_norm": 0.328125, "learning_rate": 0.00029669301256147584, "loss": 0.4702, "step": 50690 }, { "epoch": 135.2, "grad_norm": 0.3125, "learning_rate": 0.00029669169948267206, "loss": 0.4689, "step": 50700 }, { "epoch": 135.22666666666666, "grad_norm": 0.333984375, "learning_rate": 0.00029669038614614003, "loss": 0.4662, "step": 50710 }, { "epoch": 135.25333333333333, "grad_norm": 0.376953125, "learning_rate": 0.0002966890725518821, "loss": 0.4657, "step": 50720 }, { "epoch": 135.28, "grad_norm": 0.306640625, "learning_rate": 0.0002966877586999005, "loss": 0.4801, "step": 50730 }, { "epoch": 135.30666666666667, "grad_norm": 0.271484375, "learning_rate": 0.00029668644459019755, "loss": 0.4604, "step": 50740 }, { "epoch": 135.33333333333334, "grad_norm": 0.2734375, "learning_rate": 0.0002966851302227757, "loss": 0.4755, "step": 50750 }, { "epoch": 135.36, "grad_norm": 0.380859375, "learning_rate": 0.00029668381559763707, "loss": 0.4788, "step": 50760 }, { "epoch": 135.38666666666666, "grad_norm": 0.306640625, "learning_rate": 0.0002966825007147841, "loss": 0.469, "step": 50770 }, { "epoch": 135.41333333333333, "grad_norm": 0.3671875, "learning_rate": 0.000296681185574219, "loss": 0.4744, "step": 50780 }, { "epoch": 135.44, "grad_norm": 0.302734375, "learning_rate": 0.0002966798701759441, "loss": 0.477, "step": 50790 }, { "epoch": 135.46666666666667, "grad_norm": 0.302734375, "learning_rate": 0.00029667855451996183, "loss": 0.4861, "step": 50800 }, { "epoch": 135.49333333333334, "grad_norm": 0.443359375, "learning_rate": 0.00029667723860627435, "loss": 0.4775, "step": 50810 }, { "epoch": 135.52, "grad_norm": 0.359375, "learning_rate": 0.00029667592243488405, "loss": 0.4721, "step": 50820 }, { "epoch": 135.54666666666665, "grad_norm": 0.349609375, "learning_rate": 0.00029667460600579326, "loss": 0.4694, "step": 50830 }, { "epoch": 135.57333333333332, "grad_norm": 0.2451171875, "learning_rate": 0.0002966732893190042, "loss": 0.4681, "step": 50840 }, { "epoch": 135.6, "grad_norm": 0.318359375, "learning_rate": 0.0002966719723745193, "loss": 0.4617, "step": 50850 }, { "epoch": 135.62666666666667, "grad_norm": 0.330078125, "learning_rate": 0.00029667065517234077, "loss": 0.4491, "step": 50860 }, { "epoch": 135.65333333333334, "grad_norm": 0.33203125, "learning_rate": 0.000296669337712471, "loss": 0.469, "step": 50870 }, { "epoch": 135.68, "grad_norm": 0.421875, "learning_rate": 0.0002966680199949123, "loss": 0.4603, "step": 50880 }, { "epoch": 135.70666666666668, "grad_norm": 0.35546875, "learning_rate": 0.0002966667020196669, "loss": 0.4611, "step": 50890 }, { "epoch": 135.73333333333332, "grad_norm": 0.302734375, "learning_rate": 0.00029666538378673725, "loss": 0.4793, "step": 50900 }, { "epoch": 135.76, "grad_norm": 0.34765625, "learning_rate": 0.0002966640652961255, "loss": 0.481, "step": 50910 }, { "epoch": 135.78666666666666, "grad_norm": 0.2421875, "learning_rate": 0.0002966627465478342, "loss": 0.4792, "step": 50920 }, { "epoch": 135.81333333333333, "grad_norm": 0.357421875, "learning_rate": 0.0002966614275418654, "loss": 0.4643, "step": 50930 }, { "epoch": 135.84, "grad_norm": 0.326171875, "learning_rate": 0.0002966601082782216, "loss": 0.4706, "step": 50940 }, { "epoch": 135.86666666666667, "grad_norm": 0.30078125, "learning_rate": 0.00029665878875690505, "loss": 0.4698, "step": 50950 }, { "epoch": 135.89333333333335, "grad_norm": 0.259765625, "learning_rate": 0.0002966574689779181, "loss": 0.4609, "step": 50960 }, { "epoch": 135.92, "grad_norm": 0.3203125, "learning_rate": 0.000296656148941263, "loss": 0.4711, "step": 50970 }, { "epoch": 135.94666666666666, "grad_norm": 0.33203125, "learning_rate": 0.00029665482864694217, "loss": 0.4637, "step": 50980 }, { "epoch": 135.97333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029665350809495784, "loss": 0.4755, "step": 50990 }, { "epoch": 136.0, "grad_norm": 0.3984375, "learning_rate": 0.00029665218728531237, "loss": 0.4643, "step": 51000 }, { "epoch": 136.0, "eval_loss": 0.4795243740081787, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.3714, "eval_samples_per_second": 1.543, "eval_steps_per_second": 0.096, "step": 51000 }, { "epoch": 136.02666666666667, "grad_norm": 0.349609375, "learning_rate": 0.0002966508662180081, "loss": 0.4833, "step": 51010 }, { "epoch": 136.05333333333334, "grad_norm": 0.30859375, "learning_rate": 0.0002966495448930473, "loss": 0.4893, "step": 51020 }, { "epoch": 136.08, "grad_norm": 0.28515625, "learning_rate": 0.0002966482233104323, "loss": 0.4764, "step": 51030 }, { "epoch": 136.10666666666665, "grad_norm": 0.5234375, "learning_rate": 0.00029664690147016557, "loss": 0.4718, "step": 51040 }, { "epoch": 136.13333333333333, "grad_norm": 0.400390625, "learning_rate": 0.0002966455793722492, "loss": 0.4726, "step": 51050 }, { "epoch": 136.16, "grad_norm": 0.388671875, "learning_rate": 0.00029664425701668565, "loss": 0.4775, "step": 51060 }, { "epoch": 136.18666666666667, "grad_norm": 0.2734375, "learning_rate": 0.0002966429344034772, "loss": 0.4692, "step": 51070 }, { "epoch": 136.21333333333334, "grad_norm": 0.294921875, "learning_rate": 0.0002966416115326262, "loss": 0.4637, "step": 51080 }, { "epoch": 136.24, "grad_norm": 0.33984375, "learning_rate": 0.0002966402884041349, "loss": 0.4677, "step": 51090 }, { "epoch": 136.26666666666668, "grad_norm": 0.271484375, "learning_rate": 0.0002966389650180058, "loss": 0.4721, "step": 51100 }, { "epoch": 136.29333333333332, "grad_norm": 0.37890625, "learning_rate": 0.000296637641374241, "loss": 0.4667, "step": 51110 }, { "epoch": 136.32, "grad_norm": 0.2890625, "learning_rate": 0.00029663631747284296, "loss": 0.4704, "step": 51120 }, { "epoch": 136.34666666666666, "grad_norm": 0.287109375, "learning_rate": 0.00029663499331381395, "loss": 0.4782, "step": 51130 }, { "epoch": 136.37333333333333, "grad_norm": 0.28125, "learning_rate": 0.00029663366889715645, "loss": 0.4737, "step": 51140 }, { "epoch": 136.4, "grad_norm": 0.279296875, "learning_rate": 0.00029663234422287255, "loss": 0.4703, "step": 51150 }, { "epoch": 136.42666666666668, "grad_norm": 0.388671875, "learning_rate": 0.00029663101929096477, "loss": 0.4766, "step": 51160 }, { "epoch": 136.45333333333335, "grad_norm": 0.33203125, "learning_rate": 0.00029662969410143526, "loss": 0.4793, "step": 51170 }, { "epoch": 136.48, "grad_norm": 0.48828125, "learning_rate": 0.0002966283686542865, "loss": 0.4862, "step": 51180 }, { "epoch": 136.50666666666666, "grad_norm": 0.2890625, "learning_rate": 0.0002966270429495208, "loss": 0.475, "step": 51190 }, { "epoch": 136.53333333333333, "grad_norm": 0.2578125, "learning_rate": 0.00029662571698714046, "loss": 0.4683, "step": 51200 }, { "epoch": 136.56, "grad_norm": 0.3671875, "learning_rate": 0.00029662439076714775, "loss": 0.4704, "step": 51210 }, { "epoch": 136.58666666666667, "grad_norm": 0.326171875, "learning_rate": 0.0002966230642895451, "loss": 0.4661, "step": 51220 }, { "epoch": 136.61333333333334, "grad_norm": 0.251953125, "learning_rate": 0.0002966217375543348, "loss": 0.4518, "step": 51230 }, { "epoch": 136.64, "grad_norm": 0.244140625, "learning_rate": 0.0002966204105615191, "loss": 0.4572, "step": 51240 }, { "epoch": 136.66666666666666, "grad_norm": 0.322265625, "learning_rate": 0.00029661908331110045, "loss": 0.4721, "step": 51250 }, { "epoch": 136.69333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002966177558030812, "loss": 0.4556, "step": 51260 }, { "epoch": 136.72, "grad_norm": 0.341796875, "learning_rate": 0.0002966164280374635, "loss": 0.4725, "step": 51270 }, { "epoch": 136.74666666666667, "grad_norm": 0.306640625, "learning_rate": 0.00029661510001424994, "loss": 0.4768, "step": 51280 }, { "epoch": 136.77333333333334, "grad_norm": 0.380859375, "learning_rate": 0.00029661377173344265, "loss": 0.4839, "step": 51290 }, { "epoch": 136.8, "grad_norm": 0.322265625, "learning_rate": 0.000296612443195044, "loss": 0.471, "step": 51300 }, { "epoch": 136.82666666666665, "grad_norm": 0.396484375, "learning_rate": 0.00029661111439905643, "loss": 0.4659, "step": 51310 }, { "epoch": 136.85333333333332, "grad_norm": 0.3671875, "learning_rate": 0.0002966097853454822, "loss": 0.4752, "step": 51320 }, { "epoch": 136.88, "grad_norm": 0.41015625, "learning_rate": 0.00029660845603432355, "loss": 0.4628, "step": 51330 }, { "epoch": 136.90666666666667, "grad_norm": 0.40234375, "learning_rate": 0.000296607126465583, "loss": 0.4644, "step": 51340 }, { "epoch": 136.93333333333334, "grad_norm": 0.251953125, "learning_rate": 0.00029660579663926283, "loss": 0.4672, "step": 51350 }, { "epoch": 136.96, "grad_norm": 0.34375, "learning_rate": 0.00029660446655536526, "loss": 0.4656, "step": 51360 }, { "epoch": 136.98666666666668, "grad_norm": 0.3125, "learning_rate": 0.00029660313621389275, "loss": 0.4786, "step": 51370 }, { "epoch": 137.0, "eval_loss": 0.48131263256073, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.7597, "eval_samples_per_second": 1.487, "eval_steps_per_second": 0.093, "step": 51375 }, { "epoch": 137.01333333333332, "grad_norm": 0.291015625, "learning_rate": 0.0002966018056148476, "loss": 0.4687, "step": 51380 }, { "epoch": 137.04, "grad_norm": 0.365234375, "learning_rate": 0.0002966004747582321, "loss": 0.4916, "step": 51390 }, { "epoch": 137.06666666666666, "grad_norm": 0.330078125, "learning_rate": 0.0002965991436440487, "loss": 0.4795, "step": 51400 }, { "epoch": 137.09333333333333, "grad_norm": 0.37890625, "learning_rate": 0.0002965978122722996, "loss": 0.4739, "step": 51410 }, { "epoch": 137.12, "grad_norm": 0.3984375, "learning_rate": 0.00029659648064298726, "loss": 0.4704, "step": 51420 }, { "epoch": 137.14666666666668, "grad_norm": 0.37109375, "learning_rate": 0.00029659514875611396, "loss": 0.4798, "step": 51430 }, { "epoch": 137.17333333333335, "grad_norm": 0.361328125, "learning_rate": 0.00029659381661168203, "loss": 0.4698, "step": 51440 }, { "epoch": 137.2, "grad_norm": 0.29296875, "learning_rate": 0.0002965924842096939, "loss": 0.468, "step": 51450 }, { "epoch": 137.22666666666666, "grad_norm": 0.322265625, "learning_rate": 0.0002965911515501518, "loss": 0.4659, "step": 51460 }, { "epoch": 137.25333333333333, "grad_norm": 0.330078125, "learning_rate": 0.00029658981863305814, "loss": 0.4653, "step": 51470 }, { "epoch": 137.28, "grad_norm": 0.30078125, "learning_rate": 0.0002965884854584152, "loss": 0.4789, "step": 51480 }, { "epoch": 137.30666666666667, "grad_norm": 0.298828125, "learning_rate": 0.00029658715202622533, "loss": 0.4608, "step": 51490 }, { "epoch": 137.33333333333334, "grad_norm": 0.31640625, "learning_rate": 0.00029658581833649094, "loss": 0.4757, "step": 51500 }, { "epoch": 137.36, "grad_norm": 0.26171875, "learning_rate": 0.00029658448438921436, "loss": 0.4782, "step": 51510 }, { "epoch": 137.38666666666666, "grad_norm": 0.357421875, "learning_rate": 0.0002965831501843979, "loss": 0.4689, "step": 51520 }, { "epoch": 137.41333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0002965818157220439, "loss": 0.4748, "step": 51530 }, { "epoch": 137.44, "grad_norm": 0.2734375, "learning_rate": 0.00029658048100215473, "loss": 0.4771, "step": 51540 }, { "epoch": 137.46666666666667, "grad_norm": 0.41015625, "learning_rate": 0.0002965791460247327, "loss": 0.4872, "step": 51550 }, { "epoch": 137.49333333333334, "grad_norm": 0.3515625, "learning_rate": 0.00029657781078978017, "loss": 0.478, "step": 51560 }, { "epoch": 137.52, "grad_norm": 0.267578125, "learning_rate": 0.0002965764752972995, "loss": 0.4714, "step": 51570 }, { "epoch": 137.54666666666665, "grad_norm": 0.380859375, "learning_rate": 0.0002965751395472931, "loss": 0.4692, "step": 51580 }, { "epoch": 137.57333333333332, "grad_norm": 0.2236328125, "learning_rate": 0.00029657380353976316, "loss": 0.4688, "step": 51590 }, { "epoch": 137.6, "grad_norm": 0.251953125, "learning_rate": 0.00029657246727471213, "loss": 0.4619, "step": 51600 }, { "epoch": 137.62666666666667, "grad_norm": 0.27734375, "learning_rate": 0.0002965711307521424, "loss": 0.4492, "step": 51610 }, { "epoch": 137.65333333333334, "grad_norm": 0.318359375, "learning_rate": 0.0002965697939720562, "loss": 0.4685, "step": 51620 }, { "epoch": 137.68, "grad_norm": 0.298828125, "learning_rate": 0.00029656845693445597, "loss": 0.4599, "step": 51630 }, { "epoch": 137.70666666666668, "grad_norm": 0.3359375, "learning_rate": 0.00029656711963934397, "loss": 0.46, "step": 51640 }, { "epoch": 137.73333333333332, "grad_norm": 0.279296875, "learning_rate": 0.00029656578208672263, "loss": 0.4792, "step": 51650 }, { "epoch": 137.76, "grad_norm": 0.35546875, "learning_rate": 0.0002965644442765943, "loss": 0.4801, "step": 51660 }, { "epoch": 137.78666666666666, "grad_norm": 0.384765625, "learning_rate": 0.00029656310620896134, "loss": 0.4792, "step": 51670 }, { "epoch": 137.81333333333333, "grad_norm": 0.31640625, "learning_rate": 0.000296561767883826, "loss": 0.4638, "step": 51680 }, { "epoch": 137.84, "grad_norm": 0.341796875, "learning_rate": 0.00029656042930119075, "loss": 0.4706, "step": 51690 }, { "epoch": 137.86666666666667, "grad_norm": 0.345703125, "learning_rate": 0.00029655909046105787, "loss": 0.4694, "step": 51700 }, { "epoch": 137.89333333333335, "grad_norm": 0.32421875, "learning_rate": 0.0002965577513634297, "loss": 0.4606, "step": 51710 }, { "epoch": 137.92, "grad_norm": 0.41796875, "learning_rate": 0.0002965564120083087, "loss": 0.4704, "step": 51720 }, { "epoch": 137.94666666666666, "grad_norm": 0.3203125, "learning_rate": 0.00029655507239569707, "loss": 0.4627, "step": 51730 }, { "epoch": 137.97333333333333, "grad_norm": 0.326171875, "learning_rate": 0.00029655373252559733, "loss": 0.4747, "step": 51740 }, { "epoch": 138.0, "grad_norm": 0.3046875, "learning_rate": 0.0002965523923980117, "loss": 0.4634, "step": 51750 }, { "epoch": 138.0, "eval_loss": 0.47989213466644287, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.2738, "eval_samples_per_second": 1.557, "eval_steps_per_second": 0.097, "step": 51750 }, { "epoch": 138.02666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002965510520129426, "loss": 0.4841, "step": 51760 }, { "epoch": 138.05333333333334, "grad_norm": 0.236328125, "learning_rate": 0.00029654971137039234, "loss": 0.4889, "step": 51770 }, { "epoch": 138.08, "grad_norm": 0.3515625, "learning_rate": 0.0002965483704703633, "loss": 0.4767, "step": 51780 }, { "epoch": 138.10666666666665, "grad_norm": 0.29296875, "learning_rate": 0.0002965470293128579, "loss": 0.4717, "step": 51790 }, { "epoch": 138.13333333333333, "grad_norm": 0.3828125, "learning_rate": 0.00029654568789787836, "loss": 0.4731, "step": 51800 }, { "epoch": 138.16, "grad_norm": 0.326171875, "learning_rate": 0.00029654434622542717, "loss": 0.4769, "step": 51810 }, { "epoch": 138.18666666666667, "grad_norm": 0.2890625, "learning_rate": 0.0002965430042955066, "loss": 0.469, "step": 51820 }, { "epoch": 138.21333333333334, "grad_norm": 0.30078125, "learning_rate": 0.00029654166210811903, "loss": 0.4644, "step": 51830 }, { "epoch": 138.24, "grad_norm": 0.259765625, "learning_rate": 0.0002965403196632668, "loss": 0.4684, "step": 51840 }, { "epoch": 138.26666666666668, "grad_norm": 0.255859375, "learning_rate": 0.00029653897696095235, "loss": 0.473, "step": 51850 }, { "epoch": 138.29333333333332, "grad_norm": 0.34375, "learning_rate": 0.000296537634001178, "loss": 0.466, "step": 51860 }, { "epoch": 138.32, "grad_norm": 0.3046875, "learning_rate": 0.000296536290783946, "loss": 0.4706, "step": 51870 }, { "epoch": 138.34666666666666, "grad_norm": 0.349609375, "learning_rate": 0.00029653494730925886, "loss": 0.4785, "step": 51880 }, { "epoch": 138.37333333333333, "grad_norm": 0.30078125, "learning_rate": 0.00029653360357711887, "loss": 0.4745, "step": 51890 }, { "epoch": 138.4, "grad_norm": 0.2294921875, "learning_rate": 0.00029653225958752835, "loss": 0.471, "step": 51900 }, { "epoch": 138.42666666666668, "grad_norm": 0.31640625, "learning_rate": 0.0002965309153404898, "loss": 0.4771, "step": 51910 }, { "epoch": 138.45333333333335, "grad_norm": 0.3046875, "learning_rate": 0.0002965295708360055, "loss": 0.4787, "step": 51920 }, { "epoch": 138.48, "grad_norm": 0.349609375, "learning_rate": 0.00029652822607407776, "loss": 0.486, "step": 51930 }, { "epoch": 138.50666666666666, "grad_norm": 0.330078125, "learning_rate": 0.000296526881054709, "loss": 0.4745, "step": 51940 }, { "epoch": 138.53333333333333, "grad_norm": 0.263671875, "learning_rate": 0.00029652553577790155, "loss": 0.4689, "step": 51950 }, { "epoch": 138.56, "grad_norm": 0.373046875, "learning_rate": 0.0002965241902436579, "loss": 0.4704, "step": 51960 }, { "epoch": 138.58666666666667, "grad_norm": 0.421875, "learning_rate": 0.0002965228444519802, "loss": 0.4655, "step": 51970 }, { "epoch": 138.61333333333334, "grad_norm": 0.39453125, "learning_rate": 0.00029652149840287095, "loss": 0.4512, "step": 51980 }, { "epoch": 138.64, "grad_norm": 0.369140625, "learning_rate": 0.0002965201520963325, "loss": 0.4568, "step": 51990 }, { "epoch": 138.66666666666666, "grad_norm": 0.37109375, "learning_rate": 0.0002965188055323672, "loss": 0.4718, "step": 52000 }, { "epoch": 138.69333333333333, "grad_norm": 0.3671875, "learning_rate": 0.00029651745871097745, "loss": 0.4547, "step": 52010 }, { "epoch": 138.72, "grad_norm": 0.36328125, "learning_rate": 0.00029651611163216557, "loss": 0.4725, "step": 52020 }, { "epoch": 138.74666666666667, "grad_norm": 0.3203125, "learning_rate": 0.00029651476429593394, "loss": 0.4767, "step": 52030 }, { "epoch": 138.77333333333334, "grad_norm": 0.2734375, "learning_rate": 0.00029651341670228497, "loss": 0.4832, "step": 52040 }, { "epoch": 138.8, "grad_norm": 0.353515625, "learning_rate": 0.00029651206885122097, "loss": 0.471, "step": 52050 }, { "epoch": 138.82666666666665, "grad_norm": 0.40625, "learning_rate": 0.0002965107207427443, "loss": 0.4659, "step": 52060 }, { "epoch": 138.85333333333332, "grad_norm": 0.462890625, "learning_rate": 0.00029650937237685735, "loss": 0.4744, "step": 52070 }, { "epoch": 138.88, "grad_norm": 0.380859375, "learning_rate": 0.00029650802375356255, "loss": 0.4626, "step": 52080 }, { "epoch": 138.90666666666667, "grad_norm": 0.328125, "learning_rate": 0.00029650667487286217, "loss": 0.465, "step": 52090 }, { "epoch": 138.93333333333334, "grad_norm": 0.2314453125, "learning_rate": 0.00029650532573475863, "loss": 0.467, "step": 52100 }, { "epoch": 138.96, "grad_norm": 0.328125, "learning_rate": 0.0002965039763392543, "loss": 0.4643, "step": 52110 }, { "epoch": 138.98666666666668, "grad_norm": 0.3671875, "learning_rate": 0.0002965026266863516, "loss": 0.4791, "step": 52120 }, { "epoch": 139.0, "eval_loss": 0.47840365767478943, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.325, "eval_samples_per_second": 1.55, "eval_steps_per_second": 0.097, "step": 52125 }, { "epoch": 139.01333333333332, "grad_norm": 0.3125, "learning_rate": 0.0002965012767760528, "loss": 0.4676, "step": 52130 }, { "epoch": 139.04, "grad_norm": 0.298828125, "learning_rate": 0.0002964999266083603, "loss": 0.4924, "step": 52140 }, { "epoch": 139.06666666666666, "grad_norm": 0.404296875, "learning_rate": 0.0002964985761832765, "loss": 0.4791, "step": 52150 }, { "epoch": 139.09333333333333, "grad_norm": 0.34375, "learning_rate": 0.00029649722550080374, "loss": 0.4739, "step": 52160 }, { "epoch": 139.12, "grad_norm": 0.3125, "learning_rate": 0.00029649587456094447, "loss": 0.4702, "step": 52170 }, { "epoch": 139.14666666666668, "grad_norm": 0.365234375, "learning_rate": 0.000296494523363701, "loss": 0.4791, "step": 52180 }, { "epoch": 139.17333333333335, "grad_norm": 0.39453125, "learning_rate": 0.0002964931719090757, "loss": 0.4698, "step": 52190 }, { "epoch": 139.2, "grad_norm": 0.333984375, "learning_rate": 0.000296491820197071, "loss": 0.4683, "step": 52200 }, { "epoch": 139.22666666666666, "grad_norm": 0.28125, "learning_rate": 0.0002964904682276892, "loss": 0.4656, "step": 52210 }, { "epoch": 139.25333333333333, "grad_norm": 0.3359375, "learning_rate": 0.0002964891160009327, "loss": 0.4663, "step": 52220 }, { "epoch": 139.28, "grad_norm": 0.44921875, "learning_rate": 0.0002964877635168039, "loss": 0.48, "step": 52230 }, { "epoch": 139.30666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002964864107753051, "loss": 0.4602, "step": 52240 }, { "epoch": 139.33333333333334, "grad_norm": 0.3203125, "learning_rate": 0.0002964850577764388, "loss": 0.4762, "step": 52250 }, { "epoch": 139.36, "grad_norm": 0.4140625, "learning_rate": 0.0002964837045202073, "loss": 0.4771, "step": 52260 }, { "epoch": 139.38666666666666, "grad_norm": 0.40625, "learning_rate": 0.00029648235100661303, "loss": 0.4695, "step": 52270 }, { "epoch": 139.41333333333333, "grad_norm": 0.51953125, "learning_rate": 0.00029648099723565826, "loss": 0.4741, "step": 52280 }, { "epoch": 139.44, "grad_norm": 0.51953125, "learning_rate": 0.00029647964320734545, "loss": 0.4775, "step": 52290 }, { "epoch": 139.46666666666667, "grad_norm": 0.4453125, "learning_rate": 0.00029647828892167703, "loss": 0.4868, "step": 52300 }, { "epoch": 139.49333333333334, "grad_norm": 0.498046875, "learning_rate": 0.0002964769343786553, "loss": 0.4776, "step": 52310 }, { "epoch": 139.52, "grad_norm": 0.490234375, "learning_rate": 0.00029647557957828265, "loss": 0.4722, "step": 52320 }, { "epoch": 139.54666666666665, "grad_norm": 0.3515625, "learning_rate": 0.00029647422452056145, "loss": 0.4691, "step": 52330 }, { "epoch": 139.57333333333332, "grad_norm": 0.279296875, "learning_rate": 0.0002964728692054941, "loss": 0.4681, "step": 52340 }, { "epoch": 139.6, "grad_norm": 0.419921875, "learning_rate": 0.000296471513633083, "loss": 0.4618, "step": 52350 }, { "epoch": 139.62666666666667, "grad_norm": 0.28125, "learning_rate": 0.0002964701578033305, "loss": 0.4491, "step": 52360 }, { "epoch": 139.65333333333334, "grad_norm": 0.30078125, "learning_rate": 0.00029646880171623895, "loss": 0.4688, "step": 52370 }, { "epoch": 139.68, "grad_norm": 0.34375, "learning_rate": 0.00029646744537181085, "loss": 0.4603, "step": 52380 }, { "epoch": 139.70666666666668, "grad_norm": 0.3515625, "learning_rate": 0.00029646608877004844, "loss": 0.4603, "step": 52390 }, { "epoch": 139.73333333333332, "grad_norm": 0.283203125, "learning_rate": 0.00029646473191095423, "loss": 0.4796, "step": 52400 }, { "epoch": 139.76, "grad_norm": 0.412109375, "learning_rate": 0.00029646337479453055, "loss": 0.4807, "step": 52410 }, { "epoch": 139.78666666666666, "grad_norm": 0.296875, "learning_rate": 0.0002964620174207797, "loss": 0.4792, "step": 52420 }, { "epoch": 139.81333333333333, "grad_norm": 0.404296875, "learning_rate": 0.0002964606597897042, "loss": 0.4641, "step": 52430 }, { "epoch": 139.84, "grad_norm": 0.6171875, "learning_rate": 0.00029645930190130637, "loss": 0.4705, "step": 52440 }, { "epoch": 139.86666666666667, "grad_norm": 0.353515625, "learning_rate": 0.0002964579437555886, "loss": 0.4694, "step": 52450 }, { "epoch": 139.89333333333335, "grad_norm": 0.322265625, "learning_rate": 0.00029645658535255333, "loss": 0.4606, "step": 52460 }, { "epoch": 139.92, "grad_norm": 0.33984375, "learning_rate": 0.00029645522669220287, "loss": 0.4712, "step": 52470 }, { "epoch": 139.94666666666666, "grad_norm": 0.2578125, "learning_rate": 0.00029645386777453963, "loss": 0.4637, "step": 52480 }, { "epoch": 139.97333333333333, "grad_norm": 0.365234375, "learning_rate": 0.000296452508599566, "loss": 0.4746, "step": 52490 }, { "epoch": 140.0, "grad_norm": 0.298828125, "learning_rate": 0.00029645114916728436, "loss": 0.4636, "step": 52500 }, { "epoch": 140.0, "eval_loss": 0.4796655476093292, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.272, "eval_samples_per_second": 1.558, "eval_steps_per_second": 0.097, "step": 52500 }, { "epoch": 140.02666666666667, "grad_norm": 0.3203125, "learning_rate": 0.0002964497894776972, "loss": 0.4833, "step": 52510 }, { "epoch": 140.05333333333334, "grad_norm": 0.34765625, "learning_rate": 0.0002964484295308067, "loss": 0.4887, "step": 52520 }, { "epoch": 140.08, "grad_norm": 0.314453125, "learning_rate": 0.00029644706932661544, "loss": 0.4763, "step": 52530 }, { "epoch": 140.10666666666665, "grad_norm": 0.416015625, "learning_rate": 0.0002964457088651257, "loss": 0.4715, "step": 52540 }, { "epoch": 140.13333333333333, "grad_norm": 0.31640625, "learning_rate": 0.0002964443481463399, "loss": 0.4732, "step": 52550 }, { "epoch": 140.16, "grad_norm": 0.291015625, "learning_rate": 0.00029644298717026047, "loss": 0.4769, "step": 52560 }, { "epoch": 140.18666666666667, "grad_norm": 0.33984375, "learning_rate": 0.00029644162593688977, "loss": 0.469, "step": 52570 }, { "epoch": 140.21333333333334, "grad_norm": 0.34375, "learning_rate": 0.0002964402644462302, "loss": 0.4644, "step": 52580 }, { "epoch": 140.24, "grad_norm": 0.251953125, "learning_rate": 0.0002964389026982841, "loss": 0.4683, "step": 52590 }, { "epoch": 140.26666666666668, "grad_norm": 0.265625, "learning_rate": 0.00029643754069305395, "loss": 0.4718, "step": 52600 }, { "epoch": 140.29333333333332, "grad_norm": 0.5078125, "learning_rate": 0.00029643617843054206, "loss": 0.4664, "step": 52610 }, { "epoch": 140.32, "grad_norm": 0.416015625, "learning_rate": 0.0002964348159107509, "loss": 0.47, "step": 52620 }, { "epoch": 140.34666666666666, "grad_norm": 0.32421875, "learning_rate": 0.00029643345313368284, "loss": 0.4782, "step": 52630 }, { "epoch": 140.37333333333333, "grad_norm": 0.326171875, "learning_rate": 0.0002964320900993402, "loss": 0.4739, "step": 52640 }, { "epoch": 140.4, "grad_norm": 0.353515625, "learning_rate": 0.00029643072680772553, "loss": 0.4709, "step": 52650 }, { "epoch": 140.42666666666668, "grad_norm": 0.2236328125, "learning_rate": 0.00029642936325884105, "loss": 0.4764, "step": 52660 }, { "epoch": 140.45333333333335, "grad_norm": 0.3671875, "learning_rate": 0.00029642799945268927, "loss": 0.4789, "step": 52670 }, { "epoch": 140.48, "grad_norm": 0.40625, "learning_rate": 0.0002964266353892725, "loss": 0.4854, "step": 52680 }, { "epoch": 140.50666666666666, "grad_norm": 0.36328125, "learning_rate": 0.00029642527106859325, "loss": 0.4751, "step": 52690 }, { "epoch": 140.53333333333333, "grad_norm": 0.322265625, "learning_rate": 0.00029642390649065384, "loss": 0.4682, "step": 52700 }, { "epoch": 140.56, "grad_norm": 0.291015625, "learning_rate": 0.00029642254165545667, "loss": 0.4695, "step": 52710 }, { "epoch": 140.58666666666667, "grad_norm": 0.2890625, "learning_rate": 0.0002964211765630042, "loss": 0.4653, "step": 52720 }, { "epoch": 140.61333333333334, "grad_norm": 0.287109375, "learning_rate": 0.0002964198112132987, "loss": 0.4515, "step": 52730 }, { "epoch": 140.64, "grad_norm": 0.337890625, "learning_rate": 0.00029641844560634274, "loss": 0.4572, "step": 52740 }, { "epoch": 140.66666666666666, "grad_norm": 0.349609375, "learning_rate": 0.00029641707974213856, "loss": 0.4722, "step": 52750 }, { "epoch": 140.69333333333333, "grad_norm": 0.294921875, "learning_rate": 0.00029641571362068865, "loss": 0.4553, "step": 52760 }, { "epoch": 140.72, "grad_norm": 0.3671875, "learning_rate": 0.0002964143472419954, "loss": 0.4722, "step": 52770 }, { "epoch": 140.74666666666667, "grad_norm": 0.384765625, "learning_rate": 0.00029641298060606116, "loss": 0.4764, "step": 52780 }, { "epoch": 140.77333333333334, "grad_norm": 0.48828125, "learning_rate": 0.0002964116137128884, "loss": 0.4843, "step": 52790 }, { "epoch": 140.8, "grad_norm": 0.33203125, "learning_rate": 0.0002964102465624795, "loss": 0.4708, "step": 52800 }, { "epoch": 140.82666666666665, "grad_norm": 0.283203125, "learning_rate": 0.00029640887915483683, "loss": 0.4655, "step": 52810 }, { "epoch": 140.85333333333332, "grad_norm": 0.341796875, "learning_rate": 0.00029640751148996285, "loss": 0.4745, "step": 52820 }, { "epoch": 140.88, "grad_norm": 0.361328125, "learning_rate": 0.0002964061435678599, "loss": 0.4619, "step": 52830 }, { "epoch": 140.90666666666667, "grad_norm": 0.25, "learning_rate": 0.0002964047753885304, "loss": 0.4648, "step": 52840 }, { "epoch": 140.93333333333334, "grad_norm": 0.2890625, "learning_rate": 0.0002964034069519768, "loss": 0.4664, "step": 52850 }, { "epoch": 140.96, "grad_norm": 0.3046875, "learning_rate": 0.0002964020382582015, "loss": 0.4644, "step": 52860 }, { "epoch": 140.98666666666668, "grad_norm": 0.28515625, "learning_rate": 0.0002964006693072068, "loss": 0.4791, "step": 52870 }, { "epoch": 141.0, "eval_loss": 0.4809083044528961, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.875, "eval_samples_per_second": 1.62, "eval_steps_per_second": 0.101, "step": 52875 }, { "epoch": 141.01333333333332, "grad_norm": 0.294921875, "learning_rate": 0.0002963993000989952, "loss": 0.4674, "step": 52880 }, { "epoch": 141.04, "grad_norm": 0.349609375, "learning_rate": 0.00029639793063356907, "loss": 0.4921, "step": 52890 }, { "epoch": 141.06666666666666, "grad_norm": 0.283203125, "learning_rate": 0.00029639656091093086, "loss": 0.4794, "step": 52900 }, { "epoch": 141.09333333333333, "grad_norm": 0.5703125, "learning_rate": 0.0002963951909310829, "loss": 0.4747, "step": 52910 }, { "epoch": 141.12, "grad_norm": 0.404296875, "learning_rate": 0.00029639382069402776, "loss": 0.471, "step": 52920 }, { "epoch": 141.14666666666668, "grad_norm": 0.34375, "learning_rate": 0.00029639245019976763, "loss": 0.4793, "step": 52930 }, { "epoch": 141.17333333333335, "grad_norm": 0.396484375, "learning_rate": 0.0002963910794483051, "loss": 0.4698, "step": 52940 }, { "epoch": 141.2, "grad_norm": 0.369140625, "learning_rate": 0.00029638970843964244, "loss": 0.4675, "step": 52950 }, { "epoch": 141.22666666666666, "grad_norm": 0.359375, "learning_rate": 0.00029638833717378214, "loss": 0.466, "step": 52960 }, { "epoch": 141.25333333333333, "grad_norm": 0.279296875, "learning_rate": 0.0002963869656507266, "loss": 0.4655, "step": 52970 }, { "epoch": 141.28, "grad_norm": 0.3203125, "learning_rate": 0.0002963855938704782, "loss": 0.4792, "step": 52980 }, { "epoch": 141.30666666666667, "grad_norm": 0.279296875, "learning_rate": 0.0002963842218330393, "loss": 0.4611, "step": 52990 }, { "epoch": 141.33333333333334, "grad_norm": 0.2734375, "learning_rate": 0.00029638284953841247, "loss": 0.4756, "step": 53000 }, { "epoch": 141.36, "grad_norm": 0.3125, "learning_rate": 0.0002963814769866, "loss": 0.4774, "step": 53010 }, { "epoch": 141.38666666666666, "grad_norm": 0.40234375, "learning_rate": 0.0002963801041776044, "loss": 0.4695, "step": 53020 }, { "epoch": 141.41333333333333, "grad_norm": 0.322265625, "learning_rate": 0.0002963787311114279, "loss": 0.4743, "step": 53030 }, { "epoch": 141.44, "grad_norm": 0.314453125, "learning_rate": 0.00029637735778807305, "loss": 0.4769, "step": 53040 }, { "epoch": 141.46666666666667, "grad_norm": 0.357421875, "learning_rate": 0.00029637598420754227, "loss": 0.487, "step": 53050 }, { "epoch": 141.49333333333334, "grad_norm": 0.314453125, "learning_rate": 0.0002963746103698379, "loss": 0.4776, "step": 53060 }, { "epoch": 141.52, "grad_norm": 0.296875, "learning_rate": 0.00029637323627496243, "loss": 0.4722, "step": 53070 }, { "epoch": 141.54666666666665, "grad_norm": 0.353515625, "learning_rate": 0.0002963718619229182, "loss": 0.469, "step": 53080 }, { "epoch": 141.57333333333332, "grad_norm": 0.34375, "learning_rate": 0.0002963704873137077, "loss": 0.4677, "step": 53090 }, { "epoch": 141.6, "grad_norm": 0.4140625, "learning_rate": 0.0002963691124473333, "loss": 0.4615, "step": 53100 }, { "epoch": 141.62666666666667, "grad_norm": 0.41015625, "learning_rate": 0.0002963677373237974, "loss": 0.4487, "step": 53110 }, { "epoch": 141.65333333333334, "grad_norm": 0.34765625, "learning_rate": 0.0002963663619431025, "loss": 0.4685, "step": 53120 }, { "epoch": 141.68, "grad_norm": 0.2275390625, "learning_rate": 0.00029636498630525093, "loss": 0.4596, "step": 53130 }, { "epoch": 141.70666666666668, "grad_norm": 0.48046875, "learning_rate": 0.0002963636104102451, "loss": 0.4605, "step": 53140 }, { "epoch": 141.73333333333332, "grad_norm": 0.3984375, "learning_rate": 0.0002963622342580875, "loss": 0.4791, "step": 53150 }, { "epoch": 141.76, "grad_norm": 0.330078125, "learning_rate": 0.00029636085784878047, "loss": 0.4807, "step": 53160 }, { "epoch": 141.78666666666666, "grad_norm": 0.45703125, "learning_rate": 0.00029635948118232646, "loss": 0.4792, "step": 53170 }, { "epoch": 141.81333333333333, "grad_norm": 0.40234375, "learning_rate": 0.00029635810425872794, "loss": 0.4642, "step": 53180 }, { "epoch": 141.84, "grad_norm": 0.3359375, "learning_rate": 0.00029635672707798723, "loss": 0.4703, "step": 53190 }, { "epoch": 141.86666666666667, "grad_norm": 0.3984375, "learning_rate": 0.0002963553496401069, "loss": 0.47, "step": 53200 }, { "epoch": 141.89333333333335, "grad_norm": 0.39453125, "learning_rate": 0.00029635397194508915, "loss": 0.4605, "step": 53210 }, { "epoch": 141.92, "grad_norm": 0.36328125, "learning_rate": 0.00029635259399293665, "loss": 0.4711, "step": 53220 }, { "epoch": 141.94666666666666, "grad_norm": 0.349609375, "learning_rate": 0.0002963512157836516, "loss": 0.4629, "step": 53230 }, { "epoch": 141.97333333333333, "grad_norm": 0.46484375, "learning_rate": 0.0002963498373172365, "loss": 0.4751, "step": 53240 }, { "epoch": 142.0, "grad_norm": 0.39453125, "learning_rate": 0.0002963484585936939, "loss": 0.4645, "step": 53250 }, { "epoch": 142.0, "eval_loss": 0.4798355996608734, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.4414, "eval_samples_per_second": 1.532, "eval_steps_per_second": 0.096, "step": 53250 }, { "epoch": 142.02666666666667, "grad_norm": 0.328125, "learning_rate": 0.00029634707961302605, "loss": 0.4836, "step": 53260 }, { "epoch": 142.05333333333334, "grad_norm": 0.396484375, "learning_rate": 0.0002963457003752354, "loss": 0.4895, "step": 53270 }, { "epoch": 142.08, "grad_norm": 0.361328125, "learning_rate": 0.00029634432088032446, "loss": 0.476, "step": 53280 }, { "epoch": 142.10666666666665, "grad_norm": 0.466796875, "learning_rate": 0.0002963429411282956, "loss": 0.472, "step": 53290 }, { "epoch": 142.13333333333333, "grad_norm": 0.259765625, "learning_rate": 0.0002963415611191512, "loss": 0.4728, "step": 53300 }, { "epoch": 142.16, "grad_norm": 0.365234375, "learning_rate": 0.0002963401808528938, "loss": 0.4772, "step": 53310 }, { "epoch": 142.18666666666667, "grad_norm": 0.271484375, "learning_rate": 0.0002963388003295257, "loss": 0.4693, "step": 53320 }, { "epoch": 142.21333333333334, "grad_norm": 0.283203125, "learning_rate": 0.00029633741954904934, "loss": 0.4641, "step": 53330 }, { "epoch": 142.24, "grad_norm": 0.330078125, "learning_rate": 0.00029633603851146725, "loss": 0.468, "step": 53340 }, { "epoch": 142.26666666666668, "grad_norm": 0.3203125, "learning_rate": 0.0002963346572167818, "loss": 0.4727, "step": 53350 }, { "epoch": 142.29333333333332, "grad_norm": 0.310546875, "learning_rate": 0.00029633327566499536, "loss": 0.4661, "step": 53360 }, { "epoch": 142.32, "grad_norm": 0.431640625, "learning_rate": 0.00029633189385611043, "loss": 0.4704, "step": 53370 }, { "epoch": 142.34666666666666, "grad_norm": 0.37890625, "learning_rate": 0.00029633051179012946, "loss": 0.4778, "step": 53380 }, { "epoch": 142.37333333333333, "grad_norm": 0.32421875, "learning_rate": 0.00029632912946705477, "loss": 0.4738, "step": 53390 }, { "epoch": 142.4, "grad_norm": 0.470703125, "learning_rate": 0.0002963277468868889, "loss": 0.4701, "step": 53400 }, { "epoch": 142.42666666666668, "grad_norm": 0.29296875, "learning_rate": 0.0002963263640496342, "loss": 0.4769, "step": 53410 }, { "epoch": 142.45333333333335, "grad_norm": 0.30078125, "learning_rate": 0.0002963249809552931, "loss": 0.4788, "step": 53420 }, { "epoch": 142.48, "grad_norm": 0.3125, "learning_rate": 0.0002963235976038681, "loss": 0.485, "step": 53430 }, { "epoch": 142.50666666666666, "grad_norm": 0.41796875, "learning_rate": 0.0002963222139953616, "loss": 0.4746, "step": 53440 }, { "epoch": 142.53333333333333, "grad_norm": 0.330078125, "learning_rate": 0.000296320830129776, "loss": 0.4682, "step": 53450 }, { "epoch": 142.56, "grad_norm": 0.2421875, "learning_rate": 0.00029631944600711375, "loss": 0.4695, "step": 53460 }, { "epoch": 142.58666666666667, "grad_norm": 0.2470703125, "learning_rate": 0.0002963180616273773, "loss": 0.4654, "step": 53470 }, { "epoch": 142.61333333333334, "grad_norm": 0.248046875, "learning_rate": 0.00029631667699056905, "loss": 0.4513, "step": 53480 }, { "epoch": 142.64, "grad_norm": 0.357421875, "learning_rate": 0.00029631529209669146, "loss": 0.457, "step": 53490 }, { "epoch": 142.66666666666666, "grad_norm": 0.369140625, "learning_rate": 0.00029631390694574694, "loss": 0.472, "step": 53500 }, { "epoch": 142.69333333333333, "grad_norm": 0.330078125, "learning_rate": 0.000296312521537738, "loss": 0.4546, "step": 53510 }, { "epoch": 142.72, "grad_norm": 0.40234375, "learning_rate": 0.0002963111358726669, "loss": 0.4723, "step": 53520 }, { "epoch": 142.74666666666667, "grad_norm": 0.267578125, "learning_rate": 0.00029630974995053627, "loss": 0.4757, "step": 53530 }, { "epoch": 142.77333333333334, "grad_norm": 0.322265625, "learning_rate": 0.0002963083637713484, "loss": 0.484, "step": 53540 }, { "epoch": 142.8, "grad_norm": 0.28515625, "learning_rate": 0.0002963069773351059, "loss": 0.4705, "step": 53550 }, { "epoch": 142.82666666666665, "grad_norm": 0.369140625, "learning_rate": 0.0002963055906418109, "loss": 0.4654, "step": 53560 }, { "epoch": 142.85333333333332, "grad_norm": 0.412109375, "learning_rate": 0.0002963042036914662, "loss": 0.4743, "step": 53570 }, { "epoch": 142.88, "grad_norm": 0.34765625, "learning_rate": 0.000296302816484074, "loss": 0.4629, "step": 53580 }, { "epoch": 142.90666666666667, "grad_norm": 0.248046875, "learning_rate": 0.00029630142901963683, "loss": 0.4649, "step": 53590 }, { "epoch": 142.93333333333334, "grad_norm": 0.220703125, "learning_rate": 0.00029630004129815705, "loss": 0.4671, "step": 53600 }, { "epoch": 142.96, "grad_norm": 0.361328125, "learning_rate": 0.0002962986533196372, "loss": 0.465, "step": 53610 }, { "epoch": 142.98666666666668, "grad_norm": 0.404296875, "learning_rate": 0.00029629726508407963, "loss": 0.4792, "step": 53620 }, { "epoch": 143.0, "eval_loss": 0.4780339300632477, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.9163, "eval_samples_per_second": 1.614, "eval_steps_per_second": 0.101, "step": 53625 }, { "epoch": 143.01333333333332, "grad_norm": 0.275390625, "learning_rate": 0.0002962958765914868, "loss": 0.4674, "step": 53630 }, { "epoch": 143.04, "grad_norm": 0.275390625, "learning_rate": 0.0002962944878418612, "loss": 0.4919, "step": 53640 }, { "epoch": 143.06666666666666, "grad_norm": 0.359375, "learning_rate": 0.0002962930988352052, "loss": 0.4789, "step": 53650 }, { "epoch": 143.09333333333333, "grad_norm": 0.2578125, "learning_rate": 0.0002962917095715213, "loss": 0.4737, "step": 53660 }, { "epoch": 143.12, "grad_norm": 0.294921875, "learning_rate": 0.0002962903200508119, "loss": 0.4704, "step": 53670 }, { "epoch": 143.14666666666668, "grad_norm": 0.376953125, "learning_rate": 0.00029628893027307946, "loss": 0.4792, "step": 53680 }, { "epoch": 143.17333333333335, "grad_norm": 0.380859375, "learning_rate": 0.00029628754023832646, "loss": 0.4696, "step": 53690 }, { "epoch": 143.2, "grad_norm": 0.439453125, "learning_rate": 0.00029628614994655527, "loss": 0.4679, "step": 53700 }, { "epoch": 143.22666666666666, "grad_norm": 0.3046875, "learning_rate": 0.00029628475939776837, "loss": 0.4653, "step": 53710 }, { "epoch": 143.25333333333333, "grad_norm": 0.45703125, "learning_rate": 0.00029628336859196814, "loss": 0.4658, "step": 53720 }, { "epoch": 143.28, "grad_norm": 0.4453125, "learning_rate": 0.00029628197752915714, "loss": 0.4797, "step": 53730 }, { "epoch": 143.30666666666667, "grad_norm": 0.46484375, "learning_rate": 0.00029628058620933775, "loss": 0.4607, "step": 53740 }, { "epoch": 143.33333333333334, "grad_norm": 0.490234375, "learning_rate": 0.0002962791946325124, "loss": 0.4758, "step": 53750 }, { "epoch": 143.36, "grad_norm": 0.36328125, "learning_rate": 0.0002962778027986836, "loss": 0.4777, "step": 53760 }, { "epoch": 143.38666666666666, "grad_norm": 0.345703125, "learning_rate": 0.0002962764107078537, "loss": 0.4699, "step": 53770 }, { "epoch": 143.41333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029627501836002523, "loss": 0.4746, "step": 53780 }, { "epoch": 143.44, "grad_norm": 0.287109375, "learning_rate": 0.0002962736257552006, "loss": 0.4771, "step": 53790 }, { "epoch": 143.46666666666667, "grad_norm": 0.296875, "learning_rate": 0.0002962722328933822, "loss": 0.4868, "step": 53800 }, { "epoch": 143.49333333333334, "grad_norm": 0.32421875, "learning_rate": 0.0002962708397745726, "loss": 0.4779, "step": 53810 }, { "epoch": 143.52, "grad_norm": 0.337890625, "learning_rate": 0.0002962694463987741, "loss": 0.4726, "step": 53820 }, { "epoch": 143.54666666666665, "grad_norm": 0.318359375, "learning_rate": 0.0002962680527659893, "loss": 0.4689, "step": 53830 }, { "epoch": 143.57333333333332, "grad_norm": 0.251953125, "learning_rate": 0.0002962666588762206, "loss": 0.4682, "step": 53840 }, { "epoch": 143.6, "grad_norm": 0.314453125, "learning_rate": 0.00029626526472947037, "loss": 0.4626, "step": 53850 }, { "epoch": 143.62666666666667, "grad_norm": 0.408203125, "learning_rate": 0.00029626387032574117, "loss": 0.4487, "step": 53860 }, { "epoch": 143.65333333333334, "grad_norm": 0.359375, "learning_rate": 0.00029626247566503534, "loss": 0.4684, "step": 53870 }, { "epoch": 143.68, "grad_norm": 0.2578125, "learning_rate": 0.00029626108074735545, "loss": 0.46, "step": 53880 }, { "epoch": 143.70666666666668, "grad_norm": 0.34765625, "learning_rate": 0.00029625968557270386, "loss": 0.4596, "step": 53890 }, { "epoch": 143.73333333333332, "grad_norm": 0.359375, "learning_rate": 0.000296258290141083, "loss": 0.4787, "step": 53900 }, { "epoch": 143.76, "grad_norm": 0.306640625, "learning_rate": 0.0002962568944524954, "loss": 0.4809, "step": 53910 }, { "epoch": 143.78666666666666, "grad_norm": 0.26171875, "learning_rate": 0.00029625549850694356, "loss": 0.4796, "step": 53920 }, { "epoch": 143.81333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029625410230442977, "loss": 0.464, "step": 53930 }, { "epoch": 143.84, "grad_norm": 0.330078125, "learning_rate": 0.00029625270584495664, "loss": 0.4704, "step": 53940 }, { "epoch": 143.86666666666667, "grad_norm": 0.390625, "learning_rate": 0.0002962513091285265, "loss": 0.4687, "step": 53950 }, { "epoch": 143.89333333333335, "grad_norm": 0.3984375, "learning_rate": 0.00029624991215514184, "loss": 0.4605, "step": 53960 }, { "epoch": 143.92, "grad_norm": 0.318359375, "learning_rate": 0.00029624851492480515, "loss": 0.4708, "step": 53970 }, { "epoch": 143.94666666666666, "grad_norm": 0.36328125, "learning_rate": 0.0002962471174375189, "loss": 0.4638, "step": 53980 }, { "epoch": 143.97333333333333, "grad_norm": 0.380859375, "learning_rate": 0.00029624571969328543, "loss": 0.4742, "step": 53990 }, { "epoch": 144.0, "grad_norm": 0.330078125, "learning_rate": 0.0002962443216921074, "loss": 0.4636, "step": 54000 }, { "epoch": 144.0, "eval_loss": 0.4806298017501831, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.7466, "eval_samples_per_second": 1.489, "eval_steps_per_second": 0.093, "step": 54000 }, { "epoch": 144.02666666666667, "grad_norm": 0.291015625, "learning_rate": 0.0002962429234339871, "loss": 0.4834, "step": 54010 }, { "epoch": 144.05333333333334, "grad_norm": 0.333984375, "learning_rate": 0.00029624152491892694, "loss": 0.4897, "step": 54020 }, { "epoch": 144.08, "grad_norm": 0.287109375, "learning_rate": 0.00029624012614692957, "loss": 0.4766, "step": 54030 }, { "epoch": 144.10666666666665, "grad_norm": 0.2734375, "learning_rate": 0.0002962387271179973, "loss": 0.4718, "step": 54040 }, { "epoch": 144.13333333333333, "grad_norm": 0.404296875, "learning_rate": 0.0002962373278321326, "loss": 0.4734, "step": 54050 }, { "epoch": 144.16, "grad_norm": 0.337890625, "learning_rate": 0.00029623592828933803, "loss": 0.4773, "step": 54060 }, { "epoch": 144.18666666666667, "grad_norm": 0.310546875, "learning_rate": 0.00029623452848961593, "loss": 0.4699, "step": 54070 }, { "epoch": 144.21333333333334, "grad_norm": 0.3046875, "learning_rate": 0.00029623312843296887, "loss": 0.4645, "step": 54080 }, { "epoch": 144.24, "grad_norm": 0.296875, "learning_rate": 0.0002962317281193992, "loss": 0.4681, "step": 54090 }, { "epoch": 144.26666666666668, "grad_norm": 0.384765625, "learning_rate": 0.00029623032754890947, "loss": 0.4728, "step": 54100 }, { "epoch": 144.29333333333332, "grad_norm": 0.51171875, "learning_rate": 0.00029622892672150205, "loss": 0.4667, "step": 54110 }, { "epoch": 144.32, "grad_norm": 0.287109375, "learning_rate": 0.00029622752563717943, "loss": 0.4703, "step": 54120 }, { "epoch": 144.34666666666666, "grad_norm": 0.298828125, "learning_rate": 0.00029622612429594416, "loss": 0.4781, "step": 54130 }, { "epoch": 144.37333333333333, "grad_norm": 0.322265625, "learning_rate": 0.0002962247226977986, "loss": 0.4743, "step": 54140 }, { "epoch": 144.4, "grad_norm": 0.423828125, "learning_rate": 0.00029622332084274525, "loss": 0.4711, "step": 54150 }, { "epoch": 144.42666666666668, "grad_norm": 0.359375, "learning_rate": 0.0002962219187307866, "loss": 0.4769, "step": 54160 }, { "epoch": 144.45333333333335, "grad_norm": 0.265625, "learning_rate": 0.0002962205163619251, "loss": 0.4793, "step": 54170 }, { "epoch": 144.48, "grad_norm": 0.357421875, "learning_rate": 0.00029621911373616314, "loss": 0.4857, "step": 54180 }, { "epoch": 144.50666666666666, "grad_norm": 0.28125, "learning_rate": 0.0002962177108535032, "loss": 0.475, "step": 54190 }, { "epoch": 144.53333333333333, "grad_norm": 0.29296875, "learning_rate": 0.0002962163077139479, "loss": 0.4688, "step": 54200 }, { "epoch": 144.56, "grad_norm": 0.42578125, "learning_rate": 0.0002962149043174995, "loss": 0.4697, "step": 54210 }, { "epoch": 144.58666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002962135006641606, "loss": 0.4656, "step": 54220 }, { "epoch": 144.61333333333334, "grad_norm": 0.25390625, "learning_rate": 0.00029621209675393366, "loss": 0.4519, "step": 54230 }, { "epoch": 144.64, "grad_norm": 0.2578125, "learning_rate": 0.00029621069258682105, "loss": 0.4568, "step": 54240 }, { "epoch": 144.66666666666666, "grad_norm": 0.2890625, "learning_rate": 0.00029620928816282533, "loss": 0.4718, "step": 54250 }, { "epoch": 144.69333333333333, "grad_norm": 0.25390625, "learning_rate": 0.0002962078834819489, "loss": 0.4548, "step": 54260 }, { "epoch": 144.72, "grad_norm": 0.318359375, "learning_rate": 0.0002962064785441943, "loss": 0.472, "step": 54270 }, { "epoch": 144.74666666666667, "grad_norm": 0.333984375, "learning_rate": 0.00029620507334956396, "loss": 0.4762, "step": 54280 }, { "epoch": 144.77333333333334, "grad_norm": 0.40234375, "learning_rate": 0.00029620366789806035, "loss": 0.4842, "step": 54290 }, { "epoch": 144.8, "grad_norm": 0.3671875, "learning_rate": 0.0002962022621896859, "loss": 0.4709, "step": 54300 }, { "epoch": 144.82666666666665, "grad_norm": 0.380859375, "learning_rate": 0.0002962008562244431, "loss": 0.4649, "step": 54310 }, { "epoch": 144.85333333333332, "grad_norm": 0.38671875, "learning_rate": 0.0002961994500023345, "loss": 0.4743, "step": 54320 }, { "epoch": 144.88, "grad_norm": 0.359375, "learning_rate": 0.00029619804352336255, "loss": 0.4627, "step": 54330 }, { "epoch": 144.90666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002961966367875296, "loss": 0.4651, "step": 54340 }, { "epoch": 144.93333333333334, "grad_norm": 0.302734375, "learning_rate": 0.00029619522979483823, "loss": 0.4662, "step": 54350 }, { "epoch": 144.96, "grad_norm": 0.40625, "learning_rate": 0.0002961938225452909, "loss": 0.4642, "step": 54360 }, { "epoch": 144.98666666666668, "grad_norm": 0.349609375, "learning_rate": 0.00029619241503889006, "loss": 0.4787, "step": 54370 }, { "epoch": 145.0, "eval_loss": 0.4806334376335144, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.935, "eval_samples_per_second": 1.463, "eval_steps_per_second": 0.091, "step": 54375 }, { "epoch": 145.01333333333332, "grad_norm": 0.30859375, "learning_rate": 0.0002961910072756382, "loss": 0.4674, "step": 54380 }, { "epoch": 145.04, "grad_norm": 0.287109375, "learning_rate": 0.0002961895992555378, "loss": 0.4921, "step": 54390 }, { "epoch": 145.06666666666666, "grad_norm": 0.470703125, "learning_rate": 0.00029618819097859125, "loss": 0.4797, "step": 54400 }, { "epoch": 145.09333333333333, "grad_norm": 0.306640625, "learning_rate": 0.0002961867824448011, "loss": 0.4738, "step": 54410 }, { "epoch": 145.12, "grad_norm": 0.458984375, "learning_rate": 0.00029618537365416986, "loss": 0.4707, "step": 54420 }, { "epoch": 145.14666666666668, "grad_norm": 0.396484375, "learning_rate": 0.00029618396460669996, "loss": 0.4792, "step": 54430 }, { "epoch": 145.17333333333335, "grad_norm": 0.3984375, "learning_rate": 0.00029618255530239383, "loss": 0.4699, "step": 54440 }, { "epoch": 145.2, "grad_norm": 0.306640625, "learning_rate": 0.00029618114574125404, "loss": 0.4681, "step": 54450 }, { "epoch": 145.22666666666666, "grad_norm": 0.314453125, "learning_rate": 0.000296179735923283, "loss": 0.4654, "step": 54460 }, { "epoch": 145.25333333333333, "grad_norm": 0.31640625, "learning_rate": 0.0002961783258484832, "loss": 0.4662, "step": 54470 }, { "epoch": 145.28, "grad_norm": 0.515625, "learning_rate": 0.00029617691551685714, "loss": 0.4791, "step": 54480 }, { "epoch": 145.30666666666667, "grad_norm": 0.33984375, "learning_rate": 0.0002961755049284073, "loss": 0.4603, "step": 54490 }, { "epoch": 145.33333333333334, "grad_norm": 0.3828125, "learning_rate": 0.0002961740940831361, "loss": 0.4757, "step": 54500 }, { "epoch": 145.36, "grad_norm": 0.357421875, "learning_rate": 0.00029617268298104605, "loss": 0.4782, "step": 54510 }, { "epoch": 145.38666666666666, "grad_norm": 0.423828125, "learning_rate": 0.0002961712716221397, "loss": 0.4692, "step": 54520 }, { "epoch": 145.41333333333333, "grad_norm": 0.443359375, "learning_rate": 0.0002961698600064194, "loss": 0.4741, "step": 54530 }, { "epoch": 145.44, "grad_norm": 0.2578125, "learning_rate": 0.0002961684481338878, "loss": 0.4767, "step": 54540 }, { "epoch": 145.46666666666667, "grad_norm": 0.38671875, "learning_rate": 0.0002961670360045472, "loss": 0.4865, "step": 54550 }, { "epoch": 145.49333333333334, "grad_norm": 0.3203125, "learning_rate": 0.0002961656236184001, "loss": 0.4771, "step": 54560 }, { "epoch": 145.52, "grad_norm": 0.287109375, "learning_rate": 0.00029616421097544915, "loss": 0.4718, "step": 54570 }, { "epoch": 145.54666666666665, "grad_norm": 0.2890625, "learning_rate": 0.00029616279807569666, "loss": 0.4694, "step": 54580 }, { "epoch": 145.57333333333332, "grad_norm": 0.2333984375, "learning_rate": 0.00029616138491914514, "loss": 0.4682, "step": 54590 }, { "epoch": 145.6, "grad_norm": 0.400390625, "learning_rate": 0.0002961599715057972, "loss": 0.4621, "step": 54600 }, { "epoch": 145.62666666666667, "grad_norm": 0.400390625, "learning_rate": 0.0002961585578356552, "loss": 0.4486, "step": 54610 }, { "epoch": 145.65333333333334, "grad_norm": 0.392578125, "learning_rate": 0.00029615714390872165, "loss": 0.4683, "step": 54620 }, { "epoch": 145.68, "grad_norm": 0.34765625, "learning_rate": 0.00029615572972499905, "loss": 0.4594, "step": 54630 }, { "epoch": 145.70666666666668, "grad_norm": 0.431640625, "learning_rate": 0.0002961543152844899, "loss": 0.4596, "step": 54640 }, { "epoch": 145.73333333333332, "grad_norm": 0.322265625, "learning_rate": 0.00029615290058719655, "loss": 0.4798, "step": 54650 }, { "epoch": 145.76, "grad_norm": 0.3359375, "learning_rate": 0.0002961514856331217, "loss": 0.48, "step": 54660 }, { "epoch": 145.78666666666666, "grad_norm": 0.404296875, "learning_rate": 0.0002961500704222677, "loss": 0.4795, "step": 54670 }, { "epoch": 145.81333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029614865495463706, "loss": 0.4644, "step": 54680 }, { "epoch": 145.84, "grad_norm": 0.5078125, "learning_rate": 0.00029614723923023227, "loss": 0.47, "step": 54690 }, { "epoch": 145.86666666666667, "grad_norm": 0.39453125, "learning_rate": 0.00029614582324905583, "loss": 0.4696, "step": 54700 }, { "epoch": 145.89333333333335, "grad_norm": 0.24609375, "learning_rate": 0.00029614440701111023, "loss": 0.46, "step": 54710 }, { "epoch": 145.92, "grad_norm": 0.333984375, "learning_rate": 0.0002961429905163979, "loss": 0.4713, "step": 54720 }, { "epoch": 145.94666666666666, "grad_norm": 0.314453125, "learning_rate": 0.00029614157376492146, "loss": 0.4628, "step": 54730 }, { "epoch": 145.97333333333333, "grad_norm": 0.310546875, "learning_rate": 0.00029614015675668323, "loss": 0.4747, "step": 54740 }, { "epoch": 146.0, "grad_norm": 0.333984375, "learning_rate": 0.0002961387394916858, "loss": 0.4641, "step": 54750 }, { "epoch": 146.0, "eval_loss": 0.47998303174972534, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.6278, "eval_samples_per_second": 1.662, "eval_steps_per_second": 0.104, "step": 54750 }, { "epoch": 146.02666666666667, "grad_norm": 0.326171875, "learning_rate": 0.0002961373219699317, "loss": 0.4833, "step": 54760 }, { "epoch": 146.05333333333334, "grad_norm": 0.291015625, "learning_rate": 0.0002961359041914233, "loss": 0.4892, "step": 54770 }, { "epoch": 146.08, "grad_norm": 0.41015625, "learning_rate": 0.0002961344861561632, "loss": 0.4762, "step": 54780 }, { "epoch": 146.10666666666665, "grad_norm": 0.345703125, "learning_rate": 0.0002961330678641539, "loss": 0.4708, "step": 54790 }, { "epoch": 146.13333333333333, "grad_norm": 0.369140625, "learning_rate": 0.0002961316493153977, "loss": 0.4731, "step": 54800 }, { "epoch": 146.16, "grad_norm": 0.3046875, "learning_rate": 0.00029613023050989733, "loss": 0.4775, "step": 54810 }, { "epoch": 146.18666666666667, "grad_norm": 0.283203125, "learning_rate": 0.00029612881144765516, "loss": 0.4692, "step": 54820 }, { "epoch": 146.21333333333334, "grad_norm": 0.49609375, "learning_rate": 0.0002961273921286737, "loss": 0.464, "step": 54830 }, { "epoch": 146.24, "grad_norm": 0.298828125, "learning_rate": 0.0002961259725529555, "loss": 0.4674, "step": 54840 }, { "epoch": 146.26666666666668, "grad_norm": 0.2734375, "learning_rate": 0.0002961245527205029, "loss": 0.4721, "step": 54850 }, { "epoch": 146.29333333333332, "grad_norm": 0.310546875, "learning_rate": 0.0002961231326313186, "loss": 0.4666, "step": 54860 }, { "epoch": 146.32, "grad_norm": 0.328125, "learning_rate": 0.0002961217122854049, "loss": 0.4697, "step": 54870 }, { "epoch": 146.34666666666666, "grad_norm": 0.3046875, "learning_rate": 0.00029612029168276445, "loss": 0.4776, "step": 54880 }, { "epoch": 146.37333333333333, "grad_norm": 0.455078125, "learning_rate": 0.0002961188708233997, "loss": 0.4741, "step": 54890 }, { "epoch": 146.4, "grad_norm": 0.345703125, "learning_rate": 0.00029611744970731315, "loss": 0.47, "step": 54900 }, { "epoch": 146.42666666666668, "grad_norm": 0.310546875, "learning_rate": 0.00029611602833450723, "loss": 0.4773, "step": 54910 }, { "epoch": 146.45333333333335, "grad_norm": 0.365234375, "learning_rate": 0.00029611460670498453, "loss": 0.479, "step": 54920 }, { "epoch": 146.48, "grad_norm": 0.37890625, "learning_rate": 0.00029611318481874747, "loss": 0.4848, "step": 54930 }, { "epoch": 146.50666666666666, "grad_norm": 0.265625, "learning_rate": 0.0002961117626757986, "loss": 0.4746, "step": 54940 }, { "epoch": 146.53333333333333, "grad_norm": 0.310546875, "learning_rate": 0.0002961103402761404, "loss": 0.4685, "step": 54950 }, { "epoch": 146.56, "grad_norm": 0.291015625, "learning_rate": 0.00029610891761977536, "loss": 0.4695, "step": 54960 }, { "epoch": 146.58666666666667, "grad_norm": 0.373046875, "learning_rate": 0.000296107494706706, "loss": 0.4652, "step": 54970 }, { "epoch": 146.61333333333334, "grad_norm": 0.349609375, "learning_rate": 0.00029610607153693477, "loss": 0.4521, "step": 54980 }, { "epoch": 146.64, "grad_norm": 0.490234375, "learning_rate": 0.00029610464811046427, "loss": 0.4565, "step": 54990 }, { "epoch": 146.66666666666666, "grad_norm": 0.392578125, "learning_rate": 0.0002961032244272969, "loss": 0.4725, "step": 55000 }, { "epoch": 146.69333333333333, "grad_norm": 0.29296875, "learning_rate": 0.00029610180048743524, "loss": 0.4555, "step": 55010 }, { "epoch": 146.72, "grad_norm": 0.296875, "learning_rate": 0.00029610037629088174, "loss": 0.4717, "step": 55020 }, { "epoch": 146.74666666666667, "grad_norm": 0.419921875, "learning_rate": 0.0002960989518376389, "loss": 0.4765, "step": 55030 }, { "epoch": 146.77333333333334, "grad_norm": 0.64453125, "learning_rate": 0.0002960975271277092, "loss": 0.4843, "step": 55040 }, { "epoch": 146.8, "grad_norm": 0.3828125, "learning_rate": 0.00029609610216109526, "loss": 0.471, "step": 55050 }, { "epoch": 146.82666666666665, "grad_norm": 0.412109375, "learning_rate": 0.0002960946769377995, "loss": 0.4655, "step": 55060 }, { "epoch": 146.85333333333332, "grad_norm": 0.353515625, "learning_rate": 0.0002960932514578244, "loss": 0.4744, "step": 55070 }, { "epoch": 146.88, "grad_norm": 0.3125, "learning_rate": 0.0002960918257211725, "loss": 0.4625, "step": 55080 }, { "epoch": 146.90666666666667, "grad_norm": 0.40625, "learning_rate": 0.0002960903997278463, "loss": 0.465, "step": 55090 }, { "epoch": 146.93333333333334, "grad_norm": 0.31640625, "learning_rate": 0.0002960889734778483, "loss": 0.4671, "step": 55100 }, { "epoch": 146.96, "grad_norm": 0.30078125, "learning_rate": 0.000296087546971181, "loss": 0.4649, "step": 55110 }, { "epoch": 146.98666666666668, "grad_norm": 0.4921875, "learning_rate": 0.0002960861202078469, "loss": 0.4779, "step": 55120 }, { "epoch": 147.0, "eval_loss": 0.4791259765625, "eval_model_preparation_time": 0.0016, "eval_runtime": 12.1587, "eval_samples_per_second": 1.316, "eval_steps_per_second": 0.082, "step": 55125 }, { "epoch": 147.01333333333332, "grad_norm": 0.275390625, "learning_rate": 0.0002960846931878486, "loss": 0.4683, "step": 55130 }, { "epoch": 147.04, "grad_norm": 0.40625, "learning_rate": 0.0002960832659111885, "loss": 0.4919, "step": 55140 }, { "epoch": 147.06666666666666, "grad_norm": 0.373046875, "learning_rate": 0.0002960818383778691, "loss": 0.4797, "step": 55150 }, { "epoch": 147.09333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029608041058789295, "loss": 0.4741, "step": 55160 }, { "epoch": 147.12, "grad_norm": 0.33203125, "learning_rate": 0.0002960789825412626, "loss": 0.4707, "step": 55170 }, { "epoch": 147.14666666666668, "grad_norm": 0.263671875, "learning_rate": 0.0002960775542379805, "loss": 0.4788, "step": 55180 }, { "epoch": 147.17333333333335, "grad_norm": 0.375, "learning_rate": 0.0002960761256780492, "loss": 0.4701, "step": 55190 }, { "epoch": 147.2, "grad_norm": 0.33203125, "learning_rate": 0.0002960746968614711, "loss": 0.4677, "step": 55200 }, { "epoch": 147.22666666666666, "grad_norm": 0.404296875, "learning_rate": 0.0002960732677882488, "loss": 0.466, "step": 55210 }, { "epoch": 147.25333333333333, "grad_norm": 0.337890625, "learning_rate": 0.0002960718384583849, "loss": 0.4659, "step": 55220 }, { "epoch": 147.28, "grad_norm": 0.283203125, "learning_rate": 0.0002960704088718817, "loss": 0.4787, "step": 55230 }, { "epoch": 147.30666666666667, "grad_norm": 0.255859375, "learning_rate": 0.00029606897902874195, "loss": 0.4604, "step": 55240 }, { "epoch": 147.33333333333334, "grad_norm": 0.400390625, "learning_rate": 0.00029606754892896794, "loss": 0.4756, "step": 55250 }, { "epoch": 147.36, "grad_norm": 0.306640625, "learning_rate": 0.0002960661185725623, "loss": 0.4776, "step": 55260 }, { "epoch": 147.38666666666666, "grad_norm": 0.3828125, "learning_rate": 0.0002960646879595276, "loss": 0.4692, "step": 55270 }, { "epoch": 147.41333333333333, "grad_norm": 0.47265625, "learning_rate": 0.0002960632570898662, "loss": 0.474, "step": 55280 }, { "epoch": 147.44, "grad_norm": 0.419921875, "learning_rate": 0.0002960618259635807, "loss": 0.4773, "step": 55290 }, { "epoch": 147.46666666666667, "grad_norm": 0.271484375, "learning_rate": 0.0002960603945806736, "loss": 0.4863, "step": 55300 }, { "epoch": 147.49333333333334, "grad_norm": 0.36328125, "learning_rate": 0.0002960589629411475, "loss": 0.4775, "step": 55310 }, { "epoch": 147.52, "grad_norm": 0.390625, "learning_rate": 0.00029605753104500475, "loss": 0.4723, "step": 55320 }, { "epoch": 147.54666666666665, "grad_norm": 0.44140625, "learning_rate": 0.00029605609889224796, "loss": 0.4683, "step": 55330 }, { "epoch": 147.57333333333332, "grad_norm": 0.275390625, "learning_rate": 0.0002960546664828797, "loss": 0.4674, "step": 55340 }, { "epoch": 147.6, "grad_norm": 0.462890625, "learning_rate": 0.0002960532338169024, "loss": 0.461, "step": 55350 }, { "epoch": 147.62666666666667, "grad_norm": 0.287109375, "learning_rate": 0.00029605180089431856, "loss": 0.4488, "step": 55360 }, { "epoch": 147.65333333333334, "grad_norm": 0.423828125, "learning_rate": 0.00029605036771513076, "loss": 0.4688, "step": 55370 }, { "epoch": 147.68, "grad_norm": 0.345703125, "learning_rate": 0.00029604893427934154, "loss": 0.4596, "step": 55380 }, { "epoch": 147.70666666666668, "grad_norm": 0.31640625, "learning_rate": 0.00029604750058695337, "loss": 0.4607, "step": 55390 }, { "epoch": 147.73333333333332, "grad_norm": 0.390625, "learning_rate": 0.00029604606663796875, "loss": 0.4796, "step": 55400 }, { "epoch": 147.76, "grad_norm": 0.361328125, "learning_rate": 0.0002960446324323902, "loss": 0.4801, "step": 55410 }, { "epoch": 147.78666666666666, "grad_norm": 0.333984375, "learning_rate": 0.0002960431979702203, "loss": 0.4793, "step": 55420 }, { "epoch": 147.81333333333333, "grad_norm": 0.40625, "learning_rate": 0.0002960417632514615, "loss": 0.4646, "step": 55430 }, { "epoch": 147.84, "grad_norm": 0.36328125, "learning_rate": 0.0002960403282761164, "loss": 0.4702, "step": 55440 }, { "epoch": 147.86666666666667, "grad_norm": 0.26171875, "learning_rate": 0.00029603889304418747, "loss": 0.4688, "step": 55450 }, { "epoch": 147.89333333333335, "grad_norm": 0.35546875, "learning_rate": 0.00029603745755567724, "loss": 0.4601, "step": 55460 }, { "epoch": 147.92, "grad_norm": 0.3125, "learning_rate": 0.00029603602181058823, "loss": 0.4701, "step": 55470 }, { "epoch": 147.94666666666666, "grad_norm": 0.271484375, "learning_rate": 0.00029603458580892294, "loss": 0.4625, "step": 55480 }, { "epoch": 147.97333333333333, "grad_norm": 0.33984375, "learning_rate": 0.0002960331495506839, "loss": 0.4747, "step": 55490 }, { "epoch": 148.0, "grad_norm": 0.29296875, "learning_rate": 0.0002960317130358737, "loss": 0.4637, "step": 55500 }, { "epoch": 148.0, "eval_loss": 0.4773246943950653, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.3415, "eval_samples_per_second": 1.547, "eval_steps_per_second": 0.097, "step": 55500 }, { "epoch": 148.02666666666667, "grad_norm": 0.353515625, "learning_rate": 0.0002960302762644948, "loss": 0.4839, "step": 55510 }, { "epoch": 148.05333333333334, "grad_norm": 0.33984375, "learning_rate": 0.0002960288392365497, "loss": 0.4889, "step": 55520 }, { "epoch": 148.08, "grad_norm": 0.337890625, "learning_rate": 0.000296027401952041, "loss": 0.4762, "step": 55530 }, { "epoch": 148.10666666666665, "grad_norm": 0.298828125, "learning_rate": 0.0002960259644109712, "loss": 0.4714, "step": 55540 }, { "epoch": 148.13333333333333, "grad_norm": 0.478515625, "learning_rate": 0.0002960245266133428, "loss": 0.4734, "step": 55550 }, { "epoch": 148.16, "grad_norm": 0.41015625, "learning_rate": 0.00029602308855915835, "loss": 0.4773, "step": 55560 }, { "epoch": 148.18666666666667, "grad_norm": 0.33203125, "learning_rate": 0.0002960216502484203, "loss": 0.4693, "step": 55570 }, { "epoch": 148.21333333333334, "grad_norm": 0.31640625, "learning_rate": 0.0002960202116811313, "loss": 0.4633, "step": 55580 }, { "epoch": 148.24, "grad_norm": 0.34765625, "learning_rate": 0.00029601877285729384, "loss": 0.4677, "step": 55590 }, { "epoch": 148.26666666666668, "grad_norm": 0.2236328125, "learning_rate": 0.00029601733377691044, "loss": 0.4725, "step": 55600 }, { "epoch": 148.29333333333332, "grad_norm": 0.390625, "learning_rate": 0.00029601589443998356, "loss": 0.4664, "step": 55610 }, { "epoch": 148.32, "grad_norm": 0.26953125, "learning_rate": 0.0002960144548465158, "loss": 0.47, "step": 55620 }, { "epoch": 148.34666666666666, "grad_norm": 0.404296875, "learning_rate": 0.0002960130149965097, "loss": 0.4777, "step": 55630 }, { "epoch": 148.37333333333333, "grad_norm": 0.474609375, "learning_rate": 0.00029601157488996777, "loss": 0.4738, "step": 55640 }, { "epoch": 148.4, "grad_norm": 0.361328125, "learning_rate": 0.0002960101345268925, "loss": 0.4714, "step": 55650 }, { "epoch": 148.42666666666668, "grad_norm": 0.337890625, "learning_rate": 0.00029600869390728645, "loss": 0.476, "step": 55660 }, { "epoch": 148.45333333333335, "grad_norm": 0.400390625, "learning_rate": 0.00029600725303115217, "loss": 0.4789, "step": 55670 }, { "epoch": 148.48, "grad_norm": 0.3125, "learning_rate": 0.00029600581189849224, "loss": 0.4845, "step": 55680 }, { "epoch": 148.50666666666666, "grad_norm": 0.35546875, "learning_rate": 0.000296004370509309, "loss": 0.4755, "step": 55690 }, { "epoch": 148.53333333333333, "grad_norm": 0.392578125, "learning_rate": 0.0002960029288636052, "loss": 0.4682, "step": 55700 }, { "epoch": 148.56, "grad_norm": 0.349609375, "learning_rate": 0.0002960014869613833, "loss": 0.4695, "step": 55710 }, { "epoch": 148.58666666666667, "grad_norm": 0.275390625, "learning_rate": 0.0002960000448026458, "loss": 0.4649, "step": 55720 }, { "epoch": 148.61333333333334, "grad_norm": 0.287109375, "learning_rate": 0.00029599860238739524, "loss": 0.4518, "step": 55730 }, { "epoch": 148.64, "grad_norm": 0.283203125, "learning_rate": 0.00029599715971563416, "loss": 0.4569, "step": 55740 }, { "epoch": 148.66666666666666, "grad_norm": 0.25, "learning_rate": 0.0002959957167873651, "loss": 0.4717, "step": 55750 }, { "epoch": 148.69333333333333, "grad_norm": 0.333984375, "learning_rate": 0.0002959942736025906, "loss": 0.4557, "step": 55760 }, { "epoch": 148.72, "grad_norm": 0.27734375, "learning_rate": 0.0002959928301613132, "loss": 0.4717, "step": 55770 }, { "epoch": 148.74666666666667, "grad_norm": 0.3359375, "learning_rate": 0.00029599138646353544, "loss": 0.4761, "step": 55780 }, { "epoch": 148.77333333333334, "grad_norm": 0.384765625, "learning_rate": 0.00029598994250925985, "loss": 0.484, "step": 55790 }, { "epoch": 148.8, "grad_norm": 0.361328125, "learning_rate": 0.00029598849829848896, "loss": 0.4708, "step": 55800 }, { "epoch": 148.82666666666665, "grad_norm": 0.3828125, "learning_rate": 0.0002959870538312253, "loss": 0.4648, "step": 55810 }, { "epoch": 148.85333333333332, "grad_norm": 0.48828125, "learning_rate": 0.0002959856091074714, "loss": 0.4742, "step": 55820 }, { "epoch": 148.88, "grad_norm": 0.26953125, "learning_rate": 0.00029598416412722977, "loss": 0.4623, "step": 55830 }, { "epoch": 148.90666666666667, "grad_norm": 0.36328125, "learning_rate": 0.0002959827188905031, "loss": 0.4647, "step": 55840 }, { "epoch": 148.93333333333334, "grad_norm": 0.337890625, "learning_rate": 0.00029598127339729375, "loss": 0.4666, "step": 55850 }, { "epoch": 148.96, "grad_norm": 0.2578125, "learning_rate": 0.0002959798276476044, "loss": 0.4639, "step": 55860 }, { "epoch": 148.98666666666668, "grad_norm": 0.283203125, "learning_rate": 0.00029597838164143744, "loss": 0.4785, "step": 55870 }, { "epoch": 149.0, "eval_loss": 0.47737348079681396, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.2614, "eval_samples_per_second": 1.559, "eval_steps_per_second": 0.097, "step": 55875 }, { "epoch": 149.01333333333332, "grad_norm": 0.33203125, "learning_rate": 0.00029597693537879556, "loss": 0.4675, "step": 55880 }, { "epoch": 149.04, "grad_norm": 0.330078125, "learning_rate": 0.00029597548885968117, "loss": 0.492, "step": 55890 }, { "epoch": 149.06666666666666, "grad_norm": 0.40234375, "learning_rate": 0.0002959740420840969, "loss": 0.4798, "step": 55900 }, { "epoch": 149.09333333333333, "grad_norm": 0.2236328125, "learning_rate": 0.0002959725950520453, "loss": 0.4738, "step": 55910 }, { "epoch": 149.12, "grad_norm": 0.36328125, "learning_rate": 0.0002959711477635289, "loss": 0.4702, "step": 55920 }, { "epoch": 149.14666666666668, "grad_norm": 0.294921875, "learning_rate": 0.0002959697002185502, "loss": 0.479, "step": 55930 }, { "epoch": 149.17333333333335, "grad_norm": 0.349609375, "learning_rate": 0.0002959682524171117, "loss": 0.4693, "step": 55940 }, { "epoch": 149.2, "grad_norm": 0.34375, "learning_rate": 0.0002959668043592161, "loss": 0.4684, "step": 55950 }, { "epoch": 149.22666666666666, "grad_norm": 0.337890625, "learning_rate": 0.0002959653560448658, "loss": 0.4652, "step": 55960 }, { "epoch": 149.25333333333333, "grad_norm": 0.333984375, "learning_rate": 0.0002959639074740634, "loss": 0.4654, "step": 55970 }, { "epoch": 149.28, "grad_norm": 0.318359375, "learning_rate": 0.0002959624586468115, "loss": 0.4793, "step": 55980 }, { "epoch": 149.30666666666667, "grad_norm": 0.275390625, "learning_rate": 0.00029596100956311253, "loss": 0.4602, "step": 55990 }, { "epoch": 149.33333333333334, "grad_norm": 0.365234375, "learning_rate": 0.0002959595602229691, "loss": 0.4766, "step": 56000 }, { "epoch": 149.36, "grad_norm": 0.359375, "learning_rate": 0.0002959581106263838, "loss": 0.4777, "step": 56010 }, { "epoch": 149.38666666666666, "grad_norm": 0.36328125, "learning_rate": 0.0002959566607733591, "loss": 0.4695, "step": 56020 }, { "epoch": 149.41333333333333, "grad_norm": 0.294921875, "learning_rate": 0.0002959552106638975, "loss": 0.4742, "step": 56030 }, { "epoch": 149.44, "grad_norm": 0.318359375, "learning_rate": 0.00029595376029800175, "loss": 0.4764, "step": 56040 }, { "epoch": 149.46666666666667, "grad_norm": 0.396484375, "learning_rate": 0.0002959523096756742, "loss": 0.4864, "step": 56050 }, { "epoch": 149.49333333333334, "grad_norm": 0.37109375, "learning_rate": 0.0002959508587969175, "loss": 0.4777, "step": 56060 }, { "epoch": 149.52, "grad_norm": 0.30859375, "learning_rate": 0.0002959494076617341, "loss": 0.4719, "step": 56070 }, { "epoch": 149.54666666666665, "grad_norm": 0.25390625, "learning_rate": 0.0002959479562701267, "loss": 0.4685, "step": 56080 }, { "epoch": 149.57333333333332, "grad_norm": 0.314453125, "learning_rate": 0.00029594650462209774, "loss": 0.468, "step": 56090 }, { "epoch": 149.6, "grad_norm": 0.30859375, "learning_rate": 0.0002959450527176498, "loss": 0.461, "step": 56100 }, { "epoch": 149.62666666666667, "grad_norm": 0.271484375, "learning_rate": 0.00029594360055678546, "loss": 0.4487, "step": 56110 }, { "epoch": 149.65333333333334, "grad_norm": 0.271484375, "learning_rate": 0.0002959421481395072, "loss": 0.4677, "step": 56120 }, { "epoch": 149.68, "grad_norm": 0.271484375, "learning_rate": 0.0002959406954658176, "loss": 0.4598, "step": 56130 }, { "epoch": 149.70666666666668, "grad_norm": 0.384765625, "learning_rate": 0.00029593924253571926, "loss": 0.4597, "step": 56140 }, { "epoch": 149.73333333333332, "grad_norm": 0.31640625, "learning_rate": 0.0002959377893492147, "loss": 0.4794, "step": 56150 }, { "epoch": 149.76, "grad_norm": 0.396484375, "learning_rate": 0.00029593633590630647, "loss": 0.4807, "step": 56160 }, { "epoch": 149.78666666666666, "grad_norm": 0.353515625, "learning_rate": 0.0002959348822069971, "loss": 0.4794, "step": 56170 }, { "epoch": 149.81333333333333, "grad_norm": 0.359375, "learning_rate": 0.0002959334282512892, "loss": 0.4643, "step": 56180 }, { "epoch": 149.84, "grad_norm": 0.54296875, "learning_rate": 0.0002959319740391853, "loss": 0.47, "step": 56190 }, { "epoch": 149.86666666666667, "grad_norm": 0.3671875, "learning_rate": 0.00029593051957068787, "loss": 0.4694, "step": 56200 }, { "epoch": 149.89333333333335, "grad_norm": 0.23828125, "learning_rate": 0.00029592906484579963, "loss": 0.4607, "step": 56210 }, { "epoch": 149.92, "grad_norm": 0.333984375, "learning_rate": 0.000295927609864523, "loss": 0.4705, "step": 56220 }, { "epoch": 149.94666666666666, "grad_norm": 0.2431640625, "learning_rate": 0.00029592615462686064, "loss": 0.4632, "step": 56230 }, { "epoch": 149.97333333333333, "grad_norm": 0.2578125, "learning_rate": 0.00029592469913281504, "loss": 0.4746, "step": 56240 }, { "epoch": 150.0, "grad_norm": 0.302734375, "learning_rate": 0.00029592324338238875, "loss": 0.4636, "step": 56250 }, { "epoch": 150.0, "eval_loss": 0.4786826968193054, "eval_model_preparation_time": 0.0016, "eval_runtime": 11.265, "eval_samples_per_second": 1.42, "eval_steps_per_second": 0.089, "step": 56250 }, { "epoch": 150.02666666666667, "grad_norm": 0.443359375, "learning_rate": 0.00029592178737558437, "loss": 0.4837, "step": 56260 }, { "epoch": 150.05333333333334, "grad_norm": 0.3359375, "learning_rate": 0.0002959203311124044, "loss": 0.4892, "step": 56270 }, { "epoch": 150.08, "grad_norm": 0.380859375, "learning_rate": 0.0002959188745928515, "loss": 0.4766, "step": 56280 }, { "epoch": 150.10666666666665, "grad_norm": 0.287109375, "learning_rate": 0.00029591741781692806, "loss": 0.4712, "step": 56290 }, { "epoch": 150.13333333333333, "grad_norm": 0.3203125, "learning_rate": 0.00029591596078463686, "loss": 0.4729, "step": 56300 }, { "epoch": 150.16, "grad_norm": 0.37109375, "learning_rate": 0.00029591450349598025, "loss": 0.4763, "step": 56310 }, { "epoch": 150.18666666666667, "grad_norm": 0.267578125, "learning_rate": 0.0002959130459509609, "loss": 0.469, "step": 56320 }, { "epoch": 150.21333333333334, "grad_norm": 0.3828125, "learning_rate": 0.0002959115881495814, "loss": 0.4638, "step": 56330 }, { "epoch": 150.24, "grad_norm": 0.275390625, "learning_rate": 0.00029591013009184423, "loss": 0.467, "step": 56340 }, { "epoch": 150.26666666666668, "grad_norm": 0.39453125, "learning_rate": 0.00029590867177775197, "loss": 0.4718, "step": 56350 }, { "epoch": 150.29333333333332, "grad_norm": 0.326171875, "learning_rate": 0.0002959072132073072, "loss": 0.4665, "step": 56360 }, { "epoch": 150.32, "grad_norm": 0.384765625, "learning_rate": 0.0002959057543805125, "loss": 0.4695, "step": 56370 }, { "epoch": 150.34666666666666, "grad_norm": 0.3046875, "learning_rate": 0.0002959042952973705, "loss": 0.4785, "step": 56380 }, { "epoch": 150.37333333333333, "grad_norm": 0.408203125, "learning_rate": 0.00029590283595788355, "loss": 0.4736, "step": 56390 }, { "epoch": 150.4, "grad_norm": 0.52734375, "learning_rate": 0.0002959013763620544, "loss": 0.4703, "step": 56400 }, { "epoch": 150.42666666666668, "grad_norm": 0.41796875, "learning_rate": 0.00029589991650988553, "loss": 0.4769, "step": 56410 }, { "epoch": 150.45333333333335, "grad_norm": 0.314453125, "learning_rate": 0.0002958984564013796, "loss": 0.4789, "step": 56420 }, { "epoch": 150.48, "grad_norm": 0.4296875, "learning_rate": 0.00029589699603653903, "loss": 0.4849, "step": 56430 }, { "epoch": 150.50666666666666, "grad_norm": 0.35546875, "learning_rate": 0.0002958955354153665, "loss": 0.4752, "step": 56440 }, { "epoch": 150.53333333333333, "grad_norm": 0.3125, "learning_rate": 0.00029589407453786454, "loss": 0.4683, "step": 56450 }, { "epoch": 150.56, "grad_norm": 0.294921875, "learning_rate": 0.00029589261340403565, "loss": 0.4696, "step": 56460 }, { "epoch": 150.58666666666667, "grad_norm": 0.267578125, "learning_rate": 0.0002958911520138826, "loss": 0.4656, "step": 56470 }, { "epoch": 150.61333333333334, "grad_norm": 0.30859375, "learning_rate": 0.0002958896903674077, "loss": 0.4516, "step": 56480 }, { "epoch": 150.64, "grad_norm": 0.2578125, "learning_rate": 0.00029588822846461367, "loss": 0.4567, "step": 56490 }, { "epoch": 150.66666666666666, "grad_norm": 0.275390625, "learning_rate": 0.000295886766305503, "loss": 0.4719, "step": 56500 }, { "epoch": 150.69333333333333, "grad_norm": 0.330078125, "learning_rate": 0.00029588530389007843, "loss": 0.4552, "step": 56510 }, { "epoch": 150.72, "grad_norm": 0.427734375, "learning_rate": 0.0002958838412183423, "loss": 0.472, "step": 56520 }, { "epoch": 150.74666666666667, "grad_norm": 0.3203125, "learning_rate": 0.00029588237829029733, "loss": 0.4759, "step": 56530 }, { "epoch": 150.77333333333334, "grad_norm": 0.35546875, "learning_rate": 0.00029588091510594604, "loss": 0.4832, "step": 56540 }, { "epoch": 150.8, "grad_norm": 0.275390625, "learning_rate": 0.00029587945166529103, "loss": 0.4703, "step": 56550 }, { "epoch": 150.82666666666665, "grad_norm": 0.3203125, "learning_rate": 0.0002958779879683348, "loss": 0.4654, "step": 56560 }, { "epoch": 150.85333333333332, "grad_norm": 0.345703125, "learning_rate": 0.00029587652401508, "loss": 0.4736, "step": 56570 }, { "epoch": 150.88, "grad_norm": 0.36328125, "learning_rate": 0.0002958750598055292, "loss": 0.4623, "step": 56580 }, { "epoch": 150.90666666666667, "grad_norm": 0.400390625, "learning_rate": 0.0002958735953396849, "loss": 0.4646, "step": 56590 }, { "epoch": 150.93333333333334, "grad_norm": 0.271484375, "learning_rate": 0.0002958721306175497, "loss": 0.4667, "step": 56600 }, { "epoch": 150.96, "grad_norm": 0.306640625, "learning_rate": 0.0002958706656391262, "loss": 0.4644, "step": 56610 }, { "epoch": 150.98666666666668, "grad_norm": 0.306640625, "learning_rate": 0.000295869200404417, "loss": 0.4788, "step": 56620 }, { "epoch": 151.0, "eval_loss": 0.4782044291496277, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.4378, "eval_samples_per_second": 1.533, "eval_steps_per_second": 0.096, "step": 56625 }, { "epoch": 151.01333333333332, "grad_norm": 0.384765625, "learning_rate": 0.0002958677349134246, "loss": 0.4672, "step": 56630 }, { "epoch": 151.04, "grad_norm": 0.263671875, "learning_rate": 0.00029586626916615165, "loss": 0.4916, "step": 56640 }, { "epoch": 151.06666666666666, "grad_norm": 0.40625, "learning_rate": 0.0002958648031626006, "loss": 0.4791, "step": 56650 }, { "epoch": 151.09333333333333, "grad_norm": 0.3515625, "learning_rate": 0.0002958633369027742, "loss": 0.4737, "step": 56660 }, { "epoch": 151.12, "grad_norm": 0.373046875, "learning_rate": 0.0002958618703866749, "loss": 0.4703, "step": 56670 }, { "epoch": 151.14666666666668, "grad_norm": 0.412109375, "learning_rate": 0.0002958604036143054, "loss": 0.4782, "step": 56680 }, { "epoch": 151.17333333333335, "grad_norm": 0.361328125, "learning_rate": 0.0002958589365856681, "loss": 0.4698, "step": 56690 }, { "epoch": 151.2, "grad_norm": 0.2236328125, "learning_rate": 0.0002958574693007657, "loss": 0.4678, "step": 56700 }, { "epoch": 151.22666666666666, "grad_norm": 0.3125, "learning_rate": 0.00029585600175960076, "loss": 0.466, "step": 56710 }, { "epoch": 151.25333333333333, "grad_norm": 0.3203125, "learning_rate": 0.0002958545339621758, "loss": 0.4654, "step": 56720 }, { "epoch": 151.28, "grad_norm": 0.333984375, "learning_rate": 0.0002958530659084935, "loss": 0.4796, "step": 56730 }, { "epoch": 151.30666666666667, "grad_norm": 0.3515625, "learning_rate": 0.0002958515975985564, "loss": 0.4607, "step": 56740 }, { "epoch": 151.33333333333334, "grad_norm": 0.2890625, "learning_rate": 0.00029585012903236705, "loss": 0.4753, "step": 56750 }, { "epoch": 151.36, "grad_norm": 0.46484375, "learning_rate": 0.000295848660209928, "loss": 0.4776, "step": 56760 }, { "epoch": 151.38666666666666, "grad_norm": 0.388671875, "learning_rate": 0.0002958471911312419, "loss": 0.469, "step": 56770 }, { "epoch": 151.41333333333333, "grad_norm": 0.46484375, "learning_rate": 0.00029584572179631134, "loss": 0.4739, "step": 56780 }, { "epoch": 151.44, "grad_norm": 0.34765625, "learning_rate": 0.0002958442522051388, "loss": 0.4766, "step": 56790 }, { "epoch": 151.46666666666667, "grad_norm": 0.34375, "learning_rate": 0.000295842782357727, "loss": 0.4859, "step": 56800 }, { "epoch": 151.49333333333334, "grad_norm": 0.39453125, "learning_rate": 0.0002958413122540784, "loss": 0.4778, "step": 56810 }, { "epoch": 151.52, "grad_norm": 0.3359375, "learning_rate": 0.00029583984189419563, "loss": 0.4716, "step": 56820 }, { "epoch": 151.54666666666665, "grad_norm": 0.3046875, "learning_rate": 0.00029583837127808134, "loss": 0.4689, "step": 56830 }, { "epoch": 151.57333333333332, "grad_norm": 0.29296875, "learning_rate": 0.00029583690040573804, "loss": 0.4676, "step": 56840 }, { "epoch": 151.6, "grad_norm": 0.341796875, "learning_rate": 0.00029583542927716827, "loss": 0.4618, "step": 56850 }, { "epoch": 151.62666666666667, "grad_norm": 0.2734375, "learning_rate": 0.00029583395789237475, "loss": 0.4483, "step": 56860 }, { "epoch": 151.65333333333334, "grad_norm": 0.326171875, "learning_rate": 0.00029583248625136, "loss": 0.4684, "step": 56870 }, { "epoch": 151.68, "grad_norm": 0.314453125, "learning_rate": 0.0002958310143541265, "loss": 0.4596, "step": 56880 }, { "epoch": 151.70666666666668, "grad_norm": 0.291015625, "learning_rate": 0.00029582954220067694, "loss": 0.4602, "step": 56890 }, { "epoch": 151.73333333333332, "grad_norm": 0.32421875, "learning_rate": 0.00029582806979101394, "loss": 0.4789, "step": 56900 }, { "epoch": 151.76, "grad_norm": 0.361328125, "learning_rate": 0.00029582659712514003, "loss": 0.4805, "step": 56910 }, { "epoch": 151.78666666666666, "grad_norm": 0.4375, "learning_rate": 0.0002958251242030578, "loss": 0.4786, "step": 56920 }, { "epoch": 151.81333333333333, "grad_norm": 0.4296875, "learning_rate": 0.00029582365102476986, "loss": 0.4642, "step": 56930 }, { "epoch": 151.84, "grad_norm": 0.474609375, "learning_rate": 0.0002958221775902788, "loss": 0.4702, "step": 56940 }, { "epoch": 151.86666666666667, "grad_norm": 0.380859375, "learning_rate": 0.00029582070389958713, "loss": 0.4694, "step": 56950 }, { "epoch": 151.89333333333335, "grad_norm": 0.337890625, "learning_rate": 0.00029581922995269757, "loss": 0.4602, "step": 56960 }, { "epoch": 151.92, "grad_norm": 0.361328125, "learning_rate": 0.00029581775574961266, "loss": 0.4706, "step": 56970 }, { "epoch": 151.94666666666666, "grad_norm": 0.33203125, "learning_rate": 0.0002958162812903349, "loss": 0.4635, "step": 56980 }, { "epoch": 151.97333333333333, "grad_norm": 0.326171875, "learning_rate": 0.000295814806574867, "loss": 0.4742, "step": 56990 }, { "epoch": 152.0, "grad_norm": 0.4140625, "learning_rate": 0.0002958133316032115, "loss": 0.4633, "step": 57000 }, { "epoch": 152.0, "eval_loss": 0.4801050126552582, "eval_model_preparation_time": 0.0016, "eval_runtime": 11.088, "eval_samples_per_second": 1.443, "eval_steps_per_second": 0.09, "step": 57000 }, { "epoch": 152.02666666666667, "grad_norm": 0.345703125, "learning_rate": 0.000295811856375371, "loss": 0.4835, "step": 57010 }, { "epoch": 152.05333333333334, "grad_norm": 0.328125, "learning_rate": 0.000295810380891348, "loss": 0.4886, "step": 57020 }, { "epoch": 152.08, "grad_norm": 0.314453125, "learning_rate": 0.00029580890515114533, "loss": 0.4753, "step": 57030 }, { "epoch": 152.10666666666665, "grad_norm": 0.25390625, "learning_rate": 0.00029580742915476536, "loss": 0.471, "step": 57040 }, { "epoch": 152.13333333333333, "grad_norm": 0.345703125, "learning_rate": 0.00029580595290221076, "loss": 0.4723, "step": 57050 }, { "epoch": 152.16, "grad_norm": 0.298828125, "learning_rate": 0.0002958044763934841, "loss": 0.4767, "step": 57060 }, { "epoch": 152.18666666666667, "grad_norm": 0.341796875, "learning_rate": 0.00029580299962858803, "loss": 0.4693, "step": 57070 }, { "epoch": 152.21333333333334, "grad_norm": 0.388671875, "learning_rate": 0.00029580152260752507, "loss": 0.4642, "step": 57080 }, { "epoch": 152.24, "grad_norm": 0.34765625, "learning_rate": 0.00029580004533029787, "loss": 0.4685, "step": 57090 }, { "epoch": 152.26666666666668, "grad_norm": 0.30078125, "learning_rate": 0.000295798567796909, "loss": 0.4721, "step": 57100 }, { "epoch": 152.29333333333332, "grad_norm": 0.296875, "learning_rate": 0.0002957970900073611, "loss": 0.4665, "step": 57110 }, { "epoch": 152.32, "grad_norm": 0.265625, "learning_rate": 0.0002957956119616567, "loss": 0.4689, "step": 57120 }, { "epoch": 152.34666666666666, "grad_norm": 0.314453125, "learning_rate": 0.00029579413365979845, "loss": 0.4782, "step": 57130 }, { "epoch": 152.37333333333333, "grad_norm": 0.30859375, "learning_rate": 0.0002957926551017889, "loss": 0.4742, "step": 57140 }, { "epoch": 152.4, "grad_norm": 0.28515625, "learning_rate": 0.0002957911762876307, "loss": 0.4696, "step": 57150 }, { "epoch": 152.42666666666668, "grad_norm": 0.439453125, "learning_rate": 0.00029578969721732643, "loss": 0.4762, "step": 57160 }, { "epoch": 152.45333333333335, "grad_norm": 0.33984375, "learning_rate": 0.00029578821789087863, "loss": 0.4787, "step": 57170 }, { "epoch": 152.48, "grad_norm": 0.26953125, "learning_rate": 0.00029578673830828997, "loss": 0.4848, "step": 57180 }, { "epoch": 152.50666666666666, "grad_norm": 0.279296875, "learning_rate": 0.0002957852584695631, "loss": 0.4744, "step": 57190 }, { "epoch": 152.53333333333333, "grad_norm": 0.302734375, "learning_rate": 0.0002957837783747005, "loss": 0.4686, "step": 57200 }, { "epoch": 152.56, "grad_norm": 0.361328125, "learning_rate": 0.00029578229802370475, "loss": 0.4699, "step": 57210 }, { "epoch": 152.58666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002957808174165786, "loss": 0.4651, "step": 57220 }, { "epoch": 152.61333333333334, "grad_norm": 0.30859375, "learning_rate": 0.00029577933655332457, "loss": 0.4511, "step": 57230 }, { "epoch": 152.64, "grad_norm": 0.34765625, "learning_rate": 0.00029577785543394525, "loss": 0.4565, "step": 57240 }, { "epoch": 152.66666666666666, "grad_norm": 0.3046875, "learning_rate": 0.0002957763740584432, "loss": 0.4722, "step": 57250 }, { "epoch": 152.69333333333333, "grad_norm": 0.33203125, "learning_rate": 0.0002957748924268212, "loss": 0.4543, "step": 57260 }, { "epoch": 152.72, "grad_norm": 0.283203125, "learning_rate": 0.0002957734105390816, "loss": 0.4716, "step": 57270 }, { "epoch": 152.74666666666667, "grad_norm": 0.3828125, "learning_rate": 0.0002957719283952272, "loss": 0.4767, "step": 57280 }, { "epoch": 152.77333333333334, "grad_norm": 0.384765625, "learning_rate": 0.0002957704459952606, "loss": 0.4836, "step": 57290 }, { "epoch": 152.8, "grad_norm": 0.3828125, "learning_rate": 0.0002957689633391842, "loss": 0.4712, "step": 57300 }, { "epoch": 152.82666666666665, "grad_norm": 0.310546875, "learning_rate": 0.00029576748042700086, "loss": 0.4655, "step": 57310 }, { "epoch": 152.85333333333332, "grad_norm": 0.306640625, "learning_rate": 0.000295765997258713, "loss": 0.4742, "step": 57320 }, { "epoch": 152.88, "grad_norm": 0.28125, "learning_rate": 0.00029576451383432335, "loss": 0.4624, "step": 57330 }, { "epoch": 152.90666666666667, "grad_norm": 0.33984375, "learning_rate": 0.0002957630301538345, "loss": 0.4651, "step": 57340 }, { "epoch": 152.93333333333334, "grad_norm": 0.251953125, "learning_rate": 0.00029576154621724897, "loss": 0.4671, "step": 57350 }, { "epoch": 152.96, "grad_norm": 0.384765625, "learning_rate": 0.0002957600620245694, "loss": 0.464, "step": 57360 }, { "epoch": 152.98666666666668, "grad_norm": 0.365234375, "learning_rate": 0.00029575857757579846, "loss": 0.4777, "step": 57370 }, { "epoch": 153.0, "eval_loss": 0.4788782000541687, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.2479, "eval_samples_per_second": 1.561, "eval_steps_per_second": 0.098, "step": 57375 }, { "epoch": 153.01333333333332, "grad_norm": 0.314453125, "learning_rate": 0.0002957570928709387, "loss": 0.4673, "step": 57380 }, { "epoch": 153.04, "grad_norm": 0.3046875, "learning_rate": 0.0002957556079099928, "loss": 0.4914, "step": 57390 }, { "epoch": 153.06666666666666, "grad_norm": 0.39453125, "learning_rate": 0.00029575412269296317, "loss": 0.4789, "step": 57400 }, { "epoch": 153.09333333333333, "grad_norm": 0.26171875, "learning_rate": 0.00029575263721985266, "loss": 0.474, "step": 57410 }, { "epoch": 153.12, "grad_norm": 0.287109375, "learning_rate": 0.0002957511514906638, "loss": 0.4703, "step": 57420 }, { "epoch": 153.14666666666668, "grad_norm": 0.3671875, "learning_rate": 0.00029574966550539915, "loss": 0.4791, "step": 57430 }, { "epoch": 153.17333333333335, "grad_norm": 0.34375, "learning_rate": 0.00029574817926406136, "loss": 0.4697, "step": 57440 }, { "epoch": 153.2, "grad_norm": 0.3203125, "learning_rate": 0.00029574669276665307, "loss": 0.4679, "step": 57450 }, { "epoch": 153.22666666666666, "grad_norm": 0.361328125, "learning_rate": 0.00029574520601317677, "loss": 0.4649, "step": 57460 }, { "epoch": 153.25333333333333, "grad_norm": 0.353515625, "learning_rate": 0.0002957437190036352, "loss": 0.4655, "step": 57470 }, { "epoch": 153.28, "grad_norm": 0.388671875, "learning_rate": 0.00029574223173803093, "loss": 0.4788, "step": 57480 }, { "epoch": 153.30666666666667, "grad_norm": 0.3828125, "learning_rate": 0.00029574074421636666, "loss": 0.4605, "step": 57490 }, { "epoch": 153.33333333333334, "grad_norm": 0.27734375, "learning_rate": 0.00029573925643864484, "loss": 0.4753, "step": 57500 }, { "epoch": 153.36, "grad_norm": 0.27734375, "learning_rate": 0.0002957377684048682, "loss": 0.478, "step": 57510 }, { "epoch": 153.38666666666666, "grad_norm": 0.4140625, "learning_rate": 0.00029573628011503924, "loss": 0.4689, "step": 57520 }, { "epoch": 153.41333333333333, "grad_norm": 0.451171875, "learning_rate": 0.00029573479156916067, "loss": 0.4739, "step": 57530 }, { "epoch": 153.44, "grad_norm": 0.2890625, "learning_rate": 0.0002957333027672351, "loss": 0.4773, "step": 57540 }, { "epoch": 153.46666666666667, "grad_norm": 0.375, "learning_rate": 0.00029573181370926515, "loss": 0.4865, "step": 57550 }, { "epoch": 153.49333333333334, "grad_norm": 0.546875, "learning_rate": 0.00029573032439525346, "loss": 0.4772, "step": 57560 }, { "epoch": 153.52, "grad_norm": 0.302734375, "learning_rate": 0.00029572883482520255, "loss": 0.472, "step": 57570 }, { "epoch": 153.54666666666665, "grad_norm": 0.453125, "learning_rate": 0.000295727344999115, "loss": 0.4691, "step": 57580 }, { "epoch": 153.57333333333332, "grad_norm": 0.34765625, "learning_rate": 0.0002957258549169937, "loss": 0.4683, "step": 57590 }, { "epoch": 153.6, "grad_norm": 0.26953125, "learning_rate": 0.000295724364578841, "loss": 0.4615, "step": 57600 }, { "epoch": 153.62666666666667, "grad_norm": 0.41015625, "learning_rate": 0.00029572287398465955, "loss": 0.4486, "step": 57610 }, { "epoch": 153.65333333333334, "grad_norm": 0.345703125, "learning_rate": 0.0002957213831344521, "loss": 0.4675, "step": 57620 }, { "epoch": 153.68, "grad_norm": 0.34375, "learning_rate": 0.0002957198920282212, "loss": 0.4602, "step": 57630 }, { "epoch": 153.70666666666668, "grad_norm": 0.357421875, "learning_rate": 0.0002957184006659694, "loss": 0.4598, "step": 57640 }, { "epoch": 153.73333333333332, "grad_norm": 0.400390625, "learning_rate": 0.0002957169090476995, "loss": 0.4793, "step": 57650 }, { "epoch": 153.76, "grad_norm": 0.357421875, "learning_rate": 0.0002957154171734139, "loss": 0.4798, "step": 57660 }, { "epoch": 153.78666666666666, "grad_norm": 0.306640625, "learning_rate": 0.0002957139250431153, "loss": 0.4794, "step": 57670 }, { "epoch": 153.81333333333333, "grad_norm": 0.35546875, "learning_rate": 0.00029571243265680644, "loss": 0.4645, "step": 57680 }, { "epoch": 153.84, "grad_norm": 0.3125, "learning_rate": 0.00029571094001448983, "loss": 0.4694, "step": 57690 }, { "epoch": 153.86666666666667, "grad_norm": 0.33984375, "learning_rate": 0.00029570944711616805, "loss": 0.4688, "step": 57700 }, { "epoch": 153.89333333333335, "grad_norm": 0.423828125, "learning_rate": 0.0002957079539618439, "loss": 0.4597, "step": 57710 }, { "epoch": 153.92, "grad_norm": 0.45703125, "learning_rate": 0.0002957064605515198, "loss": 0.4709, "step": 57720 }, { "epoch": 153.94666666666666, "grad_norm": 0.345703125, "learning_rate": 0.00029570496688519847, "loss": 0.4634, "step": 57730 }, { "epoch": 153.97333333333333, "grad_norm": 0.37109375, "learning_rate": 0.00029570347296288253, "loss": 0.4753, "step": 57740 }, { "epoch": 154.0, "grad_norm": 0.33984375, "learning_rate": 0.0002957019787845746, "loss": 0.4637, "step": 57750 }, { "epoch": 154.0, "eval_loss": 0.4789036810398102, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.9362, "eval_samples_per_second": 1.61, "eval_steps_per_second": 0.101, "step": 57750 }, { "epoch": 154.02666666666667, "grad_norm": 0.44140625, "learning_rate": 0.0002957004843502773, "loss": 0.4838, "step": 57760 }, { "epoch": 154.05333333333334, "grad_norm": 0.26171875, "learning_rate": 0.0002956989896599933, "loss": 0.4894, "step": 57770 }, { "epoch": 154.08, "grad_norm": 0.294921875, "learning_rate": 0.00029569749471372516, "loss": 0.4765, "step": 57780 }, { "epoch": 154.10666666666665, "grad_norm": 0.345703125, "learning_rate": 0.00029569599951147555, "loss": 0.4716, "step": 57790 }, { "epoch": 154.13333333333333, "grad_norm": 0.306640625, "learning_rate": 0.00029569450405324705, "loss": 0.4725, "step": 57800 }, { "epoch": 154.16, "grad_norm": 0.328125, "learning_rate": 0.0002956930083390423, "loss": 0.4766, "step": 57810 }, { "epoch": 154.18666666666667, "grad_norm": 0.294921875, "learning_rate": 0.000295691512368864, "loss": 0.4689, "step": 57820 }, { "epoch": 154.21333333333334, "grad_norm": 0.333984375, "learning_rate": 0.00029569001614271475, "loss": 0.4636, "step": 57830 }, { "epoch": 154.24, "grad_norm": 0.330078125, "learning_rate": 0.0002956885196605971, "loss": 0.4677, "step": 57840 }, { "epoch": 154.26666666666668, "grad_norm": 0.265625, "learning_rate": 0.0002956870229225137, "loss": 0.4721, "step": 57850 }, { "epoch": 154.29333333333332, "grad_norm": 0.328125, "learning_rate": 0.0002956855259284673, "loss": 0.4664, "step": 57860 }, { "epoch": 154.32, "grad_norm": 0.384765625, "learning_rate": 0.00029568402867846043, "loss": 0.4698, "step": 57870 }, { "epoch": 154.34666666666666, "grad_norm": 0.40234375, "learning_rate": 0.0002956825311724957, "loss": 0.4782, "step": 57880 }, { "epoch": 154.37333333333333, "grad_norm": 0.365234375, "learning_rate": 0.00029568103341057574, "loss": 0.4739, "step": 57890 }, { "epoch": 154.4, "grad_norm": 0.359375, "learning_rate": 0.0002956795353927033, "loss": 0.4697, "step": 57900 }, { "epoch": 154.42666666666668, "grad_norm": 0.34375, "learning_rate": 0.0002956780371188809, "loss": 0.4771, "step": 57910 }, { "epoch": 154.45333333333335, "grad_norm": 0.380859375, "learning_rate": 0.0002956765385891111, "loss": 0.4791, "step": 57920 }, { "epoch": 154.48, "grad_norm": 0.388671875, "learning_rate": 0.00029567503980339676, "loss": 0.4847, "step": 57930 }, { "epoch": 154.50666666666666, "grad_norm": 0.365234375, "learning_rate": 0.00029567354076174033, "loss": 0.4745, "step": 57940 }, { "epoch": 154.53333333333333, "grad_norm": 0.388671875, "learning_rate": 0.00029567204146414453, "loss": 0.4673, "step": 57950 }, { "epoch": 154.56, "grad_norm": 0.255859375, "learning_rate": 0.00029567054191061197, "loss": 0.4692, "step": 57960 }, { "epoch": 154.58666666666667, "grad_norm": 0.306640625, "learning_rate": 0.0002956690421011452, "loss": 0.4656, "step": 57970 }, { "epoch": 154.61333333333334, "grad_norm": 0.412109375, "learning_rate": 0.000295667542035747, "loss": 0.4507, "step": 57980 }, { "epoch": 154.64, "grad_norm": 0.361328125, "learning_rate": 0.00029566604171441993, "loss": 0.4571, "step": 57990 }, { "epoch": 154.66666666666666, "grad_norm": 0.2353515625, "learning_rate": 0.00029566454113716666, "loss": 0.4722, "step": 58000 }, { "epoch": 154.69333333333333, "grad_norm": 0.357421875, "learning_rate": 0.0002956630403039898, "loss": 0.4553, "step": 58010 }, { "epoch": 154.72, "grad_norm": 0.50390625, "learning_rate": 0.00029566153921489194, "loss": 0.4724, "step": 58020 }, { "epoch": 154.74666666666667, "grad_norm": 0.396484375, "learning_rate": 0.0002956600378698758, "loss": 0.4768, "step": 58030 }, { "epoch": 154.77333333333334, "grad_norm": 0.361328125, "learning_rate": 0.00029565853626894393, "loss": 0.4837, "step": 58040 }, { "epoch": 154.8, "grad_norm": 0.40234375, "learning_rate": 0.0002956570344120991, "loss": 0.4701, "step": 58050 }, { "epoch": 154.82666666666665, "grad_norm": 0.283203125, "learning_rate": 0.00029565553229934385, "loss": 0.4656, "step": 58060 }, { "epoch": 154.85333333333332, "grad_norm": 0.33984375, "learning_rate": 0.00029565402993068083, "loss": 0.4735, "step": 58070 }, { "epoch": 154.88, "grad_norm": 0.310546875, "learning_rate": 0.0002956525273061127, "loss": 0.4624, "step": 58080 }, { "epoch": 154.90666666666667, "grad_norm": 0.3515625, "learning_rate": 0.0002956510244256421, "loss": 0.4646, "step": 58090 }, { "epoch": 154.93333333333334, "grad_norm": 0.33203125, "learning_rate": 0.0002956495212892716, "loss": 0.4656, "step": 58100 }, { "epoch": 154.96, "grad_norm": 0.265625, "learning_rate": 0.00029564801789700395, "loss": 0.4641, "step": 58110 }, { "epoch": 154.98666666666668, "grad_norm": 0.341796875, "learning_rate": 0.00029564651424884175, "loss": 0.478, "step": 58120 }, { "epoch": 155.0, "eval_loss": 0.47817400097846985, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.3606, "eval_samples_per_second": 1.544, "eval_steps_per_second": 0.097, "step": 58125 }, { "epoch": 155.01333333333332, "grad_norm": 0.5, "learning_rate": 0.00029564501034478756, "loss": 0.4681, "step": 58130 }, { "epoch": 155.04, "grad_norm": 0.31640625, "learning_rate": 0.0002956435061848442, "loss": 0.4919, "step": 58140 }, { "epoch": 155.06666666666666, "grad_norm": 0.36328125, "learning_rate": 0.0002956420017690141, "loss": 0.4791, "step": 58150 }, { "epoch": 155.09333333333333, "grad_norm": 0.30859375, "learning_rate": 0.0002956404970973001, "loss": 0.4743, "step": 58160 }, { "epoch": 155.12, "grad_norm": 0.296875, "learning_rate": 0.0002956389921697047, "loss": 0.4699, "step": 58170 }, { "epoch": 155.14666666666668, "grad_norm": 0.279296875, "learning_rate": 0.00029563748698623065, "loss": 0.4787, "step": 58180 }, { "epoch": 155.17333333333335, "grad_norm": 0.322265625, "learning_rate": 0.00029563598154688054, "loss": 0.4692, "step": 58190 }, { "epoch": 155.2, "grad_norm": 0.392578125, "learning_rate": 0.000295634475851657, "loss": 0.4675, "step": 58200 }, { "epoch": 155.22666666666666, "grad_norm": 0.361328125, "learning_rate": 0.0002956329699005627, "loss": 0.4659, "step": 58210 }, { "epoch": 155.25333333333333, "grad_norm": 0.23828125, "learning_rate": 0.00029563146369360026, "loss": 0.4653, "step": 58220 }, { "epoch": 155.28, "grad_norm": 0.341796875, "learning_rate": 0.00029562995723077235, "loss": 0.4793, "step": 58230 }, { "epoch": 155.30666666666667, "grad_norm": 0.3359375, "learning_rate": 0.00029562845051208167, "loss": 0.46, "step": 58240 }, { "epoch": 155.33333333333334, "grad_norm": 0.27734375, "learning_rate": 0.0002956269435375307, "loss": 0.4758, "step": 58250 }, { "epoch": 155.36, "grad_norm": 0.375, "learning_rate": 0.0002956254363071223, "loss": 0.4782, "step": 58260 }, { "epoch": 155.38666666666666, "grad_norm": 0.357421875, "learning_rate": 0.000295623928820859, "loss": 0.4693, "step": 58270 }, { "epoch": 155.41333333333333, "grad_norm": 0.35546875, "learning_rate": 0.0002956224210787435, "loss": 0.473, "step": 58280 }, { "epoch": 155.44, "grad_norm": 0.34375, "learning_rate": 0.0002956209130807783, "loss": 0.4761, "step": 58290 }, { "epoch": 155.46666666666667, "grad_norm": 0.46484375, "learning_rate": 0.0002956194048269662, "loss": 0.486, "step": 58300 }, { "epoch": 155.49333333333334, "grad_norm": 0.3671875, "learning_rate": 0.0002956178963173099, "loss": 0.4774, "step": 58310 }, { "epoch": 155.52, "grad_norm": 0.3671875, "learning_rate": 0.0002956163875518119, "loss": 0.4713, "step": 58320 }, { "epoch": 155.54666666666665, "grad_norm": 0.52734375, "learning_rate": 0.0002956148785304749, "loss": 0.4686, "step": 58330 }, { "epoch": 155.57333333333332, "grad_norm": 0.380859375, "learning_rate": 0.0002956133692533016, "loss": 0.4681, "step": 58340 }, { "epoch": 155.6, "grad_norm": 0.3125, "learning_rate": 0.00029561185972029456, "loss": 0.4616, "step": 58350 }, { "epoch": 155.62666666666667, "grad_norm": 0.44921875, "learning_rate": 0.00029561034993145656, "loss": 0.4488, "step": 58360 }, { "epoch": 155.65333333333334, "grad_norm": 0.369140625, "learning_rate": 0.00029560883988679015, "loss": 0.468, "step": 58370 }, { "epoch": 155.68, "grad_norm": 0.318359375, "learning_rate": 0.000295607329586298, "loss": 0.4594, "step": 58380 }, { "epoch": 155.70666666666668, "grad_norm": 0.439453125, "learning_rate": 0.00029560581902998283, "loss": 0.46, "step": 58390 }, { "epoch": 155.73333333333332, "grad_norm": 0.43359375, "learning_rate": 0.00029560430821784717, "loss": 0.4785, "step": 58400 }, { "epoch": 155.76, "grad_norm": 0.34375, "learning_rate": 0.00029560279714989384, "loss": 0.4805, "step": 58410 }, { "epoch": 155.78666666666666, "grad_norm": 0.443359375, "learning_rate": 0.00029560128582612535, "loss": 0.4782, "step": 58420 }, { "epoch": 155.81333333333333, "grad_norm": 0.353515625, "learning_rate": 0.0002955997742465444, "loss": 0.4644, "step": 58430 }, { "epoch": 155.84, "grad_norm": 0.56640625, "learning_rate": 0.0002955982624111537, "loss": 0.4701, "step": 58440 }, { "epoch": 155.86666666666667, "grad_norm": 0.34375, "learning_rate": 0.0002955967503199558, "loss": 0.4692, "step": 58450 }, { "epoch": 155.89333333333335, "grad_norm": 0.271484375, "learning_rate": 0.0002955952379729534, "loss": 0.4597, "step": 58460 }, { "epoch": 155.92, "grad_norm": 0.296875, "learning_rate": 0.00029559372537014923, "loss": 0.4701, "step": 58470 }, { "epoch": 155.94666666666666, "grad_norm": 0.28515625, "learning_rate": 0.0002955922125115459, "loss": 0.4635, "step": 58480 }, { "epoch": 155.97333333333333, "grad_norm": 0.30078125, "learning_rate": 0.00029559069939714597, "loss": 0.4747, "step": 58490 }, { "epoch": 156.0, "grad_norm": 0.421875, "learning_rate": 0.00029558918602695227, "loss": 0.4635, "step": 58500 }, { "epoch": 156.0, "eval_loss": 0.47919952869415283, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.9366, "eval_samples_per_second": 1.463, "eval_steps_per_second": 0.091, "step": 58500 }, { "epoch": 156.02666666666667, "grad_norm": 0.361328125, "learning_rate": 0.00029558767240096736, "loss": 0.4834, "step": 58510 }, { "epoch": 156.05333333333334, "grad_norm": 0.3828125, "learning_rate": 0.00029558615851919395, "loss": 0.4883, "step": 58520 }, { "epoch": 156.08, "grad_norm": 0.33984375, "learning_rate": 0.0002955846443816346, "loss": 0.4755, "step": 58530 }, { "epoch": 156.10666666666665, "grad_norm": 0.353515625, "learning_rate": 0.0002955831299882921, "loss": 0.4714, "step": 58540 }, { "epoch": 156.13333333333333, "grad_norm": 0.33203125, "learning_rate": 0.00029558161533916894, "loss": 0.4731, "step": 58550 }, { "epoch": 156.16, "grad_norm": 0.390625, "learning_rate": 0.000295580100434268, "loss": 0.4766, "step": 58560 }, { "epoch": 156.18666666666667, "grad_norm": 0.234375, "learning_rate": 0.00029557858527359175, "loss": 0.4692, "step": 58570 }, { "epoch": 156.21333333333334, "grad_norm": 0.302734375, "learning_rate": 0.00029557706985714296, "loss": 0.4633, "step": 58580 }, { "epoch": 156.24, "grad_norm": 0.32421875, "learning_rate": 0.0002955755541849243, "loss": 0.4672, "step": 58590 }, { "epoch": 156.26666666666668, "grad_norm": 0.359375, "learning_rate": 0.00029557403825693836, "loss": 0.4724, "step": 58600 }, { "epoch": 156.29333333333332, "grad_norm": 0.33203125, "learning_rate": 0.0002955725220731878, "loss": 0.4662, "step": 58610 }, { "epoch": 156.32, "grad_norm": 0.263671875, "learning_rate": 0.0002955710056336754, "loss": 0.4696, "step": 58620 }, { "epoch": 156.34666666666666, "grad_norm": 0.330078125, "learning_rate": 0.00029556948893840374, "loss": 0.4775, "step": 58630 }, { "epoch": 156.37333333333333, "grad_norm": 0.29296875, "learning_rate": 0.00029556797198737546, "loss": 0.4734, "step": 58640 }, { "epoch": 156.4, "grad_norm": 0.37109375, "learning_rate": 0.00029556645478059327, "loss": 0.4702, "step": 58650 }, { "epoch": 156.42666666666668, "grad_norm": 0.3828125, "learning_rate": 0.0002955649373180598, "loss": 0.4771, "step": 58660 }, { "epoch": 156.45333333333335, "grad_norm": 0.3125, "learning_rate": 0.00029556341959977776, "loss": 0.4782, "step": 58670 }, { "epoch": 156.48, "grad_norm": 0.3203125, "learning_rate": 0.0002955619016257498, "loss": 0.485, "step": 58680 }, { "epoch": 156.50666666666666, "grad_norm": 0.29296875, "learning_rate": 0.0002955603833959786, "loss": 0.4745, "step": 58690 }, { "epoch": 156.53333333333333, "grad_norm": 0.322265625, "learning_rate": 0.0002955588649104668, "loss": 0.4684, "step": 58700 }, { "epoch": 156.56, "grad_norm": 0.30859375, "learning_rate": 0.00029555734616921705, "loss": 0.4694, "step": 58710 }, { "epoch": 156.58666666666667, "grad_norm": 0.34375, "learning_rate": 0.00029555582717223205, "loss": 0.4654, "step": 58720 }, { "epoch": 156.61333333333334, "grad_norm": 0.251953125, "learning_rate": 0.0002955543079195145, "loss": 0.4509, "step": 58730 }, { "epoch": 156.64, "grad_norm": 0.22265625, "learning_rate": 0.000295552788411067, "loss": 0.4566, "step": 58740 }, { "epoch": 156.66666666666666, "grad_norm": 0.2373046875, "learning_rate": 0.0002955512686468923, "loss": 0.4713, "step": 58750 }, { "epoch": 156.69333333333333, "grad_norm": 0.267578125, "learning_rate": 0.000295549748626993, "loss": 0.4543, "step": 58760 }, { "epoch": 156.72, "grad_norm": 0.25, "learning_rate": 0.00029554822835137174, "loss": 0.4719, "step": 58770 }, { "epoch": 156.74666666666667, "grad_norm": 0.390625, "learning_rate": 0.0002955467078200313, "loss": 0.4758, "step": 58780 }, { "epoch": 156.77333333333334, "grad_norm": 0.357421875, "learning_rate": 0.0002955451870329743, "loss": 0.4834, "step": 58790 }, { "epoch": 156.8, "grad_norm": 0.4375, "learning_rate": 0.0002955436659902034, "loss": 0.4706, "step": 58800 }, { "epoch": 156.82666666666665, "grad_norm": 0.326171875, "learning_rate": 0.00029554214469172126, "loss": 0.4652, "step": 58810 }, { "epoch": 156.85333333333332, "grad_norm": 0.2734375, "learning_rate": 0.0002955406231375306, "loss": 0.4733, "step": 58820 }, { "epoch": 156.88, "grad_norm": 0.37109375, "learning_rate": 0.0002955391013276341, "loss": 0.4615, "step": 58830 }, { "epoch": 156.90666666666667, "grad_norm": 0.322265625, "learning_rate": 0.0002955375792620344, "loss": 0.4646, "step": 58840 }, { "epoch": 156.93333333333334, "grad_norm": 0.271484375, "learning_rate": 0.00029553605694073413, "loss": 0.4669, "step": 58850 }, { "epoch": 156.96, "grad_norm": 0.296875, "learning_rate": 0.000295534534363736, "loss": 0.4644, "step": 58860 }, { "epoch": 156.98666666666668, "grad_norm": 0.36328125, "learning_rate": 0.0002955330115310427, "loss": 0.4789, "step": 58870 }, { "epoch": 157.0, "eval_loss": 0.4790196120738983, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.6513, "eval_samples_per_second": 1.502, "eval_steps_per_second": 0.094, "step": 58875 }, { "epoch": 157.01333333333332, "grad_norm": 0.357421875, "learning_rate": 0.000295531488442657, "loss": 0.4684, "step": 58880 }, { "epoch": 157.04, "grad_norm": 0.283203125, "learning_rate": 0.0002955299650985814, "loss": 0.4916, "step": 58890 }, { "epoch": 157.06666666666666, "grad_norm": 0.419921875, "learning_rate": 0.0002955284414988186, "loss": 0.4794, "step": 58900 }, { "epoch": 157.09333333333333, "grad_norm": 0.37109375, "learning_rate": 0.0002955269176433714, "loss": 0.4741, "step": 58910 }, { "epoch": 157.12, "grad_norm": 0.453125, "learning_rate": 0.0002955253935322424, "loss": 0.4699, "step": 58920 }, { "epoch": 157.14666666666668, "grad_norm": 0.306640625, "learning_rate": 0.0002955238691654343, "loss": 0.4786, "step": 58930 }, { "epoch": 157.17333333333335, "grad_norm": 0.44140625, "learning_rate": 0.0002955223445429497, "loss": 0.4701, "step": 58940 }, { "epoch": 157.2, "grad_norm": 0.353515625, "learning_rate": 0.0002955208196647914, "loss": 0.4681, "step": 58950 }, { "epoch": 157.22666666666666, "grad_norm": 0.28515625, "learning_rate": 0.000295519294530962, "loss": 0.4653, "step": 58960 }, { "epoch": 157.25333333333333, "grad_norm": 0.3046875, "learning_rate": 0.00029551776914146425, "loss": 0.4657, "step": 58970 }, { "epoch": 157.28, "grad_norm": 0.333984375, "learning_rate": 0.0002955162434963007, "loss": 0.4789, "step": 58980 }, { "epoch": 157.30666666666667, "grad_norm": 0.396484375, "learning_rate": 0.0002955147175954742, "loss": 0.46, "step": 58990 }, { "epoch": 157.33333333333334, "grad_norm": 0.30078125, "learning_rate": 0.0002955131914389873, "loss": 0.4756, "step": 59000 }, { "epoch": 157.36, "grad_norm": 0.40625, "learning_rate": 0.00029551166502684266, "loss": 0.4777, "step": 59010 }, { "epoch": 157.38666666666666, "grad_norm": 0.6171875, "learning_rate": 0.0002955101383590431, "loss": 0.469, "step": 59020 }, { "epoch": 157.41333333333333, "grad_norm": 0.412109375, "learning_rate": 0.0002955086114355912, "loss": 0.4736, "step": 59030 }, { "epoch": 157.44, "grad_norm": 0.298828125, "learning_rate": 0.0002955070842564897, "loss": 0.4763, "step": 59040 }, { "epoch": 157.46666666666667, "grad_norm": 0.2890625, "learning_rate": 0.0002955055568217412, "loss": 0.486, "step": 59050 }, { "epoch": 157.49333333333334, "grad_norm": 0.53125, "learning_rate": 0.0002955040291313485, "loss": 0.4772, "step": 59060 }, { "epoch": 157.52, "grad_norm": 0.275390625, "learning_rate": 0.0002955025011853142, "loss": 0.4713, "step": 59070 }, { "epoch": 157.54666666666665, "grad_norm": 0.359375, "learning_rate": 0.000295500972983641, "loss": 0.4681, "step": 59080 }, { "epoch": 157.57333333333332, "grad_norm": 0.373046875, "learning_rate": 0.0002954994445263316, "loss": 0.4682, "step": 59090 }, { "epoch": 157.6, "grad_norm": 0.376953125, "learning_rate": 0.00029549791581338865, "loss": 0.4613, "step": 59100 }, { "epoch": 157.62666666666667, "grad_norm": 0.228515625, "learning_rate": 0.0002954963868448149, "loss": 0.4489, "step": 59110 }, { "epoch": 157.65333333333334, "grad_norm": 0.337890625, "learning_rate": 0.00029549485762061297, "loss": 0.4687, "step": 59120 }, { "epoch": 157.68, "grad_norm": 0.294921875, "learning_rate": 0.00029549332814078557, "loss": 0.4592, "step": 59130 }, { "epoch": 157.70666666666668, "grad_norm": 0.361328125, "learning_rate": 0.00029549179840533544, "loss": 0.4602, "step": 59140 }, { "epoch": 157.73333333333332, "grad_norm": 0.44140625, "learning_rate": 0.00029549026841426513, "loss": 0.4792, "step": 59150 }, { "epoch": 157.76, "grad_norm": 1.7109375, "learning_rate": 0.0002954887381675775, "loss": 0.481, "step": 59160 }, { "epoch": 157.78666666666666, "grad_norm": 0.95703125, "learning_rate": 0.00029548720766527515, "loss": 0.4805, "step": 59170 }, { "epoch": 157.81333333333333, "grad_norm": 0.70703125, "learning_rate": 0.00029548567690736074, "loss": 0.4645, "step": 59180 }, { "epoch": 157.84, "grad_norm": 0.50390625, "learning_rate": 0.00029548414589383704, "loss": 0.47, "step": 59190 }, { "epoch": 157.86666666666667, "grad_norm": 0.322265625, "learning_rate": 0.00029548261462470667, "loss": 0.4692, "step": 59200 }, { "epoch": 157.89333333333335, "grad_norm": 0.328125, "learning_rate": 0.0002954810830999723, "loss": 0.4599, "step": 59210 }, { "epoch": 157.92, "grad_norm": 0.47265625, "learning_rate": 0.0002954795513196367, "loss": 0.4705, "step": 59220 }, { "epoch": 157.94666666666666, "grad_norm": 0.33984375, "learning_rate": 0.00029547801928370257, "loss": 0.4625, "step": 59230 }, { "epoch": 157.97333333333333, "grad_norm": 0.40234375, "learning_rate": 0.00029547648699217253, "loss": 0.475, "step": 59240 }, { "epoch": 158.0, "grad_norm": 0.337890625, "learning_rate": 0.0002954749544450493, "loss": 0.4637, "step": 59250 }, { "epoch": 158.0, "eval_loss": 0.47802263498306274, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.1878, "eval_samples_per_second": 1.571, "eval_steps_per_second": 0.098, "step": 59250 }, { "epoch": 158.02666666666667, "grad_norm": 0.296875, "learning_rate": 0.0002954734216423356, "loss": 0.4836, "step": 59260 }, { "epoch": 158.05333333333334, "grad_norm": 0.30078125, "learning_rate": 0.00029547188858403405, "loss": 0.4885, "step": 59270 }, { "epoch": 158.08, "grad_norm": 0.337890625, "learning_rate": 0.0002954703552701474, "loss": 0.476, "step": 59280 }, { "epoch": 158.10666666666665, "grad_norm": 0.306640625, "learning_rate": 0.0002954688217006784, "loss": 0.4711, "step": 59290 }, { "epoch": 158.13333333333333, "grad_norm": 0.45703125, "learning_rate": 0.0002954672878756296, "loss": 0.4724, "step": 59300 }, { "epoch": 158.16, "grad_norm": 0.328125, "learning_rate": 0.0002954657537950038, "loss": 0.4767, "step": 59310 }, { "epoch": 158.18666666666667, "grad_norm": 0.40625, "learning_rate": 0.0002954642194588036, "loss": 0.4693, "step": 59320 }, { "epoch": 158.21333333333334, "grad_norm": 0.3359375, "learning_rate": 0.00029546268486703187, "loss": 0.4638, "step": 59330 }, { "epoch": 158.24, "grad_norm": 0.37890625, "learning_rate": 0.0002954611500196912, "loss": 0.4678, "step": 59340 }, { "epoch": 158.26666666666668, "grad_norm": 0.333984375, "learning_rate": 0.00029545961491678424, "loss": 0.4718, "step": 59350 }, { "epoch": 158.29333333333332, "grad_norm": 0.271484375, "learning_rate": 0.00029545807955831373, "loss": 0.4664, "step": 59360 }, { "epoch": 158.32, "grad_norm": 0.3984375, "learning_rate": 0.00029545654394428234, "loss": 0.4697, "step": 59370 }, { "epoch": 158.34666666666666, "grad_norm": 0.251953125, "learning_rate": 0.0002954550080746929, "loss": 0.4779, "step": 59380 }, { "epoch": 158.37333333333333, "grad_norm": 0.31640625, "learning_rate": 0.00029545347194954796, "loss": 0.4732, "step": 59390 }, { "epoch": 158.4, "grad_norm": 0.42578125, "learning_rate": 0.0002954519355688502, "loss": 0.4702, "step": 59400 }, { "epoch": 158.42666666666668, "grad_norm": 0.294921875, "learning_rate": 0.0002954503989326025, "loss": 0.4761, "step": 59410 }, { "epoch": 158.45333333333335, "grad_norm": 0.40234375, "learning_rate": 0.0002954488620408074, "loss": 0.4783, "step": 59420 }, { "epoch": 158.48, "grad_norm": 0.71484375, "learning_rate": 0.0002954473248934676, "loss": 0.4846, "step": 59430 }, { "epoch": 158.50666666666666, "grad_norm": 0.419921875, "learning_rate": 0.0002954457874905859, "loss": 0.475, "step": 59440 }, { "epoch": 158.53333333333333, "grad_norm": 0.28125, "learning_rate": 0.00029544424983216495, "loss": 0.4689, "step": 59450 }, { "epoch": 158.56, "grad_norm": 0.310546875, "learning_rate": 0.0002954427119182074, "loss": 0.4694, "step": 59460 }, { "epoch": 158.58666666666667, "grad_norm": 0.470703125, "learning_rate": 0.00029544117374871606, "loss": 0.4651, "step": 59470 }, { "epoch": 158.61333333333334, "grad_norm": 0.349609375, "learning_rate": 0.00029543963532369354, "loss": 0.4514, "step": 59480 }, { "epoch": 158.64, "grad_norm": 0.26953125, "learning_rate": 0.0002954380966431426, "loss": 0.4561, "step": 59490 }, { "epoch": 158.66666666666666, "grad_norm": 0.41796875, "learning_rate": 0.0002954365577070659, "loss": 0.4716, "step": 59500 }, { "epoch": 158.69333333333333, "grad_norm": 0.32421875, "learning_rate": 0.0002954350185154662, "loss": 0.4547, "step": 59510 }, { "epoch": 158.72, "grad_norm": 0.49609375, "learning_rate": 0.00029543347906834614, "loss": 0.4718, "step": 59520 }, { "epoch": 158.74666666666667, "grad_norm": 0.375, "learning_rate": 0.00029543193936570845, "loss": 0.4763, "step": 59530 }, { "epoch": 158.77333333333334, "grad_norm": 0.3828125, "learning_rate": 0.00029543039940755587, "loss": 0.4833, "step": 59540 }, { "epoch": 158.8, "grad_norm": 0.4453125, "learning_rate": 0.00029542885919389103, "loss": 0.471, "step": 59550 }, { "epoch": 158.82666666666665, "grad_norm": 0.302734375, "learning_rate": 0.0002954273187247167, "loss": 0.4658, "step": 59560 }, { "epoch": 158.85333333333332, "grad_norm": 0.35546875, "learning_rate": 0.0002954257780000356, "loss": 0.4741, "step": 59570 }, { "epoch": 158.88, "grad_norm": 0.421875, "learning_rate": 0.0002954242370198504, "loss": 0.4619, "step": 59580 }, { "epoch": 158.90666666666667, "grad_norm": 0.345703125, "learning_rate": 0.0002954226957841638, "loss": 0.4649, "step": 59590 }, { "epoch": 158.93333333333334, "grad_norm": 0.2431640625, "learning_rate": 0.0002954211542929785, "loss": 0.4669, "step": 59600 }, { "epoch": 158.96, "grad_norm": 0.251953125, "learning_rate": 0.0002954196125462972, "loss": 0.4646, "step": 59610 }, { "epoch": 158.98666666666668, "grad_norm": 0.427734375, "learning_rate": 0.00029541807054412266, "loss": 0.4785, "step": 59620 }, { "epoch": 159.0, "eval_loss": 0.477658212184906, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.3986, "eval_samples_per_second": 1.539, "eval_steps_per_second": 0.096, "step": 59625 }, { "epoch": 159.01333333333332, "grad_norm": 0.27734375, "learning_rate": 0.00029541652828645755, "loss": 0.4672, "step": 59630 }, { "epoch": 159.04, "grad_norm": 0.26953125, "learning_rate": 0.00029541498577330465, "loss": 0.4921, "step": 59640 }, { "epoch": 159.06666666666666, "grad_norm": 0.32421875, "learning_rate": 0.0002954134430046666, "loss": 0.4794, "step": 59650 }, { "epoch": 159.09333333333333, "grad_norm": 0.28515625, "learning_rate": 0.0002954118999805461, "loss": 0.4733, "step": 59660 }, { "epoch": 159.12, "grad_norm": 0.2578125, "learning_rate": 0.00029541035670094587, "loss": 0.4711, "step": 59670 }, { "epoch": 159.14666666666668, "grad_norm": 0.318359375, "learning_rate": 0.0002954088131658687, "loss": 0.4789, "step": 59680 }, { "epoch": 159.17333333333335, "grad_norm": 0.37890625, "learning_rate": 0.00029540726937531716, "loss": 0.4701, "step": 59690 }, { "epoch": 159.2, "grad_norm": 0.275390625, "learning_rate": 0.0002954057253292941, "loss": 0.4682, "step": 59700 }, { "epoch": 159.22666666666666, "grad_norm": 0.31640625, "learning_rate": 0.0002954041810278022, "loss": 0.4653, "step": 59710 }, { "epoch": 159.25333333333333, "grad_norm": 0.3828125, "learning_rate": 0.0002954026364708441, "loss": 0.4648, "step": 59720 }, { "epoch": 159.28, "grad_norm": 0.3359375, "learning_rate": 0.00029540109165842254, "loss": 0.4789, "step": 59730 }, { "epoch": 159.30666666666667, "grad_norm": 0.33984375, "learning_rate": 0.0002953995465905403, "loss": 0.4599, "step": 59740 }, { "epoch": 159.33333333333334, "grad_norm": 0.361328125, "learning_rate": 0.00029539800126720004, "loss": 0.4754, "step": 59750 }, { "epoch": 159.36, "grad_norm": 0.2890625, "learning_rate": 0.0002953964556884045, "loss": 0.4769, "step": 59760 }, { "epoch": 159.38666666666666, "grad_norm": 0.412109375, "learning_rate": 0.0002953949098541564, "loss": 0.4693, "step": 59770 }, { "epoch": 159.41333333333333, "grad_norm": 0.337890625, "learning_rate": 0.0002953933637644584, "loss": 0.4733, "step": 59780 }, { "epoch": 159.44, "grad_norm": 0.28125, "learning_rate": 0.00029539181741931327, "loss": 0.4768, "step": 59790 }, { "epoch": 159.46666666666667, "grad_norm": 0.384765625, "learning_rate": 0.00029539027081872365, "loss": 0.4863, "step": 59800 }, { "epoch": 159.49333333333334, "grad_norm": 0.375, "learning_rate": 0.0002953887239626924, "loss": 0.4777, "step": 59810 }, { "epoch": 159.52, "grad_norm": 0.287109375, "learning_rate": 0.0002953871768512221, "loss": 0.4722, "step": 59820 }, { "epoch": 159.54666666666665, "grad_norm": 0.2890625, "learning_rate": 0.00029538562948431554, "loss": 0.4689, "step": 59830 }, { "epoch": 159.57333333333332, "grad_norm": 0.392578125, "learning_rate": 0.00029538408186197547, "loss": 0.4677, "step": 59840 }, { "epoch": 159.6, "grad_norm": 0.3125, "learning_rate": 0.00029538253398420447, "loss": 0.4611, "step": 59850 }, { "epoch": 159.62666666666667, "grad_norm": 0.263671875, "learning_rate": 0.00029538098585100547, "loss": 0.4489, "step": 59860 }, { "epoch": 159.65333333333334, "grad_norm": 0.328125, "learning_rate": 0.00029537943746238096, "loss": 0.4682, "step": 59870 }, { "epoch": 159.68, "grad_norm": 0.3125, "learning_rate": 0.0002953778888183338, "loss": 0.4598, "step": 59880 }, { "epoch": 159.70666666666668, "grad_norm": 0.361328125, "learning_rate": 0.00029537633991886673, "loss": 0.4603, "step": 59890 }, { "epoch": 159.73333333333332, "grad_norm": 0.31640625, "learning_rate": 0.0002953747907639824, "loss": 0.4789, "step": 59900 }, { "epoch": 159.76, "grad_norm": 0.4140625, "learning_rate": 0.0002953732413536835, "loss": 0.4797, "step": 59910 }, { "epoch": 159.78666666666666, "grad_norm": 0.66796875, "learning_rate": 0.00029537169168797285, "loss": 0.4787, "step": 59920 }, { "epoch": 159.81333333333333, "grad_norm": 0.5, "learning_rate": 0.0002953701417668531, "loss": 0.4639, "step": 59930 }, { "epoch": 159.84, "grad_norm": 0.38671875, "learning_rate": 0.0002953685915903271, "loss": 0.4702, "step": 59940 }, { "epoch": 159.86666666666667, "grad_norm": 0.29296875, "learning_rate": 0.00029536704115839743, "loss": 0.4686, "step": 59950 }, { "epoch": 159.89333333333335, "grad_norm": 0.314453125, "learning_rate": 0.0002953654904710668, "loss": 0.4601, "step": 59960 }, { "epoch": 159.92, "grad_norm": 0.333984375, "learning_rate": 0.00029536393952833803, "loss": 0.4706, "step": 59970 }, { "epoch": 159.94666666666666, "grad_norm": 0.3203125, "learning_rate": 0.0002953623883302139, "loss": 0.4632, "step": 59980 }, { "epoch": 159.97333333333333, "grad_norm": 0.35546875, "learning_rate": 0.0002953608368766969, "loss": 0.4743, "step": 59990 }, { "epoch": 160.0, "grad_norm": 0.275390625, "learning_rate": 0.00029535928516779, "loss": 0.464, "step": 60000 }, { "epoch": 160.0, "eval_loss": 0.4785791039466858, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.3856, "eval_samples_per_second": 1.541, "eval_steps_per_second": 0.096, "step": 60000 }, { "epoch": 160.02666666666667, "grad_norm": 0.34375, "learning_rate": 0.0002953577332034958, "loss": 0.4835, "step": 60010 }, { "epoch": 160.05333333333334, "grad_norm": 0.3359375, "learning_rate": 0.000295356180983817, "loss": 0.4887, "step": 60020 }, { "epoch": 160.08, "grad_norm": 0.310546875, "learning_rate": 0.00029535462850875644, "loss": 0.4753, "step": 60030 }, { "epoch": 160.10666666666665, "grad_norm": 0.314453125, "learning_rate": 0.00029535307577831677, "loss": 0.4709, "step": 60040 }, { "epoch": 160.13333333333333, "grad_norm": 0.3671875, "learning_rate": 0.00029535152279250076, "loss": 0.473, "step": 60050 }, { "epoch": 160.16, "grad_norm": 0.349609375, "learning_rate": 0.0002953499695513111, "loss": 0.4761, "step": 60060 }, { "epoch": 160.18666666666667, "grad_norm": 0.296875, "learning_rate": 0.00029534841605475057, "loss": 0.4696, "step": 60070 }, { "epoch": 160.21333333333334, "grad_norm": 0.4140625, "learning_rate": 0.0002953468623028218, "loss": 0.4635, "step": 60080 }, { "epoch": 160.24, "grad_norm": 0.341796875, "learning_rate": 0.00029534530829552764, "loss": 0.4677, "step": 60090 }, { "epoch": 160.26666666666668, "grad_norm": 0.330078125, "learning_rate": 0.0002953437540328707, "loss": 0.4722, "step": 60100 }, { "epoch": 160.29333333333332, "grad_norm": 0.279296875, "learning_rate": 0.0002953421995148539, "loss": 0.4656, "step": 60110 }, { "epoch": 160.32, "grad_norm": 0.376953125, "learning_rate": 0.0002953406447414797, "loss": 0.4696, "step": 60120 }, { "epoch": 160.34666666666666, "grad_norm": 0.298828125, "learning_rate": 0.00029533908971275105, "loss": 0.4778, "step": 60130 }, { "epoch": 160.37333333333333, "grad_norm": 0.337890625, "learning_rate": 0.0002953375344286706, "loss": 0.4738, "step": 60140 }, { "epoch": 160.4, "grad_norm": 0.33984375, "learning_rate": 0.00029533597888924107, "loss": 0.4701, "step": 60150 }, { "epoch": 160.42666666666668, "grad_norm": 0.2890625, "learning_rate": 0.00029533442309446524, "loss": 0.4765, "step": 60160 }, { "epoch": 160.45333333333335, "grad_norm": 0.29296875, "learning_rate": 0.0002953328670443458, "loss": 0.4785, "step": 60170 }, { "epoch": 160.48, "grad_norm": 0.298828125, "learning_rate": 0.00029533131073888555, "loss": 0.4851, "step": 60180 }, { "epoch": 160.50666666666666, "grad_norm": 0.291015625, "learning_rate": 0.0002953297541780871, "loss": 0.4744, "step": 60190 }, { "epoch": 160.53333333333333, "grad_norm": 0.314453125, "learning_rate": 0.00029532819736195336, "loss": 0.4679, "step": 60200 }, { "epoch": 160.56, "grad_norm": 0.310546875, "learning_rate": 0.0002953266402904869, "loss": 0.4696, "step": 60210 }, { "epoch": 160.58666666666667, "grad_norm": 0.2734375, "learning_rate": 0.0002953250829636906, "loss": 0.4654, "step": 60220 }, { "epoch": 160.61333333333334, "grad_norm": 0.267578125, "learning_rate": 0.00029532352538156703, "loss": 0.4511, "step": 60230 }, { "epoch": 160.64, "grad_norm": 0.298828125, "learning_rate": 0.000295321967544119, "loss": 0.4559, "step": 60240 }, { "epoch": 160.66666666666666, "grad_norm": 0.37890625, "learning_rate": 0.0002953204094513493, "loss": 0.4722, "step": 60250 }, { "epoch": 160.69333333333333, "grad_norm": 0.361328125, "learning_rate": 0.00029531885110326066, "loss": 0.4548, "step": 60260 }, { "epoch": 160.72, "grad_norm": 0.328125, "learning_rate": 0.00029531729249985574, "loss": 0.4718, "step": 60270 }, { "epoch": 160.74666666666667, "grad_norm": 0.376953125, "learning_rate": 0.00029531573364113736, "loss": 0.4766, "step": 60280 }, { "epoch": 160.77333333333334, "grad_norm": 0.314453125, "learning_rate": 0.00029531417452710823, "loss": 0.4833, "step": 60290 }, { "epoch": 160.8, "grad_norm": 0.337890625, "learning_rate": 0.00029531261515777107, "loss": 0.4702, "step": 60300 }, { "epoch": 160.82666666666665, "grad_norm": 0.34375, "learning_rate": 0.00029531105553312864, "loss": 0.4654, "step": 60310 }, { "epoch": 160.85333333333332, "grad_norm": 0.3203125, "learning_rate": 0.00029530949565318365, "loss": 0.4733, "step": 60320 }, { "epoch": 160.88, "grad_norm": 0.283203125, "learning_rate": 0.00029530793551793886, "loss": 0.4623, "step": 60330 }, { "epoch": 160.90666666666667, "grad_norm": 0.310546875, "learning_rate": 0.0002953063751273971, "loss": 0.4649, "step": 60340 }, { "epoch": 160.93333333333334, "grad_norm": 0.28125, "learning_rate": 0.0002953048144815609, "loss": 0.4665, "step": 60350 }, { "epoch": 160.96, "grad_norm": 0.318359375, "learning_rate": 0.00029530325358043325, "loss": 0.4645, "step": 60360 }, { "epoch": 160.98666666666668, "grad_norm": 0.322265625, "learning_rate": 0.0002953016924240167, "loss": 0.478, "step": 60370 }, { "epoch": 161.0, "eval_loss": 0.4802950620651245, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.9741, "eval_samples_per_second": 1.604, "eval_steps_per_second": 0.1, "step": 60375 }, { "epoch": 161.01333333333332, "grad_norm": 0.337890625, "learning_rate": 0.00029530013101231403, "loss": 0.467, "step": 60380 }, { "epoch": 161.04, "grad_norm": 0.306640625, "learning_rate": 0.0002952985693453281, "loss": 0.4919, "step": 60390 }, { "epoch": 161.06666666666666, "grad_norm": 0.3515625, "learning_rate": 0.00029529700742306154, "loss": 0.4782, "step": 60400 }, { "epoch": 161.09333333333333, "grad_norm": 0.470703125, "learning_rate": 0.0002952954452455171, "loss": 0.4737, "step": 60410 }, { "epoch": 161.12, "grad_norm": 0.55859375, "learning_rate": 0.0002952938828126976, "loss": 0.4706, "step": 60420 }, { "epoch": 161.14666666666668, "grad_norm": 0.5078125, "learning_rate": 0.00029529232012460576, "loss": 0.4786, "step": 60430 }, { "epoch": 161.17333333333335, "grad_norm": 0.423828125, "learning_rate": 0.0002952907571812442, "loss": 0.4694, "step": 60440 }, { "epoch": 161.2, "grad_norm": 0.33984375, "learning_rate": 0.00029528919398261584, "loss": 0.4683, "step": 60450 }, { "epoch": 161.22666666666666, "grad_norm": 0.310546875, "learning_rate": 0.0002952876305287233, "loss": 0.4657, "step": 60460 }, { "epoch": 161.25333333333333, "grad_norm": 0.2578125, "learning_rate": 0.00029528606681956943, "loss": 0.4653, "step": 60470 }, { "epoch": 161.28, "grad_norm": 0.375, "learning_rate": 0.0002952845028551569, "loss": 0.4799, "step": 60480 }, { "epoch": 161.30666666666667, "grad_norm": 0.318359375, "learning_rate": 0.0002952829386354885, "loss": 0.4603, "step": 60490 }, { "epoch": 161.33333333333334, "grad_norm": 0.302734375, "learning_rate": 0.00029528137416056694, "loss": 0.4755, "step": 60500 }, { "epoch": 161.36, "grad_norm": 0.326171875, "learning_rate": 0.00029527980943039507, "loss": 0.4778, "step": 60510 }, { "epoch": 161.38666666666666, "grad_norm": 0.435546875, "learning_rate": 0.0002952782444449755, "loss": 0.4697, "step": 60520 }, { "epoch": 161.41333333333333, "grad_norm": 0.396484375, "learning_rate": 0.00029527667920431104, "loss": 0.4735, "step": 60530 }, { "epoch": 161.44, "grad_norm": 0.33203125, "learning_rate": 0.0002952751137084044, "loss": 0.4766, "step": 60540 }, { "epoch": 161.46666666666667, "grad_norm": 0.283203125, "learning_rate": 0.00029527354795725843, "loss": 0.4856, "step": 60550 }, { "epoch": 161.49333333333334, "grad_norm": 0.380859375, "learning_rate": 0.00029527198195087586, "loss": 0.4773, "step": 60560 }, { "epoch": 161.52, "grad_norm": 0.484375, "learning_rate": 0.0002952704156892593, "loss": 0.4719, "step": 60570 }, { "epoch": 161.54666666666665, "grad_norm": 0.396484375, "learning_rate": 0.0002952688491724117, "loss": 0.4688, "step": 60580 }, { "epoch": 161.57333333333332, "grad_norm": 0.349609375, "learning_rate": 0.00029526728240033564, "loss": 0.4677, "step": 60590 }, { "epoch": 161.6, "grad_norm": 0.30078125, "learning_rate": 0.000295265715373034, "loss": 0.4616, "step": 60600 }, { "epoch": 161.62666666666667, "grad_norm": 0.30078125, "learning_rate": 0.0002952641480905095, "loss": 0.4485, "step": 60610 }, { "epoch": 161.65333333333334, "grad_norm": 0.28125, "learning_rate": 0.00029526258055276484, "loss": 0.4675, "step": 60620 }, { "epoch": 161.68, "grad_norm": 0.40625, "learning_rate": 0.0002952610127598029, "loss": 0.4588, "step": 60630 }, { "epoch": 161.70666666666668, "grad_norm": 0.4140625, "learning_rate": 0.0002952594447116262, "loss": 0.4598, "step": 60640 }, { "epoch": 161.73333333333332, "grad_norm": 0.341796875, "learning_rate": 0.0002952578764082377, "loss": 0.4788, "step": 60650 }, { "epoch": 161.76, "grad_norm": 0.349609375, "learning_rate": 0.00029525630784964013, "loss": 0.4797, "step": 60660 }, { "epoch": 161.78666666666666, "grad_norm": 0.404296875, "learning_rate": 0.00029525473903583617, "loss": 0.4789, "step": 60670 }, { "epoch": 161.81333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0002952531699668287, "loss": 0.4635, "step": 60680 }, { "epoch": 161.84, "grad_norm": 0.412109375, "learning_rate": 0.0002952516006426203, "loss": 0.4697, "step": 60690 }, { "epoch": 161.86666666666667, "grad_norm": 0.349609375, "learning_rate": 0.00029525003106321384, "loss": 0.4697, "step": 60700 }, { "epoch": 161.89333333333335, "grad_norm": 0.30859375, "learning_rate": 0.0002952484612286121, "loss": 0.4609, "step": 60710 }, { "epoch": 161.92, "grad_norm": 0.318359375, "learning_rate": 0.00029524689113881783, "loss": 0.4706, "step": 60720 }, { "epoch": 161.94666666666666, "grad_norm": 0.232421875, "learning_rate": 0.0002952453207938337, "loss": 0.4627, "step": 60730 }, { "epoch": 161.97333333333333, "grad_norm": 0.40625, "learning_rate": 0.0002952437501936625, "loss": 0.4741, "step": 60740 }, { "epoch": 162.0, "grad_norm": 0.330078125, "learning_rate": 0.00029524217933830704, "loss": 0.4638, "step": 60750 }, { "epoch": 162.0, "eval_loss": 0.4797598421573639, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.5891, "eval_samples_per_second": 1.511, "eval_steps_per_second": 0.094, "step": 60750 }, { "epoch": 162.02666666666667, "grad_norm": 0.36328125, "learning_rate": 0.00029524060822777007, "loss": 0.4828, "step": 60760 }, { "epoch": 162.05333333333334, "grad_norm": 0.37890625, "learning_rate": 0.0002952390368620543, "loss": 0.489, "step": 60770 }, { "epoch": 162.08, "grad_norm": 0.365234375, "learning_rate": 0.00029523746524116255, "loss": 0.4759, "step": 60780 }, { "epoch": 162.10666666666665, "grad_norm": 0.375, "learning_rate": 0.0002952358933650976, "loss": 0.4707, "step": 60790 }, { "epoch": 162.13333333333333, "grad_norm": 0.37890625, "learning_rate": 0.0002952343212338621, "loss": 0.4733, "step": 60800 }, { "epoch": 162.16, "grad_norm": 0.259765625, "learning_rate": 0.00029523274884745896, "loss": 0.4769, "step": 60810 }, { "epoch": 162.18666666666667, "grad_norm": 0.2578125, "learning_rate": 0.00029523117620589077, "loss": 0.4692, "step": 60820 }, { "epoch": 162.21333333333334, "grad_norm": 0.2236328125, "learning_rate": 0.00029522960330916043, "loss": 0.4638, "step": 60830 }, { "epoch": 162.24, "grad_norm": 0.373046875, "learning_rate": 0.0002952280301572707, "loss": 0.4677, "step": 60840 }, { "epoch": 162.26666666666668, "grad_norm": 0.28515625, "learning_rate": 0.0002952264567502242, "loss": 0.4718, "step": 60850 }, { "epoch": 162.29333333333332, "grad_norm": 0.3671875, "learning_rate": 0.00029522488308802395, "loss": 0.4667, "step": 60860 }, { "epoch": 162.32, "grad_norm": 0.2412109375, "learning_rate": 0.00029522330917067246, "loss": 0.4697, "step": 60870 }, { "epoch": 162.34666666666666, "grad_norm": 0.306640625, "learning_rate": 0.00029522173499817265, "loss": 0.4771, "step": 60880 }, { "epoch": 162.37333333333333, "grad_norm": 0.34375, "learning_rate": 0.00029522016057052715, "loss": 0.4734, "step": 60890 }, { "epoch": 162.4, "grad_norm": 0.291015625, "learning_rate": 0.00029521858588773886, "loss": 0.4701, "step": 60900 }, { "epoch": 162.42666666666668, "grad_norm": 0.294921875, "learning_rate": 0.0002952170109498105, "loss": 0.4761, "step": 60910 }, { "epoch": 162.45333333333335, "grad_norm": 0.359375, "learning_rate": 0.0002952154357567449, "loss": 0.4782, "step": 60920 }, { "epoch": 162.48, "grad_norm": 0.384765625, "learning_rate": 0.0002952138603085447, "loss": 0.4846, "step": 60930 }, { "epoch": 162.50666666666666, "grad_norm": 0.3125, "learning_rate": 0.0002952122846052127, "loss": 0.4737, "step": 60940 }, { "epoch": 162.53333333333333, "grad_norm": 0.255859375, "learning_rate": 0.0002952107086467518, "loss": 0.4687, "step": 60950 }, { "epoch": 162.56, "grad_norm": 0.39453125, "learning_rate": 0.0002952091324331646, "loss": 0.4694, "step": 60960 }, { "epoch": 162.58666666666667, "grad_norm": 0.384765625, "learning_rate": 0.0002952075559644539, "loss": 0.4649, "step": 60970 }, { "epoch": 162.61333333333334, "grad_norm": 0.240234375, "learning_rate": 0.0002952059792406225, "loss": 0.4513, "step": 60980 }, { "epoch": 162.64, "grad_norm": 0.2236328125, "learning_rate": 0.0002952044022616732, "loss": 0.4561, "step": 60990 }, { "epoch": 162.66666666666666, "grad_norm": 0.326171875, "learning_rate": 0.00029520282502760884, "loss": 0.4721, "step": 61000 }, { "epoch": 162.69333333333333, "grad_norm": 0.294921875, "learning_rate": 0.000295201247538432, "loss": 0.4548, "step": 61010 }, { "epoch": 162.72, "grad_norm": 0.380859375, "learning_rate": 0.00029519966979414555, "loss": 0.4715, "step": 61020 }, { "epoch": 162.74666666666667, "grad_norm": 0.341796875, "learning_rate": 0.00029519809179475234, "loss": 0.4761, "step": 61030 }, { "epoch": 162.77333333333334, "grad_norm": 0.4375, "learning_rate": 0.000295196513540255, "loss": 0.4838, "step": 61040 }, { "epoch": 162.8, "grad_norm": 0.37109375, "learning_rate": 0.00029519493503065634, "loss": 0.4706, "step": 61050 }, { "epoch": 162.82666666666665, "grad_norm": 0.25390625, "learning_rate": 0.00029519335626595924, "loss": 0.465, "step": 61060 }, { "epoch": 162.85333333333332, "grad_norm": 0.5, "learning_rate": 0.00029519177724616634, "loss": 0.4739, "step": 61070 }, { "epoch": 162.88, "grad_norm": 0.33203125, "learning_rate": 0.00029519019797128045, "loss": 0.4616, "step": 61080 }, { "epoch": 162.90666666666667, "grad_norm": 0.375, "learning_rate": 0.00029518861844130445, "loss": 0.465, "step": 61090 }, { "epoch": 162.93333333333334, "grad_norm": 0.259765625, "learning_rate": 0.00029518703865624095, "loss": 0.466, "step": 61100 }, { "epoch": 162.96, "grad_norm": 0.2890625, "learning_rate": 0.00029518545861609286, "loss": 0.4646, "step": 61110 }, { "epoch": 162.98666666666668, "grad_norm": 0.337890625, "learning_rate": 0.00029518387832086284, "loss": 0.4775, "step": 61120 }, { "epoch": 163.0, "eval_loss": 0.4788980185985565, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.2111, "eval_samples_per_second": 1.567, "eval_steps_per_second": 0.098, "step": 61125 }, { "epoch": 163.01333333333332, "grad_norm": 0.3359375, "learning_rate": 0.00029518229777055377, "loss": 0.4672, "step": 61130 }, { "epoch": 163.04, "grad_norm": 0.37890625, "learning_rate": 0.00029518071696516836, "loss": 0.4917, "step": 61140 }, { "epoch": 163.06666666666666, "grad_norm": 0.396484375, "learning_rate": 0.00029517913590470943, "loss": 0.4791, "step": 61150 }, { "epoch": 163.09333333333333, "grad_norm": 0.376953125, "learning_rate": 0.00029517755458917974, "loss": 0.4738, "step": 61160 }, { "epoch": 163.12, "grad_norm": 0.361328125, "learning_rate": 0.00029517597301858205, "loss": 0.4702, "step": 61170 }, { "epoch": 163.14666666666668, "grad_norm": 0.412109375, "learning_rate": 0.0002951743911929192, "loss": 0.4788, "step": 61180 }, { "epoch": 163.17333333333335, "grad_norm": 0.3515625, "learning_rate": 0.00029517280911219387, "loss": 0.4691, "step": 61190 }, { "epoch": 163.2, "grad_norm": 0.30078125, "learning_rate": 0.0002951712267764089, "loss": 0.4677, "step": 61200 }, { "epoch": 163.22666666666666, "grad_norm": 0.35546875, "learning_rate": 0.00029516964418556705, "loss": 0.4659, "step": 61210 }, { "epoch": 163.25333333333333, "grad_norm": 0.30859375, "learning_rate": 0.0002951680613396712, "loss": 0.4648, "step": 61220 }, { "epoch": 163.28, "grad_norm": 0.29296875, "learning_rate": 0.000295166478238724, "loss": 0.4787, "step": 61230 }, { "epoch": 163.30666666666667, "grad_norm": 0.333984375, "learning_rate": 0.00029516489488272824, "loss": 0.46, "step": 61240 }, { "epoch": 163.33333333333334, "grad_norm": 0.322265625, "learning_rate": 0.00029516331127168674, "loss": 0.4754, "step": 61250 }, { "epoch": 163.36, "grad_norm": 0.34375, "learning_rate": 0.00029516172740560233, "loss": 0.4773, "step": 61260 }, { "epoch": 163.38666666666666, "grad_norm": 0.458984375, "learning_rate": 0.00029516014328447775, "loss": 0.4693, "step": 61270 }, { "epoch": 163.41333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029515855890831574, "loss": 0.4734, "step": 61280 }, { "epoch": 163.44, "grad_norm": 0.388671875, "learning_rate": 0.0002951569742771191, "loss": 0.4764, "step": 61290 }, { "epoch": 163.46666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002951553893908907, "loss": 0.4862, "step": 61300 }, { "epoch": 163.49333333333334, "grad_norm": 0.40625, "learning_rate": 0.00029515380424963324, "loss": 0.4776, "step": 61310 }, { "epoch": 163.52, "grad_norm": 0.306640625, "learning_rate": 0.0002951522188533495, "loss": 0.4714, "step": 61320 }, { "epoch": 163.54666666666665, "grad_norm": 0.361328125, "learning_rate": 0.0002951506332020423, "loss": 0.4678, "step": 61330 }, { "epoch": 163.57333333333332, "grad_norm": 0.3125, "learning_rate": 0.00029514904729571436, "loss": 0.467, "step": 61340 }, { "epoch": 163.6, "grad_norm": 0.298828125, "learning_rate": 0.0002951474611343686, "loss": 0.4608, "step": 61350 }, { "epoch": 163.62666666666667, "grad_norm": 0.33203125, "learning_rate": 0.0002951458747180077, "loss": 0.4486, "step": 61360 }, { "epoch": 163.65333333333334, "grad_norm": 0.31640625, "learning_rate": 0.0002951442880466345, "loss": 0.4681, "step": 61370 }, { "epoch": 163.68, "grad_norm": 0.369140625, "learning_rate": 0.0002951427011202518, "loss": 0.459, "step": 61380 }, { "epoch": 163.70666666666668, "grad_norm": 0.31640625, "learning_rate": 0.00029514111393886226, "loss": 0.4598, "step": 61390 }, { "epoch": 163.73333333333332, "grad_norm": 0.41015625, "learning_rate": 0.0002951395265024688, "loss": 0.479, "step": 61400 }, { "epoch": 163.76, "grad_norm": 0.62890625, "learning_rate": 0.0002951379388110742, "loss": 0.4804, "step": 61410 }, { "epoch": 163.78666666666666, "grad_norm": 0.443359375, "learning_rate": 0.0002951363508646812, "loss": 0.4786, "step": 61420 }, { "epoch": 163.81333333333333, "grad_norm": 0.427734375, "learning_rate": 0.0002951347626632926, "loss": 0.4638, "step": 61430 }, { "epoch": 163.84, "grad_norm": 0.375, "learning_rate": 0.0002951331742069112, "loss": 0.4693, "step": 61440 }, { "epoch": 163.86666666666667, "grad_norm": 0.251953125, "learning_rate": 0.00029513158549553976, "loss": 0.4693, "step": 61450 }, { "epoch": 163.89333333333335, "grad_norm": 0.2890625, "learning_rate": 0.00029512999652918115, "loss": 0.4603, "step": 61460 }, { "epoch": 163.92, "grad_norm": 0.328125, "learning_rate": 0.00029512840730783814, "loss": 0.4704, "step": 61470 }, { "epoch": 163.94666666666666, "grad_norm": 0.298828125, "learning_rate": 0.00029512681783151344, "loss": 0.4632, "step": 61480 }, { "epoch": 163.97333333333333, "grad_norm": 0.5703125, "learning_rate": 0.0002951252281002099, "loss": 0.4749, "step": 61490 }, { "epoch": 164.0, "grad_norm": 0.330078125, "learning_rate": 0.00029512363811393035, "loss": 0.4635, "step": 61500 }, { "epoch": 164.0, "eval_loss": 0.4781702160835266, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.4605, "eval_samples_per_second": 1.53, "eval_steps_per_second": 0.096, "step": 61500 }, { "epoch": 164.02666666666667, "grad_norm": 0.380859375, "learning_rate": 0.00029512204787267754, "loss": 0.4834, "step": 61510 }, { "epoch": 164.05333333333334, "grad_norm": 0.35546875, "learning_rate": 0.0002951204573764542, "loss": 0.4897, "step": 61520 }, { "epoch": 164.08, "grad_norm": 0.341796875, "learning_rate": 0.0002951188666252632, "loss": 0.476, "step": 61530 }, { "epoch": 164.10666666666665, "grad_norm": 0.388671875, "learning_rate": 0.0002951172756191074, "loss": 0.4711, "step": 61540 }, { "epoch": 164.13333333333333, "grad_norm": 0.369140625, "learning_rate": 0.00029511568435798953, "loss": 0.4721, "step": 61550 }, { "epoch": 164.16, "grad_norm": 0.361328125, "learning_rate": 0.00029511409284191235, "loss": 0.4766, "step": 61560 }, { "epoch": 164.18666666666667, "grad_norm": 0.3515625, "learning_rate": 0.0002951125010708787, "loss": 0.4696, "step": 61570 }, { "epoch": 164.21333333333334, "grad_norm": 0.2890625, "learning_rate": 0.00029511090904489135, "loss": 0.4634, "step": 61580 }, { "epoch": 164.24, "grad_norm": 0.375, "learning_rate": 0.00029510931676395306, "loss": 0.4684, "step": 61590 }, { "epoch": 164.26666666666668, "grad_norm": 0.240234375, "learning_rate": 0.00029510772422806675, "loss": 0.4721, "step": 61600 }, { "epoch": 164.29333333333332, "grad_norm": 0.259765625, "learning_rate": 0.0002951061314372351, "loss": 0.4657, "step": 61610 }, { "epoch": 164.32, "grad_norm": 0.279296875, "learning_rate": 0.00029510453839146094, "loss": 0.4693, "step": 61620 }, { "epoch": 164.34666666666666, "grad_norm": 0.4296875, "learning_rate": 0.00029510294509074714, "loss": 0.4777, "step": 61630 }, { "epoch": 164.37333333333333, "grad_norm": 0.40234375, "learning_rate": 0.0002951013515350964, "loss": 0.4738, "step": 61640 }, { "epoch": 164.4, "grad_norm": 0.33203125, "learning_rate": 0.00029509975772451155, "loss": 0.4694, "step": 61650 }, { "epoch": 164.42666666666668, "grad_norm": 0.35546875, "learning_rate": 0.00029509816365899547, "loss": 0.4757, "step": 61660 }, { "epoch": 164.45333333333335, "grad_norm": 0.333984375, "learning_rate": 0.0002950965693385508, "loss": 0.4787, "step": 61670 }, { "epoch": 164.48, "grad_norm": 0.369140625, "learning_rate": 0.0002950949747631805, "loss": 0.4843, "step": 61680 }, { "epoch": 164.50666666666666, "grad_norm": 0.2890625, "learning_rate": 0.0002950933799328873, "loss": 0.4745, "step": 61690 }, { "epoch": 164.53333333333333, "grad_norm": 0.23828125, "learning_rate": 0.000295091784847674, "loss": 0.4684, "step": 61700 }, { "epoch": 164.56, "grad_norm": 0.54296875, "learning_rate": 0.00029509018950754336, "loss": 0.4693, "step": 61710 }, { "epoch": 164.58666666666667, "grad_norm": 0.330078125, "learning_rate": 0.0002950885939124983, "loss": 0.466, "step": 61720 }, { "epoch": 164.61333333333334, "grad_norm": 0.34765625, "learning_rate": 0.0002950869980625415, "loss": 0.4507, "step": 61730 }, { "epoch": 164.64, "grad_norm": 0.28125, "learning_rate": 0.00029508540195767586, "loss": 0.4562, "step": 61740 }, { "epoch": 164.66666666666666, "grad_norm": 0.33203125, "learning_rate": 0.0002950838055979041, "loss": 0.4721, "step": 61750 }, { "epoch": 164.69333333333333, "grad_norm": 0.298828125, "learning_rate": 0.0002950822089832291, "loss": 0.4543, "step": 61760 }, { "epoch": 164.72, "grad_norm": 0.3125, "learning_rate": 0.00029508061211365363, "loss": 0.4716, "step": 61770 }, { "epoch": 164.74666666666667, "grad_norm": 0.328125, "learning_rate": 0.00029507901498918054, "loss": 0.4759, "step": 61780 }, { "epoch": 164.77333333333334, "grad_norm": 0.359375, "learning_rate": 0.00029507741760981254, "loss": 0.4826, "step": 61790 }, { "epoch": 164.8, "grad_norm": 0.51953125, "learning_rate": 0.0002950758199755525, "loss": 0.4707, "step": 61800 }, { "epoch": 164.82666666666665, "grad_norm": 0.33984375, "learning_rate": 0.00029507422208640324, "loss": 0.4646, "step": 61810 }, { "epoch": 164.85333333333332, "grad_norm": 0.30078125, "learning_rate": 0.0002950726239423675, "loss": 0.4741, "step": 61820 }, { "epoch": 164.88, "grad_norm": 0.353515625, "learning_rate": 0.00029507102554344816, "loss": 0.462, "step": 61830 }, { "epoch": 164.90666666666667, "grad_norm": 0.265625, "learning_rate": 0.00029506942688964805, "loss": 0.4644, "step": 61840 }, { "epoch": 164.93333333333334, "grad_norm": 0.275390625, "learning_rate": 0.0002950678279809699, "loss": 0.466, "step": 61850 }, { "epoch": 164.96, "grad_norm": 0.3203125, "learning_rate": 0.0002950662288174165, "loss": 0.4642, "step": 61860 }, { "epoch": 164.98666666666668, "grad_norm": 0.34375, "learning_rate": 0.00029506462939899076, "loss": 0.478, "step": 61870 }, { "epoch": 165.0, "eval_loss": 0.4781385660171509, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.869, "eval_samples_per_second": 1.621, "eval_steps_per_second": 0.101, "step": 61875 }, { "epoch": 165.01333333333332, "grad_norm": 0.44140625, "learning_rate": 0.00029506302972569546, "loss": 0.4677, "step": 61880 }, { "epoch": 165.04, "grad_norm": 0.353515625, "learning_rate": 0.00029506142979753334, "loss": 0.4917, "step": 61890 }, { "epoch": 165.06666666666666, "grad_norm": 0.3515625, "learning_rate": 0.00029505982961450727, "loss": 0.4791, "step": 61900 }, { "epoch": 165.09333333333333, "grad_norm": 0.302734375, "learning_rate": 0.00029505822917662007, "loss": 0.4737, "step": 61910 }, { "epoch": 165.12, "grad_norm": 0.35546875, "learning_rate": 0.0002950566284838745, "loss": 0.4702, "step": 61920 }, { "epoch": 165.14666666666668, "grad_norm": 0.275390625, "learning_rate": 0.00029505502753627346, "loss": 0.4785, "step": 61930 }, { "epoch": 165.17333333333335, "grad_norm": 0.3046875, "learning_rate": 0.00029505342633381963, "loss": 0.4697, "step": 61940 }, { "epoch": 165.2, "grad_norm": 0.3046875, "learning_rate": 0.000295051824876516, "loss": 0.4672, "step": 61950 }, { "epoch": 165.22666666666666, "grad_norm": 0.2890625, "learning_rate": 0.00029505022316436523, "loss": 0.4657, "step": 61960 }, { "epoch": 165.25333333333333, "grad_norm": 0.376953125, "learning_rate": 0.0002950486211973702, "loss": 0.4657, "step": 61970 }, { "epoch": 165.28, "grad_norm": 0.34375, "learning_rate": 0.0002950470189755337, "loss": 0.4794, "step": 61980 }, { "epoch": 165.30666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029504541649885864, "loss": 0.4595, "step": 61990 }, { "epoch": 165.33333333333334, "grad_norm": 0.287109375, "learning_rate": 0.00029504381376734766, "loss": 0.4756, "step": 62000 }, { "epoch": 165.36, "grad_norm": 0.240234375, "learning_rate": 0.00029504221078100373, "loss": 0.4774, "step": 62010 }, { "epoch": 165.38666666666666, "grad_norm": 0.390625, "learning_rate": 0.0002950406075398296, "loss": 0.4691, "step": 62020 }, { "epoch": 165.41333333333333, "grad_norm": 0.353515625, "learning_rate": 0.000295039004043828, "loss": 0.4737, "step": 62030 }, { "epoch": 165.44, "grad_norm": 0.376953125, "learning_rate": 0.0002950374002930019, "loss": 0.4766, "step": 62040 }, { "epoch": 165.46666666666667, "grad_norm": 0.5078125, "learning_rate": 0.00029503579628735417, "loss": 0.4857, "step": 62050 }, { "epoch": 165.49333333333334, "grad_norm": 0.4140625, "learning_rate": 0.00029503419202688735, "loss": 0.4776, "step": 62060 }, { "epoch": 165.52, "grad_norm": 0.291015625, "learning_rate": 0.00029503258751160456, "loss": 0.4721, "step": 62070 }, { "epoch": 165.54666666666665, "grad_norm": 0.349609375, "learning_rate": 0.0002950309827415084, "loss": 0.4689, "step": 62080 }, { "epoch": 165.57333333333332, "grad_norm": 0.28125, "learning_rate": 0.0002950293777166018, "loss": 0.4681, "step": 62090 }, { "epoch": 165.6, "grad_norm": 0.359375, "learning_rate": 0.00029502777243688757, "loss": 0.4615, "step": 62100 }, { "epoch": 165.62666666666667, "grad_norm": 0.294921875, "learning_rate": 0.0002950261669023685, "loss": 0.4485, "step": 62110 }, { "epoch": 165.65333333333334, "grad_norm": 0.275390625, "learning_rate": 0.0002950245611130474, "loss": 0.468, "step": 62120 }, { "epoch": 165.68, "grad_norm": 0.43359375, "learning_rate": 0.00029502295506892714, "loss": 0.4596, "step": 62130 }, { "epoch": 165.70666666666668, "grad_norm": 0.33203125, "learning_rate": 0.00029502134877001056, "loss": 0.4594, "step": 62140 }, { "epoch": 165.73333333333332, "grad_norm": 0.39453125, "learning_rate": 0.0002950197422163004, "loss": 0.4794, "step": 62150 }, { "epoch": 165.76, "grad_norm": 0.2412109375, "learning_rate": 0.00029501813540779953, "loss": 0.48, "step": 62160 }, { "epoch": 165.78666666666666, "grad_norm": 0.326171875, "learning_rate": 0.00029501652834451077, "loss": 0.4787, "step": 62170 }, { "epoch": 165.81333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029501492102643694, "loss": 0.4634, "step": 62180 }, { "epoch": 165.84, "grad_norm": 0.30078125, "learning_rate": 0.00029501331345358086, "loss": 0.47, "step": 62190 }, { "epoch": 165.86666666666667, "grad_norm": 0.423828125, "learning_rate": 0.00029501170562594534, "loss": 0.469, "step": 62200 }, { "epoch": 165.89333333333335, "grad_norm": 0.3828125, "learning_rate": 0.00029501009754353326, "loss": 0.4599, "step": 62210 }, { "epoch": 165.92, "grad_norm": 0.3125, "learning_rate": 0.0002950084892063474, "loss": 0.471, "step": 62220 }, { "epoch": 165.94666666666666, "grad_norm": 0.28125, "learning_rate": 0.0002950068806143906, "loss": 0.4632, "step": 62230 }, { "epoch": 165.97333333333333, "grad_norm": 0.5, "learning_rate": 0.00029500527176766565, "loss": 0.474, "step": 62240 }, { "epoch": 166.0, "grad_norm": 0.4765625, "learning_rate": 0.0002950036626661754, "loss": 0.4636, "step": 62250 }, { "epoch": 166.0, "eval_loss": 0.4782837927341461, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.1462, "eval_samples_per_second": 1.577, "eval_steps_per_second": 0.099, "step": 62250 }, { "epoch": 166.02666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002950020533099227, "loss": 0.4832, "step": 62260 }, { "epoch": 166.05333333333334, "grad_norm": 0.3046875, "learning_rate": 0.00029500044369891036, "loss": 0.4889, "step": 62270 }, { "epoch": 166.08, "grad_norm": 0.255859375, "learning_rate": 0.00029499883383314124, "loss": 0.4757, "step": 62280 }, { "epoch": 166.10666666666665, "grad_norm": 0.275390625, "learning_rate": 0.0002949972237126181, "loss": 0.4707, "step": 62290 }, { "epoch": 166.13333333333333, "grad_norm": 0.45703125, "learning_rate": 0.00029499561333734385, "loss": 0.4729, "step": 62300 }, { "epoch": 166.16, "grad_norm": 0.3359375, "learning_rate": 0.00029499400270732127, "loss": 0.477, "step": 62310 }, { "epoch": 166.18666666666667, "grad_norm": 0.259765625, "learning_rate": 0.00029499239182255313, "loss": 0.4692, "step": 62320 }, { "epoch": 166.21333333333334, "grad_norm": 0.328125, "learning_rate": 0.00029499078068304243, "loss": 0.4636, "step": 62330 }, { "epoch": 166.24, "grad_norm": 0.3125, "learning_rate": 0.00029498916928879186, "loss": 0.4683, "step": 62340 }, { "epoch": 166.26666666666668, "grad_norm": 0.23046875, "learning_rate": 0.00029498755763980426, "loss": 0.4723, "step": 62350 }, { "epoch": 166.29333333333332, "grad_norm": 0.28515625, "learning_rate": 0.0002949859457360825, "loss": 0.466, "step": 62360 }, { "epoch": 166.32, "grad_norm": 0.271484375, "learning_rate": 0.00029498433357762937, "loss": 0.4685, "step": 62370 }, { "epoch": 166.34666666666666, "grad_norm": 0.33203125, "learning_rate": 0.00029498272116444777, "loss": 0.4769, "step": 62380 }, { "epoch": 166.37333333333333, "grad_norm": 0.5, "learning_rate": 0.00029498110849654046, "loss": 0.4736, "step": 62390 }, { "epoch": 166.4, "grad_norm": 0.5, "learning_rate": 0.00029497949557391037, "loss": 0.4704, "step": 62400 }, { "epoch": 166.42666666666668, "grad_norm": 0.43359375, "learning_rate": 0.00029497788239656026, "loss": 0.4759, "step": 62410 }, { "epoch": 166.45333333333335, "grad_norm": 0.404296875, "learning_rate": 0.000294976268964493, "loss": 0.4779, "step": 62420 }, { "epoch": 166.48, "grad_norm": 0.404296875, "learning_rate": 0.00029497465527771136, "loss": 0.4849, "step": 62430 }, { "epoch": 166.50666666666666, "grad_norm": 0.2451171875, "learning_rate": 0.0002949730413362182, "loss": 0.474, "step": 62440 }, { "epoch": 166.53333333333333, "grad_norm": 0.357421875, "learning_rate": 0.00029497142714001644, "loss": 0.4684, "step": 62450 }, { "epoch": 166.56, "grad_norm": 0.455078125, "learning_rate": 0.0002949698126891088, "loss": 0.4691, "step": 62460 }, { "epoch": 166.58666666666667, "grad_norm": 0.388671875, "learning_rate": 0.0002949681979834982, "loss": 0.4654, "step": 62470 }, { "epoch": 166.61333333333334, "grad_norm": 0.35546875, "learning_rate": 0.0002949665830231874, "loss": 0.4515, "step": 62480 }, { "epoch": 166.64, "grad_norm": 0.28515625, "learning_rate": 0.00029496496780817934, "loss": 0.4559, "step": 62490 }, { "epoch": 166.66666666666666, "grad_norm": 0.369140625, "learning_rate": 0.00029496335233847673, "loss": 0.4713, "step": 62500 }, { "epoch": 166.69333333333333, "grad_norm": 0.37109375, "learning_rate": 0.00029496173661408255, "loss": 0.4549, "step": 62510 }, { "epoch": 166.72, "grad_norm": 0.322265625, "learning_rate": 0.00029496012063499953, "loss": 0.4721, "step": 62520 }, { "epoch": 166.74666666666667, "grad_norm": 0.3125, "learning_rate": 0.0002949585044012305, "loss": 0.4762, "step": 62530 }, { "epoch": 166.77333333333334, "grad_norm": 0.43359375, "learning_rate": 0.00029495688791277843, "loss": 0.484, "step": 62540 }, { "epoch": 166.8, "grad_norm": 0.416015625, "learning_rate": 0.00029495527116964605, "loss": 0.4708, "step": 62550 }, { "epoch": 166.82666666666665, "grad_norm": 0.341796875, "learning_rate": 0.0002949536541718362, "loss": 0.4649, "step": 62560 }, { "epoch": 166.85333333333332, "grad_norm": 0.314453125, "learning_rate": 0.0002949520369193517, "loss": 0.4737, "step": 62570 }, { "epoch": 166.88, "grad_norm": 0.380859375, "learning_rate": 0.0002949504194121955, "loss": 0.4617, "step": 62580 }, { "epoch": 166.90666666666667, "grad_norm": 0.30078125, "learning_rate": 0.0002949488016503704, "loss": 0.4645, "step": 62590 }, { "epoch": 166.93333333333334, "grad_norm": 0.2158203125, "learning_rate": 0.0002949471836338792, "loss": 0.4665, "step": 62600 }, { "epoch": 166.96, "grad_norm": 0.3984375, "learning_rate": 0.00029494556536272475, "loss": 0.4642, "step": 62610 }, { "epoch": 166.98666666666668, "grad_norm": 0.318359375, "learning_rate": 0.0002949439468369099, "loss": 0.478, "step": 62620 }, { "epoch": 167.0, "eval_loss": 0.4798828363418579, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.3858, "eval_samples_per_second": 1.541, "eval_steps_per_second": 0.096, "step": 62625 }, { "epoch": 167.01333333333332, "grad_norm": 0.36328125, "learning_rate": 0.00029494232805643756, "loss": 0.4666, "step": 62630 }, { "epoch": 167.04, "grad_norm": 0.3671875, "learning_rate": 0.00029494070902131046, "loss": 0.4911, "step": 62640 }, { "epoch": 167.06666666666666, "grad_norm": 0.390625, "learning_rate": 0.00029493908973153153, "loss": 0.4786, "step": 62650 }, { "epoch": 167.09333333333333, "grad_norm": 0.287109375, "learning_rate": 0.00029493747018710355, "loss": 0.4734, "step": 62660 }, { "epoch": 167.12, "grad_norm": 0.302734375, "learning_rate": 0.00029493585038802944, "loss": 0.47, "step": 62670 }, { "epoch": 167.14666666666668, "grad_norm": 0.26953125, "learning_rate": 0.00029493423033431196, "loss": 0.4781, "step": 62680 }, { "epoch": 167.17333333333335, "grad_norm": 0.3359375, "learning_rate": 0.00029493261002595404, "loss": 0.4697, "step": 62690 }, { "epoch": 167.2, "grad_norm": 0.33984375, "learning_rate": 0.0002949309894629585, "loss": 0.4679, "step": 62700 }, { "epoch": 167.22666666666666, "grad_norm": 0.333984375, "learning_rate": 0.0002949293686453281, "loss": 0.4654, "step": 62710 }, { "epoch": 167.25333333333333, "grad_norm": 0.35546875, "learning_rate": 0.00029492774757306585, "loss": 0.4655, "step": 62720 }, { "epoch": 167.28, "grad_norm": 0.466796875, "learning_rate": 0.00029492612624617447, "loss": 0.4787, "step": 62730 }, { "epoch": 167.30666666666667, "grad_norm": 0.458984375, "learning_rate": 0.0002949245046646569, "loss": 0.46, "step": 62740 }, { "epoch": 167.33333333333334, "grad_norm": 0.40234375, "learning_rate": 0.0002949228828285159, "loss": 0.4756, "step": 62750 }, { "epoch": 167.36, "grad_norm": 0.30078125, "learning_rate": 0.0002949212607377543, "loss": 0.4771, "step": 62760 }, { "epoch": 167.38666666666666, "grad_norm": 0.416015625, "learning_rate": 0.00029491963839237514, "loss": 0.4687, "step": 62770 }, { "epoch": 167.41333333333333, "grad_norm": 0.3125, "learning_rate": 0.00029491801579238105, "loss": 0.4738, "step": 62780 }, { "epoch": 167.44, "grad_norm": 0.333984375, "learning_rate": 0.00029491639293777503, "loss": 0.4763, "step": 62790 }, { "epoch": 167.46666666666667, "grad_norm": 0.33203125, "learning_rate": 0.0002949147698285598, "loss": 0.4856, "step": 62800 }, { "epoch": 167.49333333333334, "grad_norm": 0.365234375, "learning_rate": 0.00029491314646473834, "loss": 0.4775, "step": 62810 }, { "epoch": 167.52, "grad_norm": 0.322265625, "learning_rate": 0.0002949115228463134, "loss": 0.4713, "step": 62820 }, { "epoch": 167.54666666666665, "grad_norm": 0.48828125, "learning_rate": 0.00029490989897328795, "loss": 0.4691, "step": 62830 }, { "epoch": 167.57333333333332, "grad_norm": 0.234375, "learning_rate": 0.0002949082748456647, "loss": 0.4672, "step": 62840 }, { "epoch": 167.6, "grad_norm": 0.388671875, "learning_rate": 0.0002949066504634466, "loss": 0.4614, "step": 62850 }, { "epoch": 167.62666666666667, "grad_norm": 0.2451171875, "learning_rate": 0.00029490502582663644, "loss": 0.4483, "step": 62860 }, { "epoch": 167.65333333333334, "grad_norm": 0.328125, "learning_rate": 0.0002949034009352372, "loss": 0.4682, "step": 62870 }, { "epoch": 167.68, "grad_norm": 0.291015625, "learning_rate": 0.0002949017757892516, "loss": 0.4595, "step": 62880 }, { "epoch": 167.70666666666668, "grad_norm": 0.416015625, "learning_rate": 0.00029490015038868253, "loss": 0.4602, "step": 62890 }, { "epoch": 167.73333333333332, "grad_norm": 0.33203125, "learning_rate": 0.00029489852473353286, "loss": 0.4788, "step": 62900 }, { "epoch": 167.76, "grad_norm": 0.38671875, "learning_rate": 0.0002948968988238055, "loss": 0.4801, "step": 62910 }, { "epoch": 167.78666666666666, "grad_norm": 0.33203125, "learning_rate": 0.0002948952726595032, "loss": 0.4781, "step": 62920 }, { "epoch": 167.81333333333333, "grad_norm": 0.259765625, "learning_rate": 0.0002948936462406289, "loss": 0.4641, "step": 62930 }, { "epoch": 167.84, "grad_norm": 0.380859375, "learning_rate": 0.0002948920195671854, "loss": 0.4694, "step": 62940 }, { "epoch": 167.86666666666667, "grad_norm": 0.349609375, "learning_rate": 0.0002948903926391756, "loss": 0.4686, "step": 62950 }, { "epoch": 167.89333333333335, "grad_norm": 0.3203125, "learning_rate": 0.0002948887654566023, "loss": 0.4605, "step": 62960 }, { "epoch": 167.92, "grad_norm": 0.27734375, "learning_rate": 0.00029488713801946844, "loss": 0.4704, "step": 62970 }, { "epoch": 167.94666666666666, "grad_norm": 0.3046875, "learning_rate": 0.00029488551032777683, "loss": 0.463, "step": 62980 }, { "epoch": 167.97333333333333, "grad_norm": 0.265625, "learning_rate": 0.0002948838823815303, "loss": 0.4746, "step": 62990 }, { "epoch": 168.0, "grad_norm": 0.328125, "learning_rate": 0.00029488225418073186, "loss": 0.4629, "step": 63000 }, { "epoch": 168.0, "eval_loss": 0.47927647829055786, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.5313, "eval_samples_per_second": 1.519, "eval_steps_per_second": 0.095, "step": 63000 }, { "epoch": 168.02666666666667, "grad_norm": 0.376953125, "learning_rate": 0.0002948806257253842, "loss": 0.4834, "step": 63010 }, { "epoch": 168.05333333333334, "grad_norm": 0.283203125, "learning_rate": 0.00029487899701549023, "loss": 0.4888, "step": 63020 }, { "epoch": 168.08, "grad_norm": 0.412109375, "learning_rate": 0.0002948773680510528, "loss": 0.4762, "step": 63030 }, { "epoch": 168.10666666666665, "grad_norm": 0.396484375, "learning_rate": 0.0002948757388320749, "loss": 0.4708, "step": 63040 }, { "epoch": 168.13333333333333, "grad_norm": 0.328125, "learning_rate": 0.0002948741093585592, "loss": 0.4727, "step": 63050 }, { "epoch": 168.16, "grad_norm": 0.453125, "learning_rate": 0.00029487247963050865, "loss": 0.4772, "step": 63060 }, { "epoch": 168.18666666666667, "grad_norm": 0.328125, "learning_rate": 0.00029487084964792615, "loss": 0.469, "step": 63070 }, { "epoch": 168.21333333333334, "grad_norm": 0.314453125, "learning_rate": 0.0002948692194108145, "loss": 0.4633, "step": 63080 }, { "epoch": 168.24, "grad_norm": 0.3828125, "learning_rate": 0.00029486758891917664, "loss": 0.4673, "step": 63090 }, { "epoch": 168.26666666666668, "grad_norm": 0.255859375, "learning_rate": 0.0002948659581730154, "loss": 0.472, "step": 63100 }, { "epoch": 168.29333333333332, "grad_norm": 0.37890625, "learning_rate": 0.00029486432717233354, "loss": 0.4653, "step": 63110 }, { "epoch": 168.32, "grad_norm": 0.39453125, "learning_rate": 0.0002948626959171341, "loss": 0.469, "step": 63120 }, { "epoch": 168.34666666666666, "grad_norm": 0.328125, "learning_rate": 0.0002948610644074198, "loss": 0.4783, "step": 63130 }, { "epoch": 168.37333333333333, "grad_norm": 0.32421875, "learning_rate": 0.0002948594326431936, "loss": 0.4735, "step": 63140 }, { "epoch": 168.4, "grad_norm": 0.2890625, "learning_rate": 0.00029485780062445837, "loss": 0.4702, "step": 63150 }, { "epoch": 168.42666666666668, "grad_norm": 0.40234375, "learning_rate": 0.0002948561683512169, "loss": 0.4773, "step": 63160 }, { "epoch": 168.45333333333335, "grad_norm": 0.37109375, "learning_rate": 0.0002948545358234721, "loss": 0.479, "step": 63170 }, { "epoch": 168.48, "grad_norm": 0.4453125, "learning_rate": 0.0002948529030412269, "loss": 0.4851, "step": 63180 }, { "epoch": 168.50666666666666, "grad_norm": 0.365234375, "learning_rate": 0.00029485127000448405, "loss": 0.4748, "step": 63190 }, { "epoch": 168.53333333333333, "grad_norm": 0.291015625, "learning_rate": 0.00029484963671324655, "loss": 0.4674, "step": 63200 }, { "epoch": 168.56, "grad_norm": 0.28515625, "learning_rate": 0.0002948480031675171, "loss": 0.4694, "step": 63210 }, { "epoch": 168.58666666666667, "grad_norm": 0.234375, "learning_rate": 0.0002948463693672987, "loss": 0.4653, "step": 63220 }, { "epoch": 168.61333333333334, "grad_norm": 0.294921875, "learning_rate": 0.00029484473531259423, "loss": 0.4509, "step": 63230 }, { "epoch": 168.64, "grad_norm": 0.25390625, "learning_rate": 0.0002948431010034065, "loss": 0.4567, "step": 63240 }, { "epoch": 168.66666666666666, "grad_norm": 0.298828125, "learning_rate": 0.0002948414664397384, "loss": 0.4714, "step": 63250 }, { "epoch": 168.69333333333333, "grad_norm": 0.32421875, "learning_rate": 0.0002948398316215928, "loss": 0.4545, "step": 63260 }, { "epoch": 168.72, "grad_norm": 0.466796875, "learning_rate": 0.0002948381965489726, "loss": 0.4713, "step": 63270 }, { "epoch": 168.74666666666667, "grad_norm": 0.55078125, "learning_rate": 0.00029483656122188063, "loss": 0.4756, "step": 63280 }, { "epoch": 168.77333333333334, "grad_norm": 0.330078125, "learning_rate": 0.00029483492564031977, "loss": 0.4832, "step": 63290 }, { "epoch": 168.8, "grad_norm": 0.375, "learning_rate": 0.0002948332898042929, "loss": 0.4708, "step": 63300 }, { "epoch": 168.82666666666665, "grad_norm": 0.294921875, "learning_rate": 0.0002948316537138029, "loss": 0.4642, "step": 63310 }, { "epoch": 168.85333333333332, "grad_norm": 0.359375, "learning_rate": 0.0002948300173688526, "loss": 0.4742, "step": 63320 }, { "epoch": 168.88, "grad_norm": 0.392578125, "learning_rate": 0.000294828380769445, "loss": 0.4618, "step": 63330 }, { "epoch": 168.90666666666667, "grad_norm": 0.267578125, "learning_rate": 0.0002948267439155829, "loss": 0.4645, "step": 63340 }, { "epoch": 168.93333333333334, "grad_norm": 0.3046875, "learning_rate": 0.00029482510680726916, "loss": 0.4666, "step": 63350 }, { "epoch": 168.96, "grad_norm": 0.287109375, "learning_rate": 0.0002948234694445066, "loss": 0.4638, "step": 63360 }, { "epoch": 168.98666666666668, "grad_norm": 0.3046875, "learning_rate": 0.0002948218318272982, "loss": 0.4789, "step": 63370 }, { "epoch": 169.0, "eval_loss": 0.47983646392822266, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.5389, "eval_samples_per_second": 1.518, "eval_steps_per_second": 0.095, "step": 63375 }, { "epoch": 169.01333333333332, "grad_norm": 0.3515625, "learning_rate": 0.00029482019395564684, "loss": 0.4677, "step": 63380 }, { "epoch": 169.04, "grad_norm": 0.33984375, "learning_rate": 0.0002948185558295553, "loss": 0.4913, "step": 63390 }, { "epoch": 169.06666666666666, "grad_norm": 0.359375, "learning_rate": 0.0002948169174490265, "loss": 0.4795, "step": 63400 }, { "epoch": 169.09333333333333, "grad_norm": 0.259765625, "learning_rate": 0.0002948152788140634, "loss": 0.4736, "step": 63410 }, { "epoch": 169.12, "grad_norm": 0.29296875, "learning_rate": 0.0002948136399246688, "loss": 0.4705, "step": 63420 }, { "epoch": 169.14666666666668, "grad_norm": 0.298828125, "learning_rate": 0.0002948120007808456, "loss": 0.4788, "step": 63430 }, { "epoch": 169.17333333333335, "grad_norm": 0.341796875, "learning_rate": 0.00029481036138259665, "loss": 0.4695, "step": 63440 }, { "epoch": 169.2, "grad_norm": 0.28515625, "learning_rate": 0.0002948087217299248, "loss": 0.4674, "step": 63450 }, { "epoch": 169.22666666666666, "grad_norm": 0.38671875, "learning_rate": 0.0002948070818228331, "loss": 0.4655, "step": 63460 }, { "epoch": 169.25333333333333, "grad_norm": 0.36328125, "learning_rate": 0.00029480544166132425, "loss": 0.4646, "step": 63470 }, { "epoch": 169.28, "grad_norm": 0.328125, "learning_rate": 0.00029480380124540114, "loss": 0.4784, "step": 63480 }, { "epoch": 169.30666666666667, "grad_norm": 0.283203125, "learning_rate": 0.0002948021605750668, "loss": 0.4594, "step": 63490 }, { "epoch": 169.33333333333334, "grad_norm": 0.31640625, "learning_rate": 0.000294800519650324, "loss": 0.4747, "step": 63500 }, { "epoch": 169.36, "grad_norm": 0.380859375, "learning_rate": 0.0002947988784711756, "loss": 0.477, "step": 63510 }, { "epoch": 169.38666666666666, "grad_norm": 0.310546875, "learning_rate": 0.00029479723703762457, "loss": 0.4691, "step": 63520 }, { "epoch": 169.41333333333333, "grad_norm": 0.5078125, "learning_rate": 0.00029479559534967373, "loss": 0.4733, "step": 63530 }, { "epoch": 169.44, "grad_norm": 0.259765625, "learning_rate": 0.00029479395340732597, "loss": 0.4765, "step": 63540 }, { "epoch": 169.46666666666667, "grad_norm": 0.2890625, "learning_rate": 0.00029479231121058426, "loss": 0.4855, "step": 63550 }, { "epoch": 169.49333333333334, "grad_norm": 0.291015625, "learning_rate": 0.00029479066875945137, "loss": 0.4771, "step": 63560 }, { "epoch": 169.52, "grad_norm": 0.2353515625, "learning_rate": 0.0002947890260539302, "loss": 0.4717, "step": 63570 }, { "epoch": 169.54666666666665, "grad_norm": 0.302734375, "learning_rate": 0.00029478738309402376, "loss": 0.4691, "step": 63580 }, { "epoch": 169.57333333333332, "grad_norm": 0.337890625, "learning_rate": 0.0002947857398797348, "loss": 0.4674, "step": 63590 }, { "epoch": 169.6, "grad_norm": 0.369140625, "learning_rate": 0.0002947840964110662, "loss": 0.461, "step": 63600 }, { "epoch": 169.62666666666667, "grad_norm": 0.28515625, "learning_rate": 0.00029478245268802096, "loss": 0.4487, "step": 63610 }, { "epoch": 169.65333333333334, "grad_norm": 0.341796875, "learning_rate": 0.00029478080871060187, "loss": 0.4684, "step": 63620 }, { "epoch": 169.68, "grad_norm": 0.26171875, "learning_rate": 0.00029477916447881187, "loss": 0.4594, "step": 63630 }, { "epoch": 169.70666666666668, "grad_norm": 0.361328125, "learning_rate": 0.00029477751999265384, "loss": 0.4597, "step": 63640 }, { "epoch": 169.73333333333332, "grad_norm": 0.375, "learning_rate": 0.00029477587525213064, "loss": 0.4782, "step": 63650 }, { "epoch": 169.76, "grad_norm": 0.314453125, "learning_rate": 0.0002947742302572452, "loss": 0.48, "step": 63660 }, { "epoch": 169.78666666666666, "grad_norm": 0.296875, "learning_rate": 0.00029477258500800043, "loss": 0.4787, "step": 63670 }, { "epoch": 169.81333333333333, "grad_norm": 0.310546875, "learning_rate": 0.0002947709395043991, "loss": 0.4641, "step": 63680 }, { "epoch": 169.84, "grad_norm": 0.37890625, "learning_rate": 0.0002947692937464442, "loss": 0.4691, "step": 63690 }, { "epoch": 169.86666666666667, "grad_norm": 0.27734375, "learning_rate": 0.0002947676477341387, "loss": 0.4693, "step": 63700 }, { "epoch": 169.89333333333335, "grad_norm": 0.419921875, "learning_rate": 0.00029476600146748533, "loss": 0.4603, "step": 63710 }, { "epoch": 169.92, "grad_norm": 0.380859375, "learning_rate": 0.00029476435494648706, "loss": 0.47, "step": 63720 }, { "epoch": 169.94666666666666, "grad_norm": 0.30859375, "learning_rate": 0.00029476270817114673, "loss": 0.4625, "step": 63730 }, { "epoch": 169.97333333333333, "grad_norm": 0.33984375, "learning_rate": 0.00029476106114146737, "loss": 0.4743, "step": 63740 }, { "epoch": 170.0, "grad_norm": 0.3203125, "learning_rate": 0.00029475941385745174, "loss": 0.4638, "step": 63750 }, { "epoch": 170.0, "eval_loss": 0.4791702628135681, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.5946, "eval_samples_per_second": 1.668, "eval_steps_per_second": 0.104, "step": 63750 }, { "epoch": 170.02666666666667, "grad_norm": 0.283203125, "learning_rate": 0.0002947577663191027, "loss": 0.4828, "step": 63760 }, { "epoch": 170.05333333333334, "grad_norm": 0.31640625, "learning_rate": 0.0002947561185264233, "loss": 0.4889, "step": 63770 }, { "epoch": 170.08, "grad_norm": 0.341796875, "learning_rate": 0.0002947544704794163, "loss": 0.4758, "step": 63780 }, { "epoch": 170.10666666666665, "grad_norm": 0.40234375, "learning_rate": 0.0002947528221780847, "loss": 0.4712, "step": 63790 }, { "epoch": 170.13333333333333, "grad_norm": 0.3046875, "learning_rate": 0.00029475117362243137, "loss": 0.4722, "step": 63800 }, { "epoch": 170.16, "grad_norm": 0.333984375, "learning_rate": 0.0002947495248124591, "loss": 0.4768, "step": 63810 }, { "epoch": 170.18666666666667, "grad_norm": 0.341796875, "learning_rate": 0.0002947478757481709, "loss": 0.4688, "step": 63820 }, { "epoch": 170.21333333333334, "grad_norm": 0.27734375, "learning_rate": 0.0002947462264295697, "loss": 0.4644, "step": 63830 }, { "epoch": 170.24, "grad_norm": 0.318359375, "learning_rate": 0.00029474457685665825, "loss": 0.4678, "step": 63840 }, { "epoch": 170.26666666666668, "grad_norm": 0.3671875, "learning_rate": 0.00029474292702943956, "loss": 0.4715, "step": 63850 }, { "epoch": 170.29333333333332, "grad_norm": 0.333984375, "learning_rate": 0.0002947412769479165, "loss": 0.4659, "step": 63860 }, { "epoch": 170.32, "grad_norm": 0.28515625, "learning_rate": 0.000294739626612092, "loss": 0.4688, "step": 63870 }, { "epoch": 170.34666666666666, "grad_norm": 0.30859375, "learning_rate": 0.0002947379760219689, "loss": 0.4769, "step": 63880 }, { "epoch": 170.37333333333333, "grad_norm": 0.439453125, "learning_rate": 0.0002947363251775501, "loss": 0.4733, "step": 63890 }, { "epoch": 170.4, "grad_norm": 0.326171875, "learning_rate": 0.0002947346740788386, "loss": 0.4703, "step": 63900 }, { "epoch": 170.42666666666668, "grad_norm": 0.41796875, "learning_rate": 0.0002947330227258372, "loss": 0.4758, "step": 63910 }, { "epoch": 170.45333333333335, "grad_norm": 0.33203125, "learning_rate": 0.00029473137111854877, "loss": 0.4783, "step": 63920 }, { "epoch": 170.48, "grad_norm": 0.3828125, "learning_rate": 0.0002947297192569764, "loss": 0.4847, "step": 63930 }, { "epoch": 170.50666666666666, "grad_norm": 0.345703125, "learning_rate": 0.00029472806714112275, "loss": 0.4746, "step": 63940 }, { "epoch": 170.53333333333333, "grad_norm": 0.2421875, "learning_rate": 0.00029472641477099087, "loss": 0.4684, "step": 63950 }, { "epoch": 170.56, "grad_norm": 0.28125, "learning_rate": 0.0002947247621465837, "loss": 0.4692, "step": 63960 }, { "epoch": 170.58666666666667, "grad_norm": 0.427734375, "learning_rate": 0.000294723109267904, "loss": 0.4647, "step": 63970 }, { "epoch": 170.61333333333334, "grad_norm": 0.263671875, "learning_rate": 0.00029472145613495474, "loss": 0.451, "step": 63980 }, { "epoch": 170.64, "grad_norm": 0.37890625, "learning_rate": 0.0002947198027477389, "loss": 0.4565, "step": 63990 }, { "epoch": 170.66666666666666, "grad_norm": 0.400390625, "learning_rate": 0.00029471814910625926, "loss": 0.4711, "step": 64000 }, { "epoch": 170.69333333333333, "grad_norm": 0.29296875, "learning_rate": 0.00029471649521051885, "loss": 0.4541, "step": 64010 }, { "epoch": 170.72, "grad_norm": 0.2734375, "learning_rate": 0.00029471484106052045, "loss": 0.4713, "step": 64020 }, { "epoch": 170.74666666666667, "grad_norm": 0.39453125, "learning_rate": 0.00029471318665626704, "loss": 0.4762, "step": 64030 }, { "epoch": 170.77333333333334, "grad_norm": 0.88671875, "learning_rate": 0.0002947115319977615, "loss": 0.4833, "step": 64040 }, { "epoch": 170.8, "grad_norm": 0.466796875, "learning_rate": 0.00029470987708500677, "loss": 0.4707, "step": 64050 }, { "epoch": 170.82666666666665, "grad_norm": 0.333984375, "learning_rate": 0.0002947082219180057, "loss": 0.4652, "step": 64060 }, { "epoch": 170.85333333333332, "grad_norm": 0.3515625, "learning_rate": 0.0002947065664967613, "loss": 0.4739, "step": 64070 }, { "epoch": 170.88, "grad_norm": 0.35546875, "learning_rate": 0.0002947049108212764, "loss": 0.4614, "step": 64080 }, { "epoch": 170.90666666666667, "grad_norm": 0.326171875, "learning_rate": 0.0002947032548915539, "loss": 0.4648, "step": 64090 }, { "epoch": 170.93333333333334, "grad_norm": 0.376953125, "learning_rate": 0.0002947015987075967, "loss": 0.4658, "step": 64100 }, { "epoch": 170.96, "grad_norm": 0.326171875, "learning_rate": 0.00029469994226940784, "loss": 0.4648, "step": 64110 }, { "epoch": 170.98666666666668, "grad_norm": 0.330078125, "learning_rate": 0.0002946982855769901, "loss": 0.4789, "step": 64120 }, { "epoch": 171.0, "eval_loss": 0.4793436825275421, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.8251, "eval_samples_per_second": 1.478, "eval_steps_per_second": 0.092, "step": 64125 }, { "epoch": 171.01333333333332, "grad_norm": 0.4375, "learning_rate": 0.0002946966286303464, "loss": 0.4671, "step": 64130 }, { "epoch": 171.04, "grad_norm": 0.306640625, "learning_rate": 0.00029469497142947963, "loss": 0.4912, "step": 64140 }, { "epoch": 171.06666666666666, "grad_norm": 0.3203125, "learning_rate": 0.0002946933139743928, "loss": 0.4792, "step": 64150 }, { "epoch": 171.09333333333333, "grad_norm": 0.310546875, "learning_rate": 0.00029469165626508874, "loss": 0.4735, "step": 64160 }, { "epoch": 171.12, "grad_norm": 0.3203125, "learning_rate": 0.0002946899983015704, "loss": 0.4694, "step": 64170 }, { "epoch": 171.14666666666668, "grad_norm": 0.341796875, "learning_rate": 0.0002946883400838407, "loss": 0.4789, "step": 64180 }, { "epoch": 171.17333333333335, "grad_norm": 0.392578125, "learning_rate": 0.0002946866816119025, "loss": 0.4688, "step": 64190 }, { "epoch": 171.2, "grad_norm": 0.37109375, "learning_rate": 0.0002946850228857588, "loss": 0.4681, "step": 64200 }, { "epoch": 171.22666666666666, "grad_norm": 0.4453125, "learning_rate": 0.00029468336390541243, "loss": 0.4657, "step": 64210 }, { "epoch": 171.25333333333333, "grad_norm": 0.302734375, "learning_rate": 0.00029468170467086634, "loss": 0.465, "step": 64220 }, { "epoch": 171.28, "grad_norm": 0.50390625, "learning_rate": 0.00029468004518212347, "loss": 0.4793, "step": 64230 }, { "epoch": 171.30666666666667, "grad_norm": 0.388671875, "learning_rate": 0.00029467838543918674, "loss": 0.4597, "step": 64240 }, { "epoch": 171.33333333333334, "grad_norm": 0.275390625, "learning_rate": 0.00029467672544205897, "loss": 0.4754, "step": 64250 }, { "epoch": 171.36, "grad_norm": 0.27734375, "learning_rate": 0.00029467506519074315, "loss": 0.477, "step": 64260 }, { "epoch": 171.38666666666666, "grad_norm": 0.302734375, "learning_rate": 0.0002946734046852422, "loss": 0.4694, "step": 64270 }, { "epoch": 171.41333333333333, "grad_norm": 0.33203125, "learning_rate": 0.000294671743925559, "loss": 0.4739, "step": 64280 }, { "epoch": 171.44, "grad_norm": 0.333984375, "learning_rate": 0.0002946700829116965, "loss": 0.4766, "step": 64290 }, { "epoch": 171.46666666666667, "grad_norm": 0.400390625, "learning_rate": 0.0002946684216436577, "loss": 0.4862, "step": 64300 }, { "epoch": 171.49333333333334, "grad_norm": 0.400390625, "learning_rate": 0.0002946667601214454, "loss": 0.4768, "step": 64310 }, { "epoch": 171.52, "grad_norm": 0.359375, "learning_rate": 0.0002946650983450625, "loss": 0.4713, "step": 64320 }, { "epoch": 171.54666666666665, "grad_norm": 0.34375, "learning_rate": 0.000294663436314512, "loss": 0.469, "step": 64330 }, { "epoch": 171.57333333333332, "grad_norm": 0.2890625, "learning_rate": 0.00029466177402979674, "loss": 0.4678, "step": 64340 }, { "epoch": 171.6, "grad_norm": 0.359375, "learning_rate": 0.00029466011149091977, "loss": 0.4615, "step": 64350 }, { "epoch": 171.62666666666667, "grad_norm": 0.345703125, "learning_rate": 0.0002946584486978839, "loss": 0.4491, "step": 64360 }, { "epoch": 171.65333333333334, "grad_norm": 0.345703125, "learning_rate": 0.0002946567856506921, "loss": 0.4682, "step": 64370 }, { "epoch": 171.68, "grad_norm": 0.251953125, "learning_rate": 0.00029465512234934724, "loss": 0.4588, "step": 64380 }, { "epoch": 171.70666666666668, "grad_norm": 0.390625, "learning_rate": 0.0002946534587938523, "loss": 0.4597, "step": 64390 }, { "epoch": 171.73333333333332, "grad_norm": 0.3203125, "learning_rate": 0.0002946517949842102, "loss": 0.4786, "step": 64400 }, { "epoch": 171.76, "grad_norm": 0.478515625, "learning_rate": 0.0002946501309204238, "loss": 0.4801, "step": 64410 }, { "epoch": 171.78666666666666, "grad_norm": 0.296875, "learning_rate": 0.0002946484666024961, "loss": 0.4789, "step": 64420 }, { "epoch": 171.81333333333333, "grad_norm": 0.330078125, "learning_rate": 0.00029464680203043, "loss": 0.4644, "step": 64430 }, { "epoch": 171.84, "grad_norm": 0.37109375, "learning_rate": 0.0002946451372042284, "loss": 0.4694, "step": 64440 }, { "epoch": 171.86666666666667, "grad_norm": 0.337890625, "learning_rate": 0.0002946434721238942, "loss": 0.4691, "step": 64450 }, { "epoch": 171.89333333333335, "grad_norm": 0.220703125, "learning_rate": 0.00029464180678943046, "loss": 0.46, "step": 64460 }, { "epoch": 171.92, "grad_norm": 0.337890625, "learning_rate": 0.00029464014120083996, "loss": 0.4705, "step": 64470 }, { "epoch": 171.94666666666666, "grad_norm": 0.267578125, "learning_rate": 0.0002946384753581257, "loss": 0.4628, "step": 64480 }, { "epoch": 171.97333333333333, "grad_norm": 0.34375, "learning_rate": 0.0002946368092612905, "loss": 0.4736, "step": 64490 }, { "epoch": 172.0, "grad_norm": 0.365234375, "learning_rate": 0.0002946351429103375, "loss": 0.4631, "step": 64500 }, { "epoch": 172.0, "eval_loss": 0.48019760847091675, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.5782, "eval_samples_per_second": 1.513, "eval_steps_per_second": 0.095, "step": 64500 }, { "epoch": 172.02666666666667, "grad_norm": 0.43359375, "learning_rate": 0.0002946334763052694, "loss": 0.4831, "step": 64510 }, { "epoch": 172.05333333333334, "grad_norm": 0.455078125, "learning_rate": 0.0002946318094460893, "loss": 0.4889, "step": 64520 }, { "epoch": 172.08, "grad_norm": 0.361328125, "learning_rate": 0.0002946301423328, "loss": 0.4763, "step": 64530 }, { "epoch": 172.10666666666665, "grad_norm": 0.296875, "learning_rate": 0.00029462847496540453, "loss": 0.4701, "step": 64540 }, { "epoch": 172.13333333333333, "grad_norm": 0.369140625, "learning_rate": 0.00029462680734390574, "loss": 0.4723, "step": 64550 }, { "epoch": 172.16, "grad_norm": 0.2734375, "learning_rate": 0.00029462513946830666, "loss": 0.4772, "step": 64560 }, { "epoch": 172.18666666666667, "grad_norm": 0.330078125, "learning_rate": 0.0002946234713386101, "loss": 0.4686, "step": 64570 }, { "epoch": 172.21333333333334, "grad_norm": 0.294921875, "learning_rate": 0.0002946218029548191, "loss": 0.4639, "step": 64580 }, { "epoch": 172.24, "grad_norm": 0.283203125, "learning_rate": 0.0002946201343169364, "loss": 0.4674, "step": 64590 }, { "epoch": 172.26666666666668, "grad_norm": 0.37109375, "learning_rate": 0.00029461846542496524, "loss": 0.4712, "step": 64600 }, { "epoch": 172.29333333333332, "grad_norm": 0.36328125, "learning_rate": 0.0002946167962789083, "loss": 0.4659, "step": 64610 }, { "epoch": 172.32, "grad_norm": 0.26171875, "learning_rate": 0.0002946151268787686, "loss": 0.469, "step": 64620 }, { "epoch": 172.34666666666666, "grad_norm": 0.42578125, "learning_rate": 0.00029461345722454907, "loss": 0.4778, "step": 64630 }, { "epoch": 172.37333333333333, "grad_norm": 0.318359375, "learning_rate": 0.00029461178731625263, "loss": 0.4729, "step": 64640 }, { "epoch": 172.4, "grad_norm": 0.435546875, "learning_rate": 0.00029461011715388224, "loss": 0.4698, "step": 64650 }, { "epoch": 172.42666666666668, "grad_norm": 0.3515625, "learning_rate": 0.00029460844673744085, "loss": 0.476, "step": 64660 }, { "epoch": 172.45333333333335, "grad_norm": 0.44921875, "learning_rate": 0.0002946067760669313, "loss": 0.4785, "step": 64670 }, { "epoch": 172.48, "grad_norm": 0.43359375, "learning_rate": 0.0002946051051423566, "loss": 0.4844, "step": 64680 }, { "epoch": 172.50666666666666, "grad_norm": 0.35546875, "learning_rate": 0.0002946034339637198, "loss": 0.4743, "step": 64690 }, { "epoch": 172.53333333333333, "grad_norm": 0.296875, "learning_rate": 0.0002946017625310236, "loss": 0.4677, "step": 64700 }, { "epoch": 172.56, "grad_norm": 0.26953125, "learning_rate": 0.000294600090844271, "loss": 0.4694, "step": 64710 }, { "epoch": 172.58666666666667, "grad_norm": 0.25390625, "learning_rate": 0.00029459841890346506, "loss": 0.4645, "step": 64720 }, { "epoch": 172.61333333333334, "grad_norm": 0.2490234375, "learning_rate": 0.0002945967467086086, "loss": 0.4507, "step": 64730 }, { "epoch": 172.64, "grad_norm": 0.2734375, "learning_rate": 0.00029459507425970465, "loss": 0.4565, "step": 64740 }, { "epoch": 172.66666666666666, "grad_norm": 0.326171875, "learning_rate": 0.00029459340155675606, "loss": 0.4711, "step": 64750 }, { "epoch": 172.69333333333333, "grad_norm": 0.33984375, "learning_rate": 0.00029459172859976583, "loss": 0.4546, "step": 64760 }, { "epoch": 172.72, "grad_norm": 0.34765625, "learning_rate": 0.00029459005538873685, "loss": 0.4719, "step": 64770 }, { "epoch": 172.74666666666667, "grad_norm": 0.3203125, "learning_rate": 0.00029458838192367214, "loss": 0.476, "step": 64780 }, { "epoch": 172.77333333333334, "grad_norm": 0.412109375, "learning_rate": 0.0002945867082045745, "loss": 0.4833, "step": 64790 }, { "epoch": 172.8, "grad_norm": 0.296875, "learning_rate": 0.0002945850342314471, "loss": 0.4709, "step": 64800 }, { "epoch": 172.82666666666665, "grad_norm": 0.26953125, "learning_rate": 0.00029458336000429266, "loss": 0.4655, "step": 64810 }, { "epoch": 172.85333333333332, "grad_norm": 0.275390625, "learning_rate": 0.0002945816855231141, "loss": 0.4729, "step": 64820 }, { "epoch": 172.88, "grad_norm": 0.28125, "learning_rate": 0.0002945800107879146, "loss": 0.4615, "step": 64830 }, { "epoch": 172.90666666666667, "grad_norm": 0.359375, "learning_rate": 0.0002945783357986969, "loss": 0.4648, "step": 64840 }, { "epoch": 172.93333333333334, "grad_norm": 0.38671875, "learning_rate": 0.000294576660555464, "loss": 0.4665, "step": 64850 }, { "epoch": 172.96, "grad_norm": 0.33203125, "learning_rate": 0.00029457498505821894, "loss": 0.4634, "step": 64860 }, { "epoch": 172.98666666666668, "grad_norm": 0.33984375, "learning_rate": 0.0002945733093069645, "loss": 0.4779, "step": 64870 }, { "epoch": 173.0, "eval_loss": 0.4777694344520569, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.9365, "eval_samples_per_second": 1.61, "eval_steps_per_second": 0.101, "step": 64875 }, { "epoch": 173.01333333333332, "grad_norm": 0.392578125, "learning_rate": 0.0002945716333017037, "loss": 0.4672, "step": 64880 }, { "epoch": 173.04, "grad_norm": 0.2578125, "learning_rate": 0.0002945699570424395, "loss": 0.4908, "step": 64890 }, { "epoch": 173.06666666666666, "grad_norm": 0.45703125, "learning_rate": 0.0002945682805291748, "loss": 0.4793, "step": 64900 }, { "epoch": 173.09333333333333, "grad_norm": 0.279296875, "learning_rate": 0.0002945666037619126, "loss": 0.4737, "step": 64910 }, { "epoch": 173.12, "grad_norm": 0.28125, "learning_rate": 0.0002945649267406558, "loss": 0.47, "step": 64920 }, { "epoch": 173.14666666666668, "grad_norm": 0.306640625, "learning_rate": 0.0002945632494654074, "loss": 0.4789, "step": 64930 }, { "epoch": 173.17333333333335, "grad_norm": 0.3125, "learning_rate": 0.0002945615719361703, "loss": 0.47, "step": 64940 }, { "epoch": 173.2, "grad_norm": 0.322265625, "learning_rate": 0.00029455989415294744, "loss": 0.4676, "step": 64950 }, { "epoch": 173.22666666666666, "grad_norm": 0.359375, "learning_rate": 0.0002945582161157418, "loss": 0.4652, "step": 64960 }, { "epoch": 173.25333333333333, "grad_norm": 0.298828125, "learning_rate": 0.00029455653782455634, "loss": 0.4647, "step": 64970 }, { "epoch": 173.28, "grad_norm": 0.453125, "learning_rate": 0.000294554859279394, "loss": 0.4787, "step": 64980 }, { "epoch": 173.30666666666667, "grad_norm": 0.37109375, "learning_rate": 0.00029455318048025766, "loss": 0.4594, "step": 64990 }, { "epoch": 173.33333333333334, "grad_norm": 0.26171875, "learning_rate": 0.00029455150142715034, "loss": 0.4751, "step": 65000 }, { "epoch": 173.36, "grad_norm": 0.322265625, "learning_rate": 0.000294549822120075, "loss": 0.4773, "step": 65010 }, { "epoch": 173.38666666666666, "grad_norm": 0.30078125, "learning_rate": 0.0002945481425590345, "loss": 0.4686, "step": 65020 }, { "epoch": 173.41333333333333, "grad_norm": 0.328125, "learning_rate": 0.0002945464627440319, "loss": 0.4738, "step": 65030 }, { "epoch": 173.44, "grad_norm": 0.3359375, "learning_rate": 0.0002945447826750701, "loss": 0.4757, "step": 65040 }, { "epoch": 173.46666666666667, "grad_norm": 0.3359375, "learning_rate": 0.00029454310235215207, "loss": 0.486, "step": 65050 }, { "epoch": 173.49333333333334, "grad_norm": 0.33203125, "learning_rate": 0.00029454142177528077, "loss": 0.4775, "step": 65060 }, { "epoch": 173.52, "grad_norm": 0.294921875, "learning_rate": 0.0002945397409444591, "loss": 0.472, "step": 65070 }, { "epoch": 173.54666666666665, "grad_norm": 0.3515625, "learning_rate": 0.00029453805985969, "loss": 0.4682, "step": 65080 }, { "epoch": 173.57333333333332, "grad_norm": 0.3125, "learning_rate": 0.0002945363785209765, "loss": 0.4676, "step": 65090 }, { "epoch": 173.6, "grad_norm": 0.3828125, "learning_rate": 0.0002945346969283216, "loss": 0.4608, "step": 65100 }, { "epoch": 173.62666666666667, "grad_norm": 0.50390625, "learning_rate": 0.0002945330150817281, "loss": 0.4482, "step": 65110 }, { "epoch": 173.65333333333334, "grad_norm": 0.345703125, "learning_rate": 0.00029453133298119904, "loss": 0.4681, "step": 65120 }, { "epoch": 173.68, "grad_norm": 0.302734375, "learning_rate": 0.0002945296506267374, "loss": 0.4594, "step": 65130 }, { "epoch": 173.70666666666668, "grad_norm": 0.337890625, "learning_rate": 0.0002945279680183461, "loss": 0.46, "step": 65140 }, { "epoch": 173.73333333333332, "grad_norm": 0.36328125, "learning_rate": 0.0002945262851560281, "loss": 0.4783, "step": 65150 }, { "epoch": 173.76, "grad_norm": 0.298828125, "learning_rate": 0.00029452460203978635, "loss": 0.4801, "step": 65160 }, { "epoch": 173.78666666666666, "grad_norm": 0.333984375, "learning_rate": 0.00029452291866962385, "loss": 0.4783, "step": 65170 }, { "epoch": 173.81333333333333, "grad_norm": 0.392578125, "learning_rate": 0.0002945212350455434, "loss": 0.464, "step": 65180 }, { "epoch": 173.84, "grad_norm": 0.419921875, "learning_rate": 0.0002945195511675482, "loss": 0.4701, "step": 65190 }, { "epoch": 173.86666666666667, "grad_norm": 0.26171875, "learning_rate": 0.00029451786703564104, "loss": 0.4684, "step": 65200 }, { "epoch": 173.89333333333335, "grad_norm": 0.455078125, "learning_rate": 0.00029451618264982494, "loss": 0.4604, "step": 65210 }, { "epoch": 173.92, "grad_norm": 0.357421875, "learning_rate": 0.00029451449801010283, "loss": 0.4702, "step": 65220 }, { "epoch": 173.94666666666666, "grad_norm": 0.37890625, "learning_rate": 0.0002945128131164777, "loss": 0.4634, "step": 65230 }, { "epoch": 173.97333333333333, "grad_norm": 0.37890625, "learning_rate": 0.00029451112796895256, "loss": 0.4742, "step": 65240 }, { "epoch": 174.0, "grad_norm": 0.365234375, "learning_rate": 0.00029450944256753024, "loss": 0.4637, "step": 65250 }, { "epoch": 174.0, "eval_loss": 0.47973257303237915, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.9547, "eval_samples_per_second": 1.607, "eval_steps_per_second": 0.1, "step": 65250 }, { "epoch": 174.02666666666667, "grad_norm": 0.33203125, "learning_rate": 0.00029450775691221374, "loss": 0.4829, "step": 65260 }, { "epoch": 174.05333333333334, "grad_norm": 0.330078125, "learning_rate": 0.0002945060710030061, "loss": 0.4891, "step": 65270 }, { "epoch": 174.08, "grad_norm": 0.29296875, "learning_rate": 0.0002945043848399102, "loss": 0.4759, "step": 65280 }, { "epoch": 174.10666666666665, "grad_norm": 0.30859375, "learning_rate": 0.00029450269842292906, "loss": 0.471, "step": 65290 }, { "epoch": 174.13333333333333, "grad_norm": 0.328125, "learning_rate": 0.00029450101175206565, "loss": 0.4724, "step": 65300 }, { "epoch": 174.16, "grad_norm": 0.33984375, "learning_rate": 0.0002944993248273228, "loss": 0.4767, "step": 65310 }, { "epoch": 174.18666666666667, "grad_norm": 0.3203125, "learning_rate": 0.00029449763764870365, "loss": 0.4687, "step": 65320 }, { "epoch": 174.21333333333334, "grad_norm": 0.396484375, "learning_rate": 0.0002944959502162111, "loss": 0.4635, "step": 65330 }, { "epoch": 174.24, "grad_norm": 0.306640625, "learning_rate": 0.0002944942625298481, "loss": 0.4677, "step": 65340 }, { "epoch": 174.26666666666668, "grad_norm": 0.28515625, "learning_rate": 0.00029449257458961757, "loss": 0.4717, "step": 65350 }, { "epoch": 174.29333333333332, "grad_norm": 0.388671875, "learning_rate": 0.0002944908863955226, "loss": 0.4663, "step": 65360 }, { "epoch": 174.32, "grad_norm": 0.251953125, "learning_rate": 0.000294489197947566, "loss": 0.4689, "step": 65370 }, { "epoch": 174.34666666666666, "grad_norm": 0.376953125, "learning_rate": 0.00029448750924575083, "loss": 0.4778, "step": 65380 }, { "epoch": 174.37333333333333, "grad_norm": 0.2890625, "learning_rate": 0.0002944858202900801, "loss": 0.4728, "step": 65390 }, { "epoch": 174.4, "grad_norm": 0.474609375, "learning_rate": 0.00029448413108055664, "loss": 0.4705, "step": 65400 }, { "epoch": 174.42666666666668, "grad_norm": 0.3671875, "learning_rate": 0.00029448244161718357, "loss": 0.4758, "step": 65410 }, { "epoch": 174.45333333333335, "grad_norm": 0.4140625, "learning_rate": 0.00029448075189996375, "loss": 0.4783, "step": 65420 }, { "epoch": 174.48, "grad_norm": 0.4765625, "learning_rate": 0.0002944790619289002, "loss": 0.4842, "step": 65430 }, { "epoch": 174.50666666666666, "grad_norm": 0.359375, "learning_rate": 0.0002944773717039959, "loss": 0.4744, "step": 65440 }, { "epoch": 174.53333333333333, "grad_norm": 0.3984375, "learning_rate": 0.00029447568122525377, "loss": 0.4677, "step": 65450 }, { "epoch": 174.56, "grad_norm": 0.330078125, "learning_rate": 0.00029447399049267677, "loss": 0.4694, "step": 65460 }, { "epoch": 174.58666666666667, "grad_norm": 0.498046875, "learning_rate": 0.0002944722995062679, "loss": 0.4641, "step": 65470 }, { "epoch": 174.61333333333334, "grad_norm": 0.328125, "learning_rate": 0.00029447060826603023, "loss": 0.4513, "step": 65480 }, { "epoch": 174.64, "grad_norm": 0.31640625, "learning_rate": 0.0002944689167719666, "loss": 0.4564, "step": 65490 }, { "epoch": 174.66666666666666, "grad_norm": 0.2490234375, "learning_rate": 0.00029446722502408, "loss": 0.471, "step": 65500 }, { "epoch": 174.69333333333333, "grad_norm": 0.28515625, "learning_rate": 0.0002944655330223734, "loss": 0.4544, "step": 65510 }, { "epoch": 174.72, "grad_norm": 0.263671875, "learning_rate": 0.0002944638407668498, "loss": 0.472, "step": 65520 }, { "epoch": 174.74666666666667, "grad_norm": 0.30078125, "learning_rate": 0.0002944621482575122, "loss": 0.4755, "step": 65530 }, { "epoch": 174.77333333333334, "grad_norm": 0.451171875, "learning_rate": 0.00029446045549436355, "loss": 0.4839, "step": 65540 }, { "epoch": 174.8, "grad_norm": 0.3046875, "learning_rate": 0.00029445876247740683, "loss": 0.4703, "step": 65550 }, { "epoch": 174.82666666666665, "grad_norm": 0.419921875, "learning_rate": 0.00029445706920664495, "loss": 0.4651, "step": 65560 }, { "epoch": 174.85333333333332, "grad_norm": 0.44140625, "learning_rate": 0.00029445537568208093, "loss": 0.4734, "step": 65570 }, { "epoch": 174.88, "grad_norm": 0.337890625, "learning_rate": 0.0002944536819037178, "loss": 0.4618, "step": 65580 }, { "epoch": 174.90666666666667, "grad_norm": 0.30078125, "learning_rate": 0.00029445198787155847, "loss": 0.4645, "step": 65590 }, { "epoch": 174.93333333333334, "grad_norm": 0.337890625, "learning_rate": 0.0002944502935856059, "loss": 0.4659, "step": 65600 }, { "epoch": 174.96, "grad_norm": 0.3359375, "learning_rate": 0.00029444859904586315, "loss": 0.4638, "step": 65610 }, { "epoch": 174.98666666666668, "grad_norm": 0.3671875, "learning_rate": 0.0002944469042523331, "loss": 0.4782, "step": 65620 }, { "epoch": 175.0, "eval_loss": 0.47829604148864746, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.8386, "eval_samples_per_second": 1.626, "eval_steps_per_second": 0.102, "step": 65625 }, { "epoch": 175.01333333333332, "grad_norm": 0.431640625, "learning_rate": 0.0002944452092050188, "loss": 0.4673, "step": 65630 }, { "epoch": 175.04, "grad_norm": 0.2294921875, "learning_rate": 0.00029444351390392324, "loss": 0.4919, "step": 65640 }, { "epoch": 175.06666666666666, "grad_norm": 0.46875, "learning_rate": 0.0002944418183490493, "loss": 0.4784, "step": 65650 }, { "epoch": 175.09333333333333, "grad_norm": 0.287109375, "learning_rate": 0.0002944401225404, "loss": 0.4739, "step": 65660 }, { "epoch": 175.12, "grad_norm": 0.341796875, "learning_rate": 0.0002944384264779784, "loss": 0.4695, "step": 65670 }, { "epoch": 175.14666666666668, "grad_norm": 0.298828125, "learning_rate": 0.0002944367301617874, "loss": 0.478, "step": 65680 }, { "epoch": 175.17333333333335, "grad_norm": 0.439453125, "learning_rate": 0.00029443503359183, "loss": 0.4692, "step": 65690 }, { "epoch": 175.2, "grad_norm": 0.390625, "learning_rate": 0.0002944333367681092, "loss": 0.4675, "step": 65700 }, { "epoch": 175.22666666666666, "grad_norm": 0.306640625, "learning_rate": 0.00029443163969062794, "loss": 0.4651, "step": 65710 }, { "epoch": 175.25333333333333, "grad_norm": 0.322265625, "learning_rate": 0.0002944299423593892, "loss": 0.4653, "step": 65720 }, { "epoch": 175.28, "grad_norm": 0.349609375, "learning_rate": 0.000294428244774396, "loss": 0.4787, "step": 65730 }, { "epoch": 175.30666666666667, "grad_norm": 0.59375, "learning_rate": 0.0002944265469356513, "loss": 0.4601, "step": 65740 }, { "epoch": 175.33333333333334, "grad_norm": 0.365234375, "learning_rate": 0.00029442484884315814, "loss": 0.4756, "step": 65750 }, { "epoch": 175.36, "grad_norm": 0.3515625, "learning_rate": 0.00029442315049691943, "loss": 0.4776, "step": 65760 }, { "epoch": 175.38666666666666, "grad_norm": 0.341796875, "learning_rate": 0.00029442145189693817, "loss": 0.4689, "step": 65770 }, { "epoch": 175.41333333333333, "grad_norm": 0.333984375, "learning_rate": 0.0002944197530432174, "loss": 0.4737, "step": 65780 }, { "epoch": 175.44, "grad_norm": 0.28125, "learning_rate": 0.00029441805393575995, "loss": 0.4766, "step": 65790 }, { "epoch": 175.46666666666667, "grad_norm": 0.44140625, "learning_rate": 0.000294416354574569, "loss": 0.4857, "step": 65800 }, { "epoch": 175.49333333333334, "grad_norm": 0.44140625, "learning_rate": 0.0002944146549596474, "loss": 0.4773, "step": 65810 }, { "epoch": 175.52, "grad_norm": 0.291015625, "learning_rate": 0.00029441295509099823, "loss": 0.4715, "step": 65820 }, { "epoch": 175.54666666666665, "grad_norm": 0.3203125, "learning_rate": 0.0002944112549686244, "loss": 0.4682, "step": 65830 }, { "epoch": 175.57333333333332, "grad_norm": 0.267578125, "learning_rate": 0.00029440955459252894, "loss": 0.4675, "step": 65840 }, { "epoch": 175.6, "grad_norm": 0.35546875, "learning_rate": 0.00029440785396271483, "loss": 0.4607, "step": 65850 }, { "epoch": 175.62666666666667, "grad_norm": 0.2265625, "learning_rate": 0.000294406153079185, "loss": 0.4474, "step": 65860 }, { "epoch": 175.65333333333334, "grad_norm": 0.39453125, "learning_rate": 0.0002944044519419426, "loss": 0.4674, "step": 65870 }, { "epoch": 175.68, "grad_norm": 0.34765625, "learning_rate": 0.0002944027505509904, "loss": 0.4591, "step": 65880 }, { "epoch": 175.70666666666668, "grad_norm": 0.443359375, "learning_rate": 0.0002944010489063316, "loss": 0.46, "step": 65890 }, { "epoch": 175.73333333333332, "grad_norm": 0.287109375, "learning_rate": 0.000294399347007969, "loss": 0.4793, "step": 65900 }, { "epoch": 175.76, "grad_norm": 0.3046875, "learning_rate": 0.0002943976448559057, "loss": 0.4798, "step": 65910 }, { "epoch": 175.78666666666666, "grad_norm": 0.380859375, "learning_rate": 0.0002943959424501447, "loss": 0.4785, "step": 65920 }, { "epoch": 175.81333333333333, "grad_norm": 0.515625, "learning_rate": 0.000294394239790689, "loss": 0.4638, "step": 65930 }, { "epoch": 175.84, "grad_norm": 0.392578125, "learning_rate": 0.0002943925368775415, "loss": 0.4696, "step": 65940 }, { "epoch": 175.86666666666667, "grad_norm": 0.330078125, "learning_rate": 0.00029439083371070524, "loss": 0.469, "step": 65950 }, { "epoch": 175.89333333333335, "grad_norm": 0.359375, "learning_rate": 0.00029438913029018325, "loss": 0.4601, "step": 65960 }, { "epoch": 175.92, "grad_norm": 0.326171875, "learning_rate": 0.0002943874266159784, "loss": 0.4696, "step": 65970 }, { "epoch": 175.94666666666666, "grad_norm": 0.43359375, "learning_rate": 0.00029438572268809387, "loss": 0.4624, "step": 65980 }, { "epoch": 175.97333333333333, "grad_norm": 0.30078125, "learning_rate": 0.00029438401850653253, "loss": 0.4751, "step": 65990 }, { "epoch": 176.0, "grad_norm": 0.26953125, "learning_rate": 0.0002943823140712974, "loss": 0.4632, "step": 66000 }, { "epoch": 176.0, "eval_loss": 0.47858747839927673, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.9547, "eval_samples_per_second": 1.607, "eval_steps_per_second": 0.1, "step": 66000 }, { "epoch": 176.02666666666667, "grad_norm": 0.380859375, "learning_rate": 0.00029438060938239145, "loss": 0.4829, "step": 66010 }, { "epoch": 176.05333333333334, "grad_norm": 0.416015625, "learning_rate": 0.0002943789044398177, "loss": 0.4888, "step": 66020 }, { "epoch": 176.08, "grad_norm": 0.63671875, "learning_rate": 0.0002943771992435792, "loss": 0.4758, "step": 66030 }, { "epoch": 176.10666666666665, "grad_norm": 0.404296875, "learning_rate": 0.00029437549379367884, "loss": 0.4713, "step": 66040 }, { "epoch": 176.13333333333333, "grad_norm": 0.271484375, "learning_rate": 0.0002943737880901197, "loss": 0.4724, "step": 66050 }, { "epoch": 176.16, "grad_norm": 0.56640625, "learning_rate": 0.00029437208213290475, "loss": 0.4772, "step": 66060 }, { "epoch": 176.18666666666667, "grad_norm": 0.42578125, "learning_rate": 0.00029437037592203695, "loss": 0.4692, "step": 66070 }, { "epoch": 176.21333333333334, "grad_norm": 0.359375, "learning_rate": 0.00029436866945751935, "loss": 0.4635, "step": 66080 }, { "epoch": 176.24, "grad_norm": 0.390625, "learning_rate": 0.00029436696273935493, "loss": 0.4668, "step": 66090 }, { "epoch": 176.26666666666668, "grad_norm": 0.380859375, "learning_rate": 0.0002943652557675466, "loss": 0.4723, "step": 66100 }, { "epoch": 176.29333333333332, "grad_norm": 0.28125, "learning_rate": 0.0002943635485420976, "loss": 0.4656, "step": 66110 }, { "epoch": 176.32, "grad_norm": 0.318359375, "learning_rate": 0.0002943618410630107, "loss": 0.4694, "step": 66120 }, { "epoch": 176.34666666666666, "grad_norm": 0.3515625, "learning_rate": 0.000294360133330289, "loss": 0.4774, "step": 66130 }, { "epoch": 176.37333333333333, "grad_norm": 0.314453125, "learning_rate": 0.0002943584253439354, "loss": 0.4733, "step": 66140 }, { "epoch": 176.4, "grad_norm": 0.431640625, "learning_rate": 0.00029435671710395305, "loss": 0.47, "step": 66150 }, { "epoch": 176.42666666666668, "grad_norm": 0.2470703125, "learning_rate": 0.00029435500861034486, "loss": 0.4767, "step": 66160 }, { "epoch": 176.45333333333335, "grad_norm": 0.30859375, "learning_rate": 0.0002943532998631138, "loss": 0.4785, "step": 66170 }, { "epoch": 176.48, "grad_norm": 0.400390625, "learning_rate": 0.00029435159086226297, "loss": 0.4846, "step": 66180 }, { "epoch": 176.50666666666666, "grad_norm": 0.255859375, "learning_rate": 0.00029434988160779535, "loss": 0.4742, "step": 66190 }, { "epoch": 176.53333333333333, "grad_norm": 0.3359375, "learning_rate": 0.0002943481720997139, "loss": 0.4683, "step": 66200 }, { "epoch": 176.56, "grad_norm": 0.296875, "learning_rate": 0.0002943464623380216, "loss": 0.4692, "step": 66210 }, { "epoch": 176.58666666666667, "grad_norm": 0.359375, "learning_rate": 0.0002943447523227215, "loss": 0.4655, "step": 66220 }, { "epoch": 176.61333333333334, "grad_norm": 0.275390625, "learning_rate": 0.00029434304205381667, "loss": 0.4513, "step": 66230 }, { "epoch": 176.64, "grad_norm": 0.296875, "learning_rate": 0.00029434133153131, "loss": 0.4563, "step": 66240 }, { "epoch": 176.66666666666666, "grad_norm": 0.443359375, "learning_rate": 0.0002943396207552046, "loss": 0.4718, "step": 66250 }, { "epoch": 176.69333333333333, "grad_norm": 0.251953125, "learning_rate": 0.0002943379097255033, "loss": 0.4545, "step": 66260 }, { "epoch": 176.72, "grad_norm": 0.28515625, "learning_rate": 0.00029433619844220925, "loss": 0.4715, "step": 66270 }, { "epoch": 176.74666666666667, "grad_norm": 0.365234375, "learning_rate": 0.00029433448690532546, "loss": 0.4751, "step": 66280 }, { "epoch": 176.77333333333334, "grad_norm": 0.3203125, "learning_rate": 0.0002943327751148549, "loss": 0.4833, "step": 66290 }, { "epoch": 176.8, "grad_norm": 0.39453125, "learning_rate": 0.0002943310630708006, "loss": 0.4702, "step": 66300 }, { "epoch": 176.82666666666665, "grad_norm": 0.3203125, "learning_rate": 0.0002943293507731655, "loss": 0.4649, "step": 66310 }, { "epoch": 176.85333333333332, "grad_norm": 0.5, "learning_rate": 0.0002943276382219527, "loss": 0.4732, "step": 66320 }, { "epoch": 176.88, "grad_norm": 0.3125, "learning_rate": 0.00029432592541716517, "loss": 0.4616, "step": 66330 }, { "epoch": 176.90666666666667, "grad_norm": 0.33203125, "learning_rate": 0.0002943242123588059, "loss": 0.4646, "step": 66340 }, { "epoch": 176.93333333333334, "grad_norm": 0.294921875, "learning_rate": 0.0002943224990468779, "loss": 0.466, "step": 66350 }, { "epoch": 176.96, "grad_norm": 0.27734375, "learning_rate": 0.00029432078548138424, "loss": 0.4632, "step": 66360 }, { "epoch": 176.98666666666668, "grad_norm": 0.376953125, "learning_rate": 0.00029431907166232784, "loss": 0.4785, "step": 66370 }, { "epoch": 177.0, "eval_loss": 0.47848471999168396, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.0402, "eval_samples_per_second": 1.594, "eval_steps_per_second": 0.1, "step": 66375 }, { "epoch": 177.01333333333332, "grad_norm": 0.255859375, "learning_rate": 0.0002943173575897118, "loss": 0.4671, "step": 66380 }, { "epoch": 177.04, "grad_norm": 0.259765625, "learning_rate": 0.0002943156432635391, "loss": 0.4906, "step": 66390 }, { "epoch": 177.06666666666666, "grad_norm": 0.34375, "learning_rate": 0.00029431392868381267, "loss": 0.479, "step": 66400 }, { "epoch": 177.09333333333333, "grad_norm": 0.37890625, "learning_rate": 0.00029431221385053567, "loss": 0.4738, "step": 66410 }, { "epoch": 177.12, "grad_norm": 0.357421875, "learning_rate": 0.000294310498763711, "loss": 0.4697, "step": 66420 }, { "epoch": 177.14666666666668, "grad_norm": 0.404296875, "learning_rate": 0.00029430878342334173, "loss": 0.4781, "step": 66430 }, { "epoch": 177.17333333333335, "grad_norm": 0.37890625, "learning_rate": 0.0002943070678294308, "loss": 0.4696, "step": 66440 }, { "epoch": 177.2, "grad_norm": 0.427734375, "learning_rate": 0.00029430535198198134, "loss": 0.4673, "step": 66450 }, { "epoch": 177.22666666666666, "grad_norm": 0.42578125, "learning_rate": 0.0002943036358809963, "loss": 0.4648, "step": 66460 }, { "epoch": 177.25333333333333, "grad_norm": 0.359375, "learning_rate": 0.0002943019195264787, "loss": 0.4646, "step": 66470 }, { "epoch": 177.28, "grad_norm": 0.333984375, "learning_rate": 0.0002943002029184315, "loss": 0.4787, "step": 66480 }, { "epoch": 177.30666666666667, "grad_norm": 0.30859375, "learning_rate": 0.0002942984860568578, "loss": 0.4591, "step": 66490 }, { "epoch": 177.33333333333334, "grad_norm": 0.400390625, "learning_rate": 0.00029429676894176057, "loss": 0.4755, "step": 66500 }, { "epoch": 177.36, "grad_norm": 0.34765625, "learning_rate": 0.0002942950515731429, "loss": 0.4772, "step": 66510 }, { "epoch": 177.38666666666666, "grad_norm": 0.3671875, "learning_rate": 0.0002942933339510077, "loss": 0.4692, "step": 66520 }, { "epoch": 177.41333333333333, "grad_norm": 0.333984375, "learning_rate": 0.00029429161607535807, "loss": 0.4735, "step": 66530 }, { "epoch": 177.44, "grad_norm": 0.30859375, "learning_rate": 0.000294289897946197, "loss": 0.4762, "step": 66540 }, { "epoch": 177.46666666666667, "grad_norm": 0.400390625, "learning_rate": 0.00029428817956352743, "loss": 0.4858, "step": 66550 }, { "epoch": 177.49333333333334, "grad_norm": 0.337890625, "learning_rate": 0.00029428646092735254, "loss": 0.4765, "step": 66560 }, { "epoch": 177.52, "grad_norm": 0.353515625, "learning_rate": 0.0002942847420376752, "loss": 0.4707, "step": 66570 }, { "epoch": 177.54666666666665, "grad_norm": 0.2890625, "learning_rate": 0.0002942830228944985, "loss": 0.4683, "step": 66580 }, { "epoch": 177.57333333333332, "grad_norm": 0.275390625, "learning_rate": 0.00029428130349782553, "loss": 0.4679, "step": 66590 }, { "epoch": 177.6, "grad_norm": 0.3125, "learning_rate": 0.0002942795838476592, "loss": 0.4612, "step": 66600 }, { "epoch": 177.62666666666667, "grad_norm": 0.224609375, "learning_rate": 0.0002942778639440025, "loss": 0.4485, "step": 66610 }, { "epoch": 177.65333333333334, "grad_norm": 0.25390625, "learning_rate": 0.0002942761437868586, "loss": 0.4678, "step": 66620 }, { "epoch": 177.68, "grad_norm": 0.39453125, "learning_rate": 0.00029427442337623036, "loss": 0.4588, "step": 66630 }, { "epoch": 177.70666666666668, "grad_norm": 0.388671875, "learning_rate": 0.00029427270271212096, "loss": 0.4593, "step": 66640 }, { "epoch": 177.73333333333332, "grad_norm": 0.306640625, "learning_rate": 0.0002942709817945333, "loss": 0.4789, "step": 66650 }, { "epoch": 177.76, "grad_norm": 0.375, "learning_rate": 0.00029426926062347045, "loss": 0.4802, "step": 66660 }, { "epoch": 177.78666666666666, "grad_norm": 0.3125, "learning_rate": 0.00029426753919893547, "loss": 0.4783, "step": 66670 }, { "epoch": 177.81333333333333, "grad_norm": 0.283203125, "learning_rate": 0.0002942658175209313, "loss": 0.4637, "step": 66680 }, { "epoch": 177.84, "grad_norm": 0.41796875, "learning_rate": 0.00029426409558946107, "loss": 0.4696, "step": 66690 }, { "epoch": 177.86666666666667, "grad_norm": 0.263671875, "learning_rate": 0.0002942623734045277, "loss": 0.4686, "step": 66700 }, { "epoch": 177.89333333333335, "grad_norm": 0.30078125, "learning_rate": 0.0002942606509661343, "loss": 0.4598, "step": 66710 }, { "epoch": 177.92, "grad_norm": 0.365234375, "learning_rate": 0.0002942589282742838, "loss": 0.4702, "step": 66720 }, { "epoch": 177.94666666666666, "grad_norm": 0.263671875, "learning_rate": 0.0002942572053289794, "loss": 0.4633, "step": 66730 }, { "epoch": 177.97333333333333, "grad_norm": 0.36328125, "learning_rate": 0.0002942554821302239, "loss": 0.4747, "step": 66740 }, { "epoch": 178.0, "grad_norm": 0.349609375, "learning_rate": 0.0002942537586780205, "loss": 0.4638, "step": 66750 }, { "epoch": 178.0, "eval_loss": 0.47956180572509766, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.918, "eval_samples_per_second": 1.613, "eval_steps_per_second": 0.101, "step": 66750 }, { "epoch": 178.02666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029425203497237217, "loss": 0.4836, "step": 66760 }, { "epoch": 178.05333333333334, "grad_norm": 0.287109375, "learning_rate": 0.0002942503110132819, "loss": 0.4888, "step": 66770 }, { "epoch": 178.08, "grad_norm": 0.357421875, "learning_rate": 0.0002942485868007528, "loss": 0.4758, "step": 66780 }, { "epoch": 178.10666666666665, "grad_norm": 0.3203125, "learning_rate": 0.00029424686233478785, "loss": 0.471, "step": 66790 }, { "epoch": 178.13333333333333, "grad_norm": 0.419921875, "learning_rate": 0.00029424513761539006, "loss": 0.4725, "step": 66800 }, { "epoch": 178.16, "grad_norm": 0.396484375, "learning_rate": 0.0002942434126425625, "loss": 0.4763, "step": 66810 }, { "epoch": 178.18666666666667, "grad_norm": 0.298828125, "learning_rate": 0.00029424168741630817, "loss": 0.469, "step": 66820 }, { "epoch": 178.21333333333334, "grad_norm": 0.32421875, "learning_rate": 0.00029423996193663014, "loss": 0.4637, "step": 66830 }, { "epoch": 178.24, "grad_norm": 0.359375, "learning_rate": 0.0002942382362035314, "loss": 0.4674, "step": 66840 }, { "epoch": 178.26666666666668, "grad_norm": 0.361328125, "learning_rate": 0.000294236510217015, "loss": 0.4717, "step": 66850 }, { "epoch": 178.29333333333332, "grad_norm": 0.3515625, "learning_rate": 0.000294234783977084, "loss": 0.4658, "step": 66860 }, { "epoch": 178.32, "grad_norm": 0.287109375, "learning_rate": 0.00029423305748374137, "loss": 0.4691, "step": 66870 }, { "epoch": 178.34666666666666, "grad_norm": 0.41015625, "learning_rate": 0.0002942313307369902, "loss": 0.4777, "step": 66880 }, { "epoch": 178.37333333333333, "grad_norm": 0.35546875, "learning_rate": 0.0002942296037368335, "loss": 0.4734, "step": 66890 }, { "epoch": 178.4, "grad_norm": 0.435546875, "learning_rate": 0.0002942278764832743, "loss": 0.4696, "step": 66900 }, { "epoch": 178.42666666666668, "grad_norm": 0.369140625, "learning_rate": 0.0002942261489763157, "loss": 0.4759, "step": 66910 }, { "epoch": 178.45333333333335, "grad_norm": 0.3046875, "learning_rate": 0.0002942244212159606, "loss": 0.4785, "step": 66920 }, { "epoch": 178.48, "grad_norm": 0.3046875, "learning_rate": 0.0002942226932022122, "loss": 0.4842, "step": 66930 }, { "epoch": 178.50666666666666, "grad_norm": 0.291015625, "learning_rate": 0.00029422096493507334, "loss": 0.4741, "step": 66940 }, { "epoch": 178.53333333333333, "grad_norm": 0.283203125, "learning_rate": 0.00029421923641454725, "loss": 0.4678, "step": 66950 }, { "epoch": 178.56, "grad_norm": 0.2373046875, "learning_rate": 0.0002942175076406369, "loss": 0.4688, "step": 66960 }, { "epoch": 178.58666666666667, "grad_norm": 0.349609375, "learning_rate": 0.0002942157786133452, "loss": 0.4647, "step": 66970 }, { "epoch": 178.61333333333334, "grad_norm": 0.28515625, "learning_rate": 0.00029421404933267537, "loss": 0.4518, "step": 66980 }, { "epoch": 178.64, "grad_norm": 0.33203125, "learning_rate": 0.00029421231979863036, "loss": 0.4567, "step": 66990 }, { "epoch": 178.66666666666666, "grad_norm": 0.287109375, "learning_rate": 0.0002942105900112132, "loss": 0.4721, "step": 67000 }, { "epoch": 178.69333333333333, "grad_norm": 0.236328125, "learning_rate": 0.000294208859970427, "loss": 0.4545, "step": 67010 }, { "epoch": 178.72, "grad_norm": 0.40234375, "learning_rate": 0.00029420712967627476, "loss": 0.4713, "step": 67020 }, { "epoch": 178.74666666666667, "grad_norm": 0.337890625, "learning_rate": 0.0002942053991287595, "loss": 0.476, "step": 67030 }, { "epoch": 178.77333333333334, "grad_norm": 0.400390625, "learning_rate": 0.0002942036683278843, "loss": 0.4829, "step": 67040 }, { "epoch": 178.8, "grad_norm": 0.439453125, "learning_rate": 0.0002942019372736521, "loss": 0.4701, "step": 67050 }, { "epoch": 178.82666666666665, "grad_norm": 0.3125, "learning_rate": 0.0002942002059660661, "loss": 0.4647, "step": 67060 }, { "epoch": 178.85333333333332, "grad_norm": 0.267578125, "learning_rate": 0.00029419847440512924, "loss": 0.4732, "step": 67070 }, { "epoch": 178.88, "grad_norm": 0.42578125, "learning_rate": 0.00029419674259084454, "loss": 0.4614, "step": 67080 }, { "epoch": 178.90666666666667, "grad_norm": 0.283203125, "learning_rate": 0.0002941950105232151, "loss": 0.4643, "step": 67090 }, { "epoch": 178.93333333333334, "grad_norm": 0.318359375, "learning_rate": 0.00029419327820224395, "loss": 0.4664, "step": 67100 }, { "epoch": 178.96, "grad_norm": 0.33203125, "learning_rate": 0.0002941915456279341, "loss": 0.4638, "step": 67110 }, { "epoch": 178.98666666666668, "grad_norm": 0.43359375, "learning_rate": 0.0002941898128002887, "loss": 0.4779, "step": 67120 }, { "epoch": 179.0, "eval_loss": 0.4776739180088043, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.5294, "eval_samples_per_second": 1.52, "eval_steps_per_second": 0.095, "step": 67125 }, { "epoch": 179.01333333333332, "grad_norm": 0.42578125, "learning_rate": 0.00029418807971931066, "loss": 0.4673, "step": 67130 }, { "epoch": 179.04, "grad_norm": 0.34375, "learning_rate": 0.0002941863463850031, "loss": 0.4911, "step": 67140 }, { "epoch": 179.06666666666666, "grad_norm": 0.35546875, "learning_rate": 0.000294184612797369, "loss": 0.4787, "step": 67150 }, { "epoch": 179.09333333333333, "grad_norm": 0.306640625, "learning_rate": 0.00029418287895641154, "loss": 0.474, "step": 67160 }, { "epoch": 179.12, "grad_norm": 0.306640625, "learning_rate": 0.00029418114486213365, "loss": 0.4694, "step": 67170 }, { "epoch": 179.14666666666668, "grad_norm": 0.416015625, "learning_rate": 0.00029417941051453837, "loss": 0.4784, "step": 67180 }, { "epoch": 179.17333333333335, "grad_norm": 0.41796875, "learning_rate": 0.00029417767591362884, "loss": 0.4695, "step": 67190 }, { "epoch": 179.2, "grad_norm": 0.421875, "learning_rate": 0.000294175941059408, "loss": 0.4674, "step": 67200 }, { "epoch": 179.22666666666666, "grad_norm": 0.294921875, "learning_rate": 0.000294174205951879, "loss": 0.4649, "step": 67210 }, { "epoch": 179.25333333333333, "grad_norm": 0.357421875, "learning_rate": 0.0002941724705910448, "loss": 0.4653, "step": 67220 }, { "epoch": 179.28, "grad_norm": 0.357421875, "learning_rate": 0.0002941707349769085, "loss": 0.4789, "step": 67230 }, { "epoch": 179.30666666666667, "grad_norm": 0.318359375, "learning_rate": 0.00029416899910947314, "loss": 0.4597, "step": 67240 }, { "epoch": 179.33333333333334, "grad_norm": 0.3203125, "learning_rate": 0.0002941672629887418, "loss": 0.4757, "step": 67250 }, { "epoch": 179.36, "grad_norm": 0.29296875, "learning_rate": 0.0002941655266147174, "loss": 0.4771, "step": 67260 }, { "epoch": 179.38666666666666, "grad_norm": 0.40625, "learning_rate": 0.00029416378998740314, "loss": 0.4683, "step": 67270 }, { "epoch": 179.41333333333333, "grad_norm": 0.287109375, "learning_rate": 0.00029416205310680204, "loss": 0.4736, "step": 67280 }, { "epoch": 179.44, "grad_norm": 0.3125, "learning_rate": 0.0002941603159729171, "loss": 0.4761, "step": 67290 }, { "epoch": 179.46666666666667, "grad_norm": 0.275390625, "learning_rate": 0.00029415857858575145, "loss": 0.4856, "step": 67300 }, { "epoch": 179.49333333333334, "grad_norm": 0.412109375, "learning_rate": 0.000294156840945308, "loss": 0.477, "step": 67310 }, { "epoch": 179.52, "grad_norm": 0.33203125, "learning_rate": 0.00029415510305159004, "loss": 0.4715, "step": 67320 }, { "epoch": 179.54666666666665, "grad_norm": 0.34765625, "learning_rate": 0.00029415336490460037, "loss": 0.4682, "step": 67330 }, { "epoch": 179.57333333333332, "grad_norm": 0.302734375, "learning_rate": 0.00029415162650434226, "loss": 0.4674, "step": 67340 }, { "epoch": 179.6, "grad_norm": 0.359375, "learning_rate": 0.00029414988785081853, "loss": 0.4614, "step": 67350 }, { "epoch": 179.62666666666667, "grad_norm": 0.376953125, "learning_rate": 0.00029414814894403244, "loss": 0.448, "step": 67360 }, { "epoch": 179.65333333333334, "grad_norm": 0.369140625, "learning_rate": 0.0002941464097839869, "loss": 0.4686, "step": 67370 }, { "epoch": 179.68, "grad_norm": 0.298828125, "learning_rate": 0.00029414467037068516, "loss": 0.4595, "step": 67380 }, { "epoch": 179.70666666666668, "grad_norm": 0.34765625, "learning_rate": 0.0002941429307041301, "loss": 0.459, "step": 67390 }, { "epoch": 179.73333333333332, "grad_norm": 0.33984375, "learning_rate": 0.00029414119078432474, "loss": 0.4788, "step": 67400 }, { "epoch": 179.76, "grad_norm": 0.291015625, "learning_rate": 0.0002941394506112723, "loss": 0.4799, "step": 67410 }, { "epoch": 179.78666666666666, "grad_norm": 0.337890625, "learning_rate": 0.00029413771018497575, "loss": 0.4783, "step": 67420 }, { "epoch": 179.81333333333333, "grad_norm": 0.328125, "learning_rate": 0.00029413596950543817, "loss": 0.4635, "step": 67430 }, { "epoch": 179.84, "grad_norm": 0.2373046875, "learning_rate": 0.0002941342285726626, "loss": 0.4694, "step": 67440 }, { "epoch": 179.86666666666667, "grad_norm": 0.28515625, "learning_rate": 0.0002941324873866521, "loss": 0.4689, "step": 67450 }, { "epoch": 179.89333333333335, "grad_norm": 0.36328125, "learning_rate": 0.0002941307459474097, "loss": 0.4593, "step": 67460 }, { "epoch": 179.92, "grad_norm": 0.36328125, "learning_rate": 0.00029412900425493854, "loss": 0.47, "step": 67470 }, { "epoch": 179.94666666666666, "grad_norm": 0.306640625, "learning_rate": 0.00029412726230924164, "loss": 0.4629, "step": 67480 }, { "epoch": 179.97333333333333, "grad_norm": 0.357421875, "learning_rate": 0.00029412552011032206, "loss": 0.4744, "step": 67490 }, { "epoch": 180.0, "grad_norm": 0.384765625, "learning_rate": 0.00029412377765818283, "loss": 0.463, "step": 67500 }, { "epoch": 180.0, "eval_loss": 0.47930899262428284, "eval_model_preparation_time": 0.0016, "eval_runtime": 11.2008, "eval_samples_per_second": 1.428, "eval_steps_per_second": 0.089, "step": 67500 }, { "epoch": 180.02666666666667, "grad_norm": 0.310546875, "learning_rate": 0.00029412203495282705, "loss": 0.4827, "step": 67510 }, { "epoch": 180.05333333333334, "grad_norm": 0.365234375, "learning_rate": 0.00029412029199425775, "loss": 0.4879, "step": 67520 }, { "epoch": 180.08, "grad_norm": 0.2734375, "learning_rate": 0.00029411854878247807, "loss": 0.4751, "step": 67530 }, { "epoch": 180.10666666666665, "grad_norm": 0.251953125, "learning_rate": 0.00029411680531749094, "loss": 0.471, "step": 67540 }, { "epoch": 180.13333333333333, "grad_norm": 0.279296875, "learning_rate": 0.00029411506159929957, "loss": 0.4723, "step": 67550 }, { "epoch": 180.16, "grad_norm": 0.3359375, "learning_rate": 0.00029411331762790687, "loss": 0.4764, "step": 67560 }, { "epoch": 180.18666666666667, "grad_norm": 0.333984375, "learning_rate": 0.00029411157340331604, "loss": 0.4692, "step": 67570 }, { "epoch": 180.21333333333334, "grad_norm": 0.470703125, "learning_rate": 0.0002941098289255301, "loss": 0.464, "step": 67580 }, { "epoch": 180.24, "grad_norm": 0.54296875, "learning_rate": 0.00029410808419455206, "loss": 0.4669, "step": 67590 }, { "epoch": 180.26666666666668, "grad_norm": 0.267578125, "learning_rate": 0.0002941063392103851, "loss": 0.472, "step": 67600 }, { "epoch": 180.29333333333332, "grad_norm": 0.24609375, "learning_rate": 0.00029410459397303216, "loss": 0.4662, "step": 67610 }, { "epoch": 180.32, "grad_norm": 0.2333984375, "learning_rate": 0.00029410284848249636, "loss": 0.4687, "step": 67620 }, { "epoch": 180.34666666666666, "grad_norm": 0.3203125, "learning_rate": 0.00029410110273878076, "loss": 0.4779, "step": 67630 }, { "epoch": 180.37333333333333, "grad_norm": 0.443359375, "learning_rate": 0.0002940993567418885, "loss": 0.4735, "step": 67640 }, { "epoch": 180.4, "grad_norm": 0.34375, "learning_rate": 0.00029409761049182257, "loss": 0.4704, "step": 67650 }, { "epoch": 180.42666666666668, "grad_norm": 0.296875, "learning_rate": 0.000294095863988586, "loss": 0.476, "step": 67660 }, { "epoch": 180.45333333333335, "grad_norm": 0.302734375, "learning_rate": 0.0002940941172321819, "loss": 0.4786, "step": 67670 }, { "epoch": 180.48, "grad_norm": 0.34765625, "learning_rate": 0.0002940923702226134, "loss": 0.4852, "step": 67680 }, { "epoch": 180.50666666666666, "grad_norm": 0.412109375, "learning_rate": 0.00029409062295988355, "loss": 0.4738, "step": 67690 }, { "epoch": 180.53333333333333, "grad_norm": 0.34375, "learning_rate": 0.0002940888754439953, "loss": 0.4675, "step": 67700 }, { "epoch": 180.56, "grad_norm": 0.380859375, "learning_rate": 0.0002940871276749519, "loss": 0.4694, "step": 67710 }, { "epoch": 180.58666666666667, "grad_norm": 0.353515625, "learning_rate": 0.0002940853796527563, "loss": 0.4653, "step": 67720 }, { "epoch": 180.61333333333334, "grad_norm": 0.255859375, "learning_rate": 0.00029408363137741156, "loss": 0.4516, "step": 67730 }, { "epoch": 180.64, "grad_norm": 0.322265625, "learning_rate": 0.0002940818828489208, "loss": 0.4566, "step": 67740 }, { "epoch": 180.66666666666666, "grad_norm": 0.388671875, "learning_rate": 0.0002940801340672871, "loss": 0.4704, "step": 67750 }, { "epoch": 180.69333333333333, "grad_norm": 0.4375, "learning_rate": 0.00029407838503251355, "loss": 0.4555, "step": 67760 }, { "epoch": 180.72, "grad_norm": 0.390625, "learning_rate": 0.00029407663574460317, "loss": 0.4713, "step": 67770 }, { "epoch": 180.74666666666667, "grad_norm": 0.302734375, "learning_rate": 0.000294074886203559, "loss": 0.4758, "step": 67780 }, { "epoch": 180.77333333333334, "grad_norm": 0.4765625, "learning_rate": 0.0002940731364093842, "loss": 0.4832, "step": 67790 }, { "epoch": 180.8, "grad_norm": 0.31640625, "learning_rate": 0.00029407138636208184, "loss": 0.4709, "step": 67800 }, { "epoch": 180.82666666666665, "grad_norm": 0.28515625, "learning_rate": 0.00029406963606165494, "loss": 0.4644, "step": 67810 }, { "epoch": 180.85333333333332, "grad_norm": 0.37109375, "learning_rate": 0.00029406788550810663, "loss": 0.4734, "step": 67820 }, { "epoch": 180.88, "grad_norm": 0.306640625, "learning_rate": 0.00029406613470143994, "loss": 0.4615, "step": 67830 }, { "epoch": 180.90666666666667, "grad_norm": 0.28125, "learning_rate": 0.00029406438364165796, "loss": 0.4643, "step": 67840 }, { "epoch": 180.93333333333334, "grad_norm": 0.2412109375, "learning_rate": 0.0002940626323287638, "loss": 0.4661, "step": 67850 }, { "epoch": 180.96, "grad_norm": 0.302734375, "learning_rate": 0.0002940608807627604, "loss": 0.4639, "step": 67860 }, { "epoch": 180.98666666666668, "grad_norm": 0.291015625, "learning_rate": 0.00029405912894365106, "loss": 0.4776, "step": 67870 }, { "epoch": 181.0, "eval_loss": 0.47777873277664185, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.7052, "eval_samples_per_second": 1.649, "eval_steps_per_second": 0.103, "step": 67875 }, { "epoch": 181.01333333333332, "grad_norm": 0.4140625, "learning_rate": 0.0002940573768714387, "loss": 0.4674, "step": 67880 }, { "epoch": 181.04, "grad_norm": 0.27734375, "learning_rate": 0.00029405562454612645, "loss": 0.4913, "step": 67890 }, { "epoch": 181.06666666666666, "grad_norm": 0.40625, "learning_rate": 0.00029405387196771734, "loss": 0.4786, "step": 67900 }, { "epoch": 181.09333333333333, "grad_norm": 0.3828125, "learning_rate": 0.00029405211913621456, "loss": 0.4739, "step": 67910 }, { "epoch": 181.12, "grad_norm": 0.31640625, "learning_rate": 0.00029405036605162105, "loss": 0.4692, "step": 67920 }, { "epoch": 181.14666666666668, "grad_norm": 0.39453125, "learning_rate": 0.00029404861271394, "loss": 0.4791, "step": 67930 }, { "epoch": 181.17333333333335, "grad_norm": 0.337890625, "learning_rate": 0.0002940468591231744, "loss": 0.4696, "step": 67940 }, { "epoch": 181.2, "grad_norm": 0.28125, "learning_rate": 0.00029404510527932746, "loss": 0.4676, "step": 67950 }, { "epoch": 181.22666666666666, "grad_norm": 0.4453125, "learning_rate": 0.0002940433511824021, "loss": 0.4649, "step": 67960 }, { "epoch": 181.25333333333333, "grad_norm": 0.419921875, "learning_rate": 0.0002940415968324015, "loss": 0.4652, "step": 67970 }, { "epoch": 181.28, "grad_norm": 0.404296875, "learning_rate": 0.00029403984222932877, "loss": 0.4789, "step": 67980 }, { "epoch": 181.30666666666667, "grad_norm": 0.345703125, "learning_rate": 0.0002940380873731869, "loss": 0.46, "step": 67990 }, { "epoch": 181.33333333333334, "grad_norm": 0.3125, "learning_rate": 0.00029403633226397904, "loss": 0.4756, "step": 68000 }, { "epoch": 181.36, "grad_norm": 0.28125, "learning_rate": 0.00029403457690170825, "loss": 0.4767, "step": 68010 }, { "epoch": 181.38666666666666, "grad_norm": 0.26953125, "learning_rate": 0.0002940328212863776, "loss": 0.4687, "step": 68020 }, { "epoch": 181.41333333333333, "grad_norm": 0.28125, "learning_rate": 0.00029403106541799024, "loss": 0.4728, "step": 68030 }, { "epoch": 181.44, "grad_norm": 0.318359375, "learning_rate": 0.00029402930929654916, "loss": 0.4755, "step": 68040 }, { "epoch": 181.46666666666667, "grad_norm": 0.458984375, "learning_rate": 0.0002940275529220575, "loss": 0.4852, "step": 68050 }, { "epoch": 181.49333333333334, "grad_norm": 0.326171875, "learning_rate": 0.0002940257962945184, "loss": 0.4768, "step": 68060 }, { "epoch": 181.52, "grad_norm": 0.2353515625, "learning_rate": 0.00029402403941393483, "loss": 0.4711, "step": 68070 }, { "epoch": 181.54666666666665, "grad_norm": 0.34765625, "learning_rate": 0.0002940222822803099, "loss": 0.4682, "step": 68080 }, { "epoch": 181.57333333333332, "grad_norm": 0.234375, "learning_rate": 0.00029402052489364676, "loss": 0.4674, "step": 68090 }, { "epoch": 181.6, "grad_norm": 0.30078125, "learning_rate": 0.0002940187672539485, "loss": 0.4607, "step": 68100 }, { "epoch": 181.62666666666667, "grad_norm": 0.337890625, "learning_rate": 0.00029401700936121817, "loss": 0.4478, "step": 68110 }, { "epoch": 181.65333333333334, "grad_norm": 0.328125, "learning_rate": 0.0002940152512154588, "loss": 0.4679, "step": 68120 }, { "epoch": 181.68, "grad_norm": 0.31640625, "learning_rate": 0.00029401349281667357, "loss": 0.459, "step": 68130 }, { "epoch": 181.70666666666668, "grad_norm": 0.35546875, "learning_rate": 0.00029401173416486557, "loss": 0.4594, "step": 68140 }, { "epoch": 181.73333333333332, "grad_norm": 0.380859375, "learning_rate": 0.00029400997526003784, "loss": 0.4781, "step": 68150 }, { "epoch": 181.76, "grad_norm": 0.478515625, "learning_rate": 0.0002940082161021935, "loss": 0.4795, "step": 68160 }, { "epoch": 181.78666666666666, "grad_norm": 0.29296875, "learning_rate": 0.00029400645669133566, "loss": 0.4785, "step": 68170 }, { "epoch": 181.81333333333333, "grad_norm": 0.330078125, "learning_rate": 0.0002940046970274673, "loss": 0.4639, "step": 68180 }, { "epoch": 181.84, "grad_norm": 0.326171875, "learning_rate": 0.00029400293711059173, "loss": 0.469, "step": 68190 }, { "epoch": 181.86666666666667, "grad_norm": 0.341796875, "learning_rate": 0.0002940011769407118, "loss": 0.4687, "step": 68200 }, { "epoch": 181.89333333333335, "grad_norm": 0.279296875, "learning_rate": 0.0002939994165178307, "loss": 0.4592, "step": 68210 }, { "epoch": 181.92, "grad_norm": 0.357421875, "learning_rate": 0.0002939976558419516, "loss": 0.4701, "step": 68220 }, { "epoch": 181.94666666666666, "grad_norm": 0.330078125, "learning_rate": 0.00029399589491307753, "loss": 0.4629, "step": 68230 }, { "epoch": 181.97333333333333, "grad_norm": 0.322265625, "learning_rate": 0.0002939941337312115, "loss": 0.4745, "step": 68240 }, { "epoch": 182.0, "grad_norm": 0.396484375, "learning_rate": 0.00029399237229635675, "loss": 0.4629, "step": 68250 }, { "epoch": 182.0, "eval_loss": 0.4777792990207672, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.8783, "eval_samples_per_second": 1.62, "eval_steps_per_second": 0.101, "step": 68250 }, { "epoch": 182.02666666666667, "grad_norm": 0.298828125, "learning_rate": 0.0002939906106085163, "loss": 0.4823, "step": 68260 }, { "epoch": 182.05333333333334, "grad_norm": 0.32421875, "learning_rate": 0.0002939888486676932, "loss": 0.4881, "step": 68270 }, { "epoch": 182.08, "grad_norm": 0.296875, "learning_rate": 0.00029398708647389066, "loss": 0.4751, "step": 68280 }, { "epoch": 182.10666666666665, "grad_norm": 0.25, "learning_rate": 0.0002939853240271117, "loss": 0.4704, "step": 68290 }, { "epoch": 182.13333333333333, "grad_norm": 0.302734375, "learning_rate": 0.0002939835613273594, "loss": 0.4724, "step": 68300 }, { "epoch": 182.16, "grad_norm": 0.369140625, "learning_rate": 0.000293981798374637, "loss": 0.4764, "step": 68310 }, { "epoch": 182.18666666666667, "grad_norm": 0.34765625, "learning_rate": 0.0002939800351689474, "loss": 0.4693, "step": 68320 }, { "epoch": 182.21333333333334, "grad_norm": 0.359375, "learning_rate": 0.0002939782717102938, "loss": 0.4633, "step": 68330 }, { "epoch": 182.24, "grad_norm": 0.328125, "learning_rate": 0.00029397650799867925, "loss": 0.4672, "step": 68340 }, { "epoch": 182.26666666666668, "grad_norm": 0.2265625, "learning_rate": 0.0002939747440341069, "loss": 0.471, "step": 68350 }, { "epoch": 182.29333333333332, "grad_norm": 0.306640625, "learning_rate": 0.00029397297981657985, "loss": 0.4657, "step": 68360 }, { "epoch": 182.32, "grad_norm": 0.326171875, "learning_rate": 0.0002939712153461012, "loss": 0.4686, "step": 68370 }, { "epoch": 182.34666666666666, "grad_norm": 0.349609375, "learning_rate": 0.000293969450622674, "loss": 0.4774, "step": 68380 }, { "epoch": 182.37333333333333, "grad_norm": 0.44140625, "learning_rate": 0.00029396768564630136, "loss": 0.4727, "step": 68390 }, { "epoch": 182.4, "grad_norm": 0.3203125, "learning_rate": 0.0002939659204169864, "loss": 0.4698, "step": 68400 }, { "epoch": 182.42666666666668, "grad_norm": 0.359375, "learning_rate": 0.0002939641549347322, "loss": 0.476, "step": 68410 }, { "epoch": 182.45333333333335, "grad_norm": 0.4140625, "learning_rate": 0.000293962389199542, "loss": 0.4782, "step": 68420 }, { "epoch": 182.48, "grad_norm": 0.609375, "learning_rate": 0.00029396062321141873, "loss": 0.4842, "step": 68430 }, { "epoch": 182.50666666666666, "grad_norm": 0.287109375, "learning_rate": 0.0002939588569703655, "loss": 0.4744, "step": 68440 }, { "epoch": 182.53333333333333, "grad_norm": 0.267578125, "learning_rate": 0.0002939570904763855, "loss": 0.4671, "step": 68450 }, { "epoch": 182.56, "grad_norm": 0.345703125, "learning_rate": 0.00029395532372948185, "loss": 0.4696, "step": 68460 }, { "epoch": 182.58666666666667, "grad_norm": 0.287109375, "learning_rate": 0.00029395355672965756, "loss": 0.4644, "step": 68470 }, { "epoch": 182.61333333333334, "grad_norm": 0.3125, "learning_rate": 0.00029395178947691573, "loss": 0.4512, "step": 68480 }, { "epoch": 182.64, "grad_norm": 0.33984375, "learning_rate": 0.00029395002197125957, "loss": 0.456, "step": 68490 }, { "epoch": 182.66666666666666, "grad_norm": 0.328125, "learning_rate": 0.0002939482542126921, "loss": 0.4707, "step": 68500 }, { "epoch": 182.69333333333333, "grad_norm": 0.37890625, "learning_rate": 0.00029394648620121645, "loss": 0.4547, "step": 68510 }, { "epoch": 182.72, "grad_norm": 0.287109375, "learning_rate": 0.0002939447179368357, "loss": 0.4712, "step": 68520 }, { "epoch": 182.74666666666667, "grad_norm": 0.298828125, "learning_rate": 0.000293942949419553, "loss": 0.4757, "step": 68530 }, { "epoch": 182.77333333333334, "grad_norm": 0.484375, "learning_rate": 0.00029394118064937153, "loss": 0.4827, "step": 68540 }, { "epoch": 182.8, "grad_norm": 0.494140625, "learning_rate": 0.0002939394116262942, "loss": 0.4701, "step": 68550 }, { "epoch": 182.82666666666665, "grad_norm": 0.298828125, "learning_rate": 0.0002939376423503243, "loss": 0.4647, "step": 68560 }, { "epoch": 182.85333333333332, "grad_norm": 0.330078125, "learning_rate": 0.00029393587282146484, "loss": 0.4732, "step": 68570 }, { "epoch": 182.88, "grad_norm": 0.267578125, "learning_rate": 0.00029393410303971894, "loss": 0.4617, "step": 68580 }, { "epoch": 182.90666666666667, "grad_norm": 0.375, "learning_rate": 0.0002939323330050897, "loss": 0.4646, "step": 68590 }, { "epoch": 182.93333333333334, "grad_norm": 0.3515625, "learning_rate": 0.0002939305627175803, "loss": 0.4658, "step": 68600 }, { "epoch": 182.96, "grad_norm": 0.404296875, "learning_rate": 0.0002939287921771938, "loss": 0.4648, "step": 68610 }, { "epoch": 182.98666666666668, "grad_norm": 0.41015625, "learning_rate": 0.00029392702138393334, "loss": 0.478, "step": 68620 }, { "epoch": 183.0, "eval_loss": 0.47816112637519836, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.7955, "eval_samples_per_second": 1.633, "eval_steps_per_second": 0.102, "step": 68625 }, { "epoch": 183.01333333333332, "grad_norm": 0.37890625, "learning_rate": 0.000293925250337802, "loss": 0.4666, "step": 68630 }, { "epoch": 183.04, "grad_norm": 0.375, "learning_rate": 0.00029392347903880285, "loss": 0.4909, "step": 68640 }, { "epoch": 183.06666666666666, "grad_norm": 0.3359375, "learning_rate": 0.00029392170748693904, "loss": 0.4787, "step": 68650 }, { "epoch": 183.09333333333333, "grad_norm": 0.306640625, "learning_rate": 0.00029391993568221375, "loss": 0.4737, "step": 68660 }, { "epoch": 183.12, "grad_norm": 0.3125, "learning_rate": 0.00029391816362463, "loss": 0.4694, "step": 68670 }, { "epoch": 183.14666666666668, "grad_norm": 0.3046875, "learning_rate": 0.0002939163913141909, "loss": 0.4784, "step": 68680 }, { "epoch": 183.17333333333335, "grad_norm": 0.310546875, "learning_rate": 0.00029391461875089974, "loss": 0.4691, "step": 68690 }, { "epoch": 183.2, "grad_norm": 0.3515625, "learning_rate": 0.0002939128459347594, "loss": 0.4679, "step": 68700 }, { "epoch": 183.22666666666666, "grad_norm": 0.396484375, "learning_rate": 0.0002939110728657731, "loss": 0.4647, "step": 68710 }, { "epoch": 183.25333333333333, "grad_norm": 0.32421875, "learning_rate": 0.0002939092995439439, "loss": 0.4651, "step": 68720 }, { "epoch": 183.28, "grad_norm": 0.349609375, "learning_rate": 0.000293907525969275, "loss": 0.4786, "step": 68730 }, { "epoch": 183.30666666666667, "grad_norm": 0.326171875, "learning_rate": 0.00029390575214176956, "loss": 0.4599, "step": 68740 }, { "epoch": 183.33333333333334, "grad_norm": 0.322265625, "learning_rate": 0.0002939039780614305, "loss": 0.4749, "step": 68750 }, { "epoch": 183.36, "grad_norm": 0.2890625, "learning_rate": 0.0002939022037282611, "loss": 0.4769, "step": 68760 }, { "epoch": 183.38666666666666, "grad_norm": 0.341796875, "learning_rate": 0.00029390042914226446, "loss": 0.4688, "step": 68770 }, { "epoch": 183.41333333333333, "grad_norm": 0.484375, "learning_rate": 0.00029389865430344363, "loss": 0.4731, "step": 68780 }, { "epoch": 183.44, "grad_norm": 0.265625, "learning_rate": 0.00029389687921180176, "loss": 0.476, "step": 68790 }, { "epoch": 183.46666666666667, "grad_norm": 0.380859375, "learning_rate": 0.000293895103867342, "loss": 0.4856, "step": 68800 }, { "epoch": 183.49333333333334, "grad_norm": 0.373046875, "learning_rate": 0.0002938933282700674, "loss": 0.4773, "step": 68810 }, { "epoch": 183.52, "grad_norm": 0.29296875, "learning_rate": 0.0002938915524199812, "loss": 0.4721, "step": 68820 }, { "epoch": 183.54666666666665, "grad_norm": 0.6328125, "learning_rate": 0.0002938897763170864, "loss": 0.4679, "step": 68830 }, { "epoch": 183.57333333333332, "grad_norm": 0.3828125, "learning_rate": 0.0002938879999613861, "loss": 0.4679, "step": 68840 }, { "epoch": 183.6, "grad_norm": 0.33984375, "learning_rate": 0.0002938862233528836, "loss": 0.4613, "step": 68850 }, { "epoch": 183.62666666666667, "grad_norm": 0.2041015625, "learning_rate": 0.00029388444649158183, "loss": 0.4487, "step": 68860 }, { "epoch": 183.65333333333334, "grad_norm": 0.41796875, "learning_rate": 0.00029388266937748403, "loss": 0.4679, "step": 68870 }, { "epoch": 183.68, "grad_norm": 0.310546875, "learning_rate": 0.00029388089201059326, "loss": 0.4594, "step": 68880 }, { "epoch": 183.70666666666668, "grad_norm": 0.38671875, "learning_rate": 0.00029387911439091263, "loss": 0.4592, "step": 68890 }, { "epoch": 183.73333333333332, "grad_norm": 0.298828125, "learning_rate": 0.00029387733651844533, "loss": 0.4783, "step": 68900 }, { "epoch": 183.76, "grad_norm": 0.33203125, "learning_rate": 0.0002938755583931945, "loss": 0.4797, "step": 68910 }, { "epoch": 183.78666666666666, "grad_norm": 0.5078125, "learning_rate": 0.00029387378001516313, "loss": 0.4785, "step": 68920 }, { "epoch": 183.81333333333333, "grad_norm": 0.515625, "learning_rate": 0.00029387200138435447, "loss": 0.464, "step": 68930 }, { "epoch": 183.84, "grad_norm": 0.44921875, "learning_rate": 0.0002938702225007716, "loss": 0.4696, "step": 68940 }, { "epoch": 183.86666666666667, "grad_norm": 0.359375, "learning_rate": 0.00029386844336441763, "loss": 0.4687, "step": 68950 }, { "epoch": 183.89333333333335, "grad_norm": 0.455078125, "learning_rate": 0.00029386666397529575, "loss": 0.4593, "step": 68960 }, { "epoch": 183.92, "grad_norm": 0.3515625, "learning_rate": 0.000293864884333409, "loss": 0.4704, "step": 68970 }, { "epoch": 183.94666666666666, "grad_norm": 0.259765625, "learning_rate": 0.0002938631044387606, "loss": 0.4625, "step": 68980 }, { "epoch": 183.97333333333333, "grad_norm": 0.251953125, "learning_rate": 0.00029386132429135356, "loss": 0.4744, "step": 68990 }, { "epoch": 184.0, "grad_norm": 0.318359375, "learning_rate": 0.0002938595438911911, "loss": 0.4631, "step": 69000 }, { "epoch": 184.0, "eval_loss": 0.47846052050590515, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.162, "eval_samples_per_second": 1.574, "eval_steps_per_second": 0.098, "step": 69000 }, { "epoch": 184.02666666666667, "grad_norm": 0.357421875, "learning_rate": 0.00029385776323827625, "loss": 0.4831, "step": 69010 }, { "epoch": 184.05333333333334, "grad_norm": 0.2412109375, "learning_rate": 0.0002938559823326123, "loss": 0.4893, "step": 69020 }, { "epoch": 184.08, "grad_norm": 0.267578125, "learning_rate": 0.00029385420117420227, "loss": 0.4752, "step": 69030 }, { "epoch": 184.10666666666665, "grad_norm": 0.3515625, "learning_rate": 0.00029385241976304934, "loss": 0.4707, "step": 69040 }, { "epoch": 184.13333333333333, "grad_norm": 0.3984375, "learning_rate": 0.00029385063809915654, "loss": 0.4719, "step": 69050 }, { "epoch": 184.16, "grad_norm": 0.328125, "learning_rate": 0.0002938488561825271, "loss": 0.4767, "step": 69060 }, { "epoch": 184.18666666666667, "grad_norm": 0.251953125, "learning_rate": 0.0002938470740131641, "loss": 0.4691, "step": 69070 }, { "epoch": 184.21333333333334, "grad_norm": 0.39453125, "learning_rate": 0.0002938452915910707, "loss": 0.4635, "step": 69080 }, { "epoch": 184.24, "grad_norm": 0.298828125, "learning_rate": 0.00029384350891625003, "loss": 0.4677, "step": 69090 }, { "epoch": 184.26666666666668, "grad_norm": 0.318359375, "learning_rate": 0.0002938417259887052, "loss": 0.4719, "step": 69100 }, { "epoch": 184.29333333333332, "grad_norm": 0.365234375, "learning_rate": 0.00029383994280843934, "loss": 0.4656, "step": 69110 }, { "epoch": 184.32, "grad_norm": 0.283203125, "learning_rate": 0.00029383815937545564, "loss": 0.4689, "step": 69120 }, { "epoch": 184.34666666666666, "grad_norm": 0.369140625, "learning_rate": 0.00029383637568975715, "loss": 0.4769, "step": 69130 }, { "epoch": 184.37333333333333, "grad_norm": 0.3359375, "learning_rate": 0.00029383459175134707, "loss": 0.4733, "step": 69140 }, { "epoch": 184.4, "grad_norm": 0.294921875, "learning_rate": 0.0002938328075602285, "loss": 0.4699, "step": 69150 }, { "epoch": 184.42666666666668, "grad_norm": 0.466796875, "learning_rate": 0.0002938310231164046, "loss": 0.4758, "step": 69160 }, { "epoch": 184.45333333333335, "grad_norm": 0.35546875, "learning_rate": 0.00029382923841987847, "loss": 0.4782, "step": 69170 }, { "epoch": 184.48, "grad_norm": 0.3203125, "learning_rate": 0.00029382745347065326, "loss": 0.4844, "step": 69180 }, { "epoch": 184.50666666666666, "grad_norm": 0.35546875, "learning_rate": 0.0002938256682687322, "loss": 0.4743, "step": 69190 }, { "epoch": 184.53333333333333, "grad_norm": 0.255859375, "learning_rate": 0.0002938238828141182, "loss": 0.4676, "step": 69200 }, { "epoch": 184.56, "grad_norm": 0.3671875, "learning_rate": 0.00029382209710681457, "loss": 0.4692, "step": 69210 }, { "epoch": 184.58666666666667, "grad_norm": 0.333984375, "learning_rate": 0.0002938203111468245, "loss": 0.4645, "step": 69220 }, { "epoch": 184.61333333333334, "grad_norm": 0.267578125, "learning_rate": 0.00029381852493415094, "loss": 0.4509, "step": 69230 }, { "epoch": 184.64, "grad_norm": 0.2333984375, "learning_rate": 0.0002938167384687972, "loss": 0.4557, "step": 69240 }, { "epoch": 184.66666666666666, "grad_norm": 0.330078125, "learning_rate": 0.0002938149517507663, "loss": 0.4717, "step": 69250 }, { "epoch": 184.69333333333333, "grad_norm": 0.376953125, "learning_rate": 0.0002938131647800614, "loss": 0.4543, "step": 69260 }, { "epoch": 184.72, "grad_norm": 0.35546875, "learning_rate": 0.00029381137755668573, "loss": 0.4713, "step": 69270 }, { "epoch": 184.74666666666667, "grad_norm": 0.2353515625, "learning_rate": 0.00029380959008064235, "loss": 0.4758, "step": 69280 }, { "epoch": 184.77333333333334, "grad_norm": 0.47265625, "learning_rate": 0.0002938078023519344, "loss": 0.4827, "step": 69290 }, { "epoch": 184.8, "grad_norm": 0.302734375, "learning_rate": 0.0002938060143705651, "loss": 0.4702, "step": 69300 }, { "epoch": 184.82666666666665, "grad_norm": 0.36328125, "learning_rate": 0.00029380422613653744, "loss": 0.4647, "step": 69310 }, { "epoch": 184.85333333333332, "grad_norm": 0.28125, "learning_rate": 0.0002938024376498547, "loss": 0.4733, "step": 69320 }, { "epoch": 184.88, "grad_norm": 0.41015625, "learning_rate": 0.0002938006489105199, "loss": 0.4616, "step": 69330 }, { "epoch": 184.90666666666667, "grad_norm": 0.376953125, "learning_rate": 0.00029379885991853634, "loss": 0.4641, "step": 69340 }, { "epoch": 184.93333333333334, "grad_norm": 0.294921875, "learning_rate": 0.00029379707067390704, "loss": 0.4656, "step": 69350 }, { "epoch": 184.96, "grad_norm": 0.298828125, "learning_rate": 0.0002937952811766352, "loss": 0.4643, "step": 69360 }, { "epoch": 184.98666666666668, "grad_norm": 0.361328125, "learning_rate": 0.00029379349142672395, "loss": 0.4784, "step": 69370 }, { "epoch": 185.0, "eval_loss": 0.47779580950737, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.7285, "eval_samples_per_second": 1.491, "eval_steps_per_second": 0.093, "step": 69375 }, { "epoch": 185.01333333333332, "grad_norm": 0.326171875, "learning_rate": 0.0002937917014241764, "loss": 0.4669, "step": 69380 }, { "epoch": 185.04, "grad_norm": 0.30078125, "learning_rate": 0.00029378991116899575, "loss": 0.491, "step": 69390 }, { "epoch": 185.06666666666666, "grad_norm": 0.46875, "learning_rate": 0.0002937881206611851, "loss": 0.4783, "step": 69400 }, { "epoch": 185.09333333333333, "grad_norm": 0.29296875, "learning_rate": 0.0002937863299007477, "loss": 0.4734, "step": 69410 }, { "epoch": 185.12, "grad_norm": 0.251953125, "learning_rate": 0.0002937845388876865, "loss": 0.4696, "step": 69420 }, { "epoch": 185.14666666666668, "grad_norm": 0.33203125, "learning_rate": 0.0002937827476220048, "loss": 0.4788, "step": 69430 }, { "epoch": 185.17333333333335, "grad_norm": 0.341796875, "learning_rate": 0.00029378095610370575, "loss": 0.4688, "step": 69440 }, { "epoch": 185.2, "grad_norm": 0.306640625, "learning_rate": 0.0002937791643327924, "loss": 0.4681, "step": 69450 }, { "epoch": 185.22666666666666, "grad_norm": 0.302734375, "learning_rate": 0.00029377737230926795, "loss": 0.4648, "step": 69460 }, { "epoch": 185.25333333333333, "grad_norm": 0.28125, "learning_rate": 0.00029377558003313553, "loss": 0.4652, "step": 69470 }, { "epoch": 185.28, "grad_norm": 0.369140625, "learning_rate": 0.0002937737875043984, "loss": 0.4791, "step": 69480 }, { "epoch": 185.30666666666667, "grad_norm": 0.328125, "learning_rate": 0.0002937719947230596, "loss": 0.4597, "step": 69490 }, { "epoch": 185.33333333333334, "grad_norm": 0.31640625, "learning_rate": 0.0002937702016891222, "loss": 0.4753, "step": 69500 }, { "epoch": 185.36, "grad_norm": 0.294921875, "learning_rate": 0.00029376840840258955, "loss": 0.4766, "step": 69510 }, { "epoch": 185.38666666666666, "grad_norm": 0.318359375, "learning_rate": 0.00029376661486346466, "loss": 0.4689, "step": 69520 }, { "epoch": 185.41333333333333, "grad_norm": 0.263671875, "learning_rate": 0.0002937648210717507, "loss": 0.4728, "step": 69530 }, { "epoch": 185.44, "grad_norm": 0.2578125, "learning_rate": 0.0002937630270274509, "loss": 0.476, "step": 69540 }, { "epoch": 185.46666666666667, "grad_norm": 0.31640625, "learning_rate": 0.0002937612327305683, "loss": 0.4857, "step": 69550 }, { "epoch": 185.49333333333334, "grad_norm": 0.376953125, "learning_rate": 0.00029375943818110614, "loss": 0.477, "step": 69560 }, { "epoch": 185.52, "grad_norm": 0.376953125, "learning_rate": 0.00029375764337906754, "loss": 0.4717, "step": 69570 }, { "epoch": 185.54666666666665, "grad_norm": 0.345703125, "learning_rate": 0.00029375584832445564, "loss": 0.4686, "step": 69580 }, { "epoch": 185.57333333333332, "grad_norm": 0.345703125, "learning_rate": 0.0002937540530172736, "loss": 0.4677, "step": 69590 }, { "epoch": 185.6, "grad_norm": 0.376953125, "learning_rate": 0.0002937522574575246, "loss": 0.4605, "step": 69600 }, { "epoch": 185.62666666666667, "grad_norm": 0.419921875, "learning_rate": 0.00029375046164521176, "loss": 0.4481, "step": 69610 }, { "epoch": 185.65333333333334, "grad_norm": 0.33984375, "learning_rate": 0.0002937486655803382, "loss": 0.468, "step": 69620 }, { "epoch": 185.68, "grad_norm": 0.32421875, "learning_rate": 0.0002937468692629072, "loss": 0.4587, "step": 69630 }, { "epoch": 185.70666666666668, "grad_norm": 0.34765625, "learning_rate": 0.0002937450726929218, "loss": 0.4594, "step": 69640 }, { "epoch": 185.73333333333332, "grad_norm": 0.375, "learning_rate": 0.0002937432758703853, "loss": 0.4789, "step": 69650 }, { "epoch": 185.76, "grad_norm": 0.404296875, "learning_rate": 0.0002937414787953007, "loss": 0.4802, "step": 69660 }, { "epoch": 185.78666666666666, "grad_norm": 0.34375, "learning_rate": 0.00029373968146767114, "loss": 0.478, "step": 69670 }, { "epoch": 185.81333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029373788388749995, "loss": 0.464, "step": 69680 }, { "epoch": 185.84, "grad_norm": 0.349609375, "learning_rate": 0.00029373608605479015, "loss": 0.4693, "step": 69690 }, { "epoch": 185.86666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002937342879695449, "loss": 0.4685, "step": 69700 }, { "epoch": 185.89333333333335, "grad_norm": 0.28515625, "learning_rate": 0.0002937324896317674, "loss": 0.4595, "step": 69710 }, { "epoch": 185.92, "grad_norm": 0.3125, "learning_rate": 0.0002937306910414609, "loss": 0.4701, "step": 69720 }, { "epoch": 185.94666666666666, "grad_norm": 0.330078125, "learning_rate": 0.0002937288921986284, "loss": 0.4626, "step": 69730 }, { "epoch": 185.97333333333333, "grad_norm": 0.37109375, "learning_rate": 0.0002937270931032731, "loss": 0.4744, "step": 69740 }, { "epoch": 186.0, "grad_norm": 0.310546875, "learning_rate": 0.00029372529375539826, "loss": 0.463, "step": 69750 }, { "epoch": 186.0, "eval_loss": 0.47842052578926086, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.8196, "eval_samples_per_second": 1.629, "eval_steps_per_second": 0.102, "step": 69750 }, { "epoch": 186.02666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002937234941550069, "loss": 0.4828, "step": 69760 }, { "epoch": 186.05333333333334, "grad_norm": 0.310546875, "learning_rate": 0.0002937216943021023, "loss": 0.4886, "step": 69770 }, { "epoch": 186.08, "grad_norm": 0.40234375, "learning_rate": 0.00029371989419668757, "loss": 0.476, "step": 69780 }, { "epoch": 186.10666666666665, "grad_norm": 0.33984375, "learning_rate": 0.00029371809383876585, "loss": 0.4705, "step": 69790 }, { "epoch": 186.13333333333333, "grad_norm": 0.35546875, "learning_rate": 0.00029371629322834034, "loss": 0.4727, "step": 69800 }, { "epoch": 186.16, "grad_norm": 0.36328125, "learning_rate": 0.0002937144923654142, "loss": 0.4761, "step": 69810 }, { "epoch": 186.18666666666667, "grad_norm": 0.32421875, "learning_rate": 0.0002937126912499906, "loss": 0.4683, "step": 69820 }, { "epoch": 186.21333333333334, "grad_norm": 0.328125, "learning_rate": 0.00029371088988207263, "loss": 0.4634, "step": 69830 }, { "epoch": 186.24, "grad_norm": 0.353515625, "learning_rate": 0.00029370908826166357, "loss": 0.4675, "step": 69840 }, { "epoch": 186.26666666666668, "grad_norm": 0.2890625, "learning_rate": 0.00029370728638876653, "loss": 0.4717, "step": 69850 }, { "epoch": 186.29333333333332, "grad_norm": 0.376953125, "learning_rate": 0.0002937054842633847, "loss": 0.4655, "step": 69860 }, { "epoch": 186.32, "grad_norm": 0.310546875, "learning_rate": 0.00029370368188552117, "loss": 0.4687, "step": 69870 }, { "epoch": 186.34666666666666, "grad_norm": 0.314453125, "learning_rate": 0.0002937018792551792, "loss": 0.4771, "step": 69880 }, { "epoch": 186.37333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029370007637236187, "loss": 0.4733, "step": 69890 }, { "epoch": 186.4, "grad_norm": 0.314453125, "learning_rate": 0.0002936982732370724, "loss": 0.4699, "step": 69900 }, { "epoch": 186.42666666666668, "grad_norm": 0.330078125, "learning_rate": 0.00029369646984931405, "loss": 0.4758, "step": 69910 }, { "epoch": 186.45333333333335, "grad_norm": 0.341796875, "learning_rate": 0.0002936946662090898, "loss": 0.4779, "step": 69920 }, { "epoch": 186.48, "grad_norm": 0.322265625, "learning_rate": 0.0002936928623164029, "loss": 0.4843, "step": 69930 }, { "epoch": 186.50666666666666, "grad_norm": 0.482421875, "learning_rate": 0.00029369105817125655, "loss": 0.4745, "step": 69940 }, { "epoch": 186.53333333333333, "grad_norm": 0.333984375, "learning_rate": 0.0002936892537736539, "loss": 0.4679, "step": 69950 }, { "epoch": 186.56, "grad_norm": 0.255859375, "learning_rate": 0.00029368744912359817, "loss": 0.4693, "step": 69960 }, { "epoch": 186.58666666666667, "grad_norm": 0.271484375, "learning_rate": 0.00029368564422109245, "loss": 0.465, "step": 69970 }, { "epoch": 186.61333333333334, "grad_norm": 0.314453125, "learning_rate": 0.0002936838390661399, "loss": 0.4512, "step": 69980 }, { "epoch": 186.64, "grad_norm": 0.3359375, "learning_rate": 0.00029368203365874373, "loss": 0.456, "step": 69990 }, { "epoch": 186.66666666666666, "grad_norm": 0.3046875, "learning_rate": 0.0002936802279989072, "loss": 0.4711, "step": 70000 }, { "epoch": 186.69333333333333, "grad_norm": 0.2734375, "learning_rate": 0.0002936784220866333, "loss": 0.4541, "step": 70010 }, { "epoch": 186.72, "grad_norm": 0.39453125, "learning_rate": 0.00029367661592192537, "loss": 0.471, "step": 70020 }, { "epoch": 186.74666666666667, "grad_norm": 0.287109375, "learning_rate": 0.0002936748095047865, "loss": 0.4752, "step": 70030 }, { "epoch": 186.77333333333334, "grad_norm": 0.373046875, "learning_rate": 0.00029367300283521984, "loss": 0.4829, "step": 70040 }, { "epoch": 186.8, "grad_norm": 0.494140625, "learning_rate": 0.00029367119591322863, "loss": 0.4707, "step": 70050 }, { "epoch": 186.82666666666665, "grad_norm": 0.39453125, "learning_rate": 0.000293669388738816, "loss": 0.4642, "step": 70060 }, { "epoch": 186.85333333333332, "grad_norm": 0.34765625, "learning_rate": 0.00029366758131198515, "loss": 0.4735, "step": 70070 }, { "epoch": 186.88, "grad_norm": 0.33984375, "learning_rate": 0.0002936657736327393, "loss": 0.4614, "step": 70080 }, { "epoch": 186.90666666666667, "grad_norm": 0.3359375, "learning_rate": 0.0002936639657010815, "loss": 0.4648, "step": 70090 }, { "epoch": 186.93333333333334, "grad_norm": 0.2578125, "learning_rate": 0.00029366215751701504, "loss": 0.4664, "step": 70100 }, { "epoch": 186.96, "grad_norm": 0.4609375, "learning_rate": 0.000293660349080543, "loss": 0.4638, "step": 70110 }, { "epoch": 186.98666666666668, "grad_norm": 0.318359375, "learning_rate": 0.00029365854039166867, "loss": 0.4775, "step": 70120 }, { "epoch": 187.0, "eval_loss": 0.4807330071926117, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.6059, "eval_samples_per_second": 1.509, "eval_steps_per_second": 0.094, "step": 70125 }, { "epoch": 187.01333333333332, "grad_norm": 0.423828125, "learning_rate": 0.00029365673145039515, "loss": 0.4674, "step": 70130 }, { "epoch": 187.04, "grad_norm": 0.248046875, "learning_rate": 0.00029365492225672565, "loss": 0.4909, "step": 70140 }, { "epoch": 187.06666666666666, "grad_norm": 0.3671875, "learning_rate": 0.0002936531128106633, "loss": 0.4785, "step": 70150 }, { "epoch": 187.09333333333333, "grad_norm": 0.384765625, "learning_rate": 0.00029365130311221135, "loss": 0.4726, "step": 70160 }, { "epoch": 187.12, "grad_norm": 0.294921875, "learning_rate": 0.00029364949316137295, "loss": 0.4699, "step": 70170 }, { "epoch": 187.14666666666668, "grad_norm": 0.392578125, "learning_rate": 0.0002936476829581513, "loss": 0.4781, "step": 70180 }, { "epoch": 187.17333333333335, "grad_norm": 0.291015625, "learning_rate": 0.0002936458725025495, "loss": 0.4691, "step": 70190 }, { "epoch": 187.2, "grad_norm": 0.279296875, "learning_rate": 0.00029364406179457084, "loss": 0.4671, "step": 70200 }, { "epoch": 187.22666666666666, "grad_norm": 0.419921875, "learning_rate": 0.0002936422508342184, "loss": 0.4652, "step": 70210 }, { "epoch": 187.25333333333333, "grad_norm": 0.31640625, "learning_rate": 0.00029364043962149547, "loss": 0.4648, "step": 70220 }, { "epoch": 187.28, "grad_norm": 0.416015625, "learning_rate": 0.00029363862815640513, "loss": 0.4785, "step": 70230 }, { "epoch": 187.30666666666667, "grad_norm": 0.314453125, "learning_rate": 0.00029363681643895063, "loss": 0.4594, "step": 70240 }, { "epoch": 187.33333333333334, "grad_norm": 0.349609375, "learning_rate": 0.0002936350044691351, "loss": 0.4751, "step": 70250 }, { "epoch": 187.36, "grad_norm": 0.302734375, "learning_rate": 0.0002936331922469618, "loss": 0.4773, "step": 70260 }, { "epoch": 187.38666666666666, "grad_norm": 0.416015625, "learning_rate": 0.0002936313797724338, "loss": 0.4689, "step": 70270 }, { "epoch": 187.41333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0002936295670455544, "loss": 0.4733, "step": 70280 }, { "epoch": 187.44, "grad_norm": 0.296875, "learning_rate": 0.0002936277540663267, "loss": 0.476, "step": 70290 }, { "epoch": 187.46666666666667, "grad_norm": 0.486328125, "learning_rate": 0.00029362594083475396, "loss": 0.486, "step": 70300 }, { "epoch": 187.49333333333334, "grad_norm": 0.39453125, "learning_rate": 0.00029362412735083927, "loss": 0.4773, "step": 70310 }, { "epoch": 187.52, "grad_norm": 0.310546875, "learning_rate": 0.0002936223136145859, "loss": 0.4716, "step": 70320 }, { "epoch": 187.54666666666665, "grad_norm": 0.32421875, "learning_rate": 0.000293620499625997, "loss": 0.4681, "step": 70330 }, { "epoch": 187.57333333333332, "grad_norm": 0.310546875, "learning_rate": 0.00029361868538507584, "loss": 0.4677, "step": 70340 }, { "epoch": 187.6, "grad_norm": 0.32421875, "learning_rate": 0.0002936168708918254, "loss": 0.4608, "step": 70350 }, { "epoch": 187.62666666666667, "grad_norm": 0.267578125, "learning_rate": 0.0002936150561462491, "loss": 0.4482, "step": 70360 }, { "epoch": 187.65333333333334, "grad_norm": 0.54296875, "learning_rate": 0.00029361324114835006, "loss": 0.4683, "step": 70370 }, { "epoch": 187.68, "grad_norm": 0.4296875, "learning_rate": 0.00029361142589813137, "loss": 0.4585, "step": 70380 }, { "epoch": 187.70666666666668, "grad_norm": 0.328125, "learning_rate": 0.00029360961039559633, "loss": 0.4595, "step": 70390 }, { "epoch": 187.73333333333332, "grad_norm": 0.298828125, "learning_rate": 0.00029360779464074804, "loss": 0.4783, "step": 70400 }, { "epoch": 187.76, "grad_norm": 0.54296875, "learning_rate": 0.00029360597863358975, "loss": 0.4803, "step": 70410 }, { "epoch": 187.78666666666666, "grad_norm": 0.380859375, "learning_rate": 0.00029360416237412466, "loss": 0.4778, "step": 70420 }, { "epoch": 187.81333333333333, "grad_norm": 0.482421875, "learning_rate": 0.0002936023458623559, "loss": 0.4639, "step": 70430 }, { "epoch": 187.84, "grad_norm": 0.345703125, "learning_rate": 0.00029360052909828676, "loss": 0.4691, "step": 70440 }, { "epoch": 187.86666666666667, "grad_norm": 0.30078125, "learning_rate": 0.00029359871208192034, "loss": 0.4685, "step": 70450 }, { "epoch": 187.89333333333335, "grad_norm": 0.248046875, "learning_rate": 0.00029359689481325986, "loss": 0.4598, "step": 70460 }, { "epoch": 187.92, "grad_norm": 0.30859375, "learning_rate": 0.0002935950772923085, "loss": 0.4704, "step": 70470 }, { "epoch": 187.94666666666666, "grad_norm": 0.39453125, "learning_rate": 0.0002935932595190695, "loss": 0.463, "step": 70480 }, { "epoch": 187.97333333333333, "grad_norm": 0.4375, "learning_rate": 0.0002935914414935461, "loss": 0.4743, "step": 70490 }, { "epoch": 188.0, "grad_norm": 0.318359375, "learning_rate": 0.00029358962321574135, "loss": 0.4627, "step": 70500 }, { "epoch": 188.0, "eval_loss": 0.4792870581150055, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.6616, "eval_samples_per_second": 1.501, "eval_steps_per_second": 0.094, "step": 70500 }, { "epoch": 188.02666666666667, "grad_norm": 0.46875, "learning_rate": 0.0002935878046856585, "loss": 0.4831, "step": 70510 }, { "epoch": 188.05333333333334, "grad_norm": 0.451171875, "learning_rate": 0.0002935859859033008, "loss": 0.4885, "step": 70520 }, { "epoch": 188.08, "grad_norm": 0.2890625, "learning_rate": 0.00029358416686867133, "loss": 0.4757, "step": 70530 }, { "epoch": 188.10666666666665, "grad_norm": 0.3515625, "learning_rate": 0.00029358234758177344, "loss": 0.4705, "step": 70540 }, { "epoch": 188.13333333333333, "grad_norm": 0.3125, "learning_rate": 0.00029358052804261017, "loss": 0.4726, "step": 70550 }, { "epoch": 188.16, "grad_norm": 0.27734375, "learning_rate": 0.0002935787082511849, "loss": 0.4763, "step": 70560 }, { "epoch": 188.18666666666667, "grad_norm": 0.271484375, "learning_rate": 0.0002935768882075006, "loss": 0.4684, "step": 70570 }, { "epoch": 188.21333333333334, "grad_norm": 0.33203125, "learning_rate": 0.0002935750679115607, "loss": 0.4633, "step": 70580 }, { "epoch": 188.24, "grad_norm": 0.376953125, "learning_rate": 0.0002935732473633682, "loss": 0.4677, "step": 70590 }, { "epoch": 188.26666666666668, "grad_norm": 0.341796875, "learning_rate": 0.0002935714265629264, "loss": 0.4717, "step": 70600 }, { "epoch": 188.29333333333332, "grad_norm": 0.263671875, "learning_rate": 0.0002935696055102385, "loss": 0.4656, "step": 70610 }, { "epoch": 188.32, "grad_norm": 0.279296875, "learning_rate": 0.00029356778420530774, "loss": 0.4689, "step": 70620 }, { "epoch": 188.34666666666666, "grad_norm": 0.322265625, "learning_rate": 0.0002935659626481372, "loss": 0.4769, "step": 70630 }, { "epoch": 188.37333333333333, "grad_norm": 0.380859375, "learning_rate": 0.0002935641408387302, "loss": 0.473, "step": 70640 }, { "epoch": 188.4, "grad_norm": 0.302734375, "learning_rate": 0.00029356231877708983, "loss": 0.4701, "step": 70650 }, { "epoch": 188.42666666666668, "grad_norm": 0.265625, "learning_rate": 0.00029356049646321933, "loss": 0.4765, "step": 70660 }, { "epoch": 188.45333333333335, "grad_norm": 0.314453125, "learning_rate": 0.00029355867389712194, "loss": 0.4778, "step": 70670 }, { "epoch": 188.48, "grad_norm": 0.365234375, "learning_rate": 0.00029355685107880085, "loss": 0.4844, "step": 70680 }, { "epoch": 188.50666666666666, "grad_norm": 0.29296875, "learning_rate": 0.00029355502800825926, "loss": 0.4741, "step": 70690 }, { "epoch": 188.53333333333333, "grad_norm": 0.27734375, "learning_rate": 0.0002935532046855004, "loss": 0.4682, "step": 70700 }, { "epoch": 188.56, "grad_norm": 0.349609375, "learning_rate": 0.0002935513811105274, "loss": 0.4685, "step": 70710 }, { "epoch": 188.58666666666667, "grad_norm": 0.326171875, "learning_rate": 0.00029354955728334343, "loss": 0.4646, "step": 70720 }, { "epoch": 188.61333333333334, "grad_norm": 0.349609375, "learning_rate": 0.0002935477332039519, "loss": 0.4513, "step": 70730 }, { "epoch": 188.64, "grad_norm": 0.240234375, "learning_rate": 0.0002935459088723558, "loss": 0.4563, "step": 70740 }, { "epoch": 188.66666666666666, "grad_norm": 0.294921875, "learning_rate": 0.00029354408428855847, "loss": 0.4716, "step": 70750 }, { "epoch": 188.69333333333333, "grad_norm": 0.361328125, "learning_rate": 0.000293542259452563, "loss": 0.4543, "step": 70760 }, { "epoch": 188.72, "grad_norm": 0.28515625, "learning_rate": 0.0002935404343643727, "loss": 0.4715, "step": 70770 }, { "epoch": 188.74666666666667, "grad_norm": 0.33984375, "learning_rate": 0.0002935386090239907, "loss": 0.4759, "step": 70780 }, { "epoch": 188.77333333333334, "grad_norm": 0.3515625, "learning_rate": 0.00029353678343142027, "loss": 0.4834, "step": 70790 }, { "epoch": 188.8, "grad_norm": 0.421875, "learning_rate": 0.0002935349575866646, "loss": 0.4699, "step": 70800 }, { "epoch": 188.82666666666665, "grad_norm": 0.34765625, "learning_rate": 0.0002935331314897269, "loss": 0.4645, "step": 70810 }, { "epoch": 188.85333333333332, "grad_norm": 0.4296875, "learning_rate": 0.00029353130514061035, "loss": 0.4745, "step": 70820 }, { "epoch": 188.88, "grad_norm": 0.2890625, "learning_rate": 0.00029352947853931814, "loss": 0.4622, "step": 70830 }, { "epoch": 188.90666666666667, "grad_norm": 0.322265625, "learning_rate": 0.0002935276516858535, "loss": 0.4649, "step": 70840 }, { "epoch": 188.93333333333334, "grad_norm": 0.275390625, "learning_rate": 0.00029352582458021974, "loss": 0.466, "step": 70850 }, { "epoch": 188.96, "grad_norm": 0.376953125, "learning_rate": 0.00029352399722241994, "loss": 0.464, "step": 70860 }, { "epoch": 188.98666666666668, "grad_norm": 0.337890625, "learning_rate": 0.0002935221696124574, "loss": 0.4774, "step": 70870 }, { "epoch": 189.0, "eval_loss": 0.4771125018596649, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.8842, "eval_samples_per_second": 1.619, "eval_steps_per_second": 0.101, "step": 70875 }, { "epoch": 189.01333333333332, "grad_norm": 0.275390625, "learning_rate": 0.0002935203417503352, "loss": 0.4674, "step": 70880 }, { "epoch": 189.04, "grad_norm": 0.416015625, "learning_rate": 0.0002935185136360567, "loss": 0.4918, "step": 70890 }, { "epoch": 189.06666666666666, "grad_norm": 0.333984375, "learning_rate": 0.000293516685269625, "loss": 0.4791, "step": 70900 }, { "epoch": 189.09333333333333, "grad_norm": 0.298828125, "learning_rate": 0.00029351485665104343, "loss": 0.4733, "step": 70910 }, { "epoch": 189.12, "grad_norm": 0.291015625, "learning_rate": 0.00029351302778031507, "loss": 0.4701, "step": 70920 }, { "epoch": 189.14666666666668, "grad_norm": 0.416015625, "learning_rate": 0.00029351119865744324, "loss": 0.4776, "step": 70930 }, { "epoch": 189.17333333333335, "grad_norm": 0.4296875, "learning_rate": 0.00029350936928243114, "loss": 0.4685, "step": 70940 }, { "epoch": 189.2, "grad_norm": 0.357421875, "learning_rate": 0.0002935075396552819, "loss": 0.4671, "step": 70950 }, { "epoch": 189.22666666666666, "grad_norm": 0.3671875, "learning_rate": 0.0002935057097759988, "loss": 0.4654, "step": 70960 }, { "epoch": 189.25333333333333, "grad_norm": 0.40625, "learning_rate": 0.00029350387964458506, "loss": 0.4646, "step": 70970 }, { "epoch": 189.28, "grad_norm": 0.498046875, "learning_rate": 0.0002935020492610439, "loss": 0.4783, "step": 70980 }, { "epoch": 189.30666666666667, "grad_norm": 0.306640625, "learning_rate": 0.00029350021862537847, "loss": 0.4595, "step": 70990 }, { "epoch": 189.33333333333334, "grad_norm": 0.49609375, "learning_rate": 0.00029349838773759203, "loss": 0.4753, "step": 71000 }, { "epoch": 189.36, "grad_norm": 0.3515625, "learning_rate": 0.00029349655659768783, "loss": 0.4767, "step": 71010 }, { "epoch": 189.38666666666666, "grad_norm": 0.26953125, "learning_rate": 0.00029349472520566905, "loss": 0.4685, "step": 71020 }, { "epoch": 189.41333333333333, "grad_norm": 0.45703125, "learning_rate": 0.0002934928935615389, "loss": 0.4733, "step": 71030 }, { "epoch": 189.44, "grad_norm": 0.361328125, "learning_rate": 0.00029349106166530063, "loss": 0.4756, "step": 71040 }, { "epoch": 189.46666666666667, "grad_norm": 0.2890625, "learning_rate": 0.00029348922951695744, "loss": 0.4856, "step": 71050 }, { "epoch": 189.49333333333334, "grad_norm": 0.365234375, "learning_rate": 0.00029348739711651257, "loss": 0.4773, "step": 71060 }, { "epoch": 189.52, "grad_norm": 0.26171875, "learning_rate": 0.0002934855644639692, "loss": 0.4711, "step": 71070 }, { "epoch": 189.54666666666665, "grad_norm": 0.306640625, "learning_rate": 0.0002934837315593305, "loss": 0.4676, "step": 71080 }, { "epoch": 189.57333333333332, "grad_norm": 0.3203125, "learning_rate": 0.0002934818984025998, "loss": 0.4676, "step": 71090 }, { "epoch": 189.6, "grad_norm": 0.3125, "learning_rate": 0.0002934800649937803, "loss": 0.4615, "step": 71100 }, { "epoch": 189.62666666666667, "grad_norm": 0.2890625, "learning_rate": 0.00029347823133287523, "loss": 0.4481, "step": 71110 }, { "epoch": 189.65333333333334, "grad_norm": 0.294921875, "learning_rate": 0.0002934763974198877, "loss": 0.4673, "step": 71120 }, { "epoch": 189.68, "grad_norm": 0.423828125, "learning_rate": 0.0002934745632548211, "loss": 0.4589, "step": 71130 }, { "epoch": 189.70666666666668, "grad_norm": 0.3984375, "learning_rate": 0.0002934727288376786, "loss": 0.4599, "step": 71140 }, { "epoch": 189.73333333333332, "grad_norm": 0.3515625, "learning_rate": 0.0002934708941684633, "loss": 0.4789, "step": 71150 }, { "epoch": 189.76, "grad_norm": 0.51171875, "learning_rate": 0.00029346905924717854, "loss": 0.4793, "step": 71160 }, { "epoch": 189.78666666666666, "grad_norm": 0.380859375, "learning_rate": 0.00029346722407382753, "loss": 0.4784, "step": 71170 }, { "epoch": 189.81333333333333, "grad_norm": 0.30859375, "learning_rate": 0.00029346538864841344, "loss": 0.4631, "step": 71180 }, { "epoch": 189.84, "grad_norm": 0.37890625, "learning_rate": 0.0002934635529709396, "loss": 0.4696, "step": 71190 }, { "epoch": 189.86666666666667, "grad_norm": 0.4140625, "learning_rate": 0.0002934617170414092, "loss": 0.469, "step": 71200 }, { "epoch": 189.89333333333335, "grad_norm": 0.30859375, "learning_rate": 0.0002934598808598253, "loss": 0.46, "step": 71210 }, { "epoch": 189.92, "grad_norm": 0.296875, "learning_rate": 0.0002934580444261913, "loss": 0.47, "step": 71220 }, { "epoch": 189.94666666666666, "grad_norm": 0.341796875, "learning_rate": 0.00029345620774051044, "loss": 0.4627, "step": 71230 }, { "epoch": 189.97333333333333, "grad_norm": 0.361328125, "learning_rate": 0.00029345437080278595, "loss": 0.4739, "step": 71240 }, { "epoch": 190.0, "grad_norm": 0.294921875, "learning_rate": 0.00029345253361302094, "loss": 0.4633, "step": 71250 }, { "epoch": 190.0, "eval_loss": 0.47591617703437805, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.0874, "eval_samples_per_second": 1.586, "eval_steps_per_second": 0.099, "step": 71250 }, { "epoch": 190.02666666666667, "grad_norm": 0.365234375, "learning_rate": 0.0002934506961712187, "loss": 0.4825, "step": 71260 }, { "epoch": 190.05333333333334, "grad_norm": 0.357421875, "learning_rate": 0.00029344885847738247, "loss": 0.4886, "step": 71270 }, { "epoch": 190.08, "grad_norm": 0.291015625, "learning_rate": 0.0002934470205315154, "loss": 0.4766, "step": 71280 }, { "epoch": 190.10666666666665, "grad_norm": 0.29296875, "learning_rate": 0.0002934451823336209, "loss": 0.4708, "step": 71290 }, { "epoch": 190.13333333333333, "grad_norm": 0.294921875, "learning_rate": 0.000293443343883702, "loss": 0.4718, "step": 71300 }, { "epoch": 190.16, "grad_norm": 0.380859375, "learning_rate": 0.0002934415051817621, "loss": 0.4762, "step": 71310 }, { "epoch": 190.18666666666667, "grad_norm": 0.28515625, "learning_rate": 0.0002934396662278043, "loss": 0.4684, "step": 71320 }, { "epoch": 190.21333333333334, "grad_norm": 0.302734375, "learning_rate": 0.0002934378270218319, "loss": 0.4631, "step": 71330 }, { "epoch": 190.24, "grad_norm": 0.322265625, "learning_rate": 0.0002934359875638481, "loss": 0.4662, "step": 71340 }, { "epoch": 190.26666666666668, "grad_norm": 0.310546875, "learning_rate": 0.00029343414785385613, "loss": 0.4718, "step": 71350 }, { "epoch": 190.29333333333332, "grad_norm": 0.31640625, "learning_rate": 0.00029343230789185924, "loss": 0.4656, "step": 71360 }, { "epoch": 190.32, "grad_norm": 0.3046875, "learning_rate": 0.00029343046767786065, "loss": 0.4687, "step": 71370 }, { "epoch": 190.34666666666666, "grad_norm": 0.33203125, "learning_rate": 0.00029342862721186365, "loss": 0.4776, "step": 71380 }, { "epoch": 190.37333333333333, "grad_norm": 0.34375, "learning_rate": 0.0002934267864938714, "loss": 0.4734, "step": 71390 }, { "epoch": 190.4, "grad_norm": 0.326171875, "learning_rate": 0.00029342494552388713, "loss": 0.4692, "step": 71400 }, { "epoch": 190.42666666666668, "grad_norm": 0.392578125, "learning_rate": 0.0002934231043019141, "loss": 0.476, "step": 71410 }, { "epoch": 190.45333333333335, "grad_norm": 0.341796875, "learning_rate": 0.00029342126282795556, "loss": 0.4789, "step": 71420 }, { "epoch": 190.48, "grad_norm": 0.322265625, "learning_rate": 0.00029341942110201475, "loss": 0.485, "step": 71430 }, { "epoch": 190.50666666666666, "grad_norm": 0.3046875, "learning_rate": 0.0002934175791240949, "loss": 0.4742, "step": 71440 }, { "epoch": 190.53333333333333, "grad_norm": 0.265625, "learning_rate": 0.0002934157368941992, "loss": 0.4682, "step": 71450 }, { "epoch": 190.56, "grad_norm": 0.41796875, "learning_rate": 0.00029341389441233095, "loss": 0.4692, "step": 71460 }, { "epoch": 190.58666666666667, "grad_norm": 0.49609375, "learning_rate": 0.00029341205167849336, "loss": 0.4642, "step": 71470 }, { "epoch": 190.61333333333334, "grad_norm": 0.271484375, "learning_rate": 0.0002934102086926896, "loss": 0.4508, "step": 71480 }, { "epoch": 190.64, "grad_norm": 0.30078125, "learning_rate": 0.0002934083654549231, "loss": 0.4568, "step": 71490 }, { "epoch": 190.66666666666666, "grad_norm": 0.2421875, "learning_rate": 0.0002934065219651969, "loss": 0.4708, "step": 71500 }, { "epoch": 190.69333333333333, "grad_norm": 0.4140625, "learning_rate": 0.0002934046782235143, "loss": 0.4543, "step": 71510 }, { "epoch": 190.72, "grad_norm": 0.29296875, "learning_rate": 0.00029340283422987854, "loss": 0.4712, "step": 71520 }, { "epoch": 190.74666666666667, "grad_norm": 0.392578125, "learning_rate": 0.0002934009899842929, "loss": 0.4757, "step": 71530 }, { "epoch": 190.77333333333334, "grad_norm": 0.294921875, "learning_rate": 0.0002933991454867606, "loss": 0.4825, "step": 71540 }, { "epoch": 190.8, "grad_norm": 0.27734375, "learning_rate": 0.00029339730073728483, "loss": 0.4694, "step": 71550 }, { "epoch": 190.82666666666665, "grad_norm": 0.279296875, "learning_rate": 0.0002933954557358689, "loss": 0.4643, "step": 71560 }, { "epoch": 190.85333333333332, "grad_norm": 0.390625, "learning_rate": 0.000293393610482516, "loss": 0.4734, "step": 71570 }, { "epoch": 190.88, "grad_norm": 0.359375, "learning_rate": 0.00029339176497722945, "loss": 0.4614, "step": 71580 }, { "epoch": 190.90666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002933899192200124, "loss": 0.4643, "step": 71590 }, { "epoch": 190.93333333333334, "grad_norm": 0.287109375, "learning_rate": 0.00029338807321086814, "loss": 0.4658, "step": 71600 }, { "epoch": 190.96, "grad_norm": 0.267578125, "learning_rate": 0.0002933862269497999, "loss": 0.4639, "step": 71610 }, { "epoch": 190.98666666666668, "grad_norm": 0.3828125, "learning_rate": 0.00029338438043681096, "loss": 0.4778, "step": 71620 }, { "epoch": 191.0, "eval_loss": 0.4782630205154419, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.2059, "eval_samples_per_second": 1.568, "eval_steps_per_second": 0.098, "step": 71625 }, { "epoch": 191.01333333333332, "grad_norm": 0.498046875, "learning_rate": 0.00029338253367190454, "loss": 0.4669, "step": 71630 }, { "epoch": 191.04, "grad_norm": 0.423828125, "learning_rate": 0.00029338068665508385, "loss": 0.4909, "step": 71640 }, { "epoch": 191.06666666666666, "grad_norm": 0.275390625, "learning_rate": 0.0002933788393863521, "loss": 0.4784, "step": 71650 }, { "epoch": 191.09333333333333, "grad_norm": 0.361328125, "learning_rate": 0.0002933769918657127, "loss": 0.4735, "step": 71660 }, { "epoch": 191.12, "grad_norm": 0.28515625, "learning_rate": 0.00029337514409316873, "loss": 0.4692, "step": 71670 }, { "epoch": 191.14666666666668, "grad_norm": 0.4140625, "learning_rate": 0.0002933732960687235, "loss": 0.4786, "step": 71680 }, { "epoch": 191.17333333333335, "grad_norm": 0.33203125, "learning_rate": 0.0002933714477923803, "loss": 0.469, "step": 71690 }, { "epoch": 191.2, "grad_norm": 0.36328125, "learning_rate": 0.00029336959926414235, "loss": 0.4678, "step": 71700 }, { "epoch": 191.22666666666666, "grad_norm": 0.35546875, "learning_rate": 0.0002933677504840128, "loss": 0.4646, "step": 71710 }, { "epoch": 191.25333333333333, "grad_norm": 0.33203125, "learning_rate": 0.00029336590145199505, "loss": 0.4643, "step": 71720 }, { "epoch": 191.28, "grad_norm": 0.3046875, "learning_rate": 0.0002933640521680922, "loss": 0.4782, "step": 71730 }, { "epoch": 191.30666666666667, "grad_norm": 0.283203125, "learning_rate": 0.0002933622026323077, "loss": 0.4595, "step": 71740 }, { "epoch": 191.33333333333334, "grad_norm": 0.296875, "learning_rate": 0.0002933603528446446, "loss": 0.4742, "step": 71750 }, { "epoch": 191.36, "grad_norm": 0.369140625, "learning_rate": 0.0002933585028051062, "loss": 0.4768, "step": 71760 }, { "epoch": 191.38666666666666, "grad_norm": 0.431640625, "learning_rate": 0.0002933566525136959, "loss": 0.4691, "step": 71770 }, { "epoch": 191.41333333333333, "grad_norm": 0.41015625, "learning_rate": 0.00029335480197041673, "loss": 0.4726, "step": 71780 }, { "epoch": 191.44, "grad_norm": 0.318359375, "learning_rate": 0.00029335295117527204, "loss": 0.476, "step": 71790 }, { "epoch": 191.46666666666667, "grad_norm": 0.3046875, "learning_rate": 0.0002933511001282651, "loss": 0.4857, "step": 71800 }, { "epoch": 191.49333333333334, "grad_norm": 0.41015625, "learning_rate": 0.0002933492488293992, "loss": 0.477, "step": 71810 }, { "epoch": 191.52, "grad_norm": 0.33984375, "learning_rate": 0.00029334739727867747, "loss": 0.4708, "step": 71820 }, { "epoch": 191.54666666666665, "grad_norm": 0.365234375, "learning_rate": 0.0002933455454761033, "loss": 0.4681, "step": 71830 }, { "epoch": 191.57333333333332, "grad_norm": 0.291015625, "learning_rate": 0.00029334369342167983, "loss": 0.4674, "step": 71840 }, { "epoch": 191.6, "grad_norm": 0.451171875, "learning_rate": 0.0002933418411154103, "loss": 0.4619, "step": 71850 }, { "epoch": 191.62666666666667, "grad_norm": 0.310546875, "learning_rate": 0.0002933399885572981, "loss": 0.4487, "step": 71860 }, { "epoch": 191.65333333333334, "grad_norm": 0.3828125, "learning_rate": 0.00029333813574734634, "loss": 0.4678, "step": 71870 }, { "epoch": 191.68, "grad_norm": 0.357421875, "learning_rate": 0.0002933362826855584, "loss": 0.4592, "step": 71880 }, { "epoch": 191.70666666666668, "grad_norm": 0.380859375, "learning_rate": 0.0002933344293719375, "loss": 0.4601, "step": 71890 }, { "epoch": 191.73333333333332, "grad_norm": 0.283203125, "learning_rate": 0.0002933325758064868, "loss": 0.4786, "step": 71900 }, { "epoch": 191.76, "grad_norm": 0.302734375, "learning_rate": 0.00029333072198920964, "loss": 0.4803, "step": 71910 }, { "epoch": 191.78666666666666, "grad_norm": 0.306640625, "learning_rate": 0.0002933288679201093, "loss": 0.4782, "step": 71920 }, { "epoch": 191.81333333333333, "grad_norm": 0.359375, "learning_rate": 0.000293327013599189, "loss": 0.4639, "step": 71930 }, { "epoch": 191.84, "grad_norm": 0.32421875, "learning_rate": 0.00029332515902645204, "loss": 0.4692, "step": 71940 }, { "epoch": 191.86666666666667, "grad_norm": 0.318359375, "learning_rate": 0.0002933233042019016, "loss": 0.4683, "step": 71950 }, { "epoch": 191.89333333333335, "grad_norm": 0.294921875, "learning_rate": 0.00029332144912554094, "loss": 0.4592, "step": 71960 }, { "epoch": 191.92, "grad_norm": 0.3125, "learning_rate": 0.0002933195937973734, "loss": 0.47, "step": 71970 }, { "epoch": 191.94666666666666, "grad_norm": 0.2392578125, "learning_rate": 0.0002933177382174022, "loss": 0.4636, "step": 71980 }, { "epoch": 191.97333333333333, "grad_norm": 0.3203125, "learning_rate": 0.0002933158823856306, "loss": 0.4733, "step": 71990 }, { "epoch": 192.0, "grad_norm": 0.345703125, "learning_rate": 0.00029331402630206185, "loss": 0.463, "step": 72000 }, { "epoch": 192.0, "eval_loss": 0.47730663418769836, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.9336, "eval_samples_per_second": 1.611, "eval_steps_per_second": 0.101, "step": 72000 }, { "epoch": 192.02666666666667, "grad_norm": 0.318359375, "learning_rate": 0.00029331216996669924, "loss": 0.4827, "step": 72010 }, { "epoch": 192.05333333333334, "grad_norm": 0.419921875, "learning_rate": 0.000293310313379546, "loss": 0.4883, "step": 72020 }, { "epoch": 192.08, "grad_norm": 0.271484375, "learning_rate": 0.00029330845654060544, "loss": 0.4756, "step": 72030 }, { "epoch": 192.10666666666665, "grad_norm": 0.251953125, "learning_rate": 0.00029330659944988075, "loss": 0.4704, "step": 72040 }, { "epoch": 192.13333333333333, "grad_norm": 0.341796875, "learning_rate": 0.0002933047421073752, "loss": 0.4721, "step": 72050 }, { "epoch": 192.16, "grad_norm": 0.42578125, "learning_rate": 0.00029330288451309217, "loss": 0.4758, "step": 72060 }, { "epoch": 192.18666666666667, "grad_norm": 0.1943359375, "learning_rate": 0.0002933010266670348, "loss": 0.469, "step": 72070 }, { "epoch": 192.21333333333334, "grad_norm": 0.34375, "learning_rate": 0.00029329916856920635, "loss": 0.463, "step": 72080 }, { "epoch": 192.24, "grad_norm": 0.306640625, "learning_rate": 0.0002932973102196101, "loss": 0.467, "step": 72090 }, { "epoch": 192.26666666666668, "grad_norm": 0.25390625, "learning_rate": 0.0002932954516182494, "loss": 0.4706, "step": 72100 }, { "epoch": 192.29333333333332, "grad_norm": 0.3359375, "learning_rate": 0.00029329359276512743, "loss": 0.4658, "step": 72110 }, { "epoch": 192.32, "grad_norm": 0.296875, "learning_rate": 0.00029329173366024757, "loss": 0.4696, "step": 72120 }, { "epoch": 192.34666666666666, "grad_norm": 0.30859375, "learning_rate": 0.00029328987430361287, "loss": 0.4771, "step": 72130 }, { "epoch": 192.37333333333333, "grad_norm": 0.34765625, "learning_rate": 0.0002932880146952268, "loss": 0.4733, "step": 72140 }, { "epoch": 192.4, "grad_norm": 0.357421875, "learning_rate": 0.0002932861548350925, "loss": 0.4699, "step": 72150 }, { "epoch": 192.42666666666668, "grad_norm": 0.318359375, "learning_rate": 0.00029328429472321333, "loss": 0.4758, "step": 72160 }, { "epoch": 192.45333333333335, "grad_norm": 0.302734375, "learning_rate": 0.0002932824343595926, "loss": 0.4781, "step": 72170 }, { "epoch": 192.48, "grad_norm": 0.36328125, "learning_rate": 0.0002932805737442333, "loss": 0.4846, "step": 72180 }, { "epoch": 192.50666666666666, "grad_norm": 0.30859375, "learning_rate": 0.000293278712877139, "loss": 0.4738, "step": 72190 }, { "epoch": 192.53333333333333, "grad_norm": 0.30859375, "learning_rate": 0.0002932768517583129, "loss": 0.4675, "step": 72200 }, { "epoch": 192.56, "grad_norm": 0.357421875, "learning_rate": 0.00029327499038775824, "loss": 0.4687, "step": 72210 }, { "epoch": 192.58666666666667, "grad_norm": 0.314453125, "learning_rate": 0.00029327312876547824, "loss": 0.4643, "step": 72220 }, { "epoch": 192.61333333333334, "grad_norm": 0.3125, "learning_rate": 0.00029327126689147616, "loss": 0.4508, "step": 72230 }, { "epoch": 192.64, "grad_norm": 0.30859375, "learning_rate": 0.00029326940476575545, "loss": 0.4564, "step": 72240 }, { "epoch": 192.66666666666666, "grad_norm": 0.4375, "learning_rate": 0.00029326754238831915, "loss": 0.472, "step": 72250 }, { "epoch": 192.69333333333333, "grad_norm": 0.333984375, "learning_rate": 0.0002932656797591707, "loss": 0.4548, "step": 72260 }, { "epoch": 192.72, "grad_norm": 0.322265625, "learning_rate": 0.00029326381687831324, "loss": 0.4717, "step": 72270 }, { "epoch": 192.74666666666667, "grad_norm": 0.318359375, "learning_rate": 0.00029326195374575025, "loss": 0.475, "step": 72280 }, { "epoch": 192.77333333333334, "grad_norm": 0.341796875, "learning_rate": 0.00029326009036148473, "loss": 0.4826, "step": 72290 }, { "epoch": 192.8, "grad_norm": 0.373046875, "learning_rate": 0.0002932582267255202, "loss": 0.4698, "step": 72300 }, { "epoch": 192.82666666666665, "grad_norm": 0.51953125, "learning_rate": 0.0002932563628378598, "loss": 0.4648, "step": 72310 }, { "epoch": 192.85333333333332, "grad_norm": 0.447265625, "learning_rate": 0.00029325449869850676, "loss": 0.4731, "step": 72320 }, { "epoch": 192.88, "grad_norm": 0.31640625, "learning_rate": 0.0002932526343074645, "loss": 0.4608, "step": 72330 }, { "epoch": 192.90666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002932507696647362, "loss": 0.4646, "step": 72340 }, { "epoch": 192.93333333333334, "grad_norm": 0.318359375, "learning_rate": 0.00029324890477032514, "loss": 0.4655, "step": 72350 }, { "epoch": 192.96, "grad_norm": 0.34765625, "learning_rate": 0.00029324703962423467, "loss": 0.4639, "step": 72360 }, { "epoch": 192.98666666666668, "grad_norm": 0.326171875, "learning_rate": 0.000293245174226468, "loss": 0.4784, "step": 72370 }, { "epoch": 193.0, "eval_loss": 0.47962862253189087, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.096, "eval_samples_per_second": 1.585, "eval_steps_per_second": 0.099, "step": 72375 }, { "epoch": 193.01333333333332, "grad_norm": 0.279296875, "learning_rate": 0.0002932433085770284, "loss": 0.4667, "step": 72380 }, { "epoch": 193.04, "grad_norm": 0.32421875, "learning_rate": 0.00029324144267591916, "loss": 0.4909, "step": 72390 }, { "epoch": 193.06666666666666, "grad_norm": 0.322265625, "learning_rate": 0.00029323957652314356, "loss": 0.4788, "step": 72400 }, { "epoch": 193.09333333333333, "grad_norm": 0.26171875, "learning_rate": 0.00029323771011870495, "loss": 0.4733, "step": 72410 }, { "epoch": 193.12, "grad_norm": 0.337890625, "learning_rate": 0.00029323584346260643, "loss": 0.4699, "step": 72420 }, { "epoch": 193.14666666666668, "grad_norm": 0.265625, "learning_rate": 0.00029323397655485147, "loss": 0.4782, "step": 72430 }, { "epoch": 193.17333333333335, "grad_norm": 0.34765625, "learning_rate": 0.0002932321093954433, "loss": 0.4695, "step": 72440 }, { "epoch": 193.2, "grad_norm": 0.36328125, "learning_rate": 0.0002932302419843851, "loss": 0.467, "step": 72450 }, { "epoch": 193.22666666666666, "grad_norm": 0.421875, "learning_rate": 0.0002932283743216803, "loss": 0.4652, "step": 72460 }, { "epoch": 193.25333333333333, "grad_norm": 0.3125, "learning_rate": 0.00029322650640733203, "loss": 0.4645, "step": 72470 }, { "epoch": 193.28, "grad_norm": 0.44140625, "learning_rate": 0.0002932246382413437, "loss": 0.4787, "step": 72480 }, { "epoch": 193.30666666666667, "grad_norm": 0.63671875, "learning_rate": 0.0002932227698237185, "loss": 0.4599, "step": 72490 }, { "epoch": 193.33333333333334, "grad_norm": 0.404296875, "learning_rate": 0.0002932209011544598, "loss": 0.475, "step": 72500 }, { "epoch": 193.36, "grad_norm": 0.27734375, "learning_rate": 0.00029321903223357085, "loss": 0.4775, "step": 72510 }, { "epoch": 193.38666666666666, "grad_norm": 0.390625, "learning_rate": 0.00029321716306105486, "loss": 0.4684, "step": 72520 }, { "epoch": 193.41333333333333, "grad_norm": 0.4140625, "learning_rate": 0.00029321529363691523, "loss": 0.4731, "step": 72530 }, { "epoch": 193.44, "grad_norm": 0.29296875, "learning_rate": 0.00029321342396115515, "loss": 0.4753, "step": 72540 }, { "epoch": 193.46666666666667, "grad_norm": 0.50390625, "learning_rate": 0.00029321155403377793, "loss": 0.4861, "step": 72550 }, { "epoch": 193.49333333333334, "grad_norm": 0.33203125, "learning_rate": 0.0002932096838547869, "loss": 0.477, "step": 72560 }, { "epoch": 193.52, "grad_norm": 0.318359375, "learning_rate": 0.0002932078134241853, "loss": 0.4717, "step": 72570 }, { "epoch": 193.54666666666665, "grad_norm": 0.361328125, "learning_rate": 0.0002932059427419764, "loss": 0.4683, "step": 72580 }, { "epoch": 193.57333333333332, "grad_norm": 0.294921875, "learning_rate": 0.00029320407180816356, "loss": 0.4676, "step": 72590 }, { "epoch": 193.6, "grad_norm": 0.466796875, "learning_rate": 0.00029320220062275, "loss": 0.4609, "step": 72600 }, { "epoch": 193.62666666666667, "grad_norm": 0.345703125, "learning_rate": 0.0002932003291857391, "loss": 0.4478, "step": 72610 }, { "epoch": 193.65333333333334, "grad_norm": 0.3046875, "learning_rate": 0.000293198457497134, "loss": 0.4681, "step": 72620 }, { "epoch": 193.68, "grad_norm": 0.318359375, "learning_rate": 0.0002931965855569381, "loss": 0.4593, "step": 72630 }, { "epoch": 193.70666666666668, "grad_norm": 0.47265625, "learning_rate": 0.00029319471336515464, "loss": 0.4589, "step": 72640 }, { "epoch": 193.73333333333332, "grad_norm": 0.41015625, "learning_rate": 0.00029319284092178696, "loss": 0.4783, "step": 72650 }, { "epoch": 193.76, "grad_norm": 0.53125, "learning_rate": 0.00029319096822683825, "loss": 0.4794, "step": 72660 }, { "epoch": 193.78666666666666, "grad_norm": 0.330078125, "learning_rate": 0.0002931890952803119, "loss": 0.4785, "step": 72670 }, { "epoch": 193.81333333333333, "grad_norm": 0.388671875, "learning_rate": 0.0002931872220822112, "loss": 0.4634, "step": 72680 }, { "epoch": 193.84, "grad_norm": 0.427734375, "learning_rate": 0.0002931853486325394, "loss": 0.4689, "step": 72690 }, { "epoch": 193.86666666666667, "grad_norm": 0.291015625, "learning_rate": 0.0002931834749312998, "loss": 0.4685, "step": 72700 }, { "epoch": 193.89333333333335, "grad_norm": 0.251953125, "learning_rate": 0.00029318160097849564, "loss": 0.4595, "step": 72710 }, { "epoch": 193.92, "grad_norm": 0.365234375, "learning_rate": 0.0002931797267741303, "loss": 0.4706, "step": 72720 }, { "epoch": 193.94666666666666, "grad_norm": 0.37109375, "learning_rate": 0.00029317785231820705, "loss": 0.4625, "step": 72730 }, { "epoch": 193.97333333333333, "grad_norm": 0.365234375, "learning_rate": 0.00029317597761072914, "loss": 0.4745, "step": 72740 }, { "epoch": 194.0, "grad_norm": 0.275390625, "learning_rate": 0.0002931741026516999, "loss": 0.463, "step": 72750 }, { "epoch": 194.0, "eval_loss": 0.4789677858352661, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.3169, "eval_samples_per_second": 1.717, "eval_steps_per_second": 0.107, "step": 72750 }, { "epoch": 194.02666666666667, "grad_norm": 0.33203125, "learning_rate": 0.0002931722274411227, "loss": 0.4826, "step": 72760 }, { "epoch": 194.05333333333334, "grad_norm": 0.271484375, "learning_rate": 0.0002931703519790007, "loss": 0.4883, "step": 72770 }, { "epoch": 194.08, "grad_norm": 0.34765625, "learning_rate": 0.0002931684762653372, "loss": 0.4752, "step": 72780 }, { "epoch": 194.10666666666665, "grad_norm": 0.359375, "learning_rate": 0.0002931666003001356, "loss": 0.471, "step": 72790 }, { "epoch": 194.13333333333333, "grad_norm": 0.33984375, "learning_rate": 0.00029316472408339903, "loss": 0.4721, "step": 72800 }, { "epoch": 194.16, "grad_norm": 0.44140625, "learning_rate": 0.00029316284761513105, "loss": 0.4762, "step": 72810 }, { "epoch": 194.18666666666667, "grad_norm": 0.23828125, "learning_rate": 0.0002931609708953347, "loss": 0.4679, "step": 72820 }, { "epoch": 194.21333333333334, "grad_norm": 0.298828125, "learning_rate": 0.0002931590939240134, "loss": 0.4637, "step": 72830 }, { "epoch": 194.24, "grad_norm": 0.318359375, "learning_rate": 0.00029315721670117046, "loss": 0.4671, "step": 72840 }, { "epoch": 194.26666666666668, "grad_norm": 0.283203125, "learning_rate": 0.00029315533922680915, "loss": 0.471, "step": 72850 }, { "epoch": 194.29333333333332, "grad_norm": 0.318359375, "learning_rate": 0.00029315346150093273, "loss": 0.4661, "step": 72860 }, { "epoch": 194.32, "grad_norm": 0.3046875, "learning_rate": 0.00029315158352354455, "loss": 0.4689, "step": 72870 }, { "epoch": 194.34666666666666, "grad_norm": 0.40234375, "learning_rate": 0.00029314970529464786, "loss": 0.477, "step": 72880 }, { "epoch": 194.37333333333333, "grad_norm": 0.28125, "learning_rate": 0.00029314782681424603, "loss": 0.473, "step": 72890 }, { "epoch": 194.4, "grad_norm": 0.236328125, "learning_rate": 0.0002931459480823423, "loss": 0.4702, "step": 72900 }, { "epoch": 194.42666666666668, "grad_norm": 0.2431640625, "learning_rate": 0.00029314406909894, "loss": 0.4762, "step": 72910 }, { "epoch": 194.45333333333335, "grad_norm": 0.388671875, "learning_rate": 0.00029314218986404244, "loss": 0.4781, "step": 72920 }, { "epoch": 194.48, "grad_norm": 0.31640625, "learning_rate": 0.0002931403103776529, "loss": 0.4845, "step": 72930 }, { "epoch": 194.50666666666666, "grad_norm": 0.298828125, "learning_rate": 0.0002931384306397747, "loss": 0.4734, "step": 72940 }, { "epoch": 194.53333333333333, "grad_norm": 0.341796875, "learning_rate": 0.0002931365506504111, "loss": 0.4684, "step": 72950 }, { "epoch": 194.56, "grad_norm": 0.458984375, "learning_rate": 0.0002931346704095655, "loss": 0.4688, "step": 72960 }, { "epoch": 194.58666666666667, "grad_norm": 0.400390625, "learning_rate": 0.0002931327899172411, "loss": 0.4648, "step": 72970 }, { "epoch": 194.61333333333334, "grad_norm": 0.353515625, "learning_rate": 0.0002931309091734412, "loss": 0.4509, "step": 72980 }, { "epoch": 194.64, "grad_norm": 0.287109375, "learning_rate": 0.0002931290281781692, "loss": 0.4557, "step": 72990 }, { "epoch": 194.66666666666666, "grad_norm": 0.3046875, "learning_rate": 0.00029312714693142836, "loss": 0.4714, "step": 73000 }, { "epoch": 194.69333333333333, "grad_norm": 0.52734375, "learning_rate": 0.0002931252654332219, "loss": 0.4542, "step": 73010 }, { "epoch": 194.72, "grad_norm": 0.31640625, "learning_rate": 0.0002931233836835533, "loss": 0.471, "step": 73020 }, { "epoch": 194.74666666666667, "grad_norm": 0.291015625, "learning_rate": 0.00029312150168242567, "loss": 0.4755, "step": 73030 }, { "epoch": 194.77333333333334, "grad_norm": 0.353515625, "learning_rate": 0.0002931196194298425, "loss": 0.4824, "step": 73040 }, { "epoch": 194.8, "grad_norm": 0.291015625, "learning_rate": 0.00029311773692580696, "loss": 0.47, "step": 73050 }, { "epoch": 194.82666666666665, "grad_norm": 0.28515625, "learning_rate": 0.00029311585417032246, "loss": 0.4646, "step": 73060 }, { "epoch": 194.85333333333332, "grad_norm": 0.388671875, "learning_rate": 0.0002931139711633922, "loss": 0.4733, "step": 73070 }, { "epoch": 194.88, "grad_norm": 0.4296875, "learning_rate": 0.0002931120879050195, "loss": 0.4619, "step": 73080 }, { "epoch": 194.90666666666667, "grad_norm": 0.36328125, "learning_rate": 0.0002931102043952078, "loss": 0.464, "step": 73090 }, { "epoch": 194.93333333333334, "grad_norm": 0.32421875, "learning_rate": 0.0002931083206339604, "loss": 0.4658, "step": 73100 }, { "epoch": 194.96, "grad_norm": 0.2041015625, "learning_rate": 0.0002931064366212804, "loss": 0.4639, "step": 73110 }, { "epoch": 194.98666666666668, "grad_norm": 0.294921875, "learning_rate": 0.0002931045523571713, "loss": 0.4778, "step": 73120 }, { "epoch": 195.0, "eval_loss": 0.47874346375465393, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.6037, "eval_samples_per_second": 1.509, "eval_steps_per_second": 0.094, "step": 73125 }, { "epoch": 195.01333333333332, "grad_norm": 0.306640625, "learning_rate": 0.0002931026678416363, "loss": 0.4665, "step": 73130 }, { "epoch": 195.04, "grad_norm": 0.35546875, "learning_rate": 0.00029310078307467885, "loss": 0.4907, "step": 73140 }, { "epoch": 195.06666666666666, "grad_norm": 0.318359375, "learning_rate": 0.0002930988980563021, "loss": 0.4784, "step": 73150 }, { "epoch": 195.09333333333333, "grad_norm": 0.427734375, "learning_rate": 0.00029309701278650946, "loss": 0.4726, "step": 73160 }, { "epoch": 195.12, "grad_norm": 0.431640625, "learning_rate": 0.00029309512726530425, "loss": 0.4691, "step": 73170 }, { "epoch": 195.14666666666668, "grad_norm": 0.4140625, "learning_rate": 0.00029309324149268974, "loss": 0.4784, "step": 73180 }, { "epoch": 195.17333333333335, "grad_norm": 0.390625, "learning_rate": 0.00029309135546866925, "loss": 0.4692, "step": 73190 }, { "epoch": 195.2, "grad_norm": 0.45703125, "learning_rate": 0.00029308946919324606, "loss": 0.4678, "step": 73200 }, { "epoch": 195.22666666666666, "grad_norm": 0.396484375, "learning_rate": 0.00029308758266642355, "loss": 0.4647, "step": 73210 }, { "epoch": 195.25333333333333, "grad_norm": 0.333984375, "learning_rate": 0.00029308569588820503, "loss": 0.465, "step": 73220 }, { "epoch": 195.28, "grad_norm": 0.337890625, "learning_rate": 0.0002930838088585938, "loss": 0.4783, "step": 73230 }, { "epoch": 195.30666666666667, "grad_norm": 0.314453125, "learning_rate": 0.00029308192157759315, "loss": 0.4592, "step": 73240 }, { "epoch": 195.33333333333334, "grad_norm": 0.41015625, "learning_rate": 0.0002930800340452064, "loss": 0.4747, "step": 73250 }, { "epoch": 195.36, "grad_norm": 0.404296875, "learning_rate": 0.00029307814626143694, "loss": 0.477, "step": 73260 }, { "epoch": 195.38666666666666, "grad_norm": 0.388671875, "learning_rate": 0.000293076258226288, "loss": 0.4689, "step": 73270 }, { "epoch": 195.41333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029307436993976284, "loss": 0.4733, "step": 73280 }, { "epoch": 195.44, "grad_norm": 0.306640625, "learning_rate": 0.00029307248140186495, "loss": 0.4763, "step": 73290 }, { "epoch": 195.46666666666667, "grad_norm": 0.453125, "learning_rate": 0.00029307059261259754, "loss": 0.4854, "step": 73300 }, { "epoch": 195.49333333333334, "grad_norm": 0.353515625, "learning_rate": 0.00029306870357196393, "loss": 0.4777, "step": 73310 }, { "epoch": 195.52, "grad_norm": 0.390625, "learning_rate": 0.0002930668142799675, "loss": 0.4717, "step": 73320 }, { "epoch": 195.54666666666665, "grad_norm": 0.337890625, "learning_rate": 0.0002930649247366115, "loss": 0.4681, "step": 73330 }, { "epoch": 195.57333333333332, "grad_norm": 0.24609375, "learning_rate": 0.0002930630349418993, "loss": 0.4673, "step": 73340 }, { "epoch": 195.6, "grad_norm": 0.318359375, "learning_rate": 0.0002930611448958342, "loss": 0.4608, "step": 73350 }, { "epoch": 195.62666666666667, "grad_norm": 0.271484375, "learning_rate": 0.00029305925459841947, "loss": 0.4479, "step": 73360 }, { "epoch": 195.65333333333334, "grad_norm": 0.34765625, "learning_rate": 0.0002930573640496585, "loss": 0.4666, "step": 73370 }, { "epoch": 195.68, "grad_norm": 0.345703125, "learning_rate": 0.00029305547324955464, "loss": 0.4589, "step": 73380 }, { "epoch": 195.70666666666668, "grad_norm": 0.34765625, "learning_rate": 0.0002930535821981111, "loss": 0.4599, "step": 73390 }, { "epoch": 195.73333333333332, "grad_norm": 0.291015625, "learning_rate": 0.0002930516908953313, "loss": 0.4787, "step": 73400 }, { "epoch": 195.76, "grad_norm": 0.36328125, "learning_rate": 0.00029304979934121847, "loss": 0.4789, "step": 73410 }, { "epoch": 195.78666666666666, "grad_norm": 0.3203125, "learning_rate": 0.000293047907535776, "loss": 0.4782, "step": 73420 }, { "epoch": 195.81333333333333, "grad_norm": 0.4296875, "learning_rate": 0.00029304601547900733, "loss": 0.4634, "step": 73430 }, { "epoch": 195.84, "grad_norm": 0.47265625, "learning_rate": 0.0002930441231709156, "loss": 0.4693, "step": 73440 }, { "epoch": 195.86666666666667, "grad_norm": 0.33203125, "learning_rate": 0.0002930422306115041, "loss": 0.4684, "step": 73450 }, { "epoch": 195.89333333333335, "grad_norm": 0.3828125, "learning_rate": 0.00029304033780077634, "loss": 0.4598, "step": 73460 }, { "epoch": 195.92, "grad_norm": 0.4140625, "learning_rate": 0.00029303844473873555, "loss": 0.4706, "step": 73470 }, { "epoch": 195.94666666666666, "grad_norm": 0.3515625, "learning_rate": 0.000293036551425385, "loss": 0.4625, "step": 73480 }, { "epoch": 195.97333333333333, "grad_norm": 0.369140625, "learning_rate": 0.00029303465786072815, "loss": 0.4736, "step": 73490 }, { "epoch": 196.0, "grad_norm": 0.251953125, "learning_rate": 0.0002930327640447682, "loss": 0.463, "step": 73500 }, { "epoch": 196.0, "eval_loss": 0.4790534973144531, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.5986, "eval_samples_per_second": 1.667, "eval_steps_per_second": 0.104, "step": 73500 }, { "epoch": 196.02666666666667, "grad_norm": 0.37890625, "learning_rate": 0.00029303086997750855, "loss": 0.4823, "step": 73510 }, { "epoch": 196.05333333333334, "grad_norm": 0.26953125, "learning_rate": 0.00029302897565895253, "loss": 0.4882, "step": 73520 }, { "epoch": 196.08, "grad_norm": 0.265625, "learning_rate": 0.00029302708108910343, "loss": 0.4752, "step": 73530 }, { "epoch": 196.10666666666665, "grad_norm": 0.255859375, "learning_rate": 0.0002930251862679646, "loss": 0.4704, "step": 73540 }, { "epoch": 196.13333333333333, "grad_norm": 0.3515625, "learning_rate": 0.00029302329119553936, "loss": 0.4717, "step": 73550 }, { "epoch": 196.16, "grad_norm": 0.2890625, "learning_rate": 0.00029302139587183106, "loss": 0.4759, "step": 73560 }, { "epoch": 196.18666666666667, "grad_norm": 0.2177734375, "learning_rate": 0.00029301950029684296, "loss": 0.4691, "step": 73570 }, { "epoch": 196.21333333333334, "grad_norm": 0.357421875, "learning_rate": 0.00029301760447057853, "loss": 0.4639, "step": 73580 }, { "epoch": 196.24, "grad_norm": 0.373046875, "learning_rate": 0.00029301570839304094, "loss": 0.4671, "step": 73590 }, { "epoch": 196.26666666666668, "grad_norm": 0.345703125, "learning_rate": 0.00029301381206423363, "loss": 0.4707, "step": 73600 }, { "epoch": 196.29333333333332, "grad_norm": 0.353515625, "learning_rate": 0.0002930119154841599, "loss": 0.4663, "step": 73610 }, { "epoch": 196.32, "grad_norm": 0.271484375, "learning_rate": 0.0002930100186528231, "loss": 0.4694, "step": 73620 }, { "epoch": 196.34666666666666, "grad_norm": 0.369140625, "learning_rate": 0.00029300812157022647, "loss": 0.4773, "step": 73630 }, { "epoch": 196.37333333333333, "grad_norm": 0.24609375, "learning_rate": 0.0002930062242363735, "loss": 0.4729, "step": 73640 }, { "epoch": 196.4, "grad_norm": 0.2734375, "learning_rate": 0.0002930043266512674, "loss": 0.4705, "step": 73650 }, { "epoch": 196.42666666666668, "grad_norm": 0.37890625, "learning_rate": 0.00029300242881491153, "loss": 0.4761, "step": 73660 }, { "epoch": 196.45333333333335, "grad_norm": 0.365234375, "learning_rate": 0.0002930005307273093, "loss": 0.478, "step": 73670 }, { "epoch": 196.48, "grad_norm": 0.421875, "learning_rate": 0.0002929986323884639, "loss": 0.4841, "step": 73680 }, { "epoch": 196.50666666666666, "grad_norm": 0.359375, "learning_rate": 0.00029299673379837884, "loss": 0.4746, "step": 73690 }, { "epoch": 196.53333333333333, "grad_norm": 0.23828125, "learning_rate": 0.00029299483495705736, "loss": 0.4678, "step": 73700 }, { "epoch": 196.56, "grad_norm": 0.33203125, "learning_rate": 0.0002929929358645027, "loss": 0.4689, "step": 73710 }, { "epoch": 196.58666666666667, "grad_norm": 0.384765625, "learning_rate": 0.00029299103652071835, "loss": 0.465, "step": 73720 }, { "epoch": 196.61333333333334, "grad_norm": 0.40234375, "learning_rate": 0.0002929891369257076, "loss": 0.451, "step": 73730 }, { "epoch": 196.64, "grad_norm": 0.25390625, "learning_rate": 0.00029298723707947376, "loss": 0.4557, "step": 73740 }, { "epoch": 196.66666666666666, "grad_norm": 0.33203125, "learning_rate": 0.00029298533698202025, "loss": 0.4713, "step": 73750 }, { "epoch": 196.69333333333333, "grad_norm": 0.2412109375, "learning_rate": 0.0002929834366333503, "loss": 0.4543, "step": 73760 }, { "epoch": 196.72, "grad_norm": 0.52734375, "learning_rate": 0.0002929815360334673, "loss": 0.4713, "step": 73770 }, { "epoch": 196.74666666666667, "grad_norm": 0.421875, "learning_rate": 0.0002929796351823746, "loss": 0.4757, "step": 73780 }, { "epoch": 196.77333333333334, "grad_norm": 0.359375, "learning_rate": 0.0002929777340800755, "loss": 0.4838, "step": 73790 }, { "epoch": 196.8, "grad_norm": 0.318359375, "learning_rate": 0.0002929758327265734, "loss": 0.4702, "step": 73800 }, { "epoch": 196.82666666666665, "grad_norm": 0.376953125, "learning_rate": 0.0002929739311218716, "loss": 0.465, "step": 73810 }, { "epoch": 196.85333333333332, "grad_norm": 0.37109375, "learning_rate": 0.0002929720292659734, "loss": 0.4735, "step": 73820 }, { "epoch": 196.88, "grad_norm": 0.330078125, "learning_rate": 0.00029297012715888226, "loss": 0.4614, "step": 73830 }, { "epoch": 196.90666666666667, "grad_norm": 0.265625, "learning_rate": 0.0002929682248006014, "loss": 0.465, "step": 73840 }, { "epoch": 196.93333333333334, "grad_norm": 0.255859375, "learning_rate": 0.0002929663221911342, "loss": 0.4654, "step": 73850 }, { "epoch": 196.96, "grad_norm": 0.25390625, "learning_rate": 0.00029296441933048407, "loss": 0.4636, "step": 73860 }, { "epoch": 196.98666666666668, "grad_norm": 0.32421875, "learning_rate": 0.00029296251621865427, "loss": 0.4778, "step": 73870 }, { "epoch": 197.0, "eval_loss": 0.47821304202079773, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.7882, "eval_samples_per_second": 1.635, "eval_steps_per_second": 0.102, "step": 73875 }, { "epoch": 197.01333333333332, "grad_norm": 0.27734375, "learning_rate": 0.00029296061285564816, "loss": 0.4665, "step": 73880 }, { "epoch": 197.04, "grad_norm": 0.3203125, "learning_rate": 0.00029295870924146917, "loss": 0.4918, "step": 73890 }, { "epoch": 197.06666666666666, "grad_norm": 0.447265625, "learning_rate": 0.0002929568053761205, "loss": 0.478, "step": 73900 }, { "epoch": 197.09333333333333, "grad_norm": 0.3671875, "learning_rate": 0.0002929549012596056, "loss": 0.4735, "step": 73910 }, { "epoch": 197.12, "grad_norm": 0.3359375, "learning_rate": 0.0002929529968919277, "loss": 0.4694, "step": 73920 }, { "epoch": 197.14666666666668, "grad_norm": 0.330078125, "learning_rate": 0.0002929510922730903, "loss": 0.4782, "step": 73930 }, { "epoch": 197.17333333333335, "grad_norm": 0.3828125, "learning_rate": 0.00029294918740309665, "loss": 0.4687, "step": 73940 }, { "epoch": 197.2, "grad_norm": 0.330078125, "learning_rate": 0.00029294728228195015, "loss": 0.4667, "step": 73950 }, { "epoch": 197.22666666666666, "grad_norm": 0.3359375, "learning_rate": 0.0002929453769096541, "loss": 0.4646, "step": 73960 }, { "epoch": 197.25333333333333, "grad_norm": 0.4140625, "learning_rate": 0.00029294347128621187, "loss": 0.4654, "step": 73970 }, { "epoch": 197.28, "grad_norm": 0.369140625, "learning_rate": 0.0002929415654116268, "loss": 0.4789, "step": 73980 }, { "epoch": 197.30666666666667, "grad_norm": 0.28125, "learning_rate": 0.0002929396592859022, "loss": 0.4594, "step": 73990 }, { "epoch": 197.33333333333334, "grad_norm": 0.30859375, "learning_rate": 0.0002929377529090415, "loss": 0.4752, "step": 74000 }, { "epoch": 197.36, "grad_norm": 0.474609375, "learning_rate": 0.00029293584628104803, "loss": 0.4767, "step": 74010 }, { "epoch": 197.38666666666666, "grad_norm": 0.37109375, "learning_rate": 0.0002929339394019251, "loss": 0.4686, "step": 74020 }, { "epoch": 197.41333333333333, "grad_norm": 0.404296875, "learning_rate": 0.0002929320322716761, "loss": 0.4734, "step": 74030 }, { "epoch": 197.44, "grad_norm": 0.2734375, "learning_rate": 0.0002929301248903043, "loss": 0.4758, "step": 74040 }, { "epoch": 197.46666666666667, "grad_norm": 0.318359375, "learning_rate": 0.0002929282172578132, "loss": 0.4853, "step": 74050 }, { "epoch": 197.49333333333334, "grad_norm": 0.341796875, "learning_rate": 0.000292926309374206, "loss": 0.4766, "step": 74060 }, { "epoch": 197.52, "grad_norm": 0.29296875, "learning_rate": 0.00029292440123948615, "loss": 0.4707, "step": 74070 }, { "epoch": 197.54666666666665, "grad_norm": 0.404296875, "learning_rate": 0.0002929224928536569, "loss": 0.4683, "step": 74080 }, { "epoch": 197.57333333333332, "grad_norm": 0.28125, "learning_rate": 0.0002929205842167218, "loss": 0.4677, "step": 74090 }, { "epoch": 197.6, "grad_norm": 0.36328125, "learning_rate": 0.000292918675328684, "loss": 0.4606, "step": 74100 }, { "epoch": 197.62666666666667, "grad_norm": 0.3203125, "learning_rate": 0.00029291676618954687, "loss": 0.4483, "step": 74110 }, { "epoch": 197.65333333333334, "grad_norm": 0.375, "learning_rate": 0.00029291485679931387, "loss": 0.467, "step": 74120 }, { "epoch": 197.68, "grad_norm": 0.3203125, "learning_rate": 0.00029291294715798837, "loss": 0.4598, "step": 74130 }, { "epoch": 197.70666666666668, "grad_norm": 0.3359375, "learning_rate": 0.0002929110372655736, "loss": 0.4596, "step": 74140 }, { "epoch": 197.73333333333332, "grad_norm": 0.400390625, "learning_rate": 0.00029290912712207296, "loss": 0.4786, "step": 74150 }, { "epoch": 197.76, "grad_norm": 0.51171875, "learning_rate": 0.00029290721672748987, "loss": 0.4795, "step": 74160 }, { "epoch": 197.78666666666666, "grad_norm": 0.458984375, "learning_rate": 0.0002929053060818276, "loss": 0.4776, "step": 74170 }, { "epoch": 197.81333333333333, "grad_norm": 1.671875, "learning_rate": 0.0002929033951850896, "loss": 0.465, "step": 74180 }, { "epoch": 197.84, "grad_norm": 0.9296875, "learning_rate": 0.0002929014840372791, "loss": 0.473, "step": 74190 }, { "epoch": 197.86666666666667, "grad_norm": 0.93359375, "learning_rate": 0.0002928995726383996, "loss": 0.4711, "step": 74200 }, { "epoch": 197.89333333333335, "grad_norm": 0.60546875, "learning_rate": 0.0002928976609884543, "loss": 0.4607, "step": 74210 }, { "epoch": 197.92, "grad_norm": 0.3359375, "learning_rate": 0.00029289574908744674, "loss": 0.4703, "step": 74220 }, { "epoch": 197.94666666666666, "grad_norm": 0.328125, "learning_rate": 0.0002928938369353802, "loss": 0.4629, "step": 74230 }, { "epoch": 197.97333333333333, "grad_norm": 0.330078125, "learning_rate": 0.000292891924532258, "loss": 0.4745, "step": 74240 }, { "epoch": 198.0, "grad_norm": 0.4140625, "learning_rate": 0.0002928900118780835, "loss": 0.4626, "step": 74250 }, { "epoch": 198.0, "eval_loss": 0.47928979992866516, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.2462, "eval_samples_per_second": 1.562, "eval_steps_per_second": 0.098, "step": 74250 }, { "epoch": 198.02666666666667, "grad_norm": 0.3984375, "learning_rate": 0.00029288809897286006, "loss": 0.4829, "step": 74260 }, { "epoch": 198.05333333333334, "grad_norm": 0.353515625, "learning_rate": 0.00029288618581659113, "loss": 0.4887, "step": 74270 }, { "epoch": 198.08, "grad_norm": 0.337890625, "learning_rate": 0.00029288427240928, "loss": 0.4753, "step": 74280 }, { "epoch": 198.10666666666665, "grad_norm": 0.365234375, "learning_rate": 0.00029288235875093006, "loss": 0.4704, "step": 74290 }, { "epoch": 198.13333333333333, "grad_norm": 0.3359375, "learning_rate": 0.00029288044484154465, "loss": 0.472, "step": 74300 }, { "epoch": 198.16, "grad_norm": 0.35546875, "learning_rate": 0.0002928785306811271, "loss": 0.4765, "step": 74310 }, { "epoch": 198.18666666666667, "grad_norm": 0.2333984375, "learning_rate": 0.0002928766162696808, "loss": 0.4678, "step": 74320 }, { "epoch": 198.21333333333334, "grad_norm": 0.37109375, "learning_rate": 0.00029287470160720917, "loss": 0.4629, "step": 74330 }, { "epoch": 198.24, "grad_norm": 0.283203125, "learning_rate": 0.0002928727866937155, "loss": 0.4674, "step": 74340 }, { "epoch": 198.26666666666668, "grad_norm": 0.31640625, "learning_rate": 0.00029287087152920317, "loss": 0.4721, "step": 74350 }, { "epoch": 198.29333333333332, "grad_norm": 0.361328125, "learning_rate": 0.0002928689561136756, "loss": 0.4651, "step": 74360 }, { "epoch": 198.32, "grad_norm": 0.294921875, "learning_rate": 0.0002928670404471361, "loss": 0.4684, "step": 74370 }, { "epoch": 198.34666666666666, "grad_norm": 0.421875, "learning_rate": 0.00029286512452958804, "loss": 0.4774, "step": 74380 }, { "epoch": 198.37333333333333, "grad_norm": 0.310546875, "learning_rate": 0.0002928632083610348, "loss": 0.4731, "step": 74390 }, { "epoch": 198.4, "grad_norm": 0.302734375, "learning_rate": 0.00029286129194147967, "loss": 0.4694, "step": 74400 }, { "epoch": 198.42666666666668, "grad_norm": 0.349609375, "learning_rate": 0.0002928593752709262, "loss": 0.4761, "step": 74410 }, { "epoch": 198.45333333333335, "grad_norm": 0.3359375, "learning_rate": 0.00029285745834937754, "loss": 0.4777, "step": 74420 }, { "epoch": 198.48, "grad_norm": 0.30859375, "learning_rate": 0.00029285554117683724, "loss": 0.4846, "step": 74430 }, { "epoch": 198.50666666666666, "grad_norm": 0.28125, "learning_rate": 0.0002928536237533086, "loss": 0.4744, "step": 74440 }, { "epoch": 198.53333333333333, "grad_norm": 0.2119140625, "learning_rate": 0.00029285170607879494, "loss": 0.4672, "step": 74450 }, { "epoch": 198.56, "grad_norm": 0.353515625, "learning_rate": 0.00029284978815329965, "loss": 0.4685, "step": 74460 }, { "epoch": 198.58666666666667, "grad_norm": 0.333984375, "learning_rate": 0.00029284786997682614, "loss": 0.465, "step": 74470 }, { "epoch": 198.61333333333334, "grad_norm": 0.2314453125, "learning_rate": 0.0002928459515493778, "loss": 0.4499, "step": 74480 }, { "epoch": 198.64, "grad_norm": 0.427734375, "learning_rate": 0.00029284403287095786, "loss": 0.456, "step": 74490 }, { "epoch": 198.66666666666666, "grad_norm": 0.392578125, "learning_rate": 0.0002928421139415699, "loss": 0.4716, "step": 74500 }, { "epoch": 198.69333333333333, "grad_norm": 0.3828125, "learning_rate": 0.00029284019476121713, "loss": 0.4545, "step": 74510 }, { "epoch": 198.72, "grad_norm": 0.318359375, "learning_rate": 0.00029283827532990294, "loss": 0.4713, "step": 74520 }, { "epoch": 198.74666666666667, "grad_norm": 0.404296875, "learning_rate": 0.0002928363556476308, "loss": 0.4758, "step": 74530 }, { "epoch": 198.77333333333334, "grad_norm": 0.421875, "learning_rate": 0.00029283443571440396, "loss": 0.4826, "step": 74540 }, { "epoch": 198.8, "grad_norm": 0.4765625, "learning_rate": 0.0002928325155302259, "loss": 0.4706, "step": 74550 }, { "epoch": 198.82666666666665, "grad_norm": 0.47265625, "learning_rate": 0.00029283059509509993, "loss": 0.4646, "step": 74560 }, { "epoch": 198.85333333333332, "grad_norm": 0.28125, "learning_rate": 0.00029282867440902946, "loss": 0.4736, "step": 74570 }, { "epoch": 198.88, "grad_norm": 0.330078125, "learning_rate": 0.00029282675347201784, "loss": 0.4613, "step": 74580 }, { "epoch": 198.90666666666667, "grad_norm": 0.322265625, "learning_rate": 0.0002928248322840684, "loss": 0.4638, "step": 74590 }, { "epoch": 198.93333333333334, "grad_norm": 0.33203125, "learning_rate": 0.0002928229108451846, "loss": 0.4662, "step": 74600 }, { "epoch": 198.96, "grad_norm": 0.328125, "learning_rate": 0.00029282098915536976, "loss": 0.4646, "step": 74610 }, { "epoch": 198.98666666666668, "grad_norm": 0.455078125, "learning_rate": 0.0002928190672146273, "loss": 0.4773, "step": 74620 }, { "epoch": 199.0, "eval_loss": 0.47776076197624207, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.9108, "eval_samples_per_second": 1.614, "eval_steps_per_second": 0.101, "step": 74625 }, { "epoch": 199.01333333333332, "grad_norm": 0.298828125, "learning_rate": 0.0002928171450229606, "loss": 0.4669, "step": 74630 }, { "epoch": 199.04, "grad_norm": 0.30078125, "learning_rate": 0.00029281522258037295, "loss": 0.4913, "step": 74640 }, { "epoch": 199.06666666666666, "grad_norm": 0.482421875, "learning_rate": 0.00029281329988686784, "loss": 0.4783, "step": 74650 }, { "epoch": 199.09333333333333, "grad_norm": 0.37890625, "learning_rate": 0.0002928113769424486, "loss": 0.4737, "step": 74660 }, { "epoch": 199.12, "grad_norm": 0.296875, "learning_rate": 0.00029280945374711854, "loss": 0.47, "step": 74670 }, { "epoch": 199.14666666666668, "grad_norm": 0.357421875, "learning_rate": 0.00029280753030088113, "loss": 0.4777, "step": 74680 }, { "epoch": 199.17333333333335, "grad_norm": 0.3984375, "learning_rate": 0.00029280560660373977, "loss": 0.4689, "step": 74690 }, { "epoch": 199.2, "grad_norm": 0.30078125, "learning_rate": 0.00029280368265569777, "loss": 0.4675, "step": 74700 }, { "epoch": 199.22666666666666, "grad_norm": 0.330078125, "learning_rate": 0.00029280175845675853, "loss": 0.4645, "step": 74710 }, { "epoch": 199.25333333333333, "grad_norm": 0.318359375, "learning_rate": 0.00029279983400692537, "loss": 0.4649, "step": 74720 }, { "epoch": 199.28, "grad_norm": 0.28125, "learning_rate": 0.0002927979093062018, "loss": 0.4784, "step": 74730 }, { "epoch": 199.30666666666667, "grad_norm": 0.26953125, "learning_rate": 0.00029279598435459116, "loss": 0.4593, "step": 74740 }, { "epoch": 199.33333333333334, "grad_norm": 0.287109375, "learning_rate": 0.00029279405915209677, "loss": 0.4742, "step": 74750 }, { "epoch": 199.36, "grad_norm": 0.37109375, "learning_rate": 0.00029279213369872207, "loss": 0.4768, "step": 74760 }, { "epoch": 199.38666666666666, "grad_norm": 0.3359375, "learning_rate": 0.0002927902079944704, "loss": 0.4682, "step": 74770 }, { "epoch": 199.41333333333333, "grad_norm": 0.376953125, "learning_rate": 0.00029278828203934516, "loss": 0.4733, "step": 74780 }, { "epoch": 199.44, "grad_norm": 0.3125, "learning_rate": 0.0002927863558333498, "loss": 0.4756, "step": 74790 }, { "epoch": 199.46666666666667, "grad_norm": 0.267578125, "learning_rate": 0.0002927844293764876, "loss": 0.4861, "step": 74800 }, { "epoch": 199.49333333333334, "grad_norm": 0.34765625, "learning_rate": 0.000292782502668762, "loss": 0.476, "step": 74810 }, { "epoch": 199.52, "grad_norm": 0.30859375, "learning_rate": 0.00029278057571017633, "loss": 0.471, "step": 74820 }, { "epoch": 199.54666666666665, "grad_norm": 0.267578125, "learning_rate": 0.00029277864850073406, "loss": 0.4683, "step": 74830 }, { "epoch": 199.57333333333332, "grad_norm": 0.23046875, "learning_rate": 0.0002927767210404386, "loss": 0.4676, "step": 74840 }, { "epoch": 199.6, "grad_norm": 0.3984375, "learning_rate": 0.00029277479332929314, "loss": 0.4602, "step": 74850 }, { "epoch": 199.62666666666667, "grad_norm": 0.322265625, "learning_rate": 0.0002927728653673013, "loss": 0.448, "step": 74860 }, { "epoch": 199.65333333333334, "grad_norm": 0.322265625, "learning_rate": 0.0002927709371544663, "loss": 0.4674, "step": 74870 }, { "epoch": 199.68, "grad_norm": 0.255859375, "learning_rate": 0.00029276900869079165, "loss": 0.459, "step": 74880 }, { "epoch": 199.70666666666668, "grad_norm": 0.345703125, "learning_rate": 0.0002927670799762807, "loss": 0.4599, "step": 74890 }, { "epoch": 199.73333333333332, "grad_norm": 0.27734375, "learning_rate": 0.0002927651510109368, "loss": 0.4786, "step": 74900 }, { "epoch": 199.76, "grad_norm": 0.333984375, "learning_rate": 0.00029276322179476336, "loss": 0.4789, "step": 74910 }, { "epoch": 199.78666666666666, "grad_norm": 0.412109375, "learning_rate": 0.0002927612923277637, "loss": 0.4784, "step": 74920 }, { "epoch": 199.81333333333333, "grad_norm": 0.3359375, "learning_rate": 0.0002927593626099414, "loss": 0.4634, "step": 74930 }, { "epoch": 199.84, "grad_norm": 0.345703125, "learning_rate": 0.0002927574326412996, "loss": 0.4694, "step": 74940 }, { "epoch": 199.86666666666667, "grad_norm": 0.357421875, "learning_rate": 0.00029275550242184193, "loss": 0.4685, "step": 74950 }, { "epoch": 199.89333333333335, "grad_norm": 0.26953125, "learning_rate": 0.00029275357195157164, "loss": 0.4598, "step": 74960 }, { "epoch": 199.92, "grad_norm": 0.296875, "learning_rate": 0.00029275164123049216, "loss": 0.4703, "step": 74970 }, { "epoch": 199.94666666666666, "grad_norm": 0.375, "learning_rate": 0.00029274971025860684, "loss": 0.4625, "step": 74980 }, { "epoch": 199.97333333333333, "grad_norm": 0.416015625, "learning_rate": 0.00029274777903591916, "loss": 0.4737, "step": 74990 }, { "epoch": 200.0, "grad_norm": 0.31640625, "learning_rate": 0.0002927458475624324, "loss": 0.4624, "step": 75000 }, { "epoch": 200.0, "eval_loss": 0.47762927412986755, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.3295, "eval_samples_per_second": 1.549, "eval_steps_per_second": 0.097, "step": 75000 }, { "epoch": 200.02666666666667, "grad_norm": 0.28125, "learning_rate": 0.0002927439158381501, "loss": 0.483, "step": 75010 }, { "epoch": 200.05333333333334, "grad_norm": 0.341796875, "learning_rate": 0.00029274198386307554, "loss": 0.4882, "step": 75020 }, { "epoch": 200.08, "grad_norm": 0.29296875, "learning_rate": 0.00029274005163721213, "loss": 0.4755, "step": 75030 }, { "epoch": 200.10666666666665, "grad_norm": 0.28515625, "learning_rate": 0.00029273811916056327, "loss": 0.471, "step": 75040 }, { "epoch": 200.13333333333333, "grad_norm": 0.37109375, "learning_rate": 0.00029273618643313237, "loss": 0.4726, "step": 75050 }, { "epoch": 200.16, "grad_norm": 0.26953125, "learning_rate": 0.0002927342534549228, "loss": 0.4768, "step": 75060 }, { "epoch": 200.18666666666667, "grad_norm": 0.24609375, "learning_rate": 0.000292732320225938, "loss": 0.4684, "step": 75070 }, { "epoch": 200.21333333333334, "grad_norm": 0.26953125, "learning_rate": 0.00029273038674618136, "loss": 0.4631, "step": 75080 }, { "epoch": 200.24, "grad_norm": 0.375, "learning_rate": 0.00029272845301565626, "loss": 0.4672, "step": 75090 }, { "epoch": 200.26666666666668, "grad_norm": 0.373046875, "learning_rate": 0.0002927265190343661, "loss": 0.472, "step": 75100 }, { "epoch": 200.29333333333332, "grad_norm": 0.330078125, "learning_rate": 0.0002927245848023142, "loss": 0.4651, "step": 75110 }, { "epoch": 200.32, "grad_norm": 0.330078125, "learning_rate": 0.0002927226503195041, "loss": 0.469, "step": 75120 }, { "epoch": 200.34666666666666, "grad_norm": 0.283203125, "learning_rate": 0.00029272071558593914, "loss": 0.4771, "step": 75130 }, { "epoch": 200.37333333333333, "grad_norm": 0.376953125, "learning_rate": 0.00029271878060162265, "loss": 0.4726, "step": 75140 }, { "epoch": 200.4, "grad_norm": 0.3203125, "learning_rate": 0.00029271684536655816, "loss": 0.4694, "step": 75150 }, { "epoch": 200.42666666666668, "grad_norm": 0.38671875, "learning_rate": 0.00029271490988074894, "loss": 0.4759, "step": 75160 }, { "epoch": 200.45333333333335, "grad_norm": 0.37109375, "learning_rate": 0.0002927129741441985, "loss": 0.4783, "step": 75170 }, { "epoch": 200.48, "grad_norm": 0.31640625, "learning_rate": 0.00029271103815691016, "loss": 0.4843, "step": 75180 }, { "epoch": 200.50666666666666, "grad_norm": 0.3984375, "learning_rate": 0.0002927091019188874, "loss": 0.4742, "step": 75190 }, { "epoch": 200.53333333333333, "grad_norm": 0.37109375, "learning_rate": 0.00029270716543013353, "loss": 0.4685, "step": 75200 }, { "epoch": 200.56, "grad_norm": 0.392578125, "learning_rate": 0.000292705228690652, "loss": 0.4693, "step": 75210 }, { "epoch": 200.58666666666667, "grad_norm": 0.3203125, "learning_rate": 0.00029270329170044625, "loss": 0.4647, "step": 75220 }, { "epoch": 200.61333333333334, "grad_norm": 0.28125, "learning_rate": 0.0002927013544595196, "loss": 0.4507, "step": 75230 }, { "epoch": 200.64, "grad_norm": 0.31640625, "learning_rate": 0.00029269941696787553, "loss": 0.4557, "step": 75240 }, { "epoch": 200.66666666666666, "grad_norm": 0.283203125, "learning_rate": 0.0002926974792255174, "loss": 0.471, "step": 75250 }, { "epoch": 200.69333333333333, "grad_norm": 0.263671875, "learning_rate": 0.00029269554123244866, "loss": 0.4542, "step": 75260 }, { "epoch": 200.72, "grad_norm": 0.333984375, "learning_rate": 0.0002926936029886726, "loss": 0.4716, "step": 75270 }, { "epoch": 200.74666666666667, "grad_norm": 0.279296875, "learning_rate": 0.0002926916644941928, "loss": 0.4756, "step": 75280 }, { "epoch": 200.77333333333334, "grad_norm": 0.3515625, "learning_rate": 0.0002926897257490125, "loss": 0.4825, "step": 75290 }, { "epoch": 200.8, "grad_norm": 0.275390625, "learning_rate": 0.0002926877867531352, "loss": 0.4702, "step": 75300 }, { "epoch": 200.82666666666665, "grad_norm": 0.255859375, "learning_rate": 0.00029268584750656427, "loss": 0.4645, "step": 75310 }, { "epoch": 200.85333333333332, "grad_norm": 0.322265625, "learning_rate": 0.0002926839080093031, "loss": 0.4732, "step": 75320 }, { "epoch": 200.88, "grad_norm": 0.34375, "learning_rate": 0.00029268196826135525, "loss": 0.4612, "step": 75330 }, { "epoch": 200.90666666666667, "grad_norm": 0.296875, "learning_rate": 0.00029268002826272394, "loss": 0.464, "step": 75340 }, { "epoch": 200.93333333333334, "grad_norm": 0.255859375, "learning_rate": 0.0002926780880134127, "loss": 0.4661, "step": 75350 }, { "epoch": 200.96, "grad_norm": 0.2431640625, "learning_rate": 0.0002926761475134248, "loss": 0.4644, "step": 75360 }, { "epoch": 200.98666666666668, "grad_norm": 0.546875, "learning_rate": 0.00029267420676276374, "loss": 0.4775, "step": 75370 }, { "epoch": 201.0, "eval_loss": 0.4787846803665161, "eval_model_preparation_time": 0.0016, "eval_runtime": 11.2928, "eval_samples_per_second": 1.417, "eval_steps_per_second": 0.089, "step": 75375 }, { "epoch": 201.01333333333332, "grad_norm": 0.357421875, "learning_rate": 0.00029267226576143294, "loss": 0.4674, "step": 75380 }, { "epoch": 201.04, "grad_norm": 0.3515625, "learning_rate": 0.0002926703245094358, "loss": 0.4915, "step": 75390 }, { "epoch": 201.06666666666666, "grad_norm": 0.53125, "learning_rate": 0.0002926683830067757, "loss": 0.4789, "step": 75400 }, { "epoch": 201.09333333333333, "grad_norm": 0.3203125, "learning_rate": 0.0002926664412534561, "loss": 0.4734, "step": 75410 }, { "epoch": 201.12, "grad_norm": 0.38671875, "learning_rate": 0.00029266449924948045, "loss": 0.47, "step": 75420 }, { "epoch": 201.14666666666668, "grad_norm": 0.30078125, "learning_rate": 0.00029266255699485205, "loss": 0.4779, "step": 75430 }, { "epoch": 201.17333333333335, "grad_norm": 0.38671875, "learning_rate": 0.00029266061448957433, "loss": 0.4689, "step": 75440 }, { "epoch": 201.2, "grad_norm": 0.287109375, "learning_rate": 0.00029265867173365075, "loss": 0.4671, "step": 75450 }, { "epoch": 201.22666666666666, "grad_norm": 0.30078125, "learning_rate": 0.0002926567287270847, "loss": 0.4653, "step": 75460 }, { "epoch": 201.25333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029265478546987967, "loss": 0.4645, "step": 75470 }, { "epoch": 201.28, "grad_norm": 0.359375, "learning_rate": 0.00029265284196203895, "loss": 0.4787, "step": 75480 }, { "epoch": 201.30666666666667, "grad_norm": 0.3671875, "learning_rate": 0.00029265089820356603, "loss": 0.4588, "step": 75490 }, { "epoch": 201.33333333333334, "grad_norm": 0.3125, "learning_rate": 0.0002926489541944643, "loss": 0.4753, "step": 75500 }, { "epoch": 201.36, "grad_norm": 0.470703125, "learning_rate": 0.0002926470099347371, "loss": 0.4768, "step": 75510 }, { "epoch": 201.38666666666666, "grad_norm": 0.478515625, "learning_rate": 0.00029264506542438804, "loss": 0.4689, "step": 75520 }, { "epoch": 201.41333333333333, "grad_norm": 0.6640625, "learning_rate": 0.0002926431206634204, "loss": 0.4733, "step": 75530 }, { "epoch": 201.44, "grad_norm": 0.38671875, "learning_rate": 0.0002926411756518376, "loss": 0.4765, "step": 75540 }, { "epoch": 201.46666666666667, "grad_norm": 0.392578125, "learning_rate": 0.0002926392303896431, "loss": 0.4855, "step": 75550 }, { "epoch": 201.49333333333334, "grad_norm": 0.35546875, "learning_rate": 0.00029263728487684027, "loss": 0.4767, "step": 75560 }, { "epoch": 201.52, "grad_norm": 0.2578125, "learning_rate": 0.00029263533911343256, "loss": 0.4712, "step": 75570 }, { "epoch": 201.54666666666665, "grad_norm": 0.296875, "learning_rate": 0.00029263339309942344, "loss": 0.4683, "step": 75580 }, { "epoch": 201.57333333333332, "grad_norm": 0.3203125, "learning_rate": 0.0002926314468348162, "loss": 0.4672, "step": 75590 }, { "epoch": 201.6, "grad_norm": 0.48046875, "learning_rate": 0.00029262950031961433, "loss": 0.4607, "step": 75600 }, { "epoch": 201.62666666666667, "grad_norm": 0.244140625, "learning_rate": 0.00029262755355382127, "loss": 0.4481, "step": 75610 }, { "epoch": 201.65333333333334, "grad_norm": 0.26171875, "learning_rate": 0.0002926256065374404, "loss": 0.4674, "step": 75620 }, { "epoch": 201.68, "grad_norm": 0.390625, "learning_rate": 0.00029262365927047523, "loss": 0.4583, "step": 75630 }, { "epoch": 201.70666666666668, "grad_norm": 0.365234375, "learning_rate": 0.00029262171175292907, "loss": 0.4601, "step": 75640 }, { "epoch": 201.73333333333332, "grad_norm": 0.30078125, "learning_rate": 0.0002926197639848053, "loss": 0.4784, "step": 75650 }, { "epoch": 201.76, "grad_norm": 0.431640625, "learning_rate": 0.00029261781596610757, "loss": 0.4801, "step": 75660 }, { "epoch": 201.78666666666666, "grad_norm": 0.267578125, "learning_rate": 0.0002926158676968391, "loss": 0.478, "step": 75670 }, { "epoch": 201.81333333333333, "grad_norm": 0.419921875, "learning_rate": 0.0002926139191770034, "loss": 0.4641, "step": 75680 }, { "epoch": 201.84, "grad_norm": 0.40625, "learning_rate": 0.0002926119704066038, "loss": 0.4696, "step": 75690 }, { "epoch": 201.86666666666667, "grad_norm": 0.283203125, "learning_rate": 0.00029261002138564386, "loss": 0.4687, "step": 75700 }, { "epoch": 201.89333333333335, "grad_norm": 0.333984375, "learning_rate": 0.00029260807211412687, "loss": 0.4593, "step": 75710 }, { "epoch": 201.92, "grad_norm": 0.359375, "learning_rate": 0.00029260612259205635, "loss": 0.4706, "step": 75720 }, { "epoch": 201.94666666666666, "grad_norm": 0.3359375, "learning_rate": 0.0002926041728194357, "loss": 0.4622, "step": 75730 }, { "epoch": 201.97333333333333, "grad_norm": 0.35546875, "learning_rate": 0.00029260222279626835, "loss": 0.4738, "step": 75740 }, { "epoch": 202.0, "grad_norm": 0.283203125, "learning_rate": 0.0002926002725225577, "loss": 0.4626, "step": 75750 }, { "epoch": 202.0, "eval_loss": 0.4782838225364685, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.7972, "eval_samples_per_second": 1.482, "eval_steps_per_second": 0.093, "step": 75750 }, { "epoch": 202.02666666666667, "grad_norm": 0.31640625, "learning_rate": 0.0002925983219983072, "loss": 0.483, "step": 75760 }, { "epoch": 202.05333333333334, "grad_norm": 0.30859375, "learning_rate": 0.00029259637122352024, "loss": 0.4883, "step": 75770 }, { "epoch": 202.08, "grad_norm": 0.302734375, "learning_rate": 0.0002925944201982003, "loss": 0.4755, "step": 75780 }, { "epoch": 202.10666666666665, "grad_norm": 0.3359375, "learning_rate": 0.0002925924689223508, "loss": 0.4707, "step": 75790 }, { "epoch": 202.13333333333333, "grad_norm": 0.28515625, "learning_rate": 0.00029259051739597515, "loss": 0.472, "step": 75800 }, { "epoch": 202.16, "grad_norm": 0.400390625, "learning_rate": 0.00029258856561907673, "loss": 0.4762, "step": 75810 }, { "epoch": 202.18666666666667, "grad_norm": 0.279296875, "learning_rate": 0.00029258661359165904, "loss": 0.4682, "step": 75820 }, { "epoch": 202.21333333333334, "grad_norm": 0.30859375, "learning_rate": 0.00029258466131372554, "loss": 0.4632, "step": 75830 }, { "epoch": 202.24, "grad_norm": 0.44140625, "learning_rate": 0.0002925827087852796, "loss": 0.4678, "step": 75840 }, { "epoch": 202.26666666666668, "grad_norm": 0.306640625, "learning_rate": 0.0002925807560063246, "loss": 0.472, "step": 75850 }, { "epoch": 202.29333333333332, "grad_norm": 0.2451171875, "learning_rate": 0.0002925788029768641, "loss": 0.4659, "step": 75860 }, { "epoch": 202.32, "grad_norm": 0.2412109375, "learning_rate": 0.0002925768496969014, "loss": 0.469, "step": 75870 }, { "epoch": 202.34666666666666, "grad_norm": 0.28125, "learning_rate": 0.00029257489616644003, "loss": 0.4774, "step": 75880 }, { "epoch": 202.37333333333333, "grad_norm": 0.392578125, "learning_rate": 0.0002925729423854834, "loss": 0.4736, "step": 75890 }, { "epoch": 202.4, "grad_norm": 0.33203125, "learning_rate": 0.0002925709883540349, "loss": 0.4697, "step": 75900 }, { "epoch": 202.42666666666668, "grad_norm": 0.271484375, "learning_rate": 0.000292569034072098, "loss": 0.4755, "step": 75910 }, { "epoch": 202.45333333333335, "grad_norm": 0.31640625, "learning_rate": 0.00029256707953967615, "loss": 0.4776, "step": 75920 }, { "epoch": 202.48, "grad_norm": 0.388671875, "learning_rate": 0.00029256512475677273, "loss": 0.4843, "step": 75930 }, { "epoch": 202.50666666666666, "grad_norm": 0.34375, "learning_rate": 0.00029256316972339124, "loss": 0.474, "step": 75940 }, { "epoch": 202.53333333333333, "grad_norm": 0.267578125, "learning_rate": 0.0002925612144395351, "loss": 0.4684, "step": 75950 }, { "epoch": 202.56, "grad_norm": 0.310546875, "learning_rate": 0.0002925592589052076, "loss": 0.4688, "step": 75960 }, { "epoch": 202.58666666666667, "grad_norm": 0.388671875, "learning_rate": 0.00029255730312041244, "loss": 0.4647, "step": 75970 }, { "epoch": 202.61333333333334, "grad_norm": 0.232421875, "learning_rate": 0.00029255534708515283, "loss": 0.4511, "step": 75980 }, { "epoch": 202.64, "grad_norm": 0.267578125, "learning_rate": 0.00029255339079943234, "loss": 0.4562, "step": 75990 }, { "epoch": 202.66666666666666, "grad_norm": 0.3359375, "learning_rate": 0.00029255143426325437, "loss": 0.4718, "step": 76000 }, { "epoch": 202.69333333333333, "grad_norm": 0.365234375, "learning_rate": 0.0002925494774766223, "loss": 0.4546, "step": 76010 }, { "epoch": 202.72, "grad_norm": 0.3515625, "learning_rate": 0.00029254752043953965, "loss": 0.4711, "step": 76020 }, { "epoch": 202.74666666666667, "grad_norm": 0.37890625, "learning_rate": 0.0002925455631520098, "loss": 0.4752, "step": 76030 }, { "epoch": 202.77333333333334, "grad_norm": 0.53125, "learning_rate": 0.0002925436056140362, "loss": 0.4828, "step": 76040 }, { "epoch": 202.8, "grad_norm": 0.263671875, "learning_rate": 0.00029254164782562236, "loss": 0.4701, "step": 76050 }, { "epoch": 202.82666666666665, "grad_norm": 0.3359375, "learning_rate": 0.0002925396897867716, "loss": 0.4646, "step": 76060 }, { "epoch": 202.85333333333332, "grad_norm": 0.443359375, "learning_rate": 0.00029253773149748747, "loss": 0.4736, "step": 76070 }, { "epoch": 202.88, "grad_norm": 0.328125, "learning_rate": 0.0002925357729577733, "loss": 0.4611, "step": 76080 }, { "epoch": 202.90666666666667, "grad_norm": 0.306640625, "learning_rate": 0.0002925338141676327, "loss": 0.4641, "step": 76090 }, { "epoch": 202.93333333333334, "grad_norm": 0.287109375, "learning_rate": 0.00029253185512706894, "loss": 0.466, "step": 76100 }, { "epoch": 202.96, "grad_norm": 0.28515625, "learning_rate": 0.0002925298958360855, "loss": 0.4636, "step": 76110 }, { "epoch": 202.98666666666668, "grad_norm": 0.31640625, "learning_rate": 0.0002925279362946859, "loss": 0.478, "step": 76120 }, { "epoch": 203.0, "eval_loss": 0.4781941771507263, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.5103, "eval_samples_per_second": 1.522, "eval_steps_per_second": 0.095, "step": 76125 }, { "epoch": 203.01333333333332, "grad_norm": 0.255859375, "learning_rate": 0.00029252597650287354, "loss": 0.4664, "step": 76130 }, { "epoch": 203.04, "grad_norm": 0.3515625, "learning_rate": 0.0002925240164606518, "loss": 0.4904, "step": 76140 }, { "epoch": 203.06666666666666, "grad_norm": 0.46875, "learning_rate": 0.00029252205616802425, "loss": 0.4791, "step": 76150 }, { "epoch": 203.09333333333333, "grad_norm": 0.416015625, "learning_rate": 0.0002925200956249942, "loss": 0.4733, "step": 76160 }, { "epoch": 203.12, "grad_norm": 0.314453125, "learning_rate": 0.0002925181348315652, "loss": 0.4697, "step": 76170 }, { "epoch": 203.14666666666668, "grad_norm": 0.28125, "learning_rate": 0.00029251617378774064, "loss": 0.4775, "step": 76180 }, { "epoch": 203.17333333333335, "grad_norm": 0.34765625, "learning_rate": 0.00029251421249352393, "loss": 0.4685, "step": 76190 }, { "epoch": 203.2, "grad_norm": 0.30078125, "learning_rate": 0.00029251225094891864, "loss": 0.467, "step": 76200 }, { "epoch": 203.22666666666666, "grad_norm": 0.341796875, "learning_rate": 0.0002925102891539281, "loss": 0.4645, "step": 76210 }, { "epoch": 203.25333333333333, "grad_norm": 0.359375, "learning_rate": 0.0002925083271085558, "loss": 0.4651, "step": 76220 }, { "epoch": 203.28, "grad_norm": 0.35546875, "learning_rate": 0.00029250636481280523, "loss": 0.4787, "step": 76230 }, { "epoch": 203.30666666666667, "grad_norm": 0.2490234375, "learning_rate": 0.00029250440226667973, "loss": 0.4601, "step": 76240 }, { "epoch": 203.33333333333334, "grad_norm": 0.341796875, "learning_rate": 0.00029250243947018283, "loss": 0.4743, "step": 76250 }, { "epoch": 203.36, "grad_norm": 0.34765625, "learning_rate": 0.000292500476423318, "loss": 0.4769, "step": 76260 }, { "epoch": 203.38666666666666, "grad_norm": 0.466796875, "learning_rate": 0.00029249851312608863, "loss": 0.4686, "step": 76270 }, { "epoch": 203.41333333333333, "grad_norm": 0.3671875, "learning_rate": 0.0002924965495784981, "loss": 0.4727, "step": 76280 }, { "epoch": 203.44, "grad_norm": 0.2421875, "learning_rate": 0.00029249458578055, "loss": 0.4764, "step": 76290 }, { "epoch": 203.46666666666667, "grad_norm": 0.328125, "learning_rate": 0.00029249262173224776, "loss": 0.4856, "step": 76300 }, { "epoch": 203.49333333333334, "grad_norm": 0.3359375, "learning_rate": 0.0002924906574335948, "loss": 0.4769, "step": 76310 }, { "epoch": 203.52, "grad_norm": 0.326171875, "learning_rate": 0.00029248869288459457, "loss": 0.4712, "step": 76320 }, { "epoch": 203.54666666666665, "grad_norm": 0.3515625, "learning_rate": 0.00029248672808525046, "loss": 0.4685, "step": 76330 }, { "epoch": 203.57333333333332, "grad_norm": 0.3125, "learning_rate": 0.000292484763035566, "loss": 0.467, "step": 76340 }, { "epoch": 203.6, "grad_norm": 0.345703125, "learning_rate": 0.0002924827977355447, "loss": 0.4602, "step": 76350 }, { "epoch": 203.62666666666667, "grad_norm": 0.259765625, "learning_rate": 0.0002924808321851899, "loss": 0.4484, "step": 76360 }, { "epoch": 203.65333333333334, "grad_norm": 0.287109375, "learning_rate": 0.0002924788663845051, "loss": 0.4676, "step": 76370 }, { "epoch": 203.68, "grad_norm": 0.314453125, "learning_rate": 0.0002924769003334937, "loss": 0.4592, "step": 76380 }, { "epoch": 203.70666666666668, "grad_norm": 0.435546875, "learning_rate": 0.0002924749340321592, "loss": 0.4601, "step": 76390 }, { "epoch": 203.73333333333332, "grad_norm": 0.259765625, "learning_rate": 0.0002924729674805051, "loss": 0.4785, "step": 76400 }, { "epoch": 203.76, "grad_norm": 0.3046875, "learning_rate": 0.0002924710006785348, "loss": 0.4796, "step": 76410 }, { "epoch": 203.78666666666666, "grad_norm": 0.267578125, "learning_rate": 0.0002924690336262517, "loss": 0.4782, "step": 76420 }, { "epoch": 203.81333333333333, "grad_norm": 0.474609375, "learning_rate": 0.00029246706632365943, "loss": 0.4634, "step": 76430 }, { "epoch": 203.84, "grad_norm": 0.33203125, "learning_rate": 0.00029246509877076126, "loss": 0.4696, "step": 76440 }, { "epoch": 203.86666666666667, "grad_norm": 0.283203125, "learning_rate": 0.00029246313096756077, "loss": 0.4683, "step": 76450 }, { "epoch": 203.89333333333335, "grad_norm": 0.30078125, "learning_rate": 0.0002924611629140613, "loss": 0.4601, "step": 76460 }, { "epoch": 203.92, "grad_norm": 0.400390625, "learning_rate": 0.00029245919461026645, "loss": 0.4704, "step": 76470 }, { "epoch": 203.94666666666666, "grad_norm": 0.396484375, "learning_rate": 0.00029245722605617956, "loss": 0.4624, "step": 76480 }, { "epoch": 203.97333333333333, "grad_norm": 0.271484375, "learning_rate": 0.0002924552572518042, "loss": 0.474, "step": 76490 }, { "epoch": 204.0, "grad_norm": 0.408203125, "learning_rate": 0.0002924532881971437, "loss": 0.4632, "step": 76500 }, { "epoch": 204.0, "eval_loss": 0.4801044166088104, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.9231, "eval_samples_per_second": 1.612, "eval_steps_per_second": 0.101, "step": 76500 }, { "epoch": 204.02666666666667, "grad_norm": 0.375, "learning_rate": 0.0002924513188922016, "loss": 0.4826, "step": 76510 }, { "epoch": 204.05333333333334, "grad_norm": 0.34765625, "learning_rate": 0.00029244934933698134, "loss": 0.4887, "step": 76520 }, { "epoch": 204.08, "grad_norm": 0.419921875, "learning_rate": 0.0002924473795314864, "loss": 0.4756, "step": 76530 }, { "epoch": 204.10666666666665, "grad_norm": 0.28125, "learning_rate": 0.0002924454094757202, "loss": 0.4697, "step": 76540 }, { "epoch": 204.13333333333333, "grad_norm": 0.357421875, "learning_rate": 0.0002924434391696863, "loss": 0.4713, "step": 76550 }, { "epoch": 204.16, "grad_norm": 0.396484375, "learning_rate": 0.00029244146861338806, "loss": 0.4767, "step": 76560 }, { "epoch": 204.18666666666667, "grad_norm": 0.302734375, "learning_rate": 0.00029243949780682893, "loss": 0.4683, "step": 76570 }, { "epoch": 204.21333333333334, "grad_norm": 0.2490234375, "learning_rate": 0.0002924375267500124, "loss": 0.4637, "step": 76580 }, { "epoch": 204.24, "grad_norm": 0.3984375, "learning_rate": 0.00029243555544294204, "loss": 0.4679, "step": 76590 }, { "epoch": 204.26666666666668, "grad_norm": 0.427734375, "learning_rate": 0.00029243358388562115, "loss": 0.4718, "step": 76600 }, { "epoch": 204.29333333333332, "grad_norm": 0.3359375, "learning_rate": 0.00029243161207805323, "loss": 0.4654, "step": 76610 }, { "epoch": 204.32, "grad_norm": 0.3671875, "learning_rate": 0.00029242964002024186, "loss": 0.4683, "step": 76620 }, { "epoch": 204.34666666666666, "grad_norm": 0.380859375, "learning_rate": 0.0002924276677121904, "loss": 0.4771, "step": 76630 }, { "epoch": 204.37333333333333, "grad_norm": 0.439453125, "learning_rate": 0.00029242569515390234, "loss": 0.4725, "step": 76640 }, { "epoch": 204.4, "grad_norm": 0.337890625, "learning_rate": 0.0002924237223453811, "loss": 0.4703, "step": 76650 }, { "epoch": 204.42666666666668, "grad_norm": 0.2578125, "learning_rate": 0.0002924217492866302, "loss": 0.4754, "step": 76660 }, { "epoch": 204.45333333333335, "grad_norm": 0.28125, "learning_rate": 0.00029241977597765315, "loss": 0.4781, "step": 76670 }, { "epoch": 204.48, "grad_norm": 0.44140625, "learning_rate": 0.0002924178024184533, "loss": 0.4838, "step": 76680 }, { "epoch": 204.50666666666666, "grad_norm": 0.30078125, "learning_rate": 0.0002924158286090342, "loss": 0.4737, "step": 76690 }, { "epoch": 204.53333333333333, "grad_norm": 0.365234375, "learning_rate": 0.00029241385454939934, "loss": 0.4676, "step": 76700 }, { "epoch": 204.56, "grad_norm": 0.28515625, "learning_rate": 0.0002924118802395521, "loss": 0.4679, "step": 76710 }, { "epoch": 204.58666666666667, "grad_norm": 0.349609375, "learning_rate": 0.000292409905679496, "loss": 0.4651, "step": 76720 }, { "epoch": 204.61333333333334, "grad_norm": 0.25, "learning_rate": 0.00029240793086923457, "loss": 0.4506, "step": 76730 }, { "epoch": 204.64, "grad_norm": 0.1943359375, "learning_rate": 0.0002924059558087711, "loss": 0.456, "step": 76740 }, { "epoch": 204.66666666666666, "grad_norm": 0.388671875, "learning_rate": 0.00029240398049810924, "loss": 0.471, "step": 76750 }, { "epoch": 204.69333333333333, "grad_norm": 0.373046875, "learning_rate": 0.0002924020049372524, "loss": 0.4546, "step": 76760 }, { "epoch": 204.72, "grad_norm": 0.384765625, "learning_rate": 0.00029240002912620406, "loss": 0.4711, "step": 76770 }, { "epoch": 204.74666666666667, "grad_norm": 0.291015625, "learning_rate": 0.00029239805306496765, "loss": 0.4751, "step": 76780 }, { "epoch": 204.77333333333334, "grad_norm": 0.318359375, "learning_rate": 0.00029239607675354666, "loss": 0.4825, "step": 76790 }, { "epoch": 204.8, "grad_norm": 0.419921875, "learning_rate": 0.0002923941001919446, "loss": 0.4697, "step": 76800 }, { "epoch": 204.82666666666665, "grad_norm": 0.353515625, "learning_rate": 0.0002923921233801649, "loss": 0.465, "step": 76810 }, { "epoch": 204.85333333333332, "grad_norm": 0.29296875, "learning_rate": 0.00029239014631821103, "loss": 0.4733, "step": 76820 }, { "epoch": 204.88, "grad_norm": 0.443359375, "learning_rate": 0.0002923881690060865, "loss": 0.4615, "step": 76830 }, { "epoch": 204.90666666666667, "grad_norm": 0.283203125, "learning_rate": 0.0002923861914437948, "loss": 0.464, "step": 76840 }, { "epoch": 204.93333333333334, "grad_norm": 0.2470703125, "learning_rate": 0.0002923842136313393, "loss": 0.4658, "step": 76850 }, { "epoch": 204.96, "grad_norm": 0.291015625, "learning_rate": 0.0002923822355687236, "loss": 0.4642, "step": 76860 }, { "epoch": 204.98666666666668, "grad_norm": 0.30078125, "learning_rate": 0.0002923802572559511, "loss": 0.4777, "step": 76870 }, { "epoch": 205.0, "eval_loss": 0.4777953624725342, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.4051, "eval_samples_per_second": 1.538, "eval_steps_per_second": 0.096, "step": 76875 }, { "epoch": 205.01333333333332, "grad_norm": 0.294921875, "learning_rate": 0.00029237827869302524, "loss": 0.4664, "step": 76880 }, { "epoch": 205.04, "grad_norm": 0.302734375, "learning_rate": 0.00029237629987994966, "loss": 0.4905, "step": 76890 }, { "epoch": 205.06666666666666, "grad_norm": 0.357421875, "learning_rate": 0.00029237432081672765, "loss": 0.4783, "step": 76900 }, { "epoch": 205.09333333333333, "grad_norm": 0.29296875, "learning_rate": 0.0002923723415033628, "loss": 0.4725, "step": 76910 }, { "epoch": 205.12, "grad_norm": 0.291015625, "learning_rate": 0.00029237036193985853, "loss": 0.4696, "step": 76920 }, { "epoch": 205.14666666666668, "grad_norm": 0.357421875, "learning_rate": 0.00029236838212621835, "loss": 0.4788, "step": 76930 }, { "epoch": 205.17333333333335, "grad_norm": 0.28515625, "learning_rate": 0.00029236640206244574, "loss": 0.4689, "step": 76940 }, { "epoch": 205.2, "grad_norm": 0.3203125, "learning_rate": 0.00029236442174854416, "loss": 0.4672, "step": 76950 }, { "epoch": 205.22666666666666, "grad_norm": 0.37890625, "learning_rate": 0.0002923624411845171, "loss": 0.4655, "step": 76960 }, { "epoch": 205.25333333333333, "grad_norm": 0.40234375, "learning_rate": 0.00029236046037036805, "loss": 0.465, "step": 76970 }, { "epoch": 205.28, "grad_norm": 0.345703125, "learning_rate": 0.00029235847930610045, "loss": 0.4785, "step": 76980 }, { "epoch": 205.30666666666667, "grad_norm": 0.318359375, "learning_rate": 0.0002923564979917178, "loss": 0.4592, "step": 76990 }, { "epoch": 205.33333333333334, "grad_norm": 0.341796875, "learning_rate": 0.0002923545164272236, "loss": 0.4754, "step": 77000 }, { "epoch": 205.36, "grad_norm": 0.38671875, "learning_rate": 0.0002923525346126213, "loss": 0.4771, "step": 77010 }, { "epoch": 205.38666666666666, "grad_norm": 0.419921875, "learning_rate": 0.0002923505525479145, "loss": 0.4689, "step": 77020 }, { "epoch": 205.41333333333333, "grad_norm": 0.353515625, "learning_rate": 0.0002923485702331065, "loss": 0.4732, "step": 77030 }, { "epoch": 205.44, "grad_norm": 0.26171875, "learning_rate": 0.0002923465876682009, "loss": 0.4758, "step": 77040 }, { "epoch": 205.46666666666667, "grad_norm": 0.37109375, "learning_rate": 0.0002923446048532011, "loss": 0.4848, "step": 77050 }, { "epoch": 205.49333333333334, "grad_norm": 0.416015625, "learning_rate": 0.0002923426217881107, "loss": 0.477, "step": 77060 }, { "epoch": 205.52, "grad_norm": 0.33203125, "learning_rate": 0.0002923406384729331, "loss": 0.471, "step": 77070 }, { "epoch": 205.54666666666665, "grad_norm": 0.384765625, "learning_rate": 0.00029233865490767177, "loss": 0.4677, "step": 77080 }, { "epoch": 205.57333333333332, "grad_norm": 0.26953125, "learning_rate": 0.0002923366710923302, "loss": 0.4673, "step": 77090 }, { "epoch": 205.6, "grad_norm": 0.33984375, "learning_rate": 0.00029233468702691203, "loss": 0.461, "step": 77100 }, { "epoch": 205.62666666666667, "grad_norm": 0.359375, "learning_rate": 0.00029233270271142054, "loss": 0.4477, "step": 77110 }, { "epoch": 205.65333333333334, "grad_norm": 0.3671875, "learning_rate": 0.0002923307181458593, "loss": 0.4675, "step": 77120 }, { "epoch": 205.68, "grad_norm": 0.318359375, "learning_rate": 0.0002923287333302318, "loss": 0.4589, "step": 77130 }, { "epoch": 205.70666666666668, "grad_norm": 0.326171875, "learning_rate": 0.0002923267482645415, "loss": 0.4595, "step": 77140 }, { "epoch": 205.73333333333332, "grad_norm": 0.4609375, "learning_rate": 0.00029232476294879193, "loss": 0.4778, "step": 77150 }, { "epoch": 205.76, "grad_norm": 0.345703125, "learning_rate": 0.0002923227773829865, "loss": 0.4792, "step": 77160 }, { "epoch": 205.78666666666666, "grad_norm": 0.3125, "learning_rate": 0.0002923207915671288, "loss": 0.4774, "step": 77170 }, { "epoch": 205.81333333333333, "grad_norm": 0.392578125, "learning_rate": 0.00029231880550122227, "loss": 0.4634, "step": 77180 }, { "epoch": 205.84, "grad_norm": 0.369140625, "learning_rate": 0.00029231681918527044, "loss": 0.4692, "step": 77190 }, { "epoch": 205.86666666666667, "grad_norm": 0.314453125, "learning_rate": 0.0002923148326192767, "loss": 0.4681, "step": 77200 }, { "epoch": 205.89333333333335, "grad_norm": 0.3515625, "learning_rate": 0.00029231284580324464, "loss": 0.4599, "step": 77210 }, { "epoch": 205.92, "grad_norm": 0.400390625, "learning_rate": 0.0002923108587371777, "loss": 0.4704, "step": 77220 }, { "epoch": 205.94666666666666, "grad_norm": 0.3828125, "learning_rate": 0.00029230887142107936, "loss": 0.4624, "step": 77230 }, { "epoch": 205.97333333333333, "grad_norm": 0.32421875, "learning_rate": 0.00029230688385495325, "loss": 0.4739, "step": 77240 }, { "epoch": 206.0, "grad_norm": 0.3828125, "learning_rate": 0.00029230489603880263, "loss": 0.4626, "step": 77250 }, { "epoch": 206.0, "eval_loss": 0.47875362634658813, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.8448, "eval_samples_per_second": 1.625, "eval_steps_per_second": 0.102, "step": 77250 }, { "epoch": 206.02666666666667, "grad_norm": 0.26171875, "learning_rate": 0.00029230290797263114, "loss": 0.4827, "step": 77260 }, { "epoch": 206.05333333333334, "grad_norm": 0.39453125, "learning_rate": 0.0002923009196564422, "loss": 0.488, "step": 77270 }, { "epoch": 206.08, "grad_norm": 0.34375, "learning_rate": 0.00029229893109023944, "loss": 0.4754, "step": 77280 }, { "epoch": 206.10666666666665, "grad_norm": 0.41015625, "learning_rate": 0.0002922969422740262, "loss": 0.4707, "step": 77290 }, { "epoch": 206.13333333333333, "grad_norm": 0.35546875, "learning_rate": 0.00029229495320780605, "loss": 0.4717, "step": 77300 }, { "epoch": 206.16, "grad_norm": 0.439453125, "learning_rate": 0.0002922929638915825, "loss": 0.4768, "step": 77310 }, { "epoch": 206.18666666666667, "grad_norm": 0.287109375, "learning_rate": 0.00029229097432535895, "loss": 0.4683, "step": 77320 }, { "epoch": 206.21333333333334, "grad_norm": 0.421875, "learning_rate": 0.00029228898450913896, "loss": 0.4633, "step": 77330 }, { "epoch": 206.24, "grad_norm": 0.404296875, "learning_rate": 0.00029228699444292606, "loss": 0.467, "step": 77340 }, { "epoch": 206.26666666666668, "grad_norm": 0.400390625, "learning_rate": 0.00029228500412672374, "loss": 0.4712, "step": 77350 }, { "epoch": 206.29333333333332, "grad_norm": 0.341796875, "learning_rate": 0.0002922830135605354, "loss": 0.466, "step": 77360 }, { "epoch": 206.32, "grad_norm": 0.306640625, "learning_rate": 0.00029228102274436464, "loss": 0.4692, "step": 77370 }, { "epoch": 206.34666666666666, "grad_norm": 0.337890625, "learning_rate": 0.00029227903167821495, "loss": 0.4771, "step": 77380 }, { "epoch": 206.37333333333333, "grad_norm": 0.33984375, "learning_rate": 0.00029227704036208983, "loss": 0.4729, "step": 77390 }, { "epoch": 206.4, "grad_norm": 0.30078125, "learning_rate": 0.0002922750487959926, "loss": 0.4699, "step": 77400 }, { "epoch": 206.42666666666668, "grad_norm": 0.388671875, "learning_rate": 0.0002922730569799271, "loss": 0.476, "step": 77410 }, { "epoch": 206.45333333333335, "grad_norm": 0.3359375, "learning_rate": 0.0002922710649138965, "loss": 0.4777, "step": 77420 }, { "epoch": 206.48, "grad_norm": 0.451171875, "learning_rate": 0.0002922690725979045, "loss": 0.485, "step": 77430 }, { "epoch": 206.50666666666666, "grad_norm": 0.34375, "learning_rate": 0.00029226708003195456, "loss": 0.4745, "step": 77440 }, { "epoch": 206.53333333333333, "grad_norm": 0.451171875, "learning_rate": 0.00029226508721605013, "loss": 0.4676, "step": 77450 }, { "epoch": 206.56, "grad_norm": 0.404296875, "learning_rate": 0.00029226309415019476, "loss": 0.4687, "step": 77460 }, { "epoch": 206.58666666666667, "grad_norm": 0.33203125, "learning_rate": 0.00029226110083439193, "loss": 0.4649, "step": 77470 }, { "epoch": 206.61333333333334, "grad_norm": 0.25, "learning_rate": 0.00029225910726864515, "loss": 0.4507, "step": 77480 }, { "epoch": 206.64, "grad_norm": 0.296875, "learning_rate": 0.0002922571134529579, "loss": 0.4555, "step": 77490 }, { "epoch": 206.66666666666666, "grad_norm": 0.2490234375, "learning_rate": 0.0002922551193873337, "loss": 0.4719, "step": 77500 }, { "epoch": 206.69333333333333, "grad_norm": 0.42578125, "learning_rate": 0.00029225312507177604, "loss": 0.4543, "step": 77510 }, { "epoch": 206.72, "grad_norm": 0.294921875, "learning_rate": 0.0002922511305062885, "loss": 0.4715, "step": 77520 }, { "epoch": 206.74666666666667, "grad_norm": 0.2890625, "learning_rate": 0.0002922491356908744, "loss": 0.4756, "step": 77530 }, { "epoch": 206.77333333333334, "grad_norm": 0.3515625, "learning_rate": 0.0002922471406255375, "loss": 0.4832, "step": 77540 }, { "epoch": 206.8, "grad_norm": 0.38671875, "learning_rate": 0.0002922451453102811, "loss": 0.4698, "step": 77550 }, { "epoch": 206.82666666666665, "grad_norm": 0.34375, "learning_rate": 0.0002922431497451088, "loss": 0.4648, "step": 77560 }, { "epoch": 206.85333333333332, "grad_norm": 0.408203125, "learning_rate": 0.0002922411539300241, "loss": 0.4732, "step": 77570 }, { "epoch": 206.88, "grad_norm": 0.3984375, "learning_rate": 0.0002922391578650305, "loss": 0.4615, "step": 77580 }, { "epoch": 206.90666666666667, "grad_norm": 0.267578125, "learning_rate": 0.0002922371615501315, "loss": 0.4643, "step": 77590 }, { "epoch": 206.93333333333334, "grad_norm": 0.271484375, "learning_rate": 0.00029223516498533053, "loss": 0.4663, "step": 77600 }, { "epoch": 206.96, "grad_norm": 0.30859375, "learning_rate": 0.00029223316817063126, "loss": 0.4634, "step": 77610 }, { "epoch": 206.98666666666668, "grad_norm": 0.3125, "learning_rate": 0.00029223117110603706, "loss": 0.4772, "step": 77620 }, { "epoch": 207.0, "eval_loss": 0.4780822694301605, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.47, "eval_samples_per_second": 1.69, "eval_steps_per_second": 0.106, "step": 77625 }, { "epoch": 207.01333333333332, "grad_norm": 0.271484375, "learning_rate": 0.0002922291737915515, "loss": 0.4666, "step": 77630 }, { "epoch": 207.04, "grad_norm": 0.38671875, "learning_rate": 0.00029222717622717813, "loss": 0.4908, "step": 77640 }, { "epoch": 207.06666666666666, "grad_norm": 0.34765625, "learning_rate": 0.00029222517841292036, "loss": 0.4788, "step": 77650 }, { "epoch": 207.09333333333333, "grad_norm": 0.31640625, "learning_rate": 0.00029222318034878174, "loss": 0.4723, "step": 77660 }, { "epoch": 207.12, "grad_norm": 0.326171875, "learning_rate": 0.00029222118203476585, "loss": 0.4699, "step": 77670 }, { "epoch": 207.14666666666668, "grad_norm": 0.478515625, "learning_rate": 0.00029221918347087605, "loss": 0.4777, "step": 77680 }, { "epoch": 207.17333333333335, "grad_norm": 0.345703125, "learning_rate": 0.000292217184657116, "loss": 0.4685, "step": 77690 }, { "epoch": 207.2, "grad_norm": 0.306640625, "learning_rate": 0.00029221518559348917, "loss": 0.4667, "step": 77700 }, { "epoch": 207.22666666666666, "grad_norm": 0.32421875, "learning_rate": 0.000292213186279999, "loss": 0.4651, "step": 77710 }, { "epoch": 207.25333333333333, "grad_norm": 0.353515625, "learning_rate": 0.0002922111867166491, "loss": 0.4655, "step": 77720 }, { "epoch": 207.28, "grad_norm": 0.359375, "learning_rate": 0.00029220918690344295, "loss": 0.4781, "step": 77730 }, { "epoch": 207.30666666666667, "grad_norm": 0.3125, "learning_rate": 0.00029220718684038404, "loss": 0.4597, "step": 77740 }, { "epoch": 207.33333333333334, "grad_norm": 0.29296875, "learning_rate": 0.0002922051865274759, "loss": 0.4747, "step": 77750 }, { "epoch": 207.36, "grad_norm": 0.30859375, "learning_rate": 0.000292203185964722, "loss": 0.4767, "step": 77760 }, { "epoch": 207.38666666666666, "grad_norm": 0.4375, "learning_rate": 0.00029220118515212596, "loss": 0.4689, "step": 77770 }, { "epoch": 207.41333333333333, "grad_norm": 0.431640625, "learning_rate": 0.00029219918408969123, "loss": 0.4729, "step": 77780 }, { "epoch": 207.44, "grad_norm": 0.271484375, "learning_rate": 0.0002921971827774213, "loss": 0.4759, "step": 77790 }, { "epoch": 207.46666666666667, "grad_norm": 0.376953125, "learning_rate": 0.00029219518121531974, "loss": 0.4857, "step": 77800 }, { "epoch": 207.49333333333334, "grad_norm": 0.41015625, "learning_rate": 0.00029219317940339004, "loss": 0.4769, "step": 77810 }, { "epoch": 207.52, "grad_norm": 0.283203125, "learning_rate": 0.0002921911773416357, "loss": 0.4718, "step": 77820 }, { "epoch": 207.54666666666665, "grad_norm": 0.396484375, "learning_rate": 0.00029218917503006026, "loss": 0.4678, "step": 77830 }, { "epoch": 207.57333333333332, "grad_norm": 0.306640625, "learning_rate": 0.00029218717246866724, "loss": 0.4672, "step": 77840 }, { "epoch": 207.6, "grad_norm": 0.3203125, "learning_rate": 0.00029218516965746015, "loss": 0.46, "step": 77850 }, { "epoch": 207.62666666666667, "grad_norm": 0.220703125, "learning_rate": 0.00029218316659644254, "loss": 0.4483, "step": 77860 }, { "epoch": 207.65333333333334, "grad_norm": 0.466796875, "learning_rate": 0.00029218116328561786, "loss": 0.4678, "step": 77870 }, { "epoch": 207.68, "grad_norm": 0.44140625, "learning_rate": 0.00029217915972498974, "loss": 0.4591, "step": 77880 }, { "epoch": 207.70666666666668, "grad_norm": 0.4609375, "learning_rate": 0.00029217715591456155, "loss": 0.4587, "step": 77890 }, { "epoch": 207.73333333333332, "grad_norm": 0.279296875, "learning_rate": 0.0002921751518543369, "loss": 0.4782, "step": 77900 }, { "epoch": 207.76, "grad_norm": 0.484375, "learning_rate": 0.00029217314754431933, "loss": 0.4789, "step": 77910 }, { "epoch": 207.78666666666666, "grad_norm": 0.34375, "learning_rate": 0.0002921711429845124, "loss": 0.4776, "step": 77920 }, { "epoch": 207.81333333333333, "grad_norm": 0.42578125, "learning_rate": 0.0002921691381749195, "loss": 0.4634, "step": 77930 }, { "epoch": 207.84, "grad_norm": 0.3828125, "learning_rate": 0.0002921671331155442, "loss": 0.4698, "step": 77940 }, { "epoch": 207.86666666666667, "grad_norm": 0.31640625, "learning_rate": 0.0002921651278063901, "loss": 0.4691, "step": 77950 }, { "epoch": 207.89333333333335, "grad_norm": 0.4609375, "learning_rate": 0.0002921631222474606, "loss": 0.4591, "step": 77960 }, { "epoch": 207.92, "grad_norm": 0.46484375, "learning_rate": 0.0002921611164387593, "loss": 0.4699, "step": 77970 }, { "epoch": 207.94666666666666, "grad_norm": 0.287109375, "learning_rate": 0.00029215911038028977, "loss": 0.4631, "step": 77980 }, { "epoch": 207.97333333333333, "grad_norm": 0.283203125, "learning_rate": 0.0002921571040720554, "loss": 0.4742, "step": 77990 }, { "epoch": 208.0, "grad_norm": 0.439453125, "learning_rate": 0.0002921550975140598, "loss": 0.4633, "step": 78000 }, { "epoch": 208.0, "eval_loss": 0.4784125089645386, "eval_model_preparation_time": 0.0016, "eval_runtime": 9.5043, "eval_samples_per_second": 1.683, "eval_steps_per_second": 0.105, "step": 78000 }, { "epoch": 208.02666666666667, "grad_norm": 0.42578125, "learning_rate": 0.0002921530907063065, "loss": 0.4831, "step": 78010 }, { "epoch": 208.05333333333334, "grad_norm": 0.34765625, "learning_rate": 0.0002921510836487991, "loss": 0.4887, "step": 78020 }, { "epoch": 208.08, "grad_norm": 0.3203125, "learning_rate": 0.0002921490763415409, "loss": 0.4754, "step": 78030 }, { "epoch": 208.10666666666665, "grad_norm": 0.306640625, "learning_rate": 0.00029214706878453566, "loss": 0.4708, "step": 78040 }, { "epoch": 208.13333333333333, "grad_norm": 0.34765625, "learning_rate": 0.0002921450609777868, "loss": 0.4719, "step": 78050 }, { "epoch": 208.16, "grad_norm": 0.412109375, "learning_rate": 0.0002921430529212978, "loss": 0.477, "step": 78060 }, { "epoch": 208.18666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002921410446150723, "loss": 0.4683, "step": 78070 }, { "epoch": 208.21333333333334, "grad_norm": 0.36328125, "learning_rate": 0.0002921390360591138, "loss": 0.4636, "step": 78080 }, { "epoch": 208.24, "grad_norm": 0.5078125, "learning_rate": 0.00029213702725342574, "loss": 0.467, "step": 78090 }, { "epoch": 208.26666666666668, "grad_norm": 0.3125, "learning_rate": 0.0002921350181980118, "loss": 0.4718, "step": 78100 }, { "epoch": 208.29333333333332, "grad_norm": 0.310546875, "learning_rate": 0.00029213300889287534, "loss": 0.4657, "step": 78110 }, { "epoch": 208.32, "grad_norm": 0.34765625, "learning_rate": 0.00029213099933802003, "loss": 0.4696, "step": 78120 }, { "epoch": 208.34666666666666, "grad_norm": 0.25, "learning_rate": 0.0002921289895334493, "loss": 0.477, "step": 78130 }, { "epoch": 208.37333333333333, "grad_norm": 0.310546875, "learning_rate": 0.0002921269794791668, "loss": 0.4725, "step": 78140 }, { "epoch": 208.4, "grad_norm": 0.375, "learning_rate": 0.00029212496917517593, "loss": 0.4697, "step": 78150 }, { "epoch": 208.42666666666668, "grad_norm": 0.33984375, "learning_rate": 0.00029212295862148034, "loss": 0.4755, "step": 78160 }, { "epoch": 208.45333333333335, "grad_norm": 0.306640625, "learning_rate": 0.0002921209478180834, "loss": 0.4786, "step": 78170 }, { "epoch": 208.48, "grad_norm": 0.4765625, "learning_rate": 0.00029211893676498883, "loss": 0.485, "step": 78180 }, { "epoch": 208.50666666666666, "grad_norm": 0.27734375, "learning_rate": 0.0002921169254622, "loss": 0.4737, "step": 78190 }, { "epoch": 208.53333333333333, "grad_norm": 0.279296875, "learning_rate": 0.00029211491390972064, "loss": 0.4679, "step": 78200 }, { "epoch": 208.56, "grad_norm": 0.287109375, "learning_rate": 0.0002921129021075541, "loss": 0.4692, "step": 78210 }, { "epoch": 208.58666666666667, "grad_norm": 0.267578125, "learning_rate": 0.000292110890055704, "loss": 0.4646, "step": 78220 }, { "epoch": 208.61333333333334, "grad_norm": 0.296875, "learning_rate": 0.00029210887775417383, "loss": 0.4506, "step": 78230 }, { "epoch": 208.64, "grad_norm": 0.28125, "learning_rate": 0.00029210686520296714, "loss": 0.4564, "step": 78240 }, { "epoch": 208.66666666666666, "grad_norm": 0.298828125, "learning_rate": 0.0002921048524020875, "loss": 0.4708, "step": 78250 }, { "epoch": 208.69333333333333, "grad_norm": 0.400390625, "learning_rate": 0.00029210283935153844, "loss": 0.4551, "step": 78260 }, { "epoch": 208.72, "grad_norm": 0.380859375, "learning_rate": 0.0002921008260513235, "loss": 0.4712, "step": 78270 }, { "epoch": 208.74666666666667, "grad_norm": 0.40234375, "learning_rate": 0.00029209881250144614, "loss": 0.4752, "step": 78280 }, { "epoch": 208.77333333333334, "grad_norm": 0.447265625, "learning_rate": 0.00029209679870191005, "loss": 0.4824, "step": 78290 }, { "epoch": 208.8, "grad_norm": 0.3203125, "learning_rate": 0.00029209478465271857, "loss": 0.4701, "step": 78300 }, { "epoch": 208.82666666666665, "grad_norm": 0.3828125, "learning_rate": 0.0002920927703538754, "loss": 0.4646, "step": 78310 }, { "epoch": 208.85333333333332, "grad_norm": 0.333984375, "learning_rate": 0.000292090755805384, "loss": 0.4729, "step": 78320 }, { "epoch": 208.88, "grad_norm": 0.294921875, "learning_rate": 0.00029208874100724794, "loss": 0.4617, "step": 78330 }, { "epoch": 208.90666666666667, "grad_norm": 0.419921875, "learning_rate": 0.00029208672595947076, "loss": 0.4643, "step": 78340 }, { "epoch": 208.93333333333334, "grad_norm": 0.259765625, "learning_rate": 0.00029208471066205597, "loss": 0.4659, "step": 78350 }, { "epoch": 208.96, "grad_norm": 0.2490234375, "learning_rate": 0.00029208269511500715, "loss": 0.4637, "step": 78360 }, { "epoch": 208.98666666666668, "grad_norm": 0.3359375, "learning_rate": 0.00029208067931832784, "loss": 0.4776, "step": 78370 }, { "epoch": 209.0, "eval_loss": 0.47980669140815735, "eval_model_preparation_time": 0.0016, "eval_runtime": 10.2353, "eval_samples_per_second": 1.563, "eval_steps_per_second": 0.098, "step": 78375 } ], "logging_steps": 10, "max_steps": 750000, "num_input_tokens_seen": 0, "num_train_epochs": 2000, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 0.0, "train_batch_size": 64, "trial_name": null, "trial_params": null }