diff --git "a/trainer_state.json" "b/trainer_state.json" new file mode 100644--- /dev/null +++ "b/trainer_state.json" @@ -0,0 +1,56774 @@ +{ + "best_global_step": null, + "best_metric": null, + "best_model_checkpoint": null, + "epoch": 209.0, + "eval_steps": 500, + "global_step": 78375, + "is_hyper_param_search": false, + "is_local_process_zero": true, + "is_world_process_zero": true, + "log_history": [ + { + "epoch": 0.02666666666666667, + "grad_norm": 9.25, + "learning_rate": 5.399999999999999e-06, + "loss": 1.0637, + "step": 10 + }, + { + "epoch": 0.05333333333333334, + "grad_norm": 8.25, + "learning_rate": 1.14e-05, + "loss": 1.0494, + "step": 20 + }, + { + "epoch": 0.08, + "grad_norm": 4.84375, + "learning_rate": 1.74e-05, + "loss": 1.0261, + "step": 30 + }, + { + "epoch": 0.10666666666666667, + "grad_norm": 1.1171875, + "learning_rate": 2.34e-05, + "loss": 0.9926, + "step": 40 + }, + { + "epoch": 0.13333333333333333, + "grad_norm": 0.99609375, + "learning_rate": 2.94e-05, + "loss": 0.9774, + "step": 50 + }, + { + "epoch": 0.16, + "grad_norm": 0.875, + "learning_rate": 3.539999999999999e-05, + "loss": 0.9531, + "step": 60 + }, + { + "epoch": 0.18666666666666668, + "grad_norm": 0.71484375, + "learning_rate": 4.14e-05, + "loss": 0.9159, + "step": 70 + }, + { + "epoch": 0.21333333333333335, + "grad_norm": 0.5234375, + "learning_rate": 4.7399999999999993e-05, + "loss": 0.8883, + "step": 80 + }, + { + "epoch": 0.24, + "grad_norm": 0.54296875, + "learning_rate": 5.339999999999999e-05, + "loss": 0.8364, + "step": 90 + }, + { + "epoch": 0.26666666666666666, + "grad_norm": 0.46875, + "learning_rate": 5.94e-05, + "loss": 0.7873, + "step": 100 + }, + { + "epoch": 0.29333333333333333, + "grad_norm": 0.3125, + "learning_rate": 6.539999999999999e-05, + "loss": 0.7557, + "step": 110 + }, + { + "epoch": 0.32, + "grad_norm": 0.21484375, + "learning_rate": 7.139999999999999e-05, + "loss": 0.7321, + "step": 120 + }, + { + "epoch": 0.3466666666666667, + "grad_norm": 0.271484375, + "learning_rate": 7.74e-05, + "loss": 0.7241, + "step": 130 + }, + { + "epoch": 0.37333333333333335, + "grad_norm": 0.265625, + "learning_rate": 8.34e-05, + "loss": 0.7289, + "step": 140 + }, + { + "epoch": 0.4, + "grad_norm": 0.1376953125, + "learning_rate": 8.939999999999999e-05, + "loss": 0.7268, + "step": 150 + }, + { + "epoch": 0.4266666666666667, + "grad_norm": 0.1142578125, + "learning_rate": 9.539999999999999e-05, + "loss": 0.7145, + "step": 160 + }, + { + "epoch": 0.4533333333333333, + "grad_norm": 0.2158203125, + "learning_rate": 0.0001014, + "loss": 0.7186, + "step": 170 + }, + { + "epoch": 0.48, + "grad_norm": 0.1865234375, + "learning_rate": 0.00010739999999999998, + "loss": 0.7153, + "step": 180 + }, + { + "epoch": 0.5066666666666667, + "grad_norm": 0.1494140625, + "learning_rate": 0.00011339999999999999, + "loss": 0.7115, + "step": 190 + }, + { + "epoch": 0.5333333333333333, + "grad_norm": 0.09765625, + "learning_rate": 0.0001194, + "loss": 0.6966, + "step": 200 + }, + { + "epoch": 0.56, + "grad_norm": 0.1904296875, + "learning_rate": 0.00012539999999999999, + "loss": 0.705, + "step": 210 + }, + { + "epoch": 0.5866666666666667, + "grad_norm": 0.2080078125, + "learning_rate": 0.0001314, + "loss": 0.7021, + "step": 220 + }, + { + "epoch": 0.6133333333333333, + "grad_norm": 0.1826171875, + "learning_rate": 0.0001374, + "loss": 0.7011, + "step": 230 + }, + { + "epoch": 0.64, + "grad_norm": 0.1298828125, + "learning_rate": 0.0001434, + "loss": 0.6889, + "step": 240 + }, + { + "epoch": 0.6666666666666666, + "grad_norm": 0.30078125, + "learning_rate": 0.0001494, + "loss": 0.6945, + "step": 250 + }, + { + "epoch": 0.6933333333333334, + "grad_norm": 0.1865234375, + "learning_rate": 0.00015539999999999998, + "loss": 0.6997, + "step": 260 + }, + { + "epoch": 0.72, + "grad_norm": 0.1904296875, + "learning_rate": 0.0001614, + "loss": 0.6889, + "step": 270 + }, + { + "epoch": 0.7466666666666667, + "grad_norm": 0.1728515625, + "learning_rate": 0.0001674, + "loss": 0.6743, + "step": 280 + }, + { + "epoch": 0.7733333333333333, + "grad_norm": 0.2294921875, + "learning_rate": 0.00017339999999999996, + "loss": 0.6687, + "step": 290 + }, + { + "epoch": 0.8, + "grad_norm": 0.287109375, + "learning_rate": 0.00017939999999999997, + "loss": 0.6447, + "step": 300 + }, + { + "epoch": 0.8266666666666667, + "grad_norm": 0.48828125, + "learning_rate": 0.00018539999999999998, + "loss": 0.6309, + "step": 310 + }, + { + "epoch": 0.8533333333333334, + "grad_norm": 0.13671875, + "learning_rate": 0.0001914, + "loss": 0.6308, + "step": 320 + }, + { + "epoch": 0.88, + "grad_norm": 0.19921875, + "learning_rate": 0.0001974, + "loss": 0.616, + "step": 330 + }, + { + "epoch": 0.9066666666666666, + "grad_norm": 0.23046875, + "learning_rate": 0.00020339999999999998, + "loss": 0.6208, + "step": 340 + }, + { + "epoch": 0.9333333333333333, + "grad_norm": 0.1748046875, + "learning_rate": 0.00020939999999999997, + "loss": 0.6243, + "step": 350 + }, + { + "epoch": 0.96, + "grad_norm": 0.150390625, + "learning_rate": 0.00021539999999999998, + "loss": 0.6198, + "step": 360 + }, + { + "epoch": 0.9866666666666667, + "grad_norm": 0.5859375, + "learning_rate": 0.0002214, + "loss": 0.6235, + "step": 370 + }, + { + "epoch": 1.0, + "eval_loss": 0.6113528609275818, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.0988, + "eval_samples_per_second": 1.584, + "eval_steps_per_second": 0.099, + "step": 375 + }, + { + "epoch": 1.0133333333333334, + "grad_norm": 0.1552734375, + "learning_rate": 0.00022739999999999997, + "loss": 0.613, + "step": 380 + }, + { + "epoch": 1.04, + "grad_norm": 0.30859375, + "learning_rate": 0.00023339999999999998, + "loss": 0.6216, + "step": 390 + }, + { + "epoch": 1.0666666666666667, + "grad_norm": 0.427734375, + "learning_rate": 0.0002394, + "loss": 0.6229, + "step": 400 + }, + { + "epoch": 1.0933333333333333, + "grad_norm": 0.349609375, + "learning_rate": 0.00024539999999999995, + "loss": 0.613, + "step": 410 + }, + { + "epoch": 1.12, + "grad_norm": 0.515625, + "learning_rate": 0.0002514, + "loss": 0.6115, + "step": 420 + }, + { + "epoch": 1.1466666666666667, + "grad_norm": 0.10693359375, + "learning_rate": 0.00025739999999999997, + "loss": 0.6322, + "step": 430 + }, + { + "epoch": 1.1733333333333333, + "grad_norm": 0.5859375, + "learning_rate": 0.00026339999999999995, + "loss": 0.61, + "step": 440 + }, + { + "epoch": 1.2, + "grad_norm": 0.296875, + "learning_rate": 0.0002694, + "loss": 0.6103, + "step": 450 + }, + { + "epoch": 1.2266666666666666, + "grad_norm": 0.58203125, + "learning_rate": 0.00027539999999999997, + "loss": 0.612, + "step": 460 + }, + { + "epoch": 1.2533333333333334, + "grad_norm": 0.3828125, + "learning_rate": 0.00028139999999999996, + "loss": 0.6018, + "step": 470 + }, + { + "epoch": 1.28, + "grad_norm": 0.2734375, + "learning_rate": 0.00028739999999999994, + "loss": 0.6077, + "step": 480 + }, + { + "epoch": 1.3066666666666666, + "grad_norm": 0.302734375, + "learning_rate": 0.0002934, + "loss": 0.5906, + "step": 490 + }, + { + "epoch": 1.3333333333333333, + "grad_norm": 0.4453125, + "learning_rate": 0.00029939999999999996, + "loss": 0.6005, + "step": 500 + }, + { + "epoch": 1.3599999999999999, + "grad_norm": 0.3515625, + "learning_rate": 0.00029999999989326596, + "loss": 0.6028, + "step": 510 + }, + { + "epoch": 1.3866666666666667, + "grad_norm": 0.39453125, + "learning_rate": 0.0002999999995243089, + "loss": 0.5956, + "step": 520 + }, + { + "epoch": 1.4133333333333333, + "grad_norm": 0.236328125, + "learning_rate": 0.00029999999889181124, + "loss": 0.5882, + "step": 530 + }, + { + "epoch": 1.44, + "grad_norm": 0.1728515625, + "learning_rate": 0.0002999999979957728, + "loss": 0.5923, + "step": 540 + }, + { + "epoch": 1.4666666666666668, + "grad_norm": 0.1435546875, + "learning_rate": 0.0002999999968361936, + "loss": 0.5985, + "step": 550 + }, + { + "epoch": 1.4933333333333334, + "grad_norm": 0.2138671875, + "learning_rate": 0.00029999999541307376, + "loss": 0.5878, + "step": 560 + }, + { + "epoch": 1.52, + "grad_norm": 0.24609375, + "learning_rate": 0.0002999999937264132, + "loss": 0.587, + "step": 570 + }, + { + "epoch": 1.5466666666666666, + "grad_norm": 0.1416015625, + "learning_rate": 0.00029999999177621184, + "loss": 0.5771, + "step": 580 + }, + { + "epoch": 1.5733333333333333, + "grad_norm": 0.12255859375, + "learning_rate": 0.00029999998956246985, + "loss": 0.5678, + "step": 590 + }, + { + "epoch": 1.6, + "grad_norm": 0.265625, + "learning_rate": 0.00029999998708518715, + "loss": 0.5659, + "step": 600 + }, + { + "epoch": 1.6266666666666667, + "grad_norm": 0.14453125, + "learning_rate": 0.00029999998434436374, + "loss": 0.5446, + "step": 610 + }, + { + "epoch": 1.6533333333333333, + "grad_norm": 0.1376953125, + "learning_rate": 0.0002999999813399996, + "loss": 0.5666, + "step": 620 + }, + { + "epoch": 1.6800000000000002, + "grad_norm": 0.11865234375, + "learning_rate": 0.0002999999780720948, + "loss": 0.5615, + "step": 630 + }, + { + "epoch": 1.7066666666666666, + "grad_norm": 0.349609375, + "learning_rate": 0.00029999997454064936, + "loss": 0.5576, + "step": 640 + }, + { + "epoch": 1.7333333333333334, + "grad_norm": 0.1884765625, + "learning_rate": 0.0002999999707456632, + "loss": 0.5802, + "step": 650 + }, + { + "epoch": 1.76, + "grad_norm": 0.201171875, + "learning_rate": 0.00029999996668713633, + "loss": 0.5764, + "step": 660 + }, + { + "epoch": 1.7866666666666666, + "grad_norm": 0.2451171875, + "learning_rate": 0.0002999999623650689, + "loss": 0.5754, + "step": 670 + }, + { + "epoch": 1.8133333333333335, + "grad_norm": 0.3046875, + "learning_rate": 0.00029999995777946073, + "loss": 0.56, + "step": 680 + }, + { + "epoch": 1.8399999999999999, + "grad_norm": 0.349609375, + "learning_rate": 0.00029999995293031193, + "loss": 0.5677, + "step": 690 + }, + { + "epoch": 1.8666666666666667, + "grad_norm": 0.2099609375, + "learning_rate": 0.00029999994781762247, + "loss": 0.5564, + "step": 700 + }, + { + "epoch": 1.8933333333333333, + "grad_norm": 0.330078125, + "learning_rate": 0.0002999999424413924, + "loss": 0.5461, + "step": 710 + }, + { + "epoch": 1.92, + "grad_norm": 0.34765625, + "learning_rate": 0.0002999999368016218, + "loss": 0.5634, + "step": 720 + }, + { + "epoch": 1.9466666666666668, + "grad_norm": 0.2197265625, + "learning_rate": 0.0002999999308983105, + "loss": 0.5511, + "step": 730 + }, + { + "epoch": 1.9733333333333334, + "grad_norm": 0.1640625, + "learning_rate": 0.0002999999247314586, + "loss": 0.5605, + "step": 740 + }, + { + "epoch": 2.0, + "grad_norm": 0.185546875, + "learning_rate": 0.0002999999183010661, + "loss": 0.5486, + "step": 750 + }, + { + "epoch": 2.0, + "eval_loss": 0.5647158026695251, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.7822, + "eval_samples_per_second": 1.636, + "eval_steps_per_second": 0.102, + "step": 750 + }, + { + "epoch": 2.026666666666667, + "grad_norm": 0.2294921875, + "learning_rate": 0.00029999991160713305, + "loss": 0.5642, + "step": 760 + }, + { + "epoch": 2.0533333333333332, + "grad_norm": 0.2578125, + "learning_rate": 0.00029999990464965945, + "loss": 0.5692, + "step": 770 + }, + { + "epoch": 2.08, + "grad_norm": 0.205078125, + "learning_rate": 0.00029999989742864524, + "loss": 0.5634, + "step": 780 + }, + { + "epoch": 2.1066666666666665, + "grad_norm": 0.1767578125, + "learning_rate": 0.00029999988994409055, + "loss": 0.5492, + "step": 790 + }, + { + "epoch": 2.1333333333333333, + "grad_norm": 0.185546875, + "learning_rate": 0.0002999998821959953, + "loss": 0.5613, + "step": 800 + }, + { + "epoch": 2.16, + "grad_norm": 0.306640625, + "learning_rate": 0.00029999987418435957, + "loss": 0.5597, + "step": 810 + }, + { + "epoch": 2.1866666666666665, + "grad_norm": 0.33203125, + "learning_rate": 0.00029999986590918334, + "loss": 0.5467, + "step": 820 + }, + { + "epoch": 2.2133333333333334, + "grad_norm": 0.2734375, + "learning_rate": 0.00029999985737046657, + "loss": 0.5505, + "step": 830 + }, + { + "epoch": 2.24, + "grad_norm": 0.240234375, + "learning_rate": 0.0002999998485682093, + "loss": 0.5472, + "step": 840 + }, + { + "epoch": 2.2666666666666666, + "grad_norm": 0.37109375, + "learning_rate": 0.00029999983950241166, + "loss": 0.5492, + "step": 850 + }, + { + "epoch": 2.2933333333333334, + "grad_norm": 0.13671875, + "learning_rate": 0.0002999998301730736, + "loss": 0.541, + "step": 860 + }, + { + "epoch": 2.32, + "grad_norm": 0.390625, + "learning_rate": 0.000299999820580195, + "loss": 0.5435, + "step": 870 + }, + { + "epoch": 2.3466666666666667, + "grad_norm": 0.1494140625, + "learning_rate": 0.0002999998107237761, + "loss": 0.5546, + "step": 880 + }, + { + "epoch": 2.3733333333333335, + "grad_norm": 0.2451171875, + "learning_rate": 0.0002999998006038168, + "loss": 0.5503, + "step": 890 + }, + { + "epoch": 2.4, + "grad_norm": 0.220703125, + "learning_rate": 0.0002999997902203171, + "loss": 0.5423, + "step": 900 + }, + { + "epoch": 2.4266666666666667, + "grad_norm": 0.1669921875, + "learning_rate": 0.00029999977957327704, + "loss": 0.5461, + "step": 910 + }, + { + "epoch": 2.453333333333333, + "grad_norm": 0.1552734375, + "learning_rate": 0.00029999976866269666, + "loss": 0.5513, + "step": 920 + }, + { + "epoch": 2.48, + "grad_norm": 0.1953125, + "learning_rate": 0.00029999975748857595, + "loss": 0.5532, + "step": 930 + }, + { + "epoch": 2.506666666666667, + "grad_norm": 0.1953125, + "learning_rate": 0.00029999974605091496, + "loss": 0.547, + "step": 940 + }, + { + "epoch": 2.533333333333333, + "grad_norm": 0.23828125, + "learning_rate": 0.00029999973434971375, + "loss": 0.5383, + "step": 950 + }, + { + "epoch": 2.56, + "grad_norm": 0.294921875, + "learning_rate": 0.0002999997223849722, + "loss": 0.5375, + "step": 960 + }, + { + "epoch": 2.586666666666667, + "grad_norm": 0.25390625, + "learning_rate": 0.0002999997101566904, + "loss": 0.5307, + "step": 970 + }, + { + "epoch": 2.6133333333333333, + "grad_norm": 0.298828125, + "learning_rate": 0.0002999996976648685, + "loss": 0.5155, + "step": 980 + }, + { + "epoch": 2.64, + "grad_norm": 0.2158203125, + "learning_rate": 0.00029999968490950635, + "loss": 0.518, + "step": 990 + }, + { + "epoch": 2.6666666666666665, + "grad_norm": 0.267578125, + "learning_rate": 0.000299999671890604, + "loss": 0.539, + "step": 1000 + }, + { + "epoch": 2.6933333333333334, + "grad_norm": 0.26171875, + "learning_rate": 0.0002999996586081615, + "loss": 0.5208, + "step": 1010 + }, + { + "epoch": 2.7199999999999998, + "grad_norm": 0.384765625, + "learning_rate": 0.0002999996450621789, + "loss": 0.5389, + "step": 1020 + }, + { + "epoch": 2.7466666666666666, + "grad_norm": 0.2109375, + "learning_rate": 0.0002999996312526562, + "loss": 0.5422, + "step": 1030 + }, + { + "epoch": 2.7733333333333334, + "grad_norm": 0.154296875, + "learning_rate": 0.0002999996171795935, + "loss": 0.5498, + "step": 1040 + }, + { + "epoch": 2.8, + "grad_norm": 0.236328125, + "learning_rate": 0.0002999996028429907, + "loss": 0.5356, + "step": 1050 + }, + { + "epoch": 2.8266666666666667, + "grad_norm": 0.1923828125, + "learning_rate": 0.0002999995882428479, + "loss": 0.5313, + "step": 1060 + }, + { + "epoch": 2.8533333333333335, + "grad_norm": 0.26953125, + "learning_rate": 0.00029999957337916507, + "loss": 0.5375, + "step": 1070 + }, + { + "epoch": 2.88, + "grad_norm": 0.28515625, + "learning_rate": 0.00029999955825194224, + "loss": 0.5209, + "step": 1080 + }, + { + "epoch": 2.9066666666666667, + "grad_norm": 0.427734375, + "learning_rate": 0.00029999954286117947, + "loss": 0.5268, + "step": 1090 + }, + { + "epoch": 2.9333333333333336, + "grad_norm": 0.2392578125, + "learning_rate": 0.0002999995272068768, + "loss": 0.5294, + "step": 1100 + }, + { + "epoch": 2.96, + "grad_norm": 0.119140625, + "learning_rate": 0.0002999995112890343, + "loss": 0.5262, + "step": 1110 + }, + { + "epoch": 2.986666666666667, + "grad_norm": 0.5234375, + "learning_rate": 0.00029999949510765183, + "loss": 0.5403, + "step": 1120 + }, + { + "epoch": 3.0, + "eval_loss": 0.5400508046150208, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.0742, + "eval_samples_per_second": 1.588, + "eval_steps_per_second": 0.099, + "step": 1125 + }, + { + "epoch": 3.013333333333333, + "grad_norm": 0.216796875, + "learning_rate": 0.0002999994786627296, + "loss": 0.5269, + "step": 1130 + }, + { + "epoch": 3.04, + "grad_norm": 0.1953125, + "learning_rate": 0.00029999946195426755, + "loss": 0.5475, + "step": 1140 + }, + { + "epoch": 3.066666666666667, + "grad_norm": 0.2294921875, + "learning_rate": 0.00029999944498226573, + "loss": 0.54, + "step": 1150 + }, + { + "epoch": 3.0933333333333333, + "grad_norm": 0.451171875, + "learning_rate": 0.0002999994277467241, + "loss": 0.5373, + "step": 1160 + }, + { + "epoch": 3.12, + "grad_norm": 0.375, + "learning_rate": 0.00029999941024764284, + "loss": 0.5319, + "step": 1170 + }, + { + "epoch": 3.1466666666666665, + "grad_norm": 0.2353515625, + "learning_rate": 0.00029999939248502187, + "loss": 0.5417, + "step": 1180 + }, + { + "epoch": 3.1733333333333333, + "grad_norm": 0.1953125, + "learning_rate": 0.00029999937445886123, + "loss": 0.528, + "step": 1190 + }, + { + "epoch": 3.2, + "grad_norm": 0.212890625, + "learning_rate": 0.00029999935616916096, + "loss": 0.5285, + "step": 1200 + }, + { + "epoch": 3.2266666666666666, + "grad_norm": 0.259765625, + "learning_rate": 0.0002999993376159211, + "loss": 0.528, + "step": 1210 + }, + { + "epoch": 3.2533333333333334, + "grad_norm": 0.193359375, + "learning_rate": 0.0002999993187991417, + "loss": 0.5237, + "step": 1220 + }, + { + "epoch": 3.2800000000000002, + "grad_norm": 0.18359375, + "learning_rate": 0.0002999992997188228, + "loss": 0.535, + "step": 1230 + }, + { + "epoch": 3.3066666666666666, + "grad_norm": 0.18359375, + "learning_rate": 0.00029999928037496436, + "loss": 0.5154, + "step": 1240 + }, + { + "epoch": 3.3333333333333335, + "grad_norm": 0.255859375, + "learning_rate": 0.0002999992607675665, + "loss": 0.532, + "step": 1250 + }, + { + "epoch": 3.36, + "grad_norm": 0.1640625, + "learning_rate": 0.0002999992408966292, + "loss": 0.5363, + "step": 1260 + }, + { + "epoch": 3.3866666666666667, + "grad_norm": 0.2490234375, + "learning_rate": 0.00029999922076215255, + "loss": 0.5266, + "step": 1270 + }, + { + "epoch": 3.413333333333333, + "grad_norm": 0.283203125, + "learning_rate": 0.0002999992003641365, + "loss": 0.526, + "step": 1280 + }, + { + "epoch": 3.44, + "grad_norm": 0.15234375, + "learning_rate": 0.0002999991797025811, + "loss": 0.532, + "step": 1290 + }, + { + "epoch": 3.466666666666667, + "grad_norm": 0.1796875, + "learning_rate": 0.0002999991587774865, + "loss": 0.5403, + "step": 1300 + }, + { + "epoch": 3.493333333333333, + "grad_norm": 0.291015625, + "learning_rate": 0.0002999991375888526, + "loss": 0.5313, + "step": 1310 + }, + { + "epoch": 3.52, + "grad_norm": 0.265625, + "learning_rate": 0.00029999911613667955, + "loss": 0.5282, + "step": 1320 + }, + { + "epoch": 3.546666666666667, + "grad_norm": 0.2197265625, + "learning_rate": 0.00029999909442096726, + "loss": 0.5223, + "step": 1330 + }, + { + "epoch": 3.5733333333333333, + "grad_norm": 0.2734375, + "learning_rate": 0.00029999907244171594, + "loss": 0.5182, + "step": 1340 + }, + { + "epoch": 3.6, + "grad_norm": 0.298828125, + "learning_rate": 0.00029999905019892543, + "loss": 0.5138, + "step": 1350 + }, + { + "epoch": 3.626666666666667, + "grad_norm": 0.1796875, + "learning_rate": 0.0002999990276925959, + "loss": 0.4966, + "step": 1360 + }, + { + "epoch": 3.6533333333333333, + "grad_norm": 0.212890625, + "learning_rate": 0.0002999990049227274, + "loss": 0.5187, + "step": 1370 + }, + { + "epoch": 3.68, + "grad_norm": 0.29296875, + "learning_rate": 0.0002999989818893199, + "loss": 0.5107, + "step": 1380 + }, + { + "epoch": 3.7066666666666666, + "grad_norm": 0.302734375, + "learning_rate": 0.00029999895859237344, + "loss": 0.5109, + "step": 1390 + }, + { + "epoch": 3.7333333333333334, + "grad_norm": 0.2734375, + "learning_rate": 0.00029999893503188807, + "loss": 0.5325, + "step": 1400 + }, + { + "epoch": 3.76, + "grad_norm": 0.2265625, + "learning_rate": 0.00029999891120786393, + "loss": 0.5327, + "step": 1410 + }, + { + "epoch": 3.7866666666666666, + "grad_norm": 0.2041015625, + "learning_rate": 0.00029999888712030093, + "loss": 0.5306, + "step": 1420 + }, + { + "epoch": 3.8133333333333335, + "grad_norm": 0.515625, + "learning_rate": 0.0002999988627691992, + "loss": 0.5156, + "step": 1430 + }, + { + "epoch": 3.84, + "grad_norm": 0.34765625, + "learning_rate": 0.00029999883815455867, + "loss": 0.5235, + "step": 1440 + }, + { + "epoch": 3.8666666666666667, + "grad_norm": 0.478515625, + "learning_rate": 0.00029999881327637956, + "loss": 0.5176, + "step": 1450 + }, + { + "epoch": 3.8933333333333335, + "grad_norm": 0.58984375, + "learning_rate": 0.00029999878813466175, + "loss": 0.5076, + "step": 1460 + }, + { + "epoch": 3.92, + "grad_norm": 0.35546875, + "learning_rate": 0.00029999876272940535, + "loss": 0.5211, + "step": 1470 + }, + { + "epoch": 3.9466666666666668, + "grad_norm": 0.1982421875, + "learning_rate": 0.0002999987370606104, + "loss": 0.5123, + "step": 1480 + }, + { + "epoch": 3.9733333333333336, + "grad_norm": 0.2578125, + "learning_rate": 0.000299998711128277, + "loss": 0.5238, + "step": 1490 + }, + { + "epoch": 4.0, + "grad_norm": 0.2041015625, + "learning_rate": 0.00029999868493240506, + "loss": 0.5122, + "step": 1500 + }, + { + "epoch": 4.0, + "eval_loss": 0.5266960859298706, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.9024, + "eval_samples_per_second": 1.616, + "eval_steps_per_second": 0.101, + "step": 1500 + }, + { + "epoch": 4.026666666666666, + "grad_norm": 0.275390625, + "learning_rate": 0.00029999865847299477, + "loss": 0.5296, + "step": 1510 + }, + { + "epoch": 4.053333333333334, + "grad_norm": 0.2470703125, + "learning_rate": 0.0002999986317500461, + "loss": 0.5363, + "step": 1520 + }, + { + "epoch": 4.08, + "grad_norm": 0.2265625, + "learning_rate": 0.0002999986047635591, + "loss": 0.5265, + "step": 1530 + }, + { + "epoch": 4.1066666666666665, + "grad_norm": 0.2265625, + "learning_rate": 0.00029999857751353384, + "loss": 0.5187, + "step": 1540 + }, + { + "epoch": 4.133333333333334, + "grad_norm": 0.470703125, + "learning_rate": 0.00029999854999997037, + "loss": 0.5247, + "step": 1550 + }, + { + "epoch": 4.16, + "grad_norm": 0.57421875, + "learning_rate": 0.00029999852222286873, + "loss": 0.5269, + "step": 1560 + }, + { + "epoch": 4.1866666666666665, + "grad_norm": 0.345703125, + "learning_rate": 0.000299998494182229, + "loss": 0.5152, + "step": 1570 + }, + { + "epoch": 4.213333333333333, + "grad_norm": 0.28125, + "learning_rate": 0.0002999984658780511, + "loss": 0.5159, + "step": 1580 + }, + { + "epoch": 4.24, + "grad_norm": 0.23828125, + "learning_rate": 0.00029999843731033524, + "loss": 0.515, + "step": 1590 + }, + { + "epoch": 4.266666666666667, + "grad_norm": 0.18359375, + "learning_rate": 0.00029999840847908134, + "loss": 0.5188, + "step": 1600 + }, + { + "epoch": 4.293333333333333, + "grad_norm": 0.1796875, + "learning_rate": 0.00029999837938428955, + "loss": 0.5117, + "step": 1610 + }, + { + "epoch": 4.32, + "grad_norm": 0.189453125, + "learning_rate": 0.00029999835002595993, + "loss": 0.5159, + "step": 1620 + }, + { + "epoch": 4.346666666666667, + "grad_norm": 0.322265625, + "learning_rate": 0.00029999832040409247, + "loss": 0.5263, + "step": 1630 + }, + { + "epoch": 4.373333333333333, + "grad_norm": 0.330078125, + "learning_rate": 0.0002999982905186872, + "loss": 0.5212, + "step": 1640 + }, + { + "epoch": 4.4, + "grad_norm": 0.357421875, + "learning_rate": 0.00029999826036974426, + "loss": 0.5149, + "step": 1650 + }, + { + "epoch": 4.426666666666667, + "grad_norm": 0.244140625, + "learning_rate": 0.00029999822995726357, + "loss": 0.521, + "step": 1660 + }, + { + "epoch": 4.453333333333333, + "grad_norm": 0.439453125, + "learning_rate": 0.0002999981992812454, + "loss": 0.5257, + "step": 1670 + }, + { + "epoch": 4.48, + "grad_norm": 0.208984375, + "learning_rate": 0.0002999981683416896, + "loss": 0.5305, + "step": 1680 + }, + { + "epoch": 4.506666666666667, + "grad_norm": 0.50390625, + "learning_rate": 0.0002999981371385963, + "loss": 0.5198, + "step": 1690 + }, + { + "epoch": 4.533333333333333, + "grad_norm": 0.41796875, + "learning_rate": 0.00029999810567196553, + "loss": 0.5147, + "step": 1700 + }, + { + "epoch": 4.5600000000000005, + "grad_norm": 0.431640625, + "learning_rate": 0.0002999980739417974, + "loss": 0.512, + "step": 1710 + }, + { + "epoch": 4.586666666666667, + "grad_norm": 0.29296875, + "learning_rate": 0.0002999980419480919, + "loss": 0.5087, + "step": 1720 + }, + { + "epoch": 4.613333333333333, + "grad_norm": 0.15234375, + "learning_rate": 0.00029999800969084914, + "loss": 0.4936, + "step": 1730 + }, + { + "epoch": 4.64, + "grad_norm": 0.197265625, + "learning_rate": 0.0002999979771700692, + "loss": 0.4966, + "step": 1740 + }, + { + "epoch": 4.666666666666667, + "grad_norm": 0.1748046875, + "learning_rate": 0.00029999794438575203, + "loss": 0.5153, + "step": 1750 + }, + { + "epoch": 4.693333333333333, + "grad_norm": 0.255859375, + "learning_rate": 0.00029999791133789776, + "loss": 0.4968, + "step": 1760 + }, + { + "epoch": 4.72, + "grad_norm": 0.23046875, + "learning_rate": 0.00029999787802650646, + "loss": 0.5156, + "step": 1770 + }, + { + "epoch": 4.746666666666667, + "grad_norm": 0.208984375, + "learning_rate": 0.00029999784445157814, + "loss": 0.5193, + "step": 1780 + }, + { + "epoch": 4.773333333333333, + "grad_norm": 0.28125, + "learning_rate": 0.0002999978106131129, + "loss": 0.5272, + "step": 1790 + }, + { + "epoch": 4.8, + "grad_norm": 0.2177734375, + "learning_rate": 0.0002999977765111108, + "loss": 0.5128, + "step": 1800 + }, + { + "epoch": 4.826666666666666, + "grad_norm": 0.1748046875, + "learning_rate": 0.00029999774214557187, + "loss": 0.5092, + "step": 1810 + }, + { + "epoch": 4.8533333333333335, + "grad_norm": 0.181640625, + "learning_rate": 0.0002999977075164962, + "loss": 0.5169, + "step": 1820 + }, + { + "epoch": 4.88, + "grad_norm": 0.703125, + "learning_rate": 0.0002999976726238838, + "loss": 0.502, + "step": 1830 + }, + { + "epoch": 4.906666666666666, + "grad_norm": 0.18359375, + "learning_rate": 0.00029999763746773483, + "loss": 0.5062, + "step": 1840 + }, + { + "epoch": 4.933333333333334, + "grad_norm": 0.130859375, + "learning_rate": 0.00029999760204804925, + "loss": 0.5079, + "step": 1850 + }, + { + "epoch": 4.96, + "grad_norm": 0.244140625, + "learning_rate": 0.00029999756636482714, + "loss": 0.5061, + "step": 1860 + }, + { + "epoch": 4.986666666666666, + "grad_norm": 0.1962890625, + "learning_rate": 0.0002999975304180686, + "loss": 0.5212, + "step": 1870 + }, + { + "epoch": 5.0, + "eval_loss": 0.5196089148521423, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.1189, + "eval_samples_per_second": 1.581, + "eval_steps_per_second": 0.099, + "step": 1875 + }, + { + "epoch": 5.013333333333334, + "grad_norm": 0.2578125, + "learning_rate": 0.0002999974942077737, + "loss": 0.5085, + "step": 1880 + }, + { + "epoch": 5.04, + "grad_norm": 0.259765625, + "learning_rate": 0.00029999745773394247, + "loss": 0.5315, + "step": 1890 + }, + { + "epoch": 5.066666666666666, + "grad_norm": 0.33203125, + "learning_rate": 0.00029999742099657493, + "loss": 0.521, + "step": 1900 + }, + { + "epoch": 5.093333333333334, + "grad_norm": 0.1767578125, + "learning_rate": 0.0002999973839956713, + "loss": 0.5159, + "step": 1910 + }, + { + "epoch": 5.12, + "grad_norm": 0.26171875, + "learning_rate": 0.0002999973467312315, + "loss": 0.5129, + "step": 1920 + }, + { + "epoch": 5.1466666666666665, + "grad_norm": 0.1572265625, + "learning_rate": 0.00029999730920325565, + "loss": 0.5224, + "step": 1930 + }, + { + "epoch": 5.173333333333334, + "grad_norm": 0.3203125, + "learning_rate": 0.00029999727141174375, + "loss": 0.5098, + "step": 1940 + }, + { + "epoch": 5.2, + "grad_norm": 0.326171875, + "learning_rate": 0.000299997233356696, + "loss": 0.5091, + "step": 1950 + }, + { + "epoch": 5.226666666666667, + "grad_norm": 0.2021484375, + "learning_rate": 0.0002999971950381123, + "loss": 0.5076, + "step": 1960 + }, + { + "epoch": 5.253333333333333, + "grad_norm": 0.3359375, + "learning_rate": 0.0002999971564559929, + "loss": 0.506, + "step": 1970 + }, + { + "epoch": 5.28, + "grad_norm": 0.21875, + "learning_rate": 0.00029999711761033774, + "loss": 0.518, + "step": 1980 + }, + { + "epoch": 5.306666666666667, + "grad_norm": 0.27734375, + "learning_rate": 0.0002999970785011469, + "loss": 0.4997, + "step": 1990 + }, + { + "epoch": 5.333333333333333, + "grad_norm": 0.90234375, + "learning_rate": 0.00029999703912842054, + "loss": 0.5168, + "step": 2000 + }, + { + "epoch": 5.36, + "grad_norm": 0.66796875, + "learning_rate": 0.0002999969994921586, + "loss": 0.5201, + "step": 2010 + }, + { + "epoch": 5.386666666666667, + "grad_norm": 0.341796875, + "learning_rate": 0.00029999695959236127, + "loss": 0.5091, + "step": 2020 + }, + { + "epoch": 5.413333333333333, + "grad_norm": 0.2412109375, + "learning_rate": 0.0002999969194290285, + "loss": 0.5114, + "step": 2030 + }, + { + "epoch": 5.44, + "grad_norm": 0.380859375, + "learning_rate": 0.0002999968790021604, + "loss": 0.5168, + "step": 2040 + }, + { + "epoch": 5.466666666666667, + "grad_norm": 0.24609375, + "learning_rate": 0.0002999968383117571, + "loss": 0.5251, + "step": 2050 + }, + { + "epoch": 5.493333333333333, + "grad_norm": 0.26953125, + "learning_rate": 0.0002999967973578186, + "loss": 0.516, + "step": 2060 + }, + { + "epoch": 5.52, + "grad_norm": 0.25390625, + "learning_rate": 0.00029999675614034507, + "loss": 0.511, + "step": 2070 + }, + { + "epoch": 5.546666666666667, + "grad_norm": 0.1689453125, + "learning_rate": 0.0002999967146593365, + "loss": 0.5065, + "step": 2080 + }, + { + "epoch": 5.573333333333333, + "grad_norm": 0.1572265625, + "learning_rate": 0.00029999667291479297, + "loss": 0.5039, + "step": 2090 + }, + { + "epoch": 5.6, + "grad_norm": 0.2392578125, + "learning_rate": 0.0002999966309067146, + "loss": 0.5002, + "step": 2100 + }, + { + "epoch": 5.626666666666667, + "grad_norm": 0.330078125, + "learning_rate": 0.0002999965886351014, + "loss": 0.4836, + "step": 2110 + }, + { + "epoch": 5.653333333333333, + "grad_norm": 0.1826171875, + "learning_rate": 0.0002999965460999534, + "loss": 0.5049, + "step": 2120 + }, + { + "epoch": 5.68, + "grad_norm": 0.18359375, + "learning_rate": 0.00029999650330127085, + "loss": 0.4963, + "step": 2130 + }, + { + "epoch": 5.706666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.0002999964602390537, + "loss": 0.497, + "step": 2140 + }, + { + "epoch": 5.733333333333333, + "grad_norm": 0.33203125, + "learning_rate": 0.000299996416913302, + "loss": 0.5173, + "step": 2150 + }, + { + "epoch": 5.76, + "grad_norm": 0.318359375, + "learning_rate": 0.0002999963733240159, + "loss": 0.5179, + "step": 2160 + }, + { + "epoch": 5.786666666666667, + "grad_norm": 0.396484375, + "learning_rate": 0.00029999632947119546, + "loss": 0.5171, + "step": 2170 + }, + { + "epoch": 5.8133333333333335, + "grad_norm": 0.283203125, + "learning_rate": 0.0002999962853548408, + "loss": 0.5014, + "step": 2180 + }, + { + "epoch": 5.84, + "grad_norm": 0.25, + "learning_rate": 0.0002999962409749518, + "loss": 0.509, + "step": 2190 + }, + { + "epoch": 5.866666666666667, + "grad_norm": 0.2353515625, + "learning_rate": 0.0002999961963315288, + "loss": 0.5061, + "step": 2200 + }, + { + "epoch": 5.8933333333333335, + "grad_norm": 0.1982421875, + "learning_rate": 0.00029999615142457174, + "loss": 0.4957, + "step": 2210 + }, + { + "epoch": 5.92, + "grad_norm": 0.232421875, + "learning_rate": 0.0002999961062540807, + "loss": 0.5071, + "step": 2220 + }, + { + "epoch": 5.946666666666666, + "grad_norm": 0.1328125, + "learning_rate": 0.0002999960608200558, + "loss": 0.4997, + "step": 2230 + }, + { + "epoch": 5.973333333333334, + "grad_norm": 0.171875, + "learning_rate": 0.0002999960151224971, + "loss": 0.512, + "step": 2240 + }, + { + "epoch": 6.0, + "grad_norm": 0.33203125, + "learning_rate": 0.00029999596916140467, + "loss": 0.4999, + "step": 2250 + }, + { + "epoch": 6.0, + "eval_loss": 0.5139528512954712, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.7016, + "eval_samples_per_second": 1.649, + "eval_steps_per_second": 0.103, + "step": 2250 + }, + { + "epoch": 6.026666666666666, + "grad_norm": 0.376953125, + "learning_rate": 0.0002999959229367786, + "loss": 0.518, + "step": 2260 + }, + { + "epoch": 6.053333333333334, + "grad_norm": 0.3125, + "learning_rate": 0.000299995876448619, + "loss": 0.5242, + "step": 2270 + }, + { + "epoch": 6.08, + "grad_norm": 0.162109375, + "learning_rate": 0.0002999958296969259, + "loss": 0.5135, + "step": 2280 + }, + { + "epoch": 6.1066666666666665, + "grad_norm": 0.203125, + "learning_rate": 0.0002999957826816994, + "loss": 0.5064, + "step": 2290 + }, + { + "epoch": 6.133333333333334, + "grad_norm": 0.1953125, + "learning_rate": 0.0002999957354029396, + "loss": 0.5111, + "step": 2300 + }, + { + "epoch": 6.16, + "grad_norm": 0.72265625, + "learning_rate": 0.00029999568786064654, + "loss": 0.5151, + "step": 2310 + }, + { + "epoch": 6.1866666666666665, + "grad_norm": 0.322265625, + "learning_rate": 0.0002999956400548204, + "loss": 0.5047, + "step": 2320 + }, + { + "epoch": 6.213333333333333, + "grad_norm": 0.27734375, + "learning_rate": 0.00029999559198546114, + "loss": 0.5028, + "step": 2330 + }, + { + "epoch": 6.24, + "grad_norm": 0.201171875, + "learning_rate": 0.00029999554365256893, + "loss": 0.5031, + "step": 2340 + }, + { + "epoch": 6.266666666666667, + "grad_norm": 0.423828125, + "learning_rate": 0.0002999954950561438, + "loss": 0.5078, + "step": 2350 + }, + { + "epoch": 6.293333333333333, + "grad_norm": 0.2001953125, + "learning_rate": 0.00029999544619618585, + "loss": 0.501, + "step": 2360 + }, + { + "epoch": 6.32, + "grad_norm": 0.162109375, + "learning_rate": 0.00029999539707269526, + "loss": 0.5044, + "step": 2370 + }, + { + "epoch": 6.346666666666667, + "grad_norm": 0.412109375, + "learning_rate": 0.000299995347685672, + "loss": 0.5143, + "step": 2380 + }, + { + "epoch": 6.373333333333333, + "grad_norm": 0.27734375, + "learning_rate": 0.0002999952980351162, + "loss": 0.5106, + "step": 2390 + }, + { + "epoch": 6.4, + "grad_norm": 0.248046875, + "learning_rate": 0.0002999952481210279, + "loss": 0.5038, + "step": 2400 + }, + { + "epoch": 6.426666666666667, + "grad_norm": 0.173828125, + "learning_rate": 0.0002999951979434073, + "loss": 0.5108, + "step": 2410 + }, + { + "epoch": 6.453333333333333, + "grad_norm": 0.486328125, + "learning_rate": 0.00029999514750225434, + "loss": 0.5141, + "step": 2420 + }, + { + "epoch": 6.48, + "grad_norm": 0.205078125, + "learning_rate": 0.00029999509679756915, + "loss": 0.5192, + "step": 2430 + }, + { + "epoch": 6.506666666666667, + "grad_norm": 0.439453125, + "learning_rate": 0.000299995045829352, + "loss": 0.5093, + "step": 2440 + }, + { + "epoch": 6.533333333333333, + "grad_norm": 0.546875, + "learning_rate": 0.00029999499459760267, + "loss": 0.5037, + "step": 2450 + }, + { + "epoch": 6.5600000000000005, + "grad_norm": 0.28515625, + "learning_rate": 0.0002999949431023215, + "loss": 0.5031, + "step": 2460 + }, + { + "epoch": 6.586666666666667, + "grad_norm": 0.26171875, + "learning_rate": 0.0002999948913435085, + "loss": 0.4985, + "step": 2470 + }, + { + "epoch": 6.613333333333333, + "grad_norm": 0.37890625, + "learning_rate": 0.0002999948393211637, + "loss": 0.484, + "step": 2480 + }, + { + "epoch": 6.64, + "grad_norm": 0.28125, + "learning_rate": 0.00029999478703528735, + "loss": 0.4873, + "step": 2490 + }, + { + "epoch": 6.666666666666667, + "grad_norm": 0.267578125, + "learning_rate": 0.00029999473448587933, + "loss": 0.5056, + "step": 2500 + }, + { + "epoch": 6.693333333333333, + "grad_norm": 0.279296875, + "learning_rate": 0.00029999468167293987, + "loss": 0.4872, + "step": 2510 + }, + { + "epoch": 6.72, + "grad_norm": 0.271484375, + "learning_rate": 0.0002999946285964691, + "loss": 0.5052, + "step": 2520 + }, + { + "epoch": 6.746666666666667, + "grad_norm": 0.2197265625, + "learning_rate": 0.000299994575256467, + "loss": 0.51, + "step": 2530 + }, + { + "epoch": 6.773333333333333, + "grad_norm": 0.1640625, + "learning_rate": 0.0002999945216529337, + "loss": 0.5176, + "step": 2540 + }, + { + "epoch": 6.8, + "grad_norm": 0.11767578125, + "learning_rate": 0.00029999446778586927, + "loss": 0.5028, + "step": 2550 + }, + { + "epoch": 6.826666666666666, + "grad_norm": 0.1279296875, + "learning_rate": 0.0002999944136552739, + "loss": 0.4989, + "step": 2560 + }, + { + "epoch": 6.8533333333333335, + "grad_norm": 0.2216796875, + "learning_rate": 0.00029999435926114757, + "loss": 0.5076, + "step": 2570 + }, + { + "epoch": 6.88, + "grad_norm": 0.275390625, + "learning_rate": 0.0002999943046034905, + "loss": 0.4933, + "step": 2580 + }, + { + "epoch": 6.906666666666666, + "grad_norm": 0.369140625, + "learning_rate": 0.00029999424968230265, + "loss": 0.4958, + "step": 2590 + }, + { + "epoch": 6.933333333333334, + "grad_norm": 0.1611328125, + "learning_rate": 0.00029999419449758415, + "loss": 0.4988, + "step": 2600 + }, + { + "epoch": 6.96, + "grad_norm": 0.181640625, + "learning_rate": 0.00029999413904933524, + "loss": 0.4965, + "step": 2610 + }, + { + "epoch": 6.986666666666666, + "grad_norm": 0.1806640625, + "learning_rate": 0.0002999940833375558, + "loss": 0.5124, + "step": 2620 + }, + { + "epoch": 7.0, + "eval_loss": 0.5085073113441467, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.8821, + "eval_samples_per_second": 1.619, + "eval_steps_per_second": 0.101, + "step": 2625 + }, + { + "epoch": 7.013333333333334, + "grad_norm": 0.322265625, + "learning_rate": 0.00029999402736224614, + "loss": 0.4992, + "step": 2630 + }, + { + "epoch": 7.04, + "grad_norm": 0.2138671875, + "learning_rate": 0.00029999397112340616, + "loss": 0.5232, + "step": 2640 + }, + { + "epoch": 7.066666666666666, + "grad_norm": 0.306640625, + "learning_rate": 0.0002999939146210361, + "loss": 0.5122, + "step": 2650 + }, + { + "epoch": 7.093333333333334, + "grad_norm": 0.255859375, + "learning_rate": 0.00029999385785513597, + "loss": 0.5061, + "step": 2660 + }, + { + "epoch": 7.12, + "grad_norm": 0.2373046875, + "learning_rate": 0.00029999380082570596, + "loss": 0.5025, + "step": 2670 + }, + { + "epoch": 7.1466666666666665, + "grad_norm": 0.263671875, + "learning_rate": 0.0002999937435327461, + "loss": 0.5125, + "step": 2680 + }, + { + "epoch": 7.173333333333334, + "grad_norm": 0.255859375, + "learning_rate": 0.0002999936859762565, + "loss": 0.5008, + "step": 2690 + }, + { + "epoch": 7.2, + "grad_norm": 0.3046875, + "learning_rate": 0.0002999936281562373, + "loss": 0.5003, + "step": 2700 + }, + { + "epoch": 7.226666666666667, + "grad_norm": 0.26171875, + "learning_rate": 0.0002999935700726885, + "loss": 0.4984, + "step": 2710 + }, + { + "epoch": 7.253333333333333, + "grad_norm": 0.1796875, + "learning_rate": 0.00029999351172561037, + "loss": 0.4968, + "step": 2720 + }, + { + "epoch": 7.28, + "grad_norm": 0.1650390625, + "learning_rate": 0.0002999934531150029, + "loss": 0.5096, + "step": 2730 + }, + { + "epoch": 7.306666666666667, + "grad_norm": 0.4296875, + "learning_rate": 0.00029999339424086616, + "loss": 0.491, + "step": 2740 + }, + { + "epoch": 7.333333333333333, + "grad_norm": 0.2001953125, + "learning_rate": 0.0002999933351032003, + "loss": 0.508, + "step": 2750 + }, + { + "epoch": 7.36, + "grad_norm": 0.431640625, + "learning_rate": 0.00029999327570200547, + "loss": 0.5109, + "step": 2760 + }, + { + "epoch": 7.386666666666667, + "grad_norm": 0.2734375, + "learning_rate": 0.00029999321603728173, + "loss": 0.5009, + "step": 2770 + }, + { + "epoch": 7.413333333333333, + "grad_norm": 0.203125, + "learning_rate": 0.0002999931561090292, + "loss": 0.5036, + "step": 2780 + }, + { + "epoch": 7.44, + "grad_norm": 0.2099609375, + "learning_rate": 0.00029999309591724797, + "loss": 0.5086, + "step": 2790 + }, + { + "epoch": 7.466666666666667, + "grad_norm": 0.244140625, + "learning_rate": 0.0002999930354619381, + "loss": 0.5176, + "step": 2800 + }, + { + "epoch": 7.493333333333333, + "grad_norm": 0.287109375, + "learning_rate": 0.00029999297474309983, + "loss": 0.5078, + "step": 2810 + }, + { + "epoch": 7.52, + "grad_norm": 0.365234375, + "learning_rate": 0.00029999291376073316, + "loss": 0.5031, + "step": 2820 + }, + { + "epoch": 7.546666666666667, + "grad_norm": 0.39453125, + "learning_rate": 0.00029999285251483814, + "loss": 0.4992, + "step": 2830 + }, + { + "epoch": 7.573333333333333, + "grad_norm": 0.19140625, + "learning_rate": 0.00029999279100541504, + "loss": 0.4969, + "step": 2840 + }, + { + "epoch": 7.6, + "grad_norm": 0.31640625, + "learning_rate": 0.0002999927292324638, + "loss": 0.4917, + "step": 2850 + }, + { + "epoch": 7.626666666666667, + "grad_norm": 0.435546875, + "learning_rate": 0.0002999926671959847, + "loss": 0.4774, + "step": 2860 + }, + { + "epoch": 7.653333333333333, + "grad_norm": 0.2138671875, + "learning_rate": 0.0002999926048959777, + "loss": 0.4978, + "step": 2870 + }, + { + "epoch": 7.68, + "grad_norm": 0.1484375, + "learning_rate": 0.000299992542332443, + "loss": 0.4893, + "step": 2880 + }, + { + "epoch": 7.706666666666667, + "grad_norm": 0.271484375, + "learning_rate": 0.0002999924795053807, + "loss": 0.4894, + "step": 2890 + }, + { + "epoch": 7.733333333333333, + "grad_norm": 0.240234375, + "learning_rate": 0.0002999924164147909, + "loss": 0.5103, + "step": 2900 + }, + { + "epoch": 7.76, + "grad_norm": 0.1806640625, + "learning_rate": 0.00029999235306067364, + "loss": 0.5113, + "step": 2910 + }, + { + "epoch": 7.786666666666667, + "grad_norm": 0.294921875, + "learning_rate": 0.0002999922894430291, + "loss": 0.5091, + "step": 2920 + }, + { + "epoch": 7.8133333333333335, + "grad_norm": 0.3359375, + "learning_rate": 0.00029999222556185745, + "loss": 0.494, + "step": 2930 + }, + { + "epoch": 7.84, + "grad_norm": 0.28125, + "learning_rate": 0.0002999921614171587, + "loss": 0.5013, + "step": 2940 + }, + { + "epoch": 7.866666666666667, + "grad_norm": 0.2451171875, + "learning_rate": 0.000299992097008933, + "loss": 0.4989, + "step": 2950 + }, + { + "epoch": 7.8933333333333335, + "grad_norm": 0.248046875, + "learning_rate": 0.00029999203233718047, + "loss": 0.4895, + "step": 2960 + }, + { + "epoch": 7.92, + "grad_norm": 0.251953125, + "learning_rate": 0.00029999196740190126, + "loss": 0.4999, + "step": 2970 + }, + { + "epoch": 7.946666666666666, + "grad_norm": 0.228515625, + "learning_rate": 0.0002999919022030954, + "loss": 0.4928, + "step": 2980 + }, + { + "epoch": 7.973333333333334, + "grad_norm": 0.2392578125, + "learning_rate": 0.000299991836740763, + "loss": 0.5055, + "step": 2990 + }, + { + "epoch": 8.0, + "grad_norm": 0.244140625, + "learning_rate": 0.0002999917710149043, + "loss": 0.4937, + "step": 3000 + }, + { + "epoch": 8.0, + "eval_loss": 0.5058842301368713, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.4441, + "eval_samples_per_second": 1.532, + "eval_steps_per_second": 0.096, + "step": 3000 + }, + { + "epoch": 8.026666666666667, + "grad_norm": 0.1396484375, + "learning_rate": 0.0002999917050255193, + "loss": 0.5115, + "step": 3010 + }, + { + "epoch": 8.053333333333333, + "grad_norm": 0.12890625, + "learning_rate": 0.0002999916387726081, + "loss": 0.5175, + "step": 3020 + }, + { + "epoch": 8.08, + "grad_norm": 0.1962890625, + "learning_rate": 0.00029999157225617094, + "loss": 0.5061, + "step": 3030 + }, + { + "epoch": 8.106666666666667, + "grad_norm": 0.1767578125, + "learning_rate": 0.00029999150547620787, + "loss": 0.5004, + "step": 3040 + }, + { + "epoch": 8.133333333333333, + "grad_norm": 0.1552734375, + "learning_rate": 0.000299991438432719, + "loss": 0.5034, + "step": 3050 + }, + { + "epoch": 8.16, + "grad_norm": 0.361328125, + "learning_rate": 0.00029999137112570444, + "loss": 0.5069, + "step": 3060 + }, + { + "epoch": 8.186666666666667, + "grad_norm": 0.26953125, + "learning_rate": 0.0002999913035551643, + "loss": 0.4977, + "step": 3070 + }, + { + "epoch": 8.213333333333333, + "grad_norm": 0.396484375, + "learning_rate": 0.0002999912357210987, + "loss": 0.494, + "step": 3080 + }, + { + "epoch": 8.24, + "grad_norm": 0.359375, + "learning_rate": 0.00029999116762350784, + "loss": 0.4971, + "step": 3090 + }, + { + "epoch": 8.266666666666667, + "grad_norm": 0.28515625, + "learning_rate": 0.00029999109926239176, + "loss": 0.5005, + "step": 3100 + }, + { + "epoch": 8.293333333333333, + "grad_norm": 0.40234375, + "learning_rate": 0.0002999910306377506, + "loss": 0.4945, + "step": 3110 + }, + { + "epoch": 8.32, + "grad_norm": 0.2158203125, + "learning_rate": 0.0002999909617495844, + "loss": 0.4983, + "step": 3120 + }, + { + "epoch": 8.346666666666668, + "grad_norm": 0.2890625, + "learning_rate": 0.0002999908925978934, + "loss": 0.5074, + "step": 3130 + }, + { + "epoch": 8.373333333333333, + "grad_norm": 0.3515625, + "learning_rate": 0.0002999908231826777, + "loss": 0.504, + "step": 3140 + }, + { + "epoch": 8.4, + "grad_norm": 0.2001953125, + "learning_rate": 0.00029999075350393745, + "loss": 0.4984, + "step": 3150 + }, + { + "epoch": 8.426666666666666, + "grad_norm": 0.162109375, + "learning_rate": 0.00029999068356167263, + "loss": 0.5046, + "step": 3160 + }, + { + "epoch": 8.453333333333333, + "grad_norm": 0.390625, + "learning_rate": 0.00029999061335588353, + "loss": 0.5083, + "step": 3170 + }, + { + "epoch": 8.48, + "grad_norm": 0.232421875, + "learning_rate": 0.00029999054288657015, + "loss": 0.513, + "step": 3180 + }, + { + "epoch": 8.506666666666666, + "grad_norm": 0.236328125, + "learning_rate": 0.0002999904721537327, + "loss": 0.5038, + "step": 3190 + }, + { + "epoch": 8.533333333333333, + "grad_norm": 0.2392578125, + "learning_rate": 0.00029999040115737124, + "loss": 0.4976, + "step": 3200 + }, + { + "epoch": 8.56, + "grad_norm": 0.20703125, + "learning_rate": 0.000299990329897486, + "loss": 0.4967, + "step": 3210 + }, + { + "epoch": 8.586666666666666, + "grad_norm": 0.23828125, + "learning_rate": 0.0002999902583740769, + "loss": 0.4925, + "step": 3220 + }, + { + "epoch": 8.613333333333333, + "grad_norm": 0.21484375, + "learning_rate": 0.00029999018658714426, + "loss": 0.4784, + "step": 3230 + }, + { + "epoch": 8.64, + "grad_norm": 0.1533203125, + "learning_rate": 0.00029999011453668816, + "loss": 0.4819, + "step": 3240 + }, + { + "epoch": 8.666666666666666, + "grad_norm": 0.2236328125, + "learning_rate": 0.0002999900422227087, + "loss": 0.4993, + "step": 3250 + }, + { + "epoch": 8.693333333333333, + "grad_norm": 0.17578125, + "learning_rate": 0.00029998996964520594, + "loss": 0.4815, + "step": 3260 + }, + { + "epoch": 8.72, + "grad_norm": 0.2080078125, + "learning_rate": 0.0002999898968041802, + "loss": 0.4992, + "step": 3270 + }, + { + "epoch": 8.746666666666666, + "grad_norm": 0.1943359375, + "learning_rate": 0.0002999898236996314, + "loss": 0.5047, + "step": 3280 + }, + { + "epoch": 8.773333333333333, + "grad_norm": 0.2197265625, + "learning_rate": 0.0002999897503315598, + "loss": 0.5119, + "step": 3290 + }, + { + "epoch": 8.8, + "grad_norm": 0.50390625, + "learning_rate": 0.0002999896766999655, + "loss": 0.498, + "step": 3300 + }, + { + "epoch": 8.826666666666666, + "grad_norm": 0.279296875, + "learning_rate": 0.0002999896028048486, + "loss": 0.4932, + "step": 3310 + }, + { + "epoch": 8.853333333333333, + "grad_norm": 0.337890625, + "learning_rate": 0.00029998952864620924, + "loss": 0.5022, + "step": 3320 + }, + { + "epoch": 8.88, + "grad_norm": 0.4453125, + "learning_rate": 0.00029998945422404755, + "loss": 0.489, + "step": 3330 + }, + { + "epoch": 8.906666666666666, + "grad_norm": 0.279296875, + "learning_rate": 0.00029998937953836365, + "loss": 0.4925, + "step": 3340 + }, + { + "epoch": 8.933333333333334, + "grad_norm": 0.34765625, + "learning_rate": 0.00029998930458915773, + "loss": 0.4931, + "step": 3350 + }, + { + "epoch": 8.96, + "grad_norm": 0.169921875, + "learning_rate": 0.00029998922937642987, + "loss": 0.4912, + "step": 3360 + }, + { + "epoch": 8.986666666666666, + "grad_norm": 0.734375, + "learning_rate": 0.0002999891539001802, + "loss": 0.5072, + "step": 3370 + }, + { + "epoch": 9.0, + "eval_loss": 0.5036345720291138, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.3651, + "eval_samples_per_second": 1.544, + "eval_steps_per_second": 0.096, + "step": 3375 + }, + { + "epoch": 9.013333333333334, + "grad_norm": 0.36328125, + "learning_rate": 0.0002999890781604088, + "loss": 0.4946, + "step": 3380 + }, + { + "epoch": 9.04, + "grad_norm": 0.302734375, + "learning_rate": 0.000299989002157116, + "loss": 0.5175, + "step": 3390 + }, + { + "epoch": 9.066666666666666, + "grad_norm": 0.2275390625, + "learning_rate": 0.0002999889258903017, + "loss": 0.5059, + "step": 3400 + }, + { + "epoch": 9.093333333333334, + "grad_norm": 0.212890625, + "learning_rate": 0.0002999888493599662, + "loss": 0.501, + "step": 3410 + }, + { + "epoch": 9.12, + "grad_norm": 0.26953125, + "learning_rate": 0.00029998877256610956, + "loss": 0.4982, + "step": 3420 + }, + { + "epoch": 9.146666666666667, + "grad_norm": 0.234375, + "learning_rate": 0.0002999886955087319, + "loss": 0.5069, + "step": 3430 + }, + { + "epoch": 9.173333333333334, + "grad_norm": 0.33984375, + "learning_rate": 0.00029998861818783344, + "loss": 0.4962, + "step": 3440 + }, + { + "epoch": 9.2, + "grad_norm": 0.3125, + "learning_rate": 0.00029998854060341414, + "loss": 0.4945, + "step": 3450 + }, + { + "epoch": 9.226666666666667, + "grad_norm": 0.30078125, + "learning_rate": 0.00029998846275547435, + "loss": 0.4934, + "step": 3460 + }, + { + "epoch": 9.253333333333334, + "grad_norm": 0.3203125, + "learning_rate": 0.00029998838464401407, + "loss": 0.4909, + "step": 3470 + }, + { + "epoch": 9.28, + "grad_norm": 0.2080078125, + "learning_rate": 0.0002999883062690335, + "loss": 0.5054, + "step": 3480 + }, + { + "epoch": 9.306666666666667, + "grad_norm": 0.2216796875, + "learning_rate": 0.0002999882276305327, + "loss": 0.4859, + "step": 3490 + }, + { + "epoch": 9.333333333333334, + "grad_norm": 0.2255859375, + "learning_rate": 0.00029998814872851193, + "loss": 0.502, + "step": 3500 + }, + { + "epoch": 9.36, + "grad_norm": 0.1494140625, + "learning_rate": 0.0002999880695629712, + "loss": 0.506, + "step": 3510 + }, + { + "epoch": 9.386666666666667, + "grad_norm": 0.255859375, + "learning_rate": 0.0002999879901339108, + "loss": 0.4957, + "step": 3520 + }, + { + "epoch": 9.413333333333334, + "grad_norm": 0.279296875, + "learning_rate": 0.00029998791044133066, + "loss": 0.4999, + "step": 3530 + }, + { + "epoch": 9.44, + "grad_norm": 0.30078125, + "learning_rate": 0.0002999878304852311, + "loss": 0.5033, + "step": 3540 + }, + { + "epoch": 9.466666666666667, + "grad_norm": 0.1806640625, + "learning_rate": 0.0002999877502656122, + "loss": 0.5134, + "step": 3550 + }, + { + "epoch": 9.493333333333334, + "grad_norm": 0.271484375, + "learning_rate": 0.0002999876697824741, + "loss": 0.5036, + "step": 3560 + }, + { + "epoch": 9.52, + "grad_norm": 0.2138671875, + "learning_rate": 0.00029998758903581696, + "loss": 0.498, + "step": 3570 + }, + { + "epoch": 9.546666666666667, + "grad_norm": 0.1728515625, + "learning_rate": 0.00029998750802564086, + "loss": 0.4943, + "step": 3580 + }, + { + "epoch": 9.573333333333334, + "grad_norm": 0.1298828125, + "learning_rate": 0.000299987426751946, + "loss": 0.4922, + "step": 3590 + }, + { + "epoch": 9.6, + "grad_norm": 0.236328125, + "learning_rate": 0.00029998734521473255, + "loss": 0.4867, + "step": 3600 + }, + { + "epoch": 9.626666666666667, + "grad_norm": 0.33984375, + "learning_rate": 0.00029998726341400056, + "loss": 0.4718, + "step": 3610 + }, + { + "epoch": 9.653333333333332, + "grad_norm": 0.2197265625, + "learning_rate": 0.00029998718134975025, + "loss": 0.493, + "step": 3620 + }, + { + "epoch": 9.68, + "grad_norm": 0.2021484375, + "learning_rate": 0.0002999870990219818, + "loss": 0.4839, + "step": 3630 + }, + { + "epoch": 9.706666666666667, + "grad_norm": 0.251953125, + "learning_rate": 0.00029998701643069517, + "loss": 0.4852, + "step": 3640 + }, + { + "epoch": 9.733333333333333, + "grad_norm": 0.33203125, + "learning_rate": 0.0002999869335758907, + "loss": 0.5052, + "step": 3650 + }, + { + "epoch": 9.76, + "grad_norm": 0.2490234375, + "learning_rate": 0.0002999868504575685, + "loss": 0.5065, + "step": 3660 + }, + { + "epoch": 9.786666666666667, + "grad_norm": 0.212890625, + "learning_rate": 0.00029998676707572864, + "loss": 0.5046, + "step": 3670 + }, + { + "epoch": 9.813333333333333, + "grad_norm": 0.296875, + "learning_rate": 0.0002999866834303713, + "loss": 0.4886, + "step": 3680 + }, + { + "epoch": 9.84, + "grad_norm": 0.2138671875, + "learning_rate": 0.00029998659952149665, + "loss": 0.4966, + "step": 3690 + }, + { + "epoch": 9.866666666666667, + "grad_norm": 0.1611328125, + "learning_rate": 0.00029998651534910483, + "loss": 0.494, + "step": 3700 + }, + { + "epoch": 9.893333333333333, + "grad_norm": 0.1318359375, + "learning_rate": 0.00029998643091319594, + "loss": 0.4846, + "step": 3710 + }, + { + "epoch": 9.92, + "grad_norm": 0.24609375, + "learning_rate": 0.0002999863462137702, + "loss": 0.4953, + "step": 3720 + }, + { + "epoch": 9.946666666666667, + "grad_norm": 0.201171875, + "learning_rate": 0.00029998626125082774, + "loss": 0.4876, + "step": 3730 + }, + { + "epoch": 9.973333333333333, + "grad_norm": 0.228515625, + "learning_rate": 0.0002999861760243687, + "loss": 0.5001, + "step": 3740 + }, + { + "epoch": 10.0, + "grad_norm": 0.2021484375, + "learning_rate": 0.0002999860905343932, + "loss": 0.488, + "step": 3750 + }, + { + "epoch": 10.0, + "eval_loss": 0.5015295147895813, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.1184, + "eval_samples_per_second": 1.581, + "eval_steps_per_second": 0.099, + "step": 3750 + }, + { + "epoch": 10.026666666666667, + "grad_norm": 0.251953125, + "learning_rate": 0.00029998600478090145, + "loss": 0.5073, + "step": 3760 + }, + { + "epoch": 10.053333333333333, + "grad_norm": 0.2578125, + "learning_rate": 0.00029998591876389353, + "loss": 0.5143, + "step": 3770 + }, + { + "epoch": 10.08, + "grad_norm": 0.26953125, + "learning_rate": 0.00029998583248336963, + "loss": 0.5016, + "step": 3780 + }, + { + "epoch": 10.106666666666667, + "grad_norm": 0.1591796875, + "learning_rate": 0.0002999857459393299, + "loss": 0.4949, + "step": 3790 + }, + { + "epoch": 10.133333333333333, + "grad_norm": 0.2333984375, + "learning_rate": 0.0002999856591317745, + "loss": 0.4988, + "step": 3800 + }, + { + "epoch": 10.16, + "grad_norm": 0.56640625, + "learning_rate": 0.00029998557206070356, + "loss": 0.5023, + "step": 3810 + }, + { + "epoch": 10.186666666666667, + "grad_norm": 0.2470703125, + "learning_rate": 0.0002999854847261173, + "loss": 0.4933, + "step": 3820 + }, + { + "epoch": 10.213333333333333, + "grad_norm": 0.197265625, + "learning_rate": 0.00029998539712801576, + "loss": 0.4891, + "step": 3830 + }, + { + "epoch": 10.24, + "grad_norm": 0.296875, + "learning_rate": 0.00029998530926639923, + "loss": 0.4924, + "step": 3840 + }, + { + "epoch": 10.266666666666667, + "grad_norm": 0.255859375, + "learning_rate": 0.0002999852211412677, + "loss": 0.4957, + "step": 3850 + }, + { + "epoch": 10.293333333333333, + "grad_norm": 0.220703125, + "learning_rate": 0.0002999851327526215, + "loss": 0.49, + "step": 3860 + }, + { + "epoch": 10.32, + "grad_norm": 0.220703125, + "learning_rate": 0.00029998504410046065, + "loss": 0.4942, + "step": 3870 + }, + { + "epoch": 10.346666666666668, + "grad_norm": 0.189453125, + "learning_rate": 0.0002999849551847853, + "loss": 0.5034, + "step": 3880 + }, + { + "epoch": 10.373333333333333, + "grad_norm": 0.23046875, + "learning_rate": 0.0002999848660055958, + "loss": 0.4996, + "step": 3890 + }, + { + "epoch": 10.4, + "grad_norm": 0.2578125, + "learning_rate": 0.00029998477656289205, + "loss": 0.4943, + "step": 3900 + }, + { + "epoch": 10.426666666666666, + "grad_norm": 0.248046875, + "learning_rate": 0.0002999846868566744, + "loss": 0.5012, + "step": 3910 + }, + { + "epoch": 10.453333333333333, + "grad_norm": 0.486328125, + "learning_rate": 0.0002999845968869429, + "loss": 0.5038, + "step": 3920 + }, + { + "epoch": 10.48, + "grad_norm": 0.23046875, + "learning_rate": 0.0002999845066536977, + "loss": 0.5097, + "step": 3930 + }, + { + "epoch": 10.506666666666666, + "grad_norm": 0.1953125, + "learning_rate": 0.0002999844161569391, + "loss": 0.4986, + "step": 3940 + }, + { + "epoch": 10.533333333333333, + "grad_norm": 0.318359375, + "learning_rate": 0.00029998432539666707, + "loss": 0.492, + "step": 3950 + }, + { + "epoch": 10.56, + "grad_norm": 0.162109375, + "learning_rate": 0.0002999842343728819, + "loss": 0.493, + "step": 3960 + }, + { + "epoch": 10.586666666666666, + "grad_norm": 0.275390625, + "learning_rate": 0.00029998414308558374, + "loss": 0.4886, + "step": 3970 + }, + { + "epoch": 10.613333333333333, + "grad_norm": 0.2158203125, + "learning_rate": 0.00029998405153477264, + "loss": 0.4745, + "step": 3980 + }, + { + "epoch": 10.64, + "grad_norm": 0.263671875, + "learning_rate": 0.00029998395972044887, + "loss": 0.4784, + "step": 3990 + }, + { + "epoch": 10.666666666666666, + "grad_norm": 0.1591796875, + "learning_rate": 0.0002999838676426126, + "loss": 0.4955, + "step": 4000 + }, + { + "epoch": 10.693333333333333, + "grad_norm": 0.31640625, + "learning_rate": 0.0002999837753012639, + "loss": 0.4781, + "step": 4010 + }, + { + "epoch": 10.72, + "grad_norm": 0.287109375, + "learning_rate": 0.000299983682696403, + "loss": 0.4956, + "step": 4020 + }, + { + "epoch": 10.746666666666666, + "grad_norm": 0.31640625, + "learning_rate": 0.00029998358982803004, + "loss": 0.4996, + "step": 4030 + }, + { + "epoch": 10.773333333333333, + "grad_norm": 0.2490234375, + "learning_rate": 0.0002999834966961452, + "loss": 0.5088, + "step": 4040 + }, + { + "epoch": 10.8, + "grad_norm": 0.189453125, + "learning_rate": 0.0002999834033007487, + "loss": 0.4941, + "step": 4050 + }, + { + "epoch": 10.826666666666666, + "grad_norm": 0.31640625, + "learning_rate": 0.0002999833096418405, + "loss": 0.4892, + "step": 4060 + }, + { + "epoch": 10.853333333333333, + "grad_norm": 0.2294921875, + "learning_rate": 0.000299983215719421, + "loss": 0.4981, + "step": 4070 + }, + { + "epoch": 10.88, + "grad_norm": 0.359375, + "learning_rate": 0.0002999831215334902, + "loss": 0.4848, + "step": 4080 + }, + { + "epoch": 10.906666666666666, + "grad_norm": 0.267578125, + "learning_rate": 0.0002999830270840484, + "loss": 0.4879, + "step": 4090 + }, + { + "epoch": 10.933333333333334, + "grad_norm": 0.353515625, + "learning_rate": 0.0002999829323710957, + "loss": 0.4898, + "step": 4100 + }, + { + "epoch": 10.96, + "grad_norm": 0.30859375, + "learning_rate": 0.0002999828373946322, + "loss": 0.4875, + "step": 4110 + }, + { + "epoch": 10.986666666666666, + "grad_norm": 0.6015625, + "learning_rate": 0.0002999827421546582, + "loss": 0.5029, + "step": 4120 + }, + { + "epoch": 11.0, + "eval_loss": 0.4987983703613281, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.4885, + "eval_samples_per_second": 1.525, + "eval_steps_per_second": 0.095, + "step": 4125 + }, + { + "epoch": 11.013333333333334, + "grad_norm": 0.18359375, + "learning_rate": 0.0002999826466511738, + "loss": 0.4904, + "step": 4130 + }, + { + "epoch": 11.04, + "grad_norm": 0.1650390625, + "learning_rate": 0.0002999825508841791, + "loss": 0.5141, + "step": 4140 + }, + { + "epoch": 11.066666666666666, + "grad_norm": 0.326171875, + "learning_rate": 0.00029998245485367443, + "loss": 0.5024, + "step": 4150 + }, + { + "epoch": 11.093333333333334, + "grad_norm": 0.2392578125, + "learning_rate": 0.0002999823585596598, + "loss": 0.4968, + "step": 4160 + }, + { + "epoch": 11.12, + "grad_norm": 0.310546875, + "learning_rate": 0.00029998226200213544, + "loss": 0.4929, + "step": 4170 + }, + { + "epoch": 11.146666666666667, + "grad_norm": 0.22265625, + "learning_rate": 0.00029998216518110156, + "loss": 0.5028, + "step": 4180 + }, + { + "epoch": 11.173333333333334, + "grad_norm": 0.400390625, + "learning_rate": 0.00029998206809655825, + "loss": 0.4931, + "step": 4190 + }, + { + "epoch": 11.2, + "grad_norm": 0.2255859375, + "learning_rate": 0.0002999819707485058, + "loss": 0.4912, + "step": 4200 + }, + { + "epoch": 11.226666666666667, + "grad_norm": 0.298828125, + "learning_rate": 0.0002999818731369442, + "loss": 0.4901, + "step": 4210 + }, + { + "epoch": 11.253333333333334, + "grad_norm": 0.2119140625, + "learning_rate": 0.0002999817752618738, + "loss": 0.4877, + "step": 4220 + }, + { + "epoch": 11.28, + "grad_norm": 0.291015625, + "learning_rate": 0.00029998167712329466, + "loss": 0.5003, + "step": 4230 + }, + { + "epoch": 11.306666666666667, + "grad_norm": 0.216796875, + "learning_rate": 0.000299981578721207, + "loss": 0.4824, + "step": 4240 + }, + { + "epoch": 11.333333333333334, + "grad_norm": 0.1611328125, + "learning_rate": 0.000299981480055611, + "loss": 0.4988, + "step": 4250 + }, + { + "epoch": 11.36, + "grad_norm": 0.25, + "learning_rate": 0.0002999813811265068, + "loss": 0.5023, + "step": 4260 + }, + { + "epoch": 11.386666666666667, + "grad_norm": 0.341796875, + "learning_rate": 0.00029998128193389463, + "loss": 0.4926, + "step": 4270 + }, + { + "epoch": 11.413333333333334, + "grad_norm": 0.197265625, + "learning_rate": 0.0002999811824777746, + "loss": 0.4959, + "step": 4280 + }, + { + "epoch": 11.44, + "grad_norm": 0.267578125, + "learning_rate": 0.0002999810827581469, + "loss": 0.5006, + "step": 4290 + }, + { + "epoch": 11.466666666666667, + "grad_norm": 0.216796875, + "learning_rate": 0.0002999809827750117, + "loss": 0.5089, + "step": 4300 + }, + { + "epoch": 11.493333333333334, + "grad_norm": 0.40625, + "learning_rate": 0.0002999808825283692, + "loss": 0.5001, + "step": 4310 + }, + { + "epoch": 11.52, + "grad_norm": 0.2734375, + "learning_rate": 0.00029998078201821964, + "loss": 0.4944, + "step": 4320 + }, + { + "epoch": 11.546666666666667, + "grad_norm": 0.193359375, + "learning_rate": 0.000299980681244563, + "loss": 0.4906, + "step": 4330 + }, + { + "epoch": 11.573333333333334, + "grad_norm": 0.28125, + "learning_rate": 0.0002999805802073997, + "loss": 0.489, + "step": 4340 + }, + { + "epoch": 11.6, + "grad_norm": 0.2021484375, + "learning_rate": 0.00029998047890672974, + "loss": 0.4838, + "step": 4350 + }, + { + "epoch": 11.626666666666667, + "grad_norm": 0.1318359375, + "learning_rate": 0.00029998037734255335, + "loss": 0.4682, + "step": 4360 + }, + { + "epoch": 11.653333333333332, + "grad_norm": 0.271484375, + "learning_rate": 0.00029998027551487067, + "loss": 0.4906, + "step": 4370 + }, + { + "epoch": 11.68, + "grad_norm": 0.189453125, + "learning_rate": 0.00029998017342368203, + "loss": 0.4805, + "step": 4380 + }, + { + "epoch": 11.706666666666667, + "grad_norm": 0.2216796875, + "learning_rate": 0.00029998007106898743, + "loss": 0.4818, + "step": 4390 + }, + { + "epoch": 11.733333333333333, + "grad_norm": 0.265625, + "learning_rate": 0.00029997996845078714, + "loss": 0.5014, + "step": 4400 + }, + { + "epoch": 11.76, + "grad_norm": 0.265625, + "learning_rate": 0.00029997986556908133, + "loss": 0.5031, + "step": 4410 + }, + { + "epoch": 11.786666666666667, + "grad_norm": 0.2431640625, + "learning_rate": 0.00029997976242387015, + "loss": 0.5007, + "step": 4420 + }, + { + "epoch": 11.813333333333333, + "grad_norm": 0.50390625, + "learning_rate": 0.00029997965901515383, + "loss": 0.4852, + "step": 4430 + }, + { + "epoch": 11.84, + "grad_norm": 0.640625, + "learning_rate": 0.0002999795553429325, + "loss": 0.4927, + "step": 4440 + }, + { + "epoch": 11.866666666666667, + "grad_norm": 0.197265625, + "learning_rate": 0.00029997945140720645, + "loss": 0.4916, + "step": 4450 + }, + { + "epoch": 11.893333333333333, + "grad_norm": 0.283203125, + "learning_rate": 0.0002999793472079757, + "loss": 0.4817, + "step": 4460 + }, + { + "epoch": 11.92, + "grad_norm": 0.328125, + "learning_rate": 0.00029997924274524054, + "loss": 0.4917, + "step": 4470 + }, + { + "epoch": 11.946666666666667, + "grad_norm": 0.326171875, + "learning_rate": 0.00029997913801900114, + "loss": 0.4849, + "step": 4480 + }, + { + "epoch": 11.973333333333333, + "grad_norm": 0.25390625, + "learning_rate": 0.00029997903302925763, + "loss": 0.4966, + "step": 4490 + }, + { + "epoch": 12.0, + "grad_norm": 0.337890625, + "learning_rate": 0.00029997892777601027, + "loss": 0.4862, + "step": 4500 + }, + { + "epoch": 12.0, + "eval_loss": 0.49906519055366516, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.1272, + "eval_samples_per_second": 1.58, + "eval_steps_per_second": 0.099, + "step": 4500 + }, + { + "epoch": 12.026666666666667, + "grad_norm": 0.2119140625, + "learning_rate": 0.0002999788222592592, + "loss": 0.5031, + "step": 4510 + }, + { + "epoch": 12.053333333333333, + "grad_norm": 0.2578125, + "learning_rate": 0.0002999787164790046, + "loss": 0.5101, + "step": 4520 + }, + { + "epoch": 12.08, + "grad_norm": 0.1962890625, + "learning_rate": 0.00029997861043524674, + "loss": 0.4975, + "step": 4530 + }, + { + "epoch": 12.106666666666667, + "grad_norm": 0.203125, + "learning_rate": 0.0002999785041279857, + "loss": 0.4926, + "step": 4540 + }, + { + "epoch": 12.133333333333333, + "grad_norm": 0.390625, + "learning_rate": 0.0002999783975572217, + "loss": 0.4959, + "step": 4550 + }, + { + "epoch": 12.16, + "grad_norm": 0.609375, + "learning_rate": 0.0002999782907229549, + "loss": 0.4991, + "step": 4560 + }, + { + "epoch": 12.186666666666667, + "grad_norm": 0.2578125, + "learning_rate": 0.00029997818362518554, + "loss": 0.49, + "step": 4570 + }, + { + "epoch": 12.213333333333333, + "grad_norm": 0.203125, + "learning_rate": 0.0002999780762639138, + "loss": 0.4853, + "step": 4580 + }, + { + "epoch": 12.24, + "grad_norm": 0.2314453125, + "learning_rate": 0.00029997796863913986, + "loss": 0.4893, + "step": 4590 + }, + { + "epoch": 12.266666666666667, + "grad_norm": 0.1533203125, + "learning_rate": 0.0002999778607508639, + "loss": 0.4931, + "step": 4600 + }, + { + "epoch": 12.293333333333333, + "grad_norm": 0.322265625, + "learning_rate": 0.0002999777525990861, + "loss": 0.4867, + "step": 4610 + }, + { + "epoch": 12.32, + "grad_norm": 0.353515625, + "learning_rate": 0.0002999776441838067, + "loss": 0.4908, + "step": 4620 + }, + { + "epoch": 12.346666666666668, + "grad_norm": 0.314453125, + "learning_rate": 0.0002999775355050259, + "loss": 0.5002, + "step": 4630 + }, + { + "epoch": 12.373333333333333, + "grad_norm": 0.26953125, + "learning_rate": 0.0002999774265627438, + "loss": 0.4969, + "step": 4640 + }, + { + "epoch": 12.4, + "grad_norm": 0.31640625, + "learning_rate": 0.0002999773173569606, + "loss": 0.4909, + "step": 4650 + }, + { + "epoch": 12.426666666666666, + "grad_norm": 0.3984375, + "learning_rate": 0.0002999772078876766, + "loss": 0.4982, + "step": 4660 + }, + { + "epoch": 12.453333333333333, + "grad_norm": 0.408203125, + "learning_rate": 0.0002999770981548918, + "loss": 0.5013, + "step": 4670 + }, + { + "epoch": 12.48, + "grad_norm": 0.279296875, + "learning_rate": 0.0002999769881586066, + "loss": 0.5066, + "step": 4680 + }, + { + "epoch": 12.506666666666666, + "grad_norm": 0.306640625, + "learning_rate": 0.0002999768778988211, + "loss": 0.4964, + "step": 4690 + }, + { + "epoch": 12.533333333333333, + "grad_norm": 0.1865234375, + "learning_rate": 0.00029997676737553554, + "loss": 0.4901, + "step": 4700 + }, + { + "epoch": 12.56, + "grad_norm": 0.234375, + "learning_rate": 0.00029997665658875003, + "loss": 0.4899, + "step": 4710 + }, + { + "epoch": 12.586666666666666, + "grad_norm": 0.2470703125, + "learning_rate": 0.0002999765455384649, + "loss": 0.4855, + "step": 4720 + }, + { + "epoch": 12.613333333333333, + "grad_norm": 0.1572265625, + "learning_rate": 0.00029997643422468017, + "loss": 0.4714, + "step": 4730 + }, + { + "epoch": 12.64, + "grad_norm": 0.33203125, + "learning_rate": 0.00029997632264739613, + "loss": 0.4759, + "step": 4740 + }, + { + "epoch": 12.666666666666666, + "grad_norm": 0.1796875, + "learning_rate": 0.00029997621080661297, + "loss": 0.4927, + "step": 4750 + }, + { + "epoch": 12.693333333333333, + "grad_norm": 0.21484375, + "learning_rate": 0.0002999760987023309, + "loss": 0.4743, + "step": 4760 + }, + { + "epoch": 12.72, + "grad_norm": 0.29296875, + "learning_rate": 0.00029997598633455013, + "loss": 0.4926, + "step": 4770 + }, + { + "epoch": 12.746666666666666, + "grad_norm": 0.2197265625, + "learning_rate": 0.0002999758737032707, + "loss": 0.4975, + "step": 4780 + }, + { + "epoch": 12.773333333333333, + "grad_norm": 0.166015625, + "learning_rate": 0.0002999757608084931, + "loss": 0.5057, + "step": 4790 + }, + { + "epoch": 12.8, + "grad_norm": 0.345703125, + "learning_rate": 0.00029997564765021727, + "loss": 0.4902, + "step": 4800 + }, + { + "epoch": 12.826666666666666, + "grad_norm": 0.15625, + "learning_rate": 0.00029997553422844356, + "loss": 0.4851, + "step": 4810 + }, + { + "epoch": 12.853333333333333, + "grad_norm": 0.259765625, + "learning_rate": 0.0002999754205431721, + "loss": 0.495, + "step": 4820 + }, + { + "epoch": 12.88, + "grad_norm": 0.1982421875, + "learning_rate": 0.0002999753065944031, + "loss": 0.4817, + "step": 4830 + }, + { + "epoch": 12.906666666666666, + "grad_norm": 0.287109375, + "learning_rate": 0.0002999751923821367, + "loss": 0.4842, + "step": 4840 + }, + { + "epoch": 12.933333333333334, + "grad_norm": 0.294921875, + "learning_rate": 0.0002999750779063732, + "loss": 0.4862, + "step": 4850 + }, + { + "epoch": 12.96, + "grad_norm": 0.267578125, + "learning_rate": 0.0002999749631671128, + "loss": 0.4846, + "step": 4860 + }, + { + "epoch": 12.986666666666666, + "grad_norm": 0.21875, + "learning_rate": 0.0002999748481643557, + "loss": 0.4995, + "step": 4870 + }, + { + "epoch": 13.0, + "eval_loss": 0.49617522954940796, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.9648, + "eval_samples_per_second": 1.606, + "eval_steps_per_second": 0.1, + "step": 4875 + }, + { + "epoch": 13.013333333333334, + "grad_norm": 0.2421875, + "learning_rate": 0.000299974732898102, + "loss": 0.4874, + "step": 4880 + }, + { + "epoch": 13.04, + "grad_norm": 0.3203125, + "learning_rate": 0.00029997461736835197, + "loss": 0.5113, + "step": 4890 + }, + { + "epoch": 13.066666666666666, + "grad_norm": 0.19921875, + "learning_rate": 0.00029997450157510583, + "loss": 0.499, + "step": 4900 + }, + { + "epoch": 13.093333333333334, + "grad_norm": 0.2080078125, + "learning_rate": 0.00029997438551836376, + "loss": 0.4937, + "step": 4910 + }, + { + "epoch": 13.12, + "grad_norm": 0.224609375, + "learning_rate": 0.000299974269198126, + "loss": 0.4907, + "step": 4920 + }, + { + "epoch": 13.146666666666667, + "grad_norm": 0.166015625, + "learning_rate": 0.00029997415261439275, + "loss": 0.5002, + "step": 4930 + }, + { + "epoch": 13.173333333333334, + "grad_norm": 0.388671875, + "learning_rate": 0.00029997403576716413, + "loss": 0.4902, + "step": 4940 + }, + { + "epoch": 13.2, + "grad_norm": 0.3515625, + "learning_rate": 0.00029997391865644045, + "loss": 0.4879, + "step": 4950 + }, + { + "epoch": 13.226666666666667, + "grad_norm": 0.185546875, + "learning_rate": 0.0002999738012822218, + "loss": 0.487, + "step": 4960 + }, + { + "epoch": 13.253333333333334, + "grad_norm": 0.2099609375, + "learning_rate": 0.00029997368364450855, + "loss": 0.4855, + "step": 4970 + }, + { + "epoch": 13.28, + "grad_norm": 0.27734375, + "learning_rate": 0.0002999735657433007, + "loss": 0.4987, + "step": 4980 + }, + { + "epoch": 13.306666666666667, + "grad_norm": 0.38671875, + "learning_rate": 0.00029997344757859873, + "loss": 0.4802, + "step": 4990 + }, + { + "epoch": 13.333333333333334, + "grad_norm": 0.267578125, + "learning_rate": 0.0002999733291504026, + "loss": 0.496, + "step": 5000 + }, + { + "epoch": 13.36, + "grad_norm": 0.2099609375, + "learning_rate": 0.0002999732104587126, + "loss": 0.4988, + "step": 5010 + }, + { + "epoch": 13.386666666666667, + "grad_norm": 0.328125, + "learning_rate": 0.00029997309150352897, + "loss": 0.4898, + "step": 5020 + }, + { + "epoch": 13.413333333333334, + "grad_norm": 0.2421875, + "learning_rate": 0.0002999729722848519, + "loss": 0.4938, + "step": 5030 + }, + { + "epoch": 13.44, + "grad_norm": 0.490234375, + "learning_rate": 0.0002999728528026816, + "loss": 0.4966, + "step": 5040 + }, + { + "epoch": 13.466666666666667, + "grad_norm": 0.244140625, + "learning_rate": 0.0002999727330570182, + "loss": 0.5066, + "step": 5050 + }, + { + "epoch": 13.493333333333334, + "grad_norm": 0.34765625, + "learning_rate": 0.00029997261304786206, + "loss": 0.4984, + "step": 5060 + }, + { + "epoch": 13.52, + "grad_norm": 0.2041015625, + "learning_rate": 0.0002999724927752133, + "loss": 0.4918, + "step": 5070 + }, + { + "epoch": 13.546666666666667, + "grad_norm": 0.2236328125, + "learning_rate": 0.00029997237223907216, + "loss": 0.4883, + "step": 5080 + }, + { + "epoch": 13.573333333333334, + "grad_norm": 0.15625, + "learning_rate": 0.0002999722514394388, + "loss": 0.4858, + "step": 5090 + }, + { + "epoch": 13.6, + "grad_norm": 0.349609375, + "learning_rate": 0.0002999721303763135, + "loss": 0.4816, + "step": 5100 + }, + { + "epoch": 13.626666666666667, + "grad_norm": 0.267578125, + "learning_rate": 0.00029997200904969645, + "loss": 0.4665, + "step": 5110 + }, + { + "epoch": 13.653333333333332, + "grad_norm": 0.1875, + "learning_rate": 0.0002999718874595878, + "loss": 0.4872, + "step": 5120 + }, + { + "epoch": 13.68, + "grad_norm": 0.208984375, + "learning_rate": 0.0002999717656059879, + "loss": 0.4782, + "step": 5130 + }, + { + "epoch": 13.706666666666667, + "grad_norm": 0.345703125, + "learning_rate": 0.00029997164348889683, + "loss": 0.4788, + "step": 5140 + }, + { + "epoch": 13.733333333333333, + "grad_norm": 0.7421875, + "learning_rate": 0.00029997152110831487, + "loss": 0.4993, + "step": 5150 + }, + { + "epoch": 13.76, + "grad_norm": 0.7265625, + "learning_rate": 0.00029997139846424224, + "loss": 0.5006, + "step": 5160 + }, + { + "epoch": 13.786666666666667, + "grad_norm": 0.251953125, + "learning_rate": 0.00029997127555667915, + "loss": 0.4985, + "step": 5170 + }, + { + "epoch": 13.813333333333333, + "grad_norm": 0.2890625, + "learning_rate": 0.0002999711523856258, + "loss": 0.4831, + "step": 5180 + }, + { + "epoch": 13.84, + "grad_norm": 0.30078125, + "learning_rate": 0.0002999710289510824, + "loss": 0.49, + "step": 5190 + }, + { + "epoch": 13.866666666666667, + "grad_norm": 0.228515625, + "learning_rate": 0.0002999709052530492, + "loss": 0.4887, + "step": 5200 + }, + { + "epoch": 13.893333333333333, + "grad_norm": 0.23828125, + "learning_rate": 0.00029997078129152636, + "loss": 0.4787, + "step": 5210 + }, + { + "epoch": 13.92, + "grad_norm": 0.31640625, + "learning_rate": 0.0002999706570665142, + "loss": 0.4892, + "step": 5220 + }, + { + "epoch": 13.946666666666667, + "grad_norm": 0.51171875, + "learning_rate": 0.0002999705325780128, + "loss": 0.4829, + "step": 5230 + }, + { + "epoch": 13.973333333333333, + "grad_norm": 0.37109375, + "learning_rate": 0.00029997040782602245, + "loss": 0.4936, + "step": 5240 + }, + { + "epoch": 14.0, + "grad_norm": 0.26953125, + "learning_rate": 0.0002999702828105434, + "loss": 0.4825, + "step": 5250 + }, + { + "epoch": 14.0, + "eval_loss": 0.49614495038986206, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.9533, + "eval_samples_per_second": 1.608, + "eval_steps_per_second": 0.1, + "step": 5250 + }, + { + "epoch": 14.026666666666667, + "grad_norm": 0.251953125, + "learning_rate": 0.0002999701575315759, + "loss": 0.5015, + "step": 5260 + }, + { + "epoch": 14.053333333333333, + "grad_norm": 0.271484375, + "learning_rate": 0.00029997003198912, + "loss": 0.5078, + "step": 5270 + }, + { + "epoch": 14.08, + "grad_norm": 0.2373046875, + "learning_rate": 0.00029996990618317605, + "loss": 0.4954, + "step": 5280 + }, + { + "epoch": 14.106666666666667, + "grad_norm": 0.1923828125, + "learning_rate": 0.0002999697801137443, + "loss": 0.4893, + "step": 5290 + }, + { + "epoch": 14.133333333333333, + "grad_norm": 0.265625, + "learning_rate": 0.0002999696537808249, + "loss": 0.4927, + "step": 5300 + }, + { + "epoch": 14.16, + "grad_norm": 0.302734375, + "learning_rate": 0.0002999695271844181, + "loss": 0.4963, + "step": 5310 + }, + { + "epoch": 14.186666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.00029996940032452415, + "loss": 0.4881, + "step": 5320 + }, + { + "epoch": 14.213333333333333, + "grad_norm": 0.2275390625, + "learning_rate": 0.0002999692732011432, + "loss": 0.4833, + "step": 5330 + }, + { + "epoch": 14.24, + "grad_norm": 0.208984375, + "learning_rate": 0.0002999691458142755, + "loss": 0.4867, + "step": 5340 + }, + { + "epoch": 14.266666666666667, + "grad_norm": 0.16796875, + "learning_rate": 0.00029996901816392135, + "loss": 0.4908, + "step": 5350 + }, + { + "epoch": 14.293333333333333, + "grad_norm": 0.1806640625, + "learning_rate": 0.00029996889025008086, + "loss": 0.4845, + "step": 5360 + }, + { + "epoch": 14.32, + "grad_norm": 0.171875, + "learning_rate": 0.0002999687620727543, + "loss": 0.4887, + "step": 5370 + }, + { + "epoch": 14.346666666666668, + "grad_norm": 0.322265625, + "learning_rate": 0.00029996863363194196, + "loss": 0.497, + "step": 5380 + }, + { + "epoch": 14.373333333333333, + "grad_norm": 0.234375, + "learning_rate": 0.0002999685049276439, + "loss": 0.4939, + "step": 5390 + }, + { + "epoch": 14.4, + "grad_norm": 0.20703125, + "learning_rate": 0.00029996837595986053, + "loss": 0.4885, + "step": 5400 + }, + { + "epoch": 14.426666666666666, + "grad_norm": 0.21484375, + "learning_rate": 0.000299968246728592, + "loss": 0.4952, + "step": 5410 + }, + { + "epoch": 14.453333333333333, + "grad_norm": 0.3203125, + "learning_rate": 0.00029996811723383853, + "loss": 0.4975, + "step": 5420 + }, + { + "epoch": 14.48, + "grad_norm": 0.365234375, + "learning_rate": 0.00029996798747560036, + "loss": 0.5044, + "step": 5430 + }, + { + "epoch": 14.506666666666666, + "grad_norm": 0.404296875, + "learning_rate": 0.0002999678574538777, + "loss": 0.4943, + "step": 5440 + }, + { + "epoch": 14.533333333333333, + "grad_norm": 0.169921875, + "learning_rate": 0.0002999677271686708, + "loss": 0.4877, + "step": 5450 + }, + { + "epoch": 14.56, + "grad_norm": 0.216796875, + "learning_rate": 0.0002999675966199799, + "loss": 0.4876, + "step": 5460 + }, + { + "epoch": 14.586666666666666, + "grad_norm": 0.2119140625, + "learning_rate": 0.0002999674658078052, + "loss": 0.4833, + "step": 5470 + }, + { + "epoch": 14.613333333333333, + "grad_norm": 0.158203125, + "learning_rate": 0.00029996733473214694, + "loss": 0.4686, + "step": 5480 + }, + { + "epoch": 14.64, + "grad_norm": 0.154296875, + "learning_rate": 0.00029996720339300534, + "loss": 0.4727, + "step": 5490 + }, + { + "epoch": 14.666666666666666, + "grad_norm": 0.2421875, + "learning_rate": 0.0002999670717903806, + "loss": 0.4904, + "step": 5500 + }, + { + "epoch": 14.693333333333333, + "grad_norm": 0.228515625, + "learning_rate": 0.00029996693992427305, + "loss": 0.4725, + "step": 5510 + }, + { + "epoch": 14.72, + "grad_norm": 0.154296875, + "learning_rate": 0.00029996680779468285, + "loss": 0.4896, + "step": 5520 + }, + { + "epoch": 14.746666666666666, + "grad_norm": 0.23828125, + "learning_rate": 0.0002999666754016102, + "loss": 0.4947, + "step": 5530 + }, + { + "epoch": 14.773333333333333, + "grad_norm": 0.341796875, + "learning_rate": 0.0002999665427450555, + "loss": 0.5023, + "step": 5540 + }, + { + "epoch": 14.8, + "grad_norm": 0.234375, + "learning_rate": 0.00029996640982501874, + "loss": 0.4885, + "step": 5550 + }, + { + "epoch": 14.826666666666666, + "grad_norm": 0.2138671875, + "learning_rate": 0.00029996627664150027, + "loss": 0.4836, + "step": 5560 + }, + { + "epoch": 14.853333333333333, + "grad_norm": 0.220703125, + "learning_rate": 0.0002999661431945004, + "loss": 0.4926, + "step": 5570 + }, + { + "epoch": 14.88, + "grad_norm": 0.2197265625, + "learning_rate": 0.00029996600948401924, + "loss": 0.4801, + "step": 5580 + }, + { + "epoch": 14.906666666666666, + "grad_norm": 0.267578125, + "learning_rate": 0.0002999658755100571, + "loss": 0.4824, + "step": 5590 + }, + { + "epoch": 14.933333333333334, + "grad_norm": 0.306640625, + "learning_rate": 0.0002999657412726142, + "loss": 0.4838, + "step": 5600 + }, + { + "epoch": 14.96, + "grad_norm": 0.23828125, + "learning_rate": 0.00029996560677169075, + "loss": 0.4822, + "step": 5610 + }, + { + "epoch": 14.986666666666666, + "grad_norm": 0.30859375, + "learning_rate": 0.00029996547200728706, + "loss": 0.4971, + "step": 5620 + }, + { + "epoch": 15.0, + "eval_loss": 0.4952986538410187, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.7083, + "eval_samples_per_second": 1.648, + "eval_steps_per_second": 0.103, + "step": 5625 + }, + { + "epoch": 15.013333333333334, + "grad_norm": 0.201171875, + "learning_rate": 0.0002999653369794033, + "loss": 0.4854, + "step": 5630 + }, + { + "epoch": 15.04, + "grad_norm": 0.228515625, + "learning_rate": 0.00029996520168803966, + "loss": 0.5091, + "step": 5640 + }, + { + "epoch": 15.066666666666666, + "grad_norm": 0.208984375, + "learning_rate": 0.0002999650661331965, + "loss": 0.4976, + "step": 5650 + }, + { + "epoch": 15.093333333333334, + "grad_norm": 0.271484375, + "learning_rate": 0.00029996493031487397, + "loss": 0.4916, + "step": 5660 + }, + { + "epoch": 15.12, + "grad_norm": 0.474609375, + "learning_rate": 0.0002999647942330723, + "loss": 0.4879, + "step": 5670 + }, + { + "epoch": 15.146666666666667, + "grad_norm": 0.3515625, + "learning_rate": 0.0002999646578877918, + "loss": 0.4976, + "step": 5680 + }, + { + "epoch": 15.173333333333334, + "grad_norm": 0.2265625, + "learning_rate": 0.00029996452127903264, + "loss": 0.4874, + "step": 5690 + }, + { + "epoch": 15.2, + "grad_norm": 0.279296875, + "learning_rate": 0.00029996438440679514, + "loss": 0.486, + "step": 5700 + }, + { + "epoch": 15.226666666666667, + "grad_norm": 0.2294921875, + "learning_rate": 0.0002999642472710795, + "loss": 0.4837, + "step": 5710 + }, + { + "epoch": 15.253333333333334, + "grad_norm": 0.26171875, + "learning_rate": 0.0002999641098718859, + "loss": 0.4825, + "step": 5720 + }, + { + "epoch": 15.28, + "grad_norm": 0.1904296875, + "learning_rate": 0.00029996397220921465, + "loss": 0.4955, + "step": 5730 + }, + { + "epoch": 15.306666666666667, + "grad_norm": 0.2216796875, + "learning_rate": 0.000299963834283066, + "loss": 0.4771, + "step": 5740 + }, + { + "epoch": 15.333333333333334, + "grad_norm": 0.2138671875, + "learning_rate": 0.00029996369609344015, + "loss": 0.4939, + "step": 5750 + }, + { + "epoch": 15.36, + "grad_norm": 0.1943359375, + "learning_rate": 0.0002999635576403374, + "loss": 0.4971, + "step": 5760 + }, + { + "epoch": 15.386666666666667, + "grad_norm": 0.31640625, + "learning_rate": 0.00029996341892375787, + "loss": 0.4869, + "step": 5770 + }, + { + "epoch": 15.413333333333334, + "grad_norm": 0.2099609375, + "learning_rate": 0.00029996327994370194, + "loss": 0.4904, + "step": 5780 + }, + { + "epoch": 15.44, + "grad_norm": 0.3203125, + "learning_rate": 0.00029996314070016987, + "loss": 0.4949, + "step": 5790 + }, + { + "epoch": 15.466666666666667, + "grad_norm": 0.39453125, + "learning_rate": 0.00029996300119316177, + "loss": 0.5034, + "step": 5800 + }, + { + "epoch": 15.493333333333334, + "grad_norm": 0.357421875, + "learning_rate": 0.00029996286142267795, + "loss": 0.4953, + "step": 5810 + }, + { + "epoch": 15.52, + "grad_norm": 0.33984375, + "learning_rate": 0.0002999627213887187, + "loss": 0.4899, + "step": 5820 + }, + { + "epoch": 15.546666666666667, + "grad_norm": 0.330078125, + "learning_rate": 0.00029996258109128417, + "loss": 0.4865, + "step": 5830 + }, + { + "epoch": 15.573333333333334, + "grad_norm": 0.2373046875, + "learning_rate": 0.0002999624405303747, + "loss": 0.4846, + "step": 5840 + }, + { + "epoch": 15.6, + "grad_norm": 0.2099609375, + "learning_rate": 0.00029996229970599047, + "loss": 0.4785, + "step": 5850 + }, + { + "epoch": 15.626666666666667, + "grad_norm": 0.33984375, + "learning_rate": 0.00029996215861813173, + "loss": 0.4644, + "step": 5860 + }, + { + "epoch": 15.653333333333332, + "grad_norm": 0.21875, + "learning_rate": 0.00029996201726679886, + "loss": 0.4848, + "step": 5870 + }, + { + "epoch": 15.68, + "grad_norm": 0.2734375, + "learning_rate": 0.0002999618756519919, + "loss": 0.4757, + "step": 5880 + }, + { + "epoch": 15.706666666666667, + "grad_norm": 0.255859375, + "learning_rate": 0.00029996173377371124, + "loss": 0.477, + "step": 5890 + }, + { + "epoch": 15.733333333333333, + "grad_norm": 0.376953125, + "learning_rate": 0.0002999615916319571, + "loss": 0.4964, + "step": 5900 + }, + { + "epoch": 15.76, + "grad_norm": 0.208984375, + "learning_rate": 0.0002999614492267297, + "loss": 0.4983, + "step": 5910 + }, + { + "epoch": 15.786666666666667, + "grad_norm": 0.18359375, + "learning_rate": 0.00029996130655802935, + "loss": 0.4963, + "step": 5920 + }, + { + "epoch": 15.813333333333333, + "grad_norm": 0.234375, + "learning_rate": 0.0002999611636258562, + "loss": 0.4803, + "step": 5930 + }, + { + "epoch": 15.84, + "grad_norm": 0.36328125, + "learning_rate": 0.0002999610204302106, + "loss": 0.4871, + "step": 5940 + }, + { + "epoch": 15.866666666666667, + "grad_norm": 0.275390625, + "learning_rate": 0.00029996087697109274, + "loss": 0.4864, + "step": 5950 + }, + { + "epoch": 15.893333333333333, + "grad_norm": 0.337890625, + "learning_rate": 0.0002999607332485029, + "loss": 0.477, + "step": 5960 + }, + { + "epoch": 15.92, + "grad_norm": 0.36328125, + "learning_rate": 0.00029996058926244135, + "loss": 0.4876, + "step": 5970 + }, + { + "epoch": 15.946666666666667, + "grad_norm": 0.22265625, + "learning_rate": 0.00029996044501290835, + "loss": 0.4804, + "step": 5980 + }, + { + "epoch": 15.973333333333333, + "grad_norm": 0.20703125, + "learning_rate": 0.0002999603004999041, + "loss": 0.4919, + "step": 5990 + }, + { + "epoch": 16.0, + "grad_norm": 0.271484375, + "learning_rate": 0.00029996015572342883, + "loss": 0.4805, + "step": 6000 + }, + { + "epoch": 16.0, + "eval_loss": 0.4939233958721161, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.1895, + "eval_samples_per_second": 1.57, + "eval_steps_per_second": 0.098, + "step": 6000 + }, + { + "epoch": 16.026666666666667, + "grad_norm": 0.421875, + "learning_rate": 0.0002999600106834829, + "loss": 0.5004, + "step": 6010 + }, + { + "epoch": 16.053333333333335, + "grad_norm": 0.26171875, + "learning_rate": 0.00029995986538006647, + "loss": 0.5067, + "step": 6020 + }, + { + "epoch": 16.08, + "grad_norm": 0.263671875, + "learning_rate": 0.00029995971981317985, + "loss": 0.493, + "step": 6030 + }, + { + "epoch": 16.106666666666666, + "grad_norm": 0.263671875, + "learning_rate": 0.0002999595739828232, + "loss": 0.4878, + "step": 6040 + }, + { + "epoch": 16.133333333333333, + "grad_norm": 0.251953125, + "learning_rate": 0.000299959427888997, + "loss": 0.4903, + "step": 6050 + }, + { + "epoch": 16.16, + "grad_norm": 0.365234375, + "learning_rate": 0.00029995928153170125, + "loss": 0.4938, + "step": 6060 + }, + { + "epoch": 16.186666666666667, + "grad_norm": 0.1962890625, + "learning_rate": 0.0002999591349109364, + "loss": 0.4863, + "step": 6070 + }, + { + "epoch": 16.213333333333335, + "grad_norm": 0.2421875, + "learning_rate": 0.00029995898802670257, + "loss": 0.482, + "step": 6080 + }, + { + "epoch": 16.24, + "grad_norm": 0.298828125, + "learning_rate": 0.0002999588408790001, + "loss": 0.4857, + "step": 6090 + }, + { + "epoch": 16.266666666666666, + "grad_norm": 0.1826171875, + "learning_rate": 0.0002999586934678292, + "loss": 0.4879, + "step": 6100 + }, + { + "epoch": 16.293333333333333, + "grad_norm": 0.22265625, + "learning_rate": 0.0002999585457931902, + "loss": 0.4824, + "step": 6110 + }, + { + "epoch": 16.32, + "grad_norm": 0.234375, + "learning_rate": 0.00029995839785508326, + "loss": 0.4872, + "step": 6120 + }, + { + "epoch": 16.346666666666668, + "grad_norm": 0.3203125, + "learning_rate": 0.0002999582496535087, + "loss": 0.4958, + "step": 6130 + }, + { + "epoch": 16.373333333333335, + "grad_norm": 0.251953125, + "learning_rate": 0.00029995810118846675, + "loss": 0.4914, + "step": 6140 + }, + { + "epoch": 16.4, + "grad_norm": 0.28125, + "learning_rate": 0.00029995795245995775, + "loss": 0.4861, + "step": 6150 + }, + { + "epoch": 16.426666666666666, + "grad_norm": 0.515625, + "learning_rate": 0.0002999578034679819, + "loss": 0.4931, + "step": 6160 + }, + { + "epoch": 16.453333333333333, + "grad_norm": 0.279296875, + "learning_rate": 0.00029995765421253945, + "loss": 0.496, + "step": 6170 + }, + { + "epoch": 16.48, + "grad_norm": 0.27734375, + "learning_rate": 0.00029995750469363064, + "loss": 0.5016, + "step": 6180 + }, + { + "epoch": 16.506666666666668, + "grad_norm": 0.1796875, + "learning_rate": 0.0002999573549112558, + "loss": 0.4907, + "step": 6190 + }, + { + "epoch": 16.533333333333335, + "grad_norm": 0.1806640625, + "learning_rate": 0.0002999572048654152, + "loss": 0.4849, + "step": 6200 + }, + { + "epoch": 16.56, + "grad_norm": 0.2294921875, + "learning_rate": 0.000299957054556109, + "loss": 0.4857, + "step": 6210 + }, + { + "epoch": 16.586666666666666, + "grad_norm": 0.1982421875, + "learning_rate": 0.00029995690398333755, + "loss": 0.4808, + "step": 6220 + }, + { + "epoch": 16.613333333333333, + "grad_norm": 0.169921875, + "learning_rate": 0.0002999567531471011, + "loss": 0.467, + "step": 6230 + }, + { + "epoch": 16.64, + "grad_norm": 0.1875, + "learning_rate": 0.00029995660204739993, + "loss": 0.4714, + "step": 6240 + }, + { + "epoch": 16.666666666666668, + "grad_norm": 0.1904296875, + "learning_rate": 0.0002999564506842343, + "loss": 0.4881, + "step": 6250 + }, + { + "epoch": 16.693333333333335, + "grad_norm": 0.25390625, + "learning_rate": 0.00029995629905760446, + "loss": 0.47, + "step": 6260 + }, + { + "epoch": 16.72, + "grad_norm": 0.181640625, + "learning_rate": 0.0002999561471675106, + "loss": 0.4876, + "step": 6270 + }, + { + "epoch": 16.746666666666666, + "grad_norm": 0.384765625, + "learning_rate": 0.00029995599501395315, + "loss": 0.4933, + "step": 6280 + }, + { + "epoch": 16.773333333333333, + "grad_norm": 0.30078125, + "learning_rate": 0.00029995584259693225, + "loss": 0.5008, + "step": 6290 + }, + { + "epoch": 16.8, + "grad_norm": 0.2021484375, + "learning_rate": 0.00029995568991644827, + "loss": 0.4866, + "step": 6300 + }, + { + "epoch": 16.826666666666668, + "grad_norm": 0.3203125, + "learning_rate": 0.0002999555369725013, + "loss": 0.4811, + "step": 6310 + }, + { + "epoch": 16.85333333333333, + "grad_norm": 0.2236328125, + "learning_rate": 0.00029995538376509183, + "loss": 0.4908, + "step": 6320 + }, + { + "epoch": 16.88, + "grad_norm": 0.2021484375, + "learning_rate": 0.00029995523029422, + "loss": 0.478, + "step": 6330 + }, + { + "epoch": 16.906666666666666, + "grad_norm": 0.287109375, + "learning_rate": 0.0002999550765598861, + "loss": 0.4809, + "step": 6340 + }, + { + "epoch": 16.933333333333334, + "grad_norm": 0.267578125, + "learning_rate": 0.0002999549225620904, + "loss": 0.4826, + "step": 6350 + }, + { + "epoch": 16.96, + "grad_norm": 0.34765625, + "learning_rate": 0.0002999547683008332, + "loss": 0.4808, + "step": 6360 + }, + { + "epoch": 16.986666666666668, + "grad_norm": 0.181640625, + "learning_rate": 0.00029995461377611474, + "loss": 0.495, + "step": 6370 + }, + { + "epoch": 17.0, + "eval_loss": 0.4929427206516266, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.0071, + "eval_samples_per_second": 1.599, + "eval_steps_per_second": 0.1, + "step": 6375 + }, + { + "epoch": 17.013333333333332, + "grad_norm": 0.212890625, + "learning_rate": 0.0002999544589879353, + "loss": 0.4829, + "step": 6380 + }, + { + "epoch": 17.04, + "grad_norm": 0.2158203125, + "learning_rate": 0.00029995430393629514, + "loss": 0.5072, + "step": 6390 + }, + { + "epoch": 17.066666666666666, + "grad_norm": 0.283203125, + "learning_rate": 0.00029995414862119457, + "loss": 0.495, + "step": 6400 + }, + { + "epoch": 17.093333333333334, + "grad_norm": 0.2158203125, + "learning_rate": 0.00029995399304263385, + "loss": 0.4899, + "step": 6410 + }, + { + "epoch": 17.12, + "grad_norm": 0.17578125, + "learning_rate": 0.0002999538372006132, + "loss": 0.4868, + "step": 6420 + }, + { + "epoch": 17.14666666666667, + "grad_norm": 0.28515625, + "learning_rate": 0.0002999536810951329, + "loss": 0.4959, + "step": 6430 + }, + { + "epoch": 17.173333333333332, + "grad_norm": 0.28515625, + "learning_rate": 0.0002999535247261933, + "loss": 0.4858, + "step": 6440 + }, + { + "epoch": 17.2, + "grad_norm": 0.265625, + "learning_rate": 0.00029995336809379464, + "loss": 0.4845, + "step": 6450 + }, + { + "epoch": 17.226666666666667, + "grad_norm": 0.2431640625, + "learning_rate": 0.0002999532111979372, + "loss": 0.482, + "step": 6460 + }, + { + "epoch": 17.253333333333334, + "grad_norm": 0.232421875, + "learning_rate": 0.0002999530540386212, + "loss": 0.4812, + "step": 6470 + }, + { + "epoch": 17.28, + "grad_norm": 0.298828125, + "learning_rate": 0.00029995289661584703, + "loss": 0.4944, + "step": 6480 + }, + { + "epoch": 17.306666666666665, + "grad_norm": 0.302734375, + "learning_rate": 0.00029995273892961485, + "loss": 0.4761, + "step": 6490 + }, + { + "epoch": 17.333333333333332, + "grad_norm": 0.369140625, + "learning_rate": 0.00029995258097992495, + "loss": 0.4915, + "step": 6500 + }, + { + "epoch": 17.36, + "grad_norm": 0.1826171875, + "learning_rate": 0.0002999524227667777, + "loss": 0.4946, + "step": 6510 + }, + { + "epoch": 17.386666666666667, + "grad_norm": 0.30078125, + "learning_rate": 0.00029995226429017333, + "loss": 0.4857, + "step": 6520 + }, + { + "epoch": 17.413333333333334, + "grad_norm": 0.2734375, + "learning_rate": 0.00029995210555011203, + "loss": 0.489, + "step": 6530 + }, + { + "epoch": 17.44, + "grad_norm": 0.265625, + "learning_rate": 0.0002999519465465942, + "loss": 0.4927, + "step": 6540 + }, + { + "epoch": 17.466666666666665, + "grad_norm": 0.265625, + "learning_rate": 0.0002999517872796201, + "loss": 0.5021, + "step": 6550 + }, + { + "epoch": 17.493333333333332, + "grad_norm": 0.28515625, + "learning_rate": 0.00029995162774918994, + "loss": 0.4933, + "step": 6560 + }, + { + "epoch": 17.52, + "grad_norm": 0.1806640625, + "learning_rate": 0.0002999514679553041, + "loss": 0.4871, + "step": 6570 + }, + { + "epoch": 17.546666666666667, + "grad_norm": 0.2265625, + "learning_rate": 0.0002999513078979628, + "loss": 0.4846, + "step": 6580 + }, + { + "epoch": 17.573333333333334, + "grad_norm": 0.1796875, + "learning_rate": 0.00029995114757716627, + "loss": 0.4837, + "step": 6590 + }, + { + "epoch": 17.6, + "grad_norm": 0.181640625, + "learning_rate": 0.00029995098699291486, + "loss": 0.4777, + "step": 6600 + }, + { + "epoch": 17.626666666666665, + "grad_norm": 0.2373046875, + "learning_rate": 0.0002999508261452089, + "loss": 0.4628, + "step": 6610 + }, + { + "epoch": 17.653333333333332, + "grad_norm": 0.30859375, + "learning_rate": 0.00029995066503404855, + "loss": 0.4827, + "step": 6620 + }, + { + "epoch": 17.68, + "grad_norm": 0.1669921875, + "learning_rate": 0.0002999505036594342, + "loss": 0.4752, + "step": 6630 + }, + { + "epoch": 17.706666666666667, + "grad_norm": 0.28515625, + "learning_rate": 0.0002999503420213661, + "loss": 0.4753, + "step": 6640 + }, + { + "epoch": 17.733333333333334, + "grad_norm": 0.34375, + "learning_rate": 0.0002999501801198445, + "loss": 0.4949, + "step": 6650 + }, + { + "epoch": 17.76, + "grad_norm": 0.28515625, + "learning_rate": 0.0002999500179548697, + "loss": 0.4968, + "step": 6660 + }, + { + "epoch": 17.786666666666665, + "grad_norm": 0.419921875, + "learning_rate": 0.000299949855526442, + "loss": 0.4946, + "step": 6670 + }, + { + "epoch": 17.813333333333333, + "grad_norm": 0.42578125, + "learning_rate": 0.0002999496928345617, + "loss": 0.4783, + "step": 6680 + }, + { + "epoch": 17.84, + "grad_norm": 0.435546875, + "learning_rate": 0.000299949529879229, + "loss": 0.4851, + "step": 6690 + }, + { + "epoch": 17.866666666666667, + "grad_norm": 0.404296875, + "learning_rate": 0.0002999493666604443, + "loss": 0.4849, + "step": 6700 + }, + { + "epoch": 17.893333333333334, + "grad_norm": 0.20703125, + "learning_rate": 0.00029994920317820786, + "loss": 0.4752, + "step": 6710 + }, + { + "epoch": 17.92, + "grad_norm": 0.3515625, + "learning_rate": 0.0002999490394325199, + "loss": 0.4861, + "step": 6720 + }, + { + "epoch": 17.946666666666665, + "grad_norm": 0.40234375, + "learning_rate": 0.00029994887542338084, + "loss": 0.4786, + "step": 6730 + }, + { + "epoch": 17.973333333333333, + "grad_norm": 0.392578125, + "learning_rate": 0.0002999487111507908, + "loss": 0.4904, + "step": 6740 + }, + { + "epoch": 18.0, + "grad_norm": 0.2392578125, + "learning_rate": 0.0002999485466147502, + "loss": 0.4793, + "step": 6750 + }, + { + "epoch": 18.0, + "eval_loss": 0.49115684628486633, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.9214, + "eval_samples_per_second": 1.613, + "eval_steps_per_second": 0.101, + "step": 6750 + }, + { + "epoch": 18.026666666666667, + "grad_norm": 0.224609375, + "learning_rate": 0.00029994838181525923, + "loss": 0.4974, + "step": 6760 + }, + { + "epoch": 18.053333333333335, + "grad_norm": 0.216796875, + "learning_rate": 0.0002999482167523182, + "loss": 0.5044, + "step": 6770 + }, + { + "epoch": 18.08, + "grad_norm": 0.21875, + "learning_rate": 0.0002999480514259275, + "loss": 0.4917, + "step": 6780 + }, + { + "epoch": 18.106666666666666, + "grad_norm": 0.296875, + "learning_rate": 0.0002999478858360873, + "loss": 0.4856, + "step": 6790 + }, + { + "epoch": 18.133333333333333, + "grad_norm": 0.26953125, + "learning_rate": 0.000299947719982798, + "loss": 0.4884, + "step": 6800 + }, + { + "epoch": 18.16, + "grad_norm": 0.35546875, + "learning_rate": 0.0002999475538660598, + "loss": 0.493, + "step": 6810 + }, + { + "epoch": 18.186666666666667, + "grad_norm": 0.2451171875, + "learning_rate": 0.00029994738748587304, + "loss": 0.4845, + "step": 6820 + }, + { + "epoch": 18.213333333333335, + "grad_norm": 0.32421875, + "learning_rate": 0.00029994722084223795, + "loss": 0.4797, + "step": 6830 + }, + { + "epoch": 18.24, + "grad_norm": 0.310546875, + "learning_rate": 0.0002999470539351549, + "loss": 0.4836, + "step": 6840 + }, + { + "epoch": 18.266666666666666, + "grad_norm": 0.296875, + "learning_rate": 0.0002999468867646241, + "loss": 0.4869, + "step": 6850 + }, + { + "epoch": 18.293333333333333, + "grad_norm": 0.228515625, + "learning_rate": 0.000299946719330646, + "loss": 0.4809, + "step": 6860 + }, + { + "epoch": 18.32, + "grad_norm": 0.283203125, + "learning_rate": 0.0002999465516332207, + "loss": 0.485, + "step": 6870 + }, + { + "epoch": 18.346666666666668, + "grad_norm": 0.23828125, + "learning_rate": 0.00029994638367234866, + "loss": 0.4931, + "step": 6880 + }, + { + "epoch": 18.373333333333335, + "grad_norm": 0.29296875, + "learning_rate": 0.00029994621544803, + "loss": 0.4901, + "step": 6890 + }, + { + "epoch": 18.4, + "grad_norm": 0.275390625, + "learning_rate": 0.0002999460469602652, + "loss": 0.4846, + "step": 6900 + }, + { + "epoch": 18.426666666666666, + "grad_norm": 0.220703125, + "learning_rate": 0.00029994587820905444, + "loss": 0.4916, + "step": 6910 + }, + { + "epoch": 18.453333333333333, + "grad_norm": 0.30078125, + "learning_rate": 0.00029994570919439806, + "loss": 0.4941, + "step": 6920 + }, + { + "epoch": 18.48, + "grad_norm": 0.1953125, + "learning_rate": 0.0002999455399162963, + "loss": 0.4998, + "step": 6930 + }, + { + "epoch": 18.506666666666668, + "grad_norm": 0.28125, + "learning_rate": 0.00029994537037474956, + "loss": 0.4897, + "step": 6940 + }, + { + "epoch": 18.533333333333335, + "grad_norm": 0.27734375, + "learning_rate": 0.0002999452005697581, + "loss": 0.4836, + "step": 6950 + }, + { + "epoch": 18.56, + "grad_norm": 0.30859375, + "learning_rate": 0.00029994503050132215, + "loss": 0.4835, + "step": 6960 + }, + { + "epoch": 18.586666666666666, + "grad_norm": 0.2275390625, + "learning_rate": 0.00029994486016944204, + "loss": 0.48, + "step": 6970 + }, + { + "epoch": 18.613333333333333, + "grad_norm": 0.25, + "learning_rate": 0.0002999446895741181, + "loss": 0.4654, + "step": 6980 + }, + { + "epoch": 18.64, + "grad_norm": 0.267578125, + "learning_rate": 0.00029994451871535063, + "loss": 0.4698, + "step": 6990 + }, + { + "epoch": 18.666666666666668, + "grad_norm": 0.19140625, + "learning_rate": 0.00029994434759313994, + "loss": 0.4857, + "step": 7000 + }, + { + "epoch": 18.693333333333335, + "grad_norm": 0.14453125, + "learning_rate": 0.0002999441762074863, + "loss": 0.4688, + "step": 7010 + }, + { + "epoch": 18.72, + "grad_norm": 0.251953125, + "learning_rate": 0.0002999440045583899, + "loss": 0.4867, + "step": 7020 + }, + { + "epoch": 18.746666666666666, + "grad_norm": 0.1875, + "learning_rate": 0.00029994383264585135, + "loss": 0.4909, + "step": 7030 + }, + { + "epoch": 18.773333333333333, + "grad_norm": 0.26953125, + "learning_rate": 0.00029994366046987063, + "loss": 0.4979, + "step": 7040 + }, + { + "epoch": 18.8, + "grad_norm": 0.189453125, + "learning_rate": 0.0002999434880304482, + "loss": 0.4848, + "step": 7050 + }, + { + "epoch": 18.826666666666668, + "grad_norm": 0.26171875, + "learning_rate": 0.00029994331532758435, + "loss": 0.4798, + "step": 7060 + }, + { + "epoch": 18.85333333333333, + "grad_norm": 0.283203125, + "learning_rate": 0.00029994314236127934, + "loss": 0.4898, + "step": 7070 + }, + { + "epoch": 18.88, + "grad_norm": 0.28125, + "learning_rate": 0.0002999429691315335, + "loss": 0.4763, + "step": 7080 + }, + { + "epoch": 18.906666666666666, + "grad_norm": 0.330078125, + "learning_rate": 0.00029994279563834723, + "loss": 0.4788, + "step": 7090 + }, + { + "epoch": 18.933333333333334, + "grad_norm": 0.283203125, + "learning_rate": 0.0002999426218817207, + "loss": 0.4809, + "step": 7100 + }, + { + "epoch": 18.96, + "grad_norm": 0.2392578125, + "learning_rate": 0.0002999424478616542, + "loss": 0.4789, + "step": 7110 + }, + { + "epoch": 18.986666666666668, + "grad_norm": 0.328125, + "learning_rate": 0.0002999422735781482, + "loss": 0.4933, + "step": 7120 + }, + { + "epoch": 19.0, + "eval_loss": 0.491379976272583, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.9578, + "eval_samples_per_second": 1.607, + "eval_steps_per_second": 0.1, + "step": 7125 + }, + { + "epoch": 19.013333333333332, + "grad_norm": 0.19140625, + "learning_rate": 0.0002999420990312028, + "loss": 0.4821, + "step": 7130 + }, + { + "epoch": 19.04, + "grad_norm": 0.18359375, + "learning_rate": 0.00029994192422081844, + "loss": 0.506, + "step": 7140 + }, + { + "epoch": 19.066666666666666, + "grad_norm": 0.275390625, + "learning_rate": 0.0002999417491469954, + "loss": 0.4937, + "step": 7150 + }, + { + "epoch": 19.093333333333334, + "grad_norm": 0.1953125, + "learning_rate": 0.00029994157380973396, + "loss": 0.4883, + "step": 7160 + }, + { + "epoch": 19.12, + "grad_norm": 0.255859375, + "learning_rate": 0.00029994139820903445, + "loss": 0.4846, + "step": 7170 + }, + { + "epoch": 19.14666666666667, + "grad_norm": 0.234375, + "learning_rate": 0.00029994122234489723, + "loss": 0.4944, + "step": 7180 + }, + { + "epoch": 19.173333333333332, + "grad_norm": 0.388671875, + "learning_rate": 0.0002999410462173225, + "loss": 0.4843, + "step": 7190 + }, + { + "epoch": 19.2, + "grad_norm": 0.349609375, + "learning_rate": 0.0002999408698263107, + "loss": 0.4829, + "step": 7200 + }, + { + "epoch": 19.226666666666667, + "grad_norm": 0.244140625, + "learning_rate": 0.000299940693171862, + "loss": 0.4801, + "step": 7210 + }, + { + "epoch": 19.253333333333334, + "grad_norm": 0.330078125, + "learning_rate": 0.0002999405162539768, + "loss": 0.4794, + "step": 7220 + }, + { + "epoch": 19.28, + "grad_norm": 0.21875, + "learning_rate": 0.0002999403390726554, + "loss": 0.493, + "step": 7230 + }, + { + "epoch": 19.306666666666665, + "grad_norm": 0.2197265625, + "learning_rate": 0.00029994016162789803, + "loss": 0.4751, + "step": 7240 + }, + { + "epoch": 19.333333333333332, + "grad_norm": 0.400390625, + "learning_rate": 0.00029993998391970514, + "loss": 0.4898, + "step": 7250 + }, + { + "epoch": 19.36, + "grad_norm": 0.224609375, + "learning_rate": 0.000299939805948077, + "loss": 0.4928, + "step": 7260 + }, + { + "epoch": 19.386666666666667, + "grad_norm": 0.29296875, + "learning_rate": 0.0002999396277130138, + "loss": 0.4836, + "step": 7270 + }, + { + "epoch": 19.413333333333334, + "grad_norm": 0.333984375, + "learning_rate": 0.00029993944921451605, + "loss": 0.4873, + "step": 7280 + }, + { + "epoch": 19.44, + "grad_norm": 0.2216796875, + "learning_rate": 0.00029993927045258393, + "loss": 0.4913, + "step": 7290 + }, + { + "epoch": 19.466666666666665, + "grad_norm": 0.3203125, + "learning_rate": 0.0002999390914272178, + "loss": 0.5015, + "step": 7300 + }, + { + "epoch": 19.493333333333332, + "grad_norm": 0.30859375, + "learning_rate": 0.0002999389121384179, + "loss": 0.4915, + "step": 7310 + }, + { + "epoch": 19.52, + "grad_norm": 0.25, + "learning_rate": 0.0002999387325861846, + "loss": 0.4858, + "step": 7320 + }, + { + "epoch": 19.546666666666667, + "grad_norm": 0.265625, + "learning_rate": 0.0002999385527705183, + "loss": 0.4827, + "step": 7330 + }, + { + "epoch": 19.573333333333334, + "grad_norm": 0.1923828125, + "learning_rate": 0.0002999383726914192, + "loss": 0.4814, + "step": 7340 + }, + { + "epoch": 19.6, + "grad_norm": 0.2353515625, + "learning_rate": 0.00029993819234888766, + "loss": 0.4755, + "step": 7350 + }, + { + "epoch": 19.626666666666665, + "grad_norm": 0.26171875, + "learning_rate": 0.000299938011742924, + "loss": 0.4616, + "step": 7360 + }, + { + "epoch": 19.653333333333332, + "grad_norm": 0.1884765625, + "learning_rate": 0.00029993783087352847, + "loss": 0.4811, + "step": 7370 + }, + { + "epoch": 19.68, + "grad_norm": 0.1591796875, + "learning_rate": 0.0002999376497407015, + "loss": 0.4728, + "step": 7380 + }, + { + "epoch": 19.706666666666667, + "grad_norm": 0.255859375, + "learning_rate": 0.00029993746834444337, + "loss": 0.4731, + "step": 7390 + }, + { + "epoch": 19.733333333333334, + "grad_norm": 0.31640625, + "learning_rate": 0.00029993728668475434, + "loss": 0.4937, + "step": 7400 + }, + { + "epoch": 19.76, + "grad_norm": 0.42578125, + "learning_rate": 0.0002999371047616348, + "loss": 0.495, + "step": 7410 + }, + { + "epoch": 19.786666666666665, + "grad_norm": 0.314453125, + "learning_rate": 0.000299936922575085, + "loss": 0.4934, + "step": 7420 + }, + { + "epoch": 19.813333333333333, + "grad_norm": 0.267578125, + "learning_rate": 0.00029993674012510535, + "loss": 0.4772, + "step": 7430 + }, + { + "epoch": 19.84, + "grad_norm": 0.34765625, + "learning_rate": 0.0002999365574116961, + "loss": 0.4843, + "step": 7440 + }, + { + "epoch": 19.866666666666667, + "grad_norm": 0.279296875, + "learning_rate": 0.00029993637443485763, + "loss": 0.4831, + "step": 7450 + }, + { + "epoch": 19.893333333333334, + "grad_norm": 0.2470703125, + "learning_rate": 0.00029993619119459016, + "loss": 0.4739, + "step": 7460 + }, + { + "epoch": 19.92, + "grad_norm": 0.3359375, + "learning_rate": 0.00029993600769089414, + "loss": 0.4844, + "step": 7470 + }, + { + "epoch": 19.946666666666665, + "grad_norm": 0.26953125, + "learning_rate": 0.00029993582392376985, + "loss": 0.4779, + "step": 7480 + }, + { + "epoch": 19.973333333333333, + "grad_norm": 0.45703125, + "learning_rate": 0.0002999356398932175, + "loss": 0.4884, + "step": 7490 + }, + { + "epoch": 20.0, + "grad_norm": 0.2392578125, + "learning_rate": 0.00029993545559923757, + "loss": 0.4784, + "step": 7500 + }, + { + "epoch": 20.0, + "eval_loss": 0.4901997447013855, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.2864, + "eval_samples_per_second": 1.555, + "eval_steps_per_second": 0.097, + "step": 7500 + }, + { + "epoch": 20.026666666666667, + "grad_norm": 0.236328125, + "learning_rate": 0.00029993527104183024, + "loss": 0.4961, + "step": 7510 + }, + { + "epoch": 20.053333333333335, + "grad_norm": 0.2431640625, + "learning_rate": 0.00029993508622099603, + "loss": 0.5029, + "step": 7520 + }, + { + "epoch": 20.08, + "grad_norm": 0.24609375, + "learning_rate": 0.0002999349011367351, + "loss": 0.4897, + "step": 7530 + }, + { + "epoch": 20.106666666666666, + "grad_norm": 0.2451171875, + "learning_rate": 0.0002999347157890478, + "loss": 0.4848, + "step": 7540 + }, + { + "epoch": 20.133333333333333, + "grad_norm": 0.251953125, + "learning_rate": 0.0002999345301779345, + "loss": 0.4869, + "step": 7550 + }, + { + "epoch": 20.16, + "grad_norm": 0.361328125, + "learning_rate": 0.0002999343443033955, + "loss": 0.4904, + "step": 7560 + }, + { + "epoch": 20.186666666666667, + "grad_norm": 0.357421875, + "learning_rate": 0.0002999341581654311, + "loss": 0.483, + "step": 7570 + }, + { + "epoch": 20.213333333333335, + "grad_norm": 0.205078125, + "learning_rate": 0.0002999339717640417, + "loss": 0.4778, + "step": 7580 + }, + { + "epoch": 20.24, + "grad_norm": 0.265625, + "learning_rate": 0.00029993378509922755, + "loss": 0.4822, + "step": 7590 + }, + { + "epoch": 20.266666666666666, + "grad_norm": 0.283203125, + "learning_rate": 0.0002999335981709891, + "loss": 0.4857, + "step": 7600 + }, + { + "epoch": 20.293333333333333, + "grad_norm": 0.314453125, + "learning_rate": 0.00029993341097932653, + "loss": 0.4799, + "step": 7610 + }, + { + "epoch": 20.32, + "grad_norm": 0.287109375, + "learning_rate": 0.00029993322352424024, + "loss": 0.4829, + "step": 7620 + }, + { + "epoch": 20.346666666666668, + "grad_norm": 0.208984375, + "learning_rate": 0.0002999330358057305, + "loss": 0.4917, + "step": 7630 + }, + { + "epoch": 20.373333333333335, + "grad_norm": 0.275390625, + "learning_rate": 0.00029993284782379775, + "loss": 0.4881, + "step": 7640 + }, + { + "epoch": 20.4, + "grad_norm": 0.2216796875, + "learning_rate": 0.00029993265957844225, + "loss": 0.4839, + "step": 7650 + }, + { + "epoch": 20.426666666666666, + "grad_norm": 0.208984375, + "learning_rate": 0.00029993247106966433, + "loss": 0.4897, + "step": 7660 + }, + { + "epoch": 20.453333333333333, + "grad_norm": 0.2294921875, + "learning_rate": 0.00029993228229746436, + "loss": 0.493, + "step": 7670 + }, + { + "epoch": 20.48, + "grad_norm": 0.1982421875, + "learning_rate": 0.0002999320932618426, + "loss": 0.4993, + "step": 7680 + }, + { + "epoch": 20.506666666666668, + "grad_norm": 0.287109375, + "learning_rate": 0.00029993190396279944, + "loss": 0.4879, + "step": 7690 + }, + { + "epoch": 20.533333333333335, + "grad_norm": 0.1953125, + "learning_rate": 0.0002999317144003353, + "loss": 0.4815, + "step": 7700 + }, + { + "epoch": 20.56, + "grad_norm": 0.20703125, + "learning_rate": 0.00029993152457445026, + "loss": 0.4829, + "step": 7710 + }, + { + "epoch": 20.586666666666666, + "grad_norm": 0.283203125, + "learning_rate": 0.0002999313344851449, + "loss": 0.4788, + "step": 7720 + }, + { + "epoch": 20.613333333333333, + "grad_norm": 0.2265625, + "learning_rate": 0.0002999311441324194, + "loss": 0.4645, + "step": 7730 + }, + { + "epoch": 20.64, + "grad_norm": 0.302734375, + "learning_rate": 0.0002999309535162742, + "loss": 0.4677, + "step": 7740 + }, + { + "epoch": 20.666666666666668, + "grad_norm": 0.22265625, + "learning_rate": 0.00029993076263670954, + "loss": 0.4856, + "step": 7750 + }, + { + "epoch": 20.693333333333335, + "grad_norm": 0.296875, + "learning_rate": 0.0002999305714937259, + "loss": 0.4681, + "step": 7760 + }, + { + "epoch": 20.72, + "grad_norm": 0.294921875, + "learning_rate": 0.00029993038008732344, + "loss": 0.4846, + "step": 7770 + }, + { + "epoch": 20.746666666666666, + "grad_norm": 0.279296875, + "learning_rate": 0.0002999301884175026, + "loss": 0.4896, + "step": 7780 + }, + { + "epoch": 20.773333333333333, + "grad_norm": 0.267578125, + "learning_rate": 0.0002999299964842637, + "loss": 0.4977, + "step": 7790 + }, + { + "epoch": 20.8, + "grad_norm": 0.255859375, + "learning_rate": 0.00029992980428760705, + "loss": 0.4839, + "step": 7800 + }, + { + "epoch": 20.826666666666668, + "grad_norm": 0.275390625, + "learning_rate": 0.000299929611827533, + "loss": 0.4784, + "step": 7810 + }, + { + "epoch": 20.85333333333333, + "grad_norm": 0.322265625, + "learning_rate": 0.00029992941910404194, + "loss": 0.4881, + "step": 7820 + }, + { + "epoch": 20.88, + "grad_norm": 0.234375, + "learning_rate": 0.0002999292261171341, + "loss": 0.4759, + "step": 7830 + }, + { + "epoch": 20.906666666666666, + "grad_norm": 0.1650390625, + "learning_rate": 0.00029992903286680996, + "loss": 0.4779, + "step": 7840 + }, + { + "epoch": 20.933333333333334, + "grad_norm": 0.265625, + "learning_rate": 0.0002999288393530698, + "loss": 0.4793, + "step": 7850 + }, + { + "epoch": 20.96, + "grad_norm": 0.30078125, + "learning_rate": 0.0002999286455759139, + "loss": 0.4772, + "step": 7860 + }, + { + "epoch": 20.986666666666668, + "grad_norm": 0.294921875, + "learning_rate": 0.00029992845153534257, + "loss": 0.4912, + "step": 7870 + }, + { + "epoch": 21.0, + "eval_loss": 0.4904196858406067, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.3912, + "eval_samples_per_second": 1.54, + "eval_steps_per_second": 0.096, + "step": 7875 + }, + { + "epoch": 21.013333333333332, + "grad_norm": 0.2578125, + "learning_rate": 0.0002999282572313563, + "loss": 0.4806, + "step": 7880 + }, + { + "epoch": 21.04, + "grad_norm": 0.23046875, + "learning_rate": 0.0002999280626639554, + "loss": 0.5045, + "step": 7890 + }, + { + "epoch": 21.066666666666666, + "grad_norm": 0.3359375, + "learning_rate": 0.00029992786783314006, + "loss": 0.4914, + "step": 7900 + }, + { + "epoch": 21.093333333333334, + "grad_norm": 0.28515625, + "learning_rate": 0.0002999276727389108, + "loss": 0.4867, + "step": 7910 + }, + { + "epoch": 21.12, + "grad_norm": 0.2353515625, + "learning_rate": 0.0002999274773812679, + "loss": 0.4835, + "step": 7920 + }, + { + "epoch": 21.14666666666667, + "grad_norm": 0.2734375, + "learning_rate": 0.00029992728176021164, + "loss": 0.4923, + "step": 7930 + }, + { + "epoch": 21.173333333333332, + "grad_norm": 0.306640625, + "learning_rate": 0.00029992708587574246, + "loss": 0.4825, + "step": 7940 + }, + { + "epoch": 21.2, + "grad_norm": 0.291015625, + "learning_rate": 0.00029992688972786067, + "loss": 0.481, + "step": 7950 + }, + { + "epoch": 21.226666666666667, + "grad_norm": 0.302734375, + "learning_rate": 0.0002999266933165666, + "loss": 0.4785, + "step": 7960 + }, + { + "epoch": 21.253333333333334, + "grad_norm": 0.271484375, + "learning_rate": 0.0002999264966418606, + "loss": 0.4783, + "step": 7970 + }, + { + "epoch": 21.28, + "grad_norm": 0.25390625, + "learning_rate": 0.00029992629970374305, + "loss": 0.4913, + "step": 7980 + }, + { + "epoch": 21.306666666666665, + "grad_norm": 0.275390625, + "learning_rate": 0.00029992610250221424, + "loss": 0.4732, + "step": 7990 + }, + { + "epoch": 21.333333333333332, + "grad_norm": 0.2158203125, + "learning_rate": 0.00029992590503727455, + "loss": 0.4896, + "step": 8000 + }, + { + "epoch": 21.36, + "grad_norm": 0.2255859375, + "learning_rate": 0.0002999257073089243, + "loss": 0.4911, + "step": 8010 + }, + { + "epoch": 21.386666666666667, + "grad_norm": 0.392578125, + "learning_rate": 0.00029992550931716384, + "loss": 0.4825, + "step": 8020 + }, + { + "epoch": 21.413333333333334, + "grad_norm": 0.40625, + "learning_rate": 0.0002999253110619936, + "loss": 0.4866, + "step": 8030 + }, + { + "epoch": 21.44, + "grad_norm": 0.6953125, + "learning_rate": 0.0002999251125434138, + "loss": 0.4895, + "step": 8040 + }, + { + "epoch": 21.466666666666665, + "grad_norm": 0.796875, + "learning_rate": 0.0002999249137614249, + "loss": 0.4996, + "step": 8050 + }, + { + "epoch": 21.493333333333332, + "grad_norm": 0.59375, + "learning_rate": 0.00029992471471602716, + "loss": 0.4904, + "step": 8060 + }, + { + "epoch": 21.52, + "grad_norm": 0.3046875, + "learning_rate": 0.000299924515407221, + "loss": 0.4855, + "step": 8070 + }, + { + "epoch": 21.546666666666667, + "grad_norm": 0.2578125, + "learning_rate": 0.00029992431583500677, + "loss": 0.4822, + "step": 8080 + }, + { + "epoch": 21.573333333333334, + "grad_norm": 0.2314453125, + "learning_rate": 0.0002999241159993847, + "loss": 0.4808, + "step": 8090 + }, + { + "epoch": 21.6, + "grad_norm": 0.1865234375, + "learning_rate": 0.0002999239159003553, + "loss": 0.4746, + "step": 8100 + }, + { + "epoch": 21.626666666666665, + "grad_norm": 0.330078125, + "learning_rate": 0.00029992371553791885, + "loss": 0.4611, + "step": 8110 + }, + { + "epoch": 21.653333333333332, + "grad_norm": 0.34375, + "learning_rate": 0.00029992351491207566, + "loss": 0.4807, + "step": 8120 + }, + { + "epoch": 21.68, + "grad_norm": 0.201171875, + "learning_rate": 0.0002999233140228262, + "loss": 0.4716, + "step": 8130 + }, + { + "epoch": 21.706666666666667, + "grad_norm": 0.302734375, + "learning_rate": 0.0002999231128701707, + "loss": 0.4721, + "step": 8140 + }, + { + "epoch": 21.733333333333334, + "grad_norm": 0.322265625, + "learning_rate": 0.0002999229114541096, + "loss": 0.4922, + "step": 8150 + }, + { + "epoch": 21.76, + "grad_norm": 0.32421875, + "learning_rate": 0.0002999227097746432, + "loss": 0.4929, + "step": 8160 + }, + { + "epoch": 21.786666666666665, + "grad_norm": 0.28125, + "learning_rate": 0.00029992250783177185, + "loss": 0.4918, + "step": 8170 + }, + { + "epoch": 21.813333333333333, + "grad_norm": 0.24609375, + "learning_rate": 0.00029992230562549593, + "loss": 0.4768, + "step": 8180 + }, + { + "epoch": 21.84, + "grad_norm": 0.294921875, + "learning_rate": 0.0002999221031558158, + "loss": 0.4829, + "step": 8190 + }, + { + "epoch": 21.866666666666667, + "grad_norm": 0.2099609375, + "learning_rate": 0.00029992190042273185, + "loss": 0.4828, + "step": 8200 + }, + { + "epoch": 21.893333333333334, + "grad_norm": 0.357421875, + "learning_rate": 0.00029992169742624434, + "loss": 0.4728, + "step": 8210 + }, + { + "epoch": 21.92, + "grad_norm": 0.3046875, + "learning_rate": 0.0002999214941663537, + "loss": 0.4837, + "step": 8220 + }, + { + "epoch": 21.946666666666665, + "grad_norm": 0.35546875, + "learning_rate": 0.00029992129064306027, + "loss": 0.4761, + "step": 8230 + }, + { + "epoch": 21.973333333333333, + "grad_norm": 0.263671875, + "learning_rate": 0.0002999210868563644, + "loss": 0.4872, + "step": 8240 + }, + { + "epoch": 22.0, + "grad_norm": 0.1962890625, + "learning_rate": 0.00029992088280626647, + "loss": 0.4761, + "step": 8250 + }, + { + "epoch": 22.0, + "eval_loss": 0.48901429772377014, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 11.4555, + "eval_samples_per_second": 1.397, + "eval_steps_per_second": 0.087, + "step": 8250 + }, + { + "epoch": 22.026666666666667, + "grad_norm": 0.251953125, + "learning_rate": 0.0002999206784927668, + "loss": 0.4955, + "step": 8260 + }, + { + "epoch": 22.053333333333335, + "grad_norm": 0.2470703125, + "learning_rate": 0.0002999204739158658, + "loss": 0.5019, + "step": 8270 + }, + { + "epoch": 22.08, + "grad_norm": 0.25, + "learning_rate": 0.0002999202690755638, + "loss": 0.4882, + "step": 8280 + }, + { + "epoch": 22.106666666666666, + "grad_norm": 0.220703125, + "learning_rate": 0.00029992006397186114, + "loss": 0.483, + "step": 8290 + }, + { + "epoch": 22.133333333333333, + "grad_norm": 0.216796875, + "learning_rate": 0.00029991985860475825, + "loss": 0.4861, + "step": 8300 + }, + { + "epoch": 22.16, + "grad_norm": 0.349609375, + "learning_rate": 0.0002999196529742554, + "loss": 0.49, + "step": 8310 + }, + { + "epoch": 22.186666666666667, + "grad_norm": 0.2138671875, + "learning_rate": 0.000299919447080353, + "loss": 0.4817, + "step": 8320 + }, + { + "epoch": 22.213333333333335, + "grad_norm": 0.27734375, + "learning_rate": 0.0002999192409230514, + "loss": 0.4765, + "step": 8330 + }, + { + "epoch": 22.24, + "grad_norm": 0.265625, + "learning_rate": 0.00029991903450235095, + "loss": 0.4801, + "step": 8340 + }, + { + "epoch": 22.266666666666666, + "grad_norm": 0.267578125, + "learning_rate": 0.00029991882781825203, + "loss": 0.4845, + "step": 8350 + }, + { + "epoch": 22.293333333333333, + "grad_norm": 0.1962890625, + "learning_rate": 0.000299918620870755, + "loss": 0.4779, + "step": 8360 + }, + { + "epoch": 22.32, + "grad_norm": 0.271484375, + "learning_rate": 0.0002999184136598603, + "loss": 0.4822, + "step": 8370 + }, + { + "epoch": 22.346666666666668, + "grad_norm": 0.259765625, + "learning_rate": 0.00029991820618556817, + "loss": 0.4911, + "step": 8380 + }, + { + "epoch": 22.373333333333335, + "grad_norm": 0.2490234375, + "learning_rate": 0.0002999179984478791, + "loss": 0.4883, + "step": 8390 + }, + { + "epoch": 22.4, + "grad_norm": 0.15625, + "learning_rate": 0.0002999177904467933, + "loss": 0.4824, + "step": 8400 + }, + { + "epoch": 22.426666666666666, + "grad_norm": 0.2275390625, + "learning_rate": 0.00029991758218231117, + "loss": 0.4892, + "step": 8410 + }, + { + "epoch": 22.453333333333333, + "grad_norm": 0.203125, + "learning_rate": 0.0002999173736544332, + "loss": 0.491, + "step": 8420 + }, + { + "epoch": 22.48, + "grad_norm": 0.2275390625, + "learning_rate": 0.00029991716486315966, + "loss": 0.4978, + "step": 8430 + }, + { + "epoch": 22.506666666666668, + "grad_norm": 0.29296875, + "learning_rate": 0.0002999169558084909, + "loss": 0.487, + "step": 8440 + }, + { + "epoch": 22.533333333333335, + "grad_norm": 0.232421875, + "learning_rate": 0.00029991674649042737, + "loss": 0.4803, + "step": 8450 + }, + { + "epoch": 22.56, + "grad_norm": 0.2138671875, + "learning_rate": 0.0002999165369089694, + "loss": 0.4812, + "step": 8460 + }, + { + "epoch": 22.586666666666666, + "grad_norm": 0.408203125, + "learning_rate": 0.0002999163270641173, + "loss": 0.4774, + "step": 8470 + }, + { + "epoch": 22.613333333333333, + "grad_norm": 0.201171875, + "learning_rate": 0.0002999161169558715, + "loss": 0.4635, + "step": 8480 + }, + { + "epoch": 22.64, + "grad_norm": 0.30859375, + "learning_rate": 0.00029991590658423237, + "loss": 0.4673, + "step": 8490 + }, + { + "epoch": 22.666666666666668, + "grad_norm": 0.208984375, + "learning_rate": 0.0002999156959492003, + "loss": 0.4844, + "step": 8500 + }, + { + "epoch": 22.693333333333335, + "grad_norm": 0.259765625, + "learning_rate": 0.0002999154850507756, + "loss": 0.4666, + "step": 8510 + }, + { + "epoch": 22.72, + "grad_norm": 0.25390625, + "learning_rate": 0.0002999152738889586, + "loss": 0.4839, + "step": 8520 + }, + { + "epoch": 22.746666666666666, + "grad_norm": 0.1875, + "learning_rate": 0.00029991506246374977, + "loss": 0.4882, + "step": 8530 + }, + { + "epoch": 22.773333333333333, + "grad_norm": 0.2392578125, + "learning_rate": 0.00029991485077514947, + "loss": 0.4964, + "step": 8540 + }, + { + "epoch": 22.8, + "grad_norm": 0.28125, + "learning_rate": 0.00029991463882315803, + "loss": 0.4831, + "step": 8550 + }, + { + "epoch": 22.826666666666668, + "grad_norm": 0.21484375, + "learning_rate": 0.00029991442660777594, + "loss": 0.4767, + "step": 8560 + }, + { + "epoch": 22.85333333333333, + "grad_norm": 0.265625, + "learning_rate": 0.00029991421412900335, + "loss": 0.487, + "step": 8570 + }, + { + "epoch": 22.88, + "grad_norm": 0.361328125, + "learning_rate": 0.0002999140013868408, + "loss": 0.4743, + "step": 8580 + }, + { + "epoch": 22.906666666666666, + "grad_norm": 0.400390625, + "learning_rate": 0.00029991378838128865, + "loss": 0.4764, + "step": 8590 + }, + { + "epoch": 22.933333333333334, + "grad_norm": 0.251953125, + "learning_rate": 0.0002999135751123472, + "loss": 0.4785, + "step": 8600 + }, + { + "epoch": 22.96, + "grad_norm": 0.455078125, + "learning_rate": 0.0002999133615800169, + "loss": 0.4761, + "step": 8610 + }, + { + "epoch": 22.986666666666668, + "grad_norm": 0.30859375, + "learning_rate": 0.00029991314778429816, + "loss": 0.4899, + "step": 8620 + }, + { + "epoch": 23.0, + "eval_loss": 0.4898934066295624, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.792, + "eval_samples_per_second": 1.634, + "eval_steps_per_second": 0.102, + "step": 8625 + }, + { + "epoch": 23.013333333333332, + "grad_norm": 0.24609375, + "learning_rate": 0.0002999129337251912, + "loss": 0.4788, + "step": 8630 + }, + { + "epoch": 23.04, + "grad_norm": 0.298828125, + "learning_rate": 0.00029991271940269654, + "loss": 0.5037, + "step": 8640 + }, + { + "epoch": 23.066666666666666, + "grad_norm": 0.255859375, + "learning_rate": 0.00029991250481681443, + "loss": 0.4914, + "step": 8650 + }, + { + "epoch": 23.093333333333334, + "grad_norm": 0.3203125, + "learning_rate": 0.0002999122899675454, + "loss": 0.4859, + "step": 8660 + }, + { + "epoch": 23.12, + "grad_norm": 0.271484375, + "learning_rate": 0.0002999120748548897, + "loss": 0.4819, + "step": 8670 + }, + { + "epoch": 23.14666666666667, + "grad_norm": 0.2265625, + "learning_rate": 0.00029991185947884783, + "loss": 0.4914, + "step": 8680 + }, + { + "epoch": 23.173333333333332, + "grad_norm": 0.32421875, + "learning_rate": 0.00029991164383942, + "loss": 0.4811, + "step": 8690 + }, + { + "epoch": 23.2, + "grad_norm": 0.2216796875, + "learning_rate": 0.00029991142793660676, + "loss": 0.4803, + "step": 8700 + }, + { + "epoch": 23.226666666666667, + "grad_norm": 0.392578125, + "learning_rate": 0.0002999112117704084, + "loss": 0.4783, + "step": 8710 + }, + { + "epoch": 23.253333333333334, + "grad_norm": 0.490234375, + "learning_rate": 0.0002999109953408253, + "loss": 0.4779, + "step": 8720 + }, + { + "epoch": 23.28, + "grad_norm": 0.287109375, + "learning_rate": 0.00029991077864785785, + "loss": 0.4907, + "step": 8730 + }, + { + "epoch": 23.306666666666665, + "grad_norm": 0.322265625, + "learning_rate": 0.0002999105616915065, + "loss": 0.4724, + "step": 8740 + }, + { + "epoch": 23.333333333333332, + "grad_norm": 0.357421875, + "learning_rate": 0.0002999103444717715, + "loss": 0.4873, + "step": 8750 + }, + { + "epoch": 23.36, + "grad_norm": 0.3359375, + "learning_rate": 0.0002999101269886533, + "loss": 0.4905, + "step": 8760 + }, + { + "epoch": 23.386666666666667, + "grad_norm": 0.279296875, + "learning_rate": 0.0002999099092421523, + "loss": 0.4823, + "step": 8770 + }, + { + "epoch": 23.413333333333334, + "grad_norm": 0.302734375, + "learning_rate": 0.0002999096912322688, + "loss": 0.4855, + "step": 8780 + }, + { + "epoch": 23.44, + "grad_norm": 0.26953125, + "learning_rate": 0.00029990947295900335, + "loss": 0.4893, + "step": 8790 + }, + { + "epoch": 23.466666666666665, + "grad_norm": 0.41796875, + "learning_rate": 0.0002999092544223562, + "loss": 0.4976, + "step": 8800 + }, + { + "epoch": 23.493333333333332, + "grad_norm": 0.3203125, + "learning_rate": 0.0002999090356223277, + "loss": 0.489, + "step": 8810 + }, + { + "epoch": 23.52, + "grad_norm": 0.2177734375, + "learning_rate": 0.00029990881655891834, + "loss": 0.4833, + "step": 8820 + }, + { + "epoch": 23.546666666666667, + "grad_norm": 0.2421875, + "learning_rate": 0.00029990859723212843, + "loss": 0.4801, + "step": 8830 + }, + { + "epoch": 23.573333333333334, + "grad_norm": 0.240234375, + "learning_rate": 0.0002999083776419584, + "loss": 0.4784, + "step": 8840 + }, + { + "epoch": 23.6, + "grad_norm": 0.31640625, + "learning_rate": 0.0002999081577884087, + "loss": 0.4733, + "step": 8850 + }, + { + "epoch": 23.626666666666665, + "grad_norm": 0.224609375, + "learning_rate": 0.00029990793767147955, + "loss": 0.4594, + "step": 8860 + }, + { + "epoch": 23.653333333333332, + "grad_norm": 0.267578125, + "learning_rate": 0.0002999077172911715, + "loss": 0.4795, + "step": 8870 + }, + { + "epoch": 23.68, + "grad_norm": 0.220703125, + "learning_rate": 0.0002999074966474848, + "loss": 0.4707, + "step": 8880 + }, + { + "epoch": 23.706666666666667, + "grad_norm": 0.318359375, + "learning_rate": 0.00029990727574041995, + "loss": 0.472, + "step": 8890 + }, + { + "epoch": 23.733333333333334, + "grad_norm": 0.3046875, + "learning_rate": 0.00029990705456997725, + "loss": 0.4913, + "step": 8900 + }, + { + "epoch": 23.76, + "grad_norm": 0.267578125, + "learning_rate": 0.00029990683313615713, + "loss": 0.4927, + "step": 8910 + }, + { + "epoch": 23.786666666666665, + "grad_norm": 0.271484375, + "learning_rate": 0.00029990661143895997, + "loss": 0.491, + "step": 8920 + }, + { + "epoch": 23.813333333333333, + "grad_norm": 0.265625, + "learning_rate": 0.0002999063894783862, + "loss": 0.4746, + "step": 8930 + }, + { + "epoch": 23.84, + "grad_norm": 0.3203125, + "learning_rate": 0.00029990616725443617, + "loss": 0.4818, + "step": 8940 + }, + { + "epoch": 23.866666666666667, + "grad_norm": 0.310546875, + "learning_rate": 0.00029990594476711024, + "loss": 0.4813, + "step": 8950 + }, + { + "epoch": 23.893333333333334, + "grad_norm": 0.265625, + "learning_rate": 0.0002999057220164089, + "loss": 0.4719, + "step": 8960 + }, + { + "epoch": 23.92, + "grad_norm": 0.35546875, + "learning_rate": 0.0002999054990023324, + "loss": 0.4812, + "step": 8970 + }, + { + "epoch": 23.946666666666665, + "grad_norm": 0.296875, + "learning_rate": 0.0002999052757248813, + "loss": 0.4743, + "step": 8980 + }, + { + "epoch": 23.973333333333333, + "grad_norm": 0.294921875, + "learning_rate": 0.00029990505218405585, + "loss": 0.4864, + "step": 8990 + }, + { + "epoch": 24.0, + "grad_norm": 0.361328125, + "learning_rate": 0.0002999048283798565, + "loss": 0.4751, + "step": 9000 + }, + { + "epoch": 24.0, + "eval_loss": 0.4884170591831207, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.8738, + "eval_samples_per_second": 1.62, + "eval_steps_per_second": 0.101, + "step": 9000 + }, + { + "epoch": 24.026666666666667, + "grad_norm": 0.21875, + "learning_rate": 0.0002999046043122837, + "loss": 0.494, + "step": 9010 + }, + { + "epoch": 24.053333333333335, + "grad_norm": 0.275390625, + "learning_rate": 0.00029990437998133766, + "loss": 0.5008, + "step": 9020 + }, + { + "epoch": 24.08, + "grad_norm": 0.1904296875, + "learning_rate": 0.000299904155387019, + "loss": 0.4875, + "step": 9030 + }, + { + "epoch": 24.106666666666666, + "grad_norm": 0.240234375, + "learning_rate": 0.000299903930529328, + "loss": 0.4823, + "step": 9040 + }, + { + "epoch": 24.133333333333333, + "grad_norm": 0.35546875, + "learning_rate": 0.000299903705408265, + "loss": 0.4848, + "step": 9050 + }, + { + "epoch": 24.16, + "grad_norm": 0.32421875, + "learning_rate": 0.00029990348002383054, + "loss": 0.4882, + "step": 9060 + }, + { + "epoch": 24.186666666666667, + "grad_norm": 0.2216796875, + "learning_rate": 0.00029990325437602493, + "loss": 0.4799, + "step": 9070 + }, + { + "epoch": 24.213333333333335, + "grad_norm": 0.291015625, + "learning_rate": 0.0002999030284648485, + "loss": 0.4751, + "step": 9080 + }, + { + "epoch": 24.24, + "grad_norm": 0.296875, + "learning_rate": 0.0002999028022903018, + "loss": 0.4801, + "step": 9090 + }, + { + "epoch": 24.266666666666666, + "grad_norm": 0.279296875, + "learning_rate": 0.0002999025758523851, + "loss": 0.4834, + "step": 9100 + }, + { + "epoch": 24.293333333333333, + "grad_norm": 0.263671875, + "learning_rate": 0.0002999023491510989, + "loss": 0.4776, + "step": 9110 + }, + { + "epoch": 24.32, + "grad_norm": 0.318359375, + "learning_rate": 0.0002999021221864435, + "loss": 0.4814, + "step": 9120 + }, + { + "epoch": 24.346666666666668, + "grad_norm": 0.259765625, + "learning_rate": 0.00029990189495841937, + "loss": 0.4898, + "step": 9130 + }, + { + "epoch": 24.373333333333335, + "grad_norm": 0.259765625, + "learning_rate": 0.0002999016674670269, + "loss": 0.4855, + "step": 9140 + }, + { + "epoch": 24.4, + "grad_norm": 0.361328125, + "learning_rate": 0.0002999014397122664, + "loss": 0.4812, + "step": 9150 + }, + { + "epoch": 24.426666666666666, + "grad_norm": 0.32421875, + "learning_rate": 0.0002999012116941384, + "loss": 0.4882, + "step": 9160 + }, + { + "epoch": 24.453333333333333, + "grad_norm": 0.3203125, + "learning_rate": 0.00029990098341264323, + "loss": 0.4903, + "step": 9170 + }, + { + "epoch": 24.48, + "grad_norm": 0.263671875, + "learning_rate": 0.0002999007548677813, + "loss": 0.4965, + "step": 9180 + }, + { + "epoch": 24.506666666666668, + "grad_norm": 0.283203125, + "learning_rate": 0.00029990052605955304, + "loss": 0.4863, + "step": 9190 + }, + { + "epoch": 24.533333333333335, + "grad_norm": 0.1904296875, + "learning_rate": 0.00029990029698795883, + "loss": 0.4795, + "step": 9200 + }, + { + "epoch": 24.56, + "grad_norm": 0.18359375, + "learning_rate": 0.00029990006765299906, + "loss": 0.4806, + "step": 9210 + }, + { + "epoch": 24.586666666666666, + "grad_norm": 0.296875, + "learning_rate": 0.0002998998380546741, + "loss": 0.4768, + "step": 9220 + }, + { + "epoch": 24.613333333333333, + "grad_norm": 0.29296875, + "learning_rate": 0.0002998996081929845, + "loss": 0.4619, + "step": 9230 + }, + { + "epoch": 24.64, + "grad_norm": 0.1943359375, + "learning_rate": 0.0002998993780679305, + "loss": 0.4666, + "step": 9240 + }, + { + "epoch": 24.666666666666668, + "grad_norm": 0.2490234375, + "learning_rate": 0.0002998991476795125, + "loss": 0.4838, + "step": 9250 + }, + { + "epoch": 24.693333333333335, + "grad_norm": 0.294921875, + "learning_rate": 0.00029989891702773103, + "loss": 0.4655, + "step": 9260 + }, + { + "epoch": 24.72, + "grad_norm": 0.2177734375, + "learning_rate": 0.00029989868611258644, + "loss": 0.4822, + "step": 9270 + }, + { + "epoch": 24.746666666666666, + "grad_norm": 0.251953125, + "learning_rate": 0.00029989845493407917, + "loss": 0.4878, + "step": 9280 + }, + { + "epoch": 24.773333333333333, + "grad_norm": 0.228515625, + "learning_rate": 0.0002998982234922095, + "loss": 0.4955, + "step": 9290 + }, + { + "epoch": 24.8, + "grad_norm": 0.33203125, + "learning_rate": 0.000299897991786978, + "loss": 0.4823, + "step": 9300 + }, + { + "epoch": 24.826666666666668, + "grad_norm": 0.39453125, + "learning_rate": 0.000299897759818385, + "loss": 0.4768, + "step": 9310 + }, + { + "epoch": 24.85333333333333, + "grad_norm": 0.232421875, + "learning_rate": 0.00029989752758643085, + "loss": 0.4863, + "step": 9320 + }, + { + "epoch": 24.88, + "grad_norm": 0.265625, + "learning_rate": 0.000299897295091116, + "loss": 0.4727, + "step": 9330 + }, + { + "epoch": 24.906666666666666, + "grad_norm": 0.26953125, + "learning_rate": 0.000299897062332441, + "loss": 0.4751, + "step": 9340 + }, + { + "epoch": 24.933333333333334, + "grad_norm": 0.3125, + "learning_rate": 0.000299896829310406, + "loss": 0.4768, + "step": 9350 + }, + { + "epoch": 24.96, + "grad_norm": 0.298828125, + "learning_rate": 0.0002998965960250116, + "loss": 0.4751, + "step": 9360 + }, + { + "epoch": 24.986666666666668, + "grad_norm": 0.2138671875, + "learning_rate": 0.00029989636247625817, + "loss": 0.4897, + "step": 9370 + }, + { + "epoch": 25.0, + "eval_loss": 0.488960325717926, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.0328, + "eval_samples_per_second": 1.595, + "eval_steps_per_second": 0.1, + "step": 9375 + }, + { + "epoch": 25.013333333333332, + "grad_norm": 0.26171875, + "learning_rate": 0.0002998961286641461, + "loss": 0.4785, + "step": 9380 + }, + { + "epoch": 25.04, + "grad_norm": 0.28515625, + "learning_rate": 0.00029989589458867576, + "loss": 0.5028, + "step": 9390 + }, + { + "epoch": 25.066666666666666, + "grad_norm": 0.310546875, + "learning_rate": 0.00029989566024984763, + "loss": 0.4902, + "step": 9400 + }, + { + "epoch": 25.093333333333334, + "grad_norm": 0.267578125, + "learning_rate": 0.00029989542564766214, + "loss": 0.4858, + "step": 9410 + }, + { + "epoch": 25.12, + "grad_norm": 0.31640625, + "learning_rate": 0.0002998951907821196, + "loss": 0.4812, + "step": 9420 + }, + { + "epoch": 25.14666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.0002998949556532205, + "loss": 0.4902, + "step": 9430 + }, + { + "epoch": 25.173333333333332, + "grad_norm": 0.2890625, + "learning_rate": 0.0002998947202609652, + "loss": 0.4813, + "step": 9440 + }, + { + "epoch": 25.2, + "grad_norm": 0.296875, + "learning_rate": 0.0002998944846053542, + "loss": 0.4794, + "step": 9450 + }, + { + "epoch": 25.226666666666667, + "grad_norm": 0.302734375, + "learning_rate": 0.0002998942486863879, + "loss": 0.4768, + "step": 9460 + }, + { + "epoch": 25.253333333333334, + "grad_norm": 0.26171875, + "learning_rate": 0.0002998940125040666, + "loss": 0.4759, + "step": 9470 + }, + { + "epoch": 25.28, + "grad_norm": 0.38671875, + "learning_rate": 0.0002998937760583908, + "loss": 0.4895, + "step": 9480 + }, + { + "epoch": 25.306666666666665, + "grad_norm": 0.32421875, + "learning_rate": 0.00029989353934936093, + "loss": 0.4708, + "step": 9490 + }, + { + "epoch": 25.333333333333332, + "grad_norm": 0.341796875, + "learning_rate": 0.0002998933023769774, + "loss": 0.4874, + "step": 9500 + }, + { + "epoch": 25.36, + "grad_norm": 0.298828125, + "learning_rate": 0.0002998930651412406, + "loss": 0.4898, + "step": 9510 + }, + { + "epoch": 25.386666666666667, + "grad_norm": 0.400390625, + "learning_rate": 0.00029989282764215095, + "loss": 0.4804, + "step": 9520 + }, + { + "epoch": 25.413333333333334, + "grad_norm": 0.326171875, + "learning_rate": 0.0002998925898797089, + "loss": 0.4846, + "step": 9530 + }, + { + "epoch": 25.44, + "grad_norm": 0.30859375, + "learning_rate": 0.0002998923518539148, + "loss": 0.4878, + "step": 9540 + }, + { + "epoch": 25.466666666666665, + "grad_norm": 0.2275390625, + "learning_rate": 0.00029989211356476914, + "loss": 0.4969, + "step": 9550 + }, + { + "epoch": 25.493333333333332, + "grad_norm": 0.287109375, + "learning_rate": 0.00029989187501227227, + "loss": 0.4884, + "step": 9560 + }, + { + "epoch": 25.52, + "grad_norm": 0.2275390625, + "learning_rate": 0.0002998916361964247, + "loss": 0.4829, + "step": 9570 + }, + { + "epoch": 25.546666666666667, + "grad_norm": 0.361328125, + "learning_rate": 0.00029989139711722674, + "loss": 0.4795, + "step": 9580 + }, + { + "epoch": 25.573333333333334, + "grad_norm": 0.271484375, + "learning_rate": 0.0002998911577746789, + "loss": 0.4784, + "step": 9590 + }, + { + "epoch": 25.6, + "grad_norm": 0.2275390625, + "learning_rate": 0.00029989091816878154, + "loss": 0.4722, + "step": 9600 + }, + { + "epoch": 25.626666666666665, + "grad_norm": 0.1748046875, + "learning_rate": 0.0002998906782995351, + "loss": 0.4588, + "step": 9610 + }, + { + "epoch": 25.653333333333332, + "grad_norm": 0.1748046875, + "learning_rate": 0.0002998904381669401, + "loss": 0.4786, + "step": 9620 + }, + { + "epoch": 25.68, + "grad_norm": 0.2333984375, + "learning_rate": 0.0002998901977709968, + "loss": 0.4697, + "step": 9630 + }, + { + "epoch": 25.706666666666667, + "grad_norm": 0.37109375, + "learning_rate": 0.0002998899571117057, + "loss": 0.4714, + "step": 9640 + }, + { + "epoch": 25.733333333333334, + "grad_norm": 0.37890625, + "learning_rate": 0.0002998897161890672, + "loss": 0.4905, + "step": 9650 + }, + { + "epoch": 25.76, + "grad_norm": 0.291015625, + "learning_rate": 0.0002998894750030818, + "loss": 0.4924, + "step": 9660 + }, + { + "epoch": 25.786666666666665, + "grad_norm": 0.376953125, + "learning_rate": 0.00029988923355374987, + "loss": 0.4896, + "step": 9670 + }, + { + "epoch": 25.813333333333333, + "grad_norm": 0.322265625, + "learning_rate": 0.00029988899184107173, + "loss": 0.4743, + "step": 9680 + }, + { + "epoch": 25.84, + "grad_norm": 0.2080078125, + "learning_rate": 0.000299888749865048, + "loss": 0.481, + "step": 9690 + }, + { + "epoch": 25.866666666666667, + "grad_norm": 0.25390625, + "learning_rate": 0.0002998885076256789, + "loss": 0.4804, + "step": 9700 + }, + { + "epoch": 25.893333333333334, + "grad_norm": 0.1708984375, + "learning_rate": 0.0002998882651229651, + "loss": 0.4703, + "step": 9710 + }, + { + "epoch": 25.92, + "grad_norm": 0.271484375, + "learning_rate": 0.00029988802235690685, + "loss": 0.4804, + "step": 9720 + }, + { + "epoch": 25.946666666666665, + "grad_norm": 0.34375, + "learning_rate": 0.0002998877793275046, + "loss": 0.474, + "step": 9730 + }, + { + "epoch": 25.973333333333333, + "grad_norm": 0.36328125, + "learning_rate": 0.00029988753603475877, + "loss": 0.4854, + "step": 9740 + }, + { + "epoch": 26.0, + "grad_norm": 0.412109375, + "learning_rate": 0.0002998872924786698, + "loss": 0.4745, + "step": 9750 + }, + { + "epoch": 26.0, + "eval_loss": 0.4890904128551483, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.6338, + "eval_samples_per_second": 1.661, + "eval_steps_per_second": 0.104, + "step": 9750 + }, + { + "epoch": 26.026666666666667, + "grad_norm": 0.291015625, + "learning_rate": 0.00029988704865923813, + "loss": 0.4934, + "step": 9760 + }, + { + "epoch": 26.053333333333335, + "grad_norm": 0.275390625, + "learning_rate": 0.00029988680457646423, + "loss": 0.4998, + "step": 9770 + }, + { + "epoch": 26.08, + "grad_norm": 0.2138671875, + "learning_rate": 0.00029988656023034846, + "loss": 0.4867, + "step": 9780 + }, + { + "epoch": 26.106666666666666, + "grad_norm": 0.2041015625, + "learning_rate": 0.0002998863156208913, + "loss": 0.4815, + "step": 9790 + }, + { + "epoch": 26.133333333333333, + "grad_norm": 0.248046875, + "learning_rate": 0.00029988607074809317, + "loss": 0.4834, + "step": 9800 + }, + { + "epoch": 26.16, + "grad_norm": 0.314453125, + "learning_rate": 0.0002998858256119544, + "loss": 0.4881, + "step": 9810 + }, + { + "epoch": 26.186666666666667, + "grad_norm": 0.26953125, + "learning_rate": 0.0002998855802124756, + "loss": 0.4802, + "step": 9820 + }, + { + "epoch": 26.213333333333335, + "grad_norm": 0.29296875, + "learning_rate": 0.0002998853345496571, + "loss": 0.4749, + "step": 9830 + }, + { + "epoch": 26.24, + "grad_norm": 0.28125, + "learning_rate": 0.0002998850886234993, + "loss": 0.4787, + "step": 9840 + }, + { + "epoch": 26.266666666666666, + "grad_norm": 0.267578125, + "learning_rate": 0.00029988484243400265, + "loss": 0.4824, + "step": 9850 + }, + { + "epoch": 26.293333333333333, + "grad_norm": 0.2890625, + "learning_rate": 0.0002998845959811676, + "loss": 0.4764, + "step": 9860 + }, + { + "epoch": 26.32, + "grad_norm": 0.259765625, + "learning_rate": 0.0002998843492649947, + "loss": 0.4803, + "step": 9870 + }, + { + "epoch": 26.346666666666668, + "grad_norm": 0.2578125, + "learning_rate": 0.00029988410228548416, + "loss": 0.4889, + "step": 9880 + }, + { + "epoch": 26.373333333333335, + "grad_norm": 0.30078125, + "learning_rate": 0.00029988385504263655, + "loss": 0.4846, + "step": 9890 + }, + { + "epoch": 26.4, + "grad_norm": 0.2431640625, + "learning_rate": 0.0002998836075364523, + "loss": 0.4805, + "step": 9900 + }, + { + "epoch": 26.426666666666666, + "grad_norm": 0.298828125, + "learning_rate": 0.00029988335976693177, + "loss": 0.4875, + "step": 9910 + }, + { + "epoch": 26.453333333333333, + "grad_norm": 0.2412109375, + "learning_rate": 0.0002998831117340755, + "loss": 0.4895, + "step": 9920 + }, + { + "epoch": 26.48, + "grad_norm": 0.291015625, + "learning_rate": 0.00029988286343788387, + "loss": 0.4961, + "step": 9930 + }, + { + "epoch": 26.506666666666668, + "grad_norm": 0.2255859375, + "learning_rate": 0.0002998826148783573, + "loss": 0.4854, + "step": 9940 + }, + { + "epoch": 26.533333333333335, + "grad_norm": 0.2060546875, + "learning_rate": 0.00029988236605549626, + "loss": 0.4787, + "step": 9950 + }, + { + "epoch": 26.56, + "grad_norm": 0.19140625, + "learning_rate": 0.0002998821169693012, + "loss": 0.48, + "step": 9960 + }, + { + "epoch": 26.586666666666666, + "grad_norm": 0.283203125, + "learning_rate": 0.00029988186761977246, + "loss": 0.4757, + "step": 9970 + }, + { + "epoch": 26.613333333333333, + "grad_norm": 0.26171875, + "learning_rate": 0.00029988161800691056, + "loss": 0.4617, + "step": 9980 + }, + { + "epoch": 26.64, + "grad_norm": 0.197265625, + "learning_rate": 0.000299881368130716, + "loss": 0.4657, + "step": 9990 + }, + { + "epoch": 26.666666666666668, + "grad_norm": 0.294921875, + "learning_rate": 0.00029988111799118914, + "loss": 0.4815, + "step": 10000 + }, + { + "epoch": 26.693333333333335, + "grad_norm": 0.25, + "learning_rate": 0.00029988086758833037, + "loss": 0.4639, + "step": 10010 + }, + { + "epoch": 26.72, + "grad_norm": 0.30859375, + "learning_rate": 0.00029988061692214025, + "loss": 0.4823, + "step": 10020 + }, + { + "epoch": 26.746666666666666, + "grad_norm": 0.25, + "learning_rate": 0.00029988036599261906, + "loss": 0.486, + "step": 10030 + }, + { + "epoch": 26.773333333333333, + "grad_norm": 0.296875, + "learning_rate": 0.00029988011479976744, + "loss": 0.4952, + "step": 10040 + }, + { + "epoch": 26.8, + "grad_norm": 0.203125, + "learning_rate": 0.00029987986334358566, + "loss": 0.4811, + "step": 10050 + }, + { + "epoch": 26.826666666666668, + "grad_norm": 0.28125, + "learning_rate": 0.00029987961162407427, + "loss": 0.4755, + "step": 10060 + }, + { + "epoch": 26.85333333333333, + "grad_norm": 0.369140625, + "learning_rate": 0.00029987935964123364, + "loss": 0.4843, + "step": 10070 + }, + { + "epoch": 26.88, + "grad_norm": 0.298828125, + "learning_rate": 0.00029987910739506427, + "loss": 0.4724, + "step": 10080 + }, + { + "epoch": 26.906666666666666, + "grad_norm": 0.310546875, + "learning_rate": 0.0002998788548855666, + "loss": 0.4744, + "step": 10090 + }, + { + "epoch": 26.933333333333334, + "grad_norm": 0.30859375, + "learning_rate": 0.000299878602112741, + "loss": 0.4763, + "step": 10100 + }, + { + "epoch": 26.96, + "grad_norm": 0.267578125, + "learning_rate": 0.00029987834907658806, + "loss": 0.4745, + "step": 10110 + }, + { + "epoch": 26.986666666666668, + "grad_norm": 0.439453125, + "learning_rate": 0.00029987809577710804, + "loss": 0.4878, + "step": 10120 + }, + { + "epoch": 27.0, + "eval_loss": 0.48758047819137573, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.7851, + "eval_samples_per_second": 1.635, + "eval_steps_per_second": 0.102, + "step": 10125 + }, + { + "epoch": 27.013333333333332, + "grad_norm": 0.609375, + "learning_rate": 0.00029987784221430154, + "loss": 0.4778, + "step": 10130 + }, + { + "epoch": 27.04, + "grad_norm": 0.90625, + "learning_rate": 0.0002998775883881689, + "loss": 0.5021, + "step": 10140 + }, + { + "epoch": 27.066666666666666, + "grad_norm": 1.25, + "learning_rate": 0.0002998773342987106, + "loss": 0.4918, + "step": 10150 + }, + { + "epoch": 27.093333333333334, + "grad_norm": 0.8125, + "learning_rate": 0.0002998770799459271, + "loss": 0.4876, + "step": 10160 + }, + { + "epoch": 27.12, + "grad_norm": 0.470703125, + "learning_rate": 0.0002998768253298189, + "loss": 0.482, + "step": 10170 + }, + { + "epoch": 27.14666666666667, + "grad_norm": 0.19921875, + "learning_rate": 0.00029987657045038634, + "loss": 0.4903, + "step": 10180 + }, + { + "epoch": 27.173333333333332, + "grad_norm": 0.2431640625, + "learning_rate": 0.0002998763153076299, + "loss": 0.48, + "step": 10190 + }, + { + "epoch": 27.2, + "grad_norm": 0.267578125, + "learning_rate": 0.00029987605990155006, + "loss": 0.4781, + "step": 10200 + }, + { + "epoch": 27.226666666666667, + "grad_norm": 0.2373046875, + "learning_rate": 0.0002998758042321473, + "loss": 0.4762, + "step": 10210 + }, + { + "epoch": 27.253333333333334, + "grad_norm": 0.263671875, + "learning_rate": 0.000299875548299422, + "loss": 0.4759, + "step": 10220 + }, + { + "epoch": 27.28, + "grad_norm": 0.3125, + "learning_rate": 0.0002998752921033746, + "loss": 0.4884, + "step": 10230 + }, + { + "epoch": 27.306666666666665, + "grad_norm": 0.259765625, + "learning_rate": 0.0002998750356440056, + "loss": 0.4709, + "step": 10240 + }, + { + "epoch": 27.333333333333332, + "grad_norm": 0.2490234375, + "learning_rate": 0.0002998747789213154, + "loss": 0.4855, + "step": 10250 + }, + { + "epoch": 27.36, + "grad_norm": 0.291015625, + "learning_rate": 0.00029987452193530454, + "loss": 0.4883, + "step": 10260 + }, + { + "epoch": 27.386666666666667, + "grad_norm": 0.30078125, + "learning_rate": 0.00029987426468597344, + "loss": 0.4795, + "step": 10270 + }, + { + "epoch": 27.413333333333334, + "grad_norm": 0.2490234375, + "learning_rate": 0.0002998740071733224, + "loss": 0.4837, + "step": 10280 + }, + { + "epoch": 27.44, + "grad_norm": 0.240234375, + "learning_rate": 0.0002998737493973521, + "loss": 0.4873, + "step": 10290 + }, + { + "epoch": 27.466666666666665, + "grad_norm": 0.2099609375, + "learning_rate": 0.0002998734913580629, + "loss": 0.4965, + "step": 10300 + }, + { + "epoch": 27.493333333333332, + "grad_norm": 0.2734375, + "learning_rate": 0.00029987323305545523, + "loss": 0.4875, + "step": 10310 + }, + { + "epoch": 27.52, + "grad_norm": 0.181640625, + "learning_rate": 0.00029987297448952956, + "loss": 0.4815, + "step": 10320 + }, + { + "epoch": 27.546666666666667, + "grad_norm": 0.22265625, + "learning_rate": 0.00029987271566028637, + "loss": 0.4788, + "step": 10330 + }, + { + "epoch": 27.573333333333334, + "grad_norm": 0.20703125, + "learning_rate": 0.00029987245656772603, + "loss": 0.4777, + "step": 10340 + }, + { + "epoch": 27.6, + "grad_norm": 0.2314453125, + "learning_rate": 0.0002998721972118491, + "loss": 0.4717, + "step": 10350 + }, + { + "epoch": 27.626666666666665, + "grad_norm": 0.1923828125, + "learning_rate": 0.00029987193759265597, + "loss": 0.4578, + "step": 10360 + }, + { + "epoch": 27.653333333333332, + "grad_norm": 0.244140625, + "learning_rate": 0.0002998716777101471, + "loss": 0.4779, + "step": 10370 + }, + { + "epoch": 27.68, + "grad_norm": 0.23046875, + "learning_rate": 0.00029987141756432297, + "loss": 0.4685, + "step": 10380 + }, + { + "epoch": 27.706666666666667, + "grad_norm": 0.322265625, + "learning_rate": 0.00029987115715518405, + "loss": 0.4704, + "step": 10390 + }, + { + "epoch": 27.733333333333334, + "grad_norm": 0.251953125, + "learning_rate": 0.00029987089648273076, + "loss": 0.4887, + "step": 10400 + }, + { + "epoch": 27.76, + "grad_norm": 0.310546875, + "learning_rate": 0.0002998706355469636, + "loss": 0.491, + "step": 10410 + }, + { + "epoch": 27.786666666666665, + "grad_norm": 0.224609375, + "learning_rate": 0.00029987037434788303, + "loss": 0.4887, + "step": 10420 + }, + { + "epoch": 27.813333333333333, + "grad_norm": 0.291015625, + "learning_rate": 0.0002998701128854894, + "loss": 0.4736, + "step": 10430 + }, + { + "epoch": 27.84, + "grad_norm": 0.30078125, + "learning_rate": 0.00029986985115978336, + "loss": 0.4799, + "step": 10440 + }, + { + "epoch": 27.866666666666667, + "grad_norm": 0.251953125, + "learning_rate": 0.00029986958917076515, + "loss": 0.479, + "step": 10450 + }, + { + "epoch": 27.893333333333334, + "grad_norm": 0.28515625, + "learning_rate": 0.0002998693269184354, + "loss": 0.4691, + "step": 10460 + }, + { + "epoch": 27.92, + "grad_norm": 0.2890625, + "learning_rate": 0.00029986906440279454, + "loss": 0.4801, + "step": 10470 + }, + { + "epoch": 27.946666666666665, + "grad_norm": 0.333984375, + "learning_rate": 0.00029986880162384294, + "loss": 0.4726, + "step": 10480 + }, + { + "epoch": 27.973333333333333, + "grad_norm": 0.330078125, + "learning_rate": 0.0002998685385815812, + "loss": 0.4839, + "step": 10490 + }, + { + "epoch": 28.0, + "grad_norm": 0.337890625, + "learning_rate": 0.0002998682752760096, + "loss": 0.4734, + "step": 10500 + }, + { + "epoch": 28.0, + "eval_loss": 0.4892578721046448, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.052, + "eval_samples_per_second": 1.592, + "eval_steps_per_second": 0.099, + "step": 10500 + }, + { + "epoch": 28.026666666666667, + "grad_norm": 0.181640625, + "learning_rate": 0.0002998680117071288, + "loss": 0.4925, + "step": 10510 + }, + { + "epoch": 28.053333333333335, + "grad_norm": 0.279296875, + "learning_rate": 0.00029986774787493916, + "loss": 0.499, + "step": 10520 + }, + { + "epoch": 28.08, + "grad_norm": 0.26171875, + "learning_rate": 0.00029986748377944114, + "loss": 0.4861, + "step": 10530 + }, + { + "epoch": 28.106666666666666, + "grad_norm": 0.2890625, + "learning_rate": 0.00029986721942063525, + "loss": 0.4814, + "step": 10540 + }, + { + "epoch": 28.133333333333333, + "grad_norm": 0.220703125, + "learning_rate": 0.00029986695479852185, + "loss": 0.4827, + "step": 10550 + }, + { + "epoch": 28.16, + "grad_norm": 0.2734375, + "learning_rate": 0.00029986668991310156, + "loss": 0.4871, + "step": 10560 + }, + { + "epoch": 28.186666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.00029986642476437475, + "loss": 0.4784, + "step": 10570 + }, + { + "epoch": 28.213333333333335, + "grad_norm": 0.275390625, + "learning_rate": 0.0002998661593523419, + "loss": 0.4737, + "step": 10580 + }, + { + "epoch": 28.24, + "grad_norm": 0.25, + "learning_rate": 0.0002998658936770035, + "loss": 0.4775, + "step": 10590 + }, + { + "epoch": 28.266666666666666, + "grad_norm": 0.271484375, + "learning_rate": 0.00029986562773835995, + "loss": 0.481, + "step": 10600 + }, + { + "epoch": 28.293333333333333, + "grad_norm": 0.2158203125, + "learning_rate": 0.0002998653615364118, + "loss": 0.4758, + "step": 10610 + }, + { + "epoch": 28.32, + "grad_norm": 0.224609375, + "learning_rate": 0.00029986509507115946, + "loss": 0.4791, + "step": 10620 + }, + { + "epoch": 28.346666666666668, + "grad_norm": 0.271484375, + "learning_rate": 0.0002998648283426034, + "loss": 0.4881, + "step": 10630 + }, + { + "epoch": 28.373333333333335, + "grad_norm": 0.314453125, + "learning_rate": 0.00029986456135074416, + "loss": 0.4843, + "step": 10640 + }, + { + "epoch": 28.4, + "grad_norm": 0.279296875, + "learning_rate": 0.0002998642940955821, + "loss": 0.4797, + "step": 10650 + }, + { + "epoch": 28.426666666666666, + "grad_norm": 0.25, + "learning_rate": 0.0002998640265771178, + "loss": 0.4866, + "step": 10660 + }, + { + "epoch": 28.453333333333333, + "grad_norm": 0.236328125, + "learning_rate": 0.0002998637587953516, + "loss": 0.4883, + "step": 10670 + }, + { + "epoch": 28.48, + "grad_norm": 0.263671875, + "learning_rate": 0.0002998634907502841, + "loss": 0.4946, + "step": 10680 + }, + { + "epoch": 28.506666666666668, + "grad_norm": 0.201171875, + "learning_rate": 0.0002998632224419157, + "loss": 0.4844, + "step": 10690 + }, + { + "epoch": 28.533333333333335, + "grad_norm": 0.1552734375, + "learning_rate": 0.0002998629538702469, + "loss": 0.4769, + "step": 10700 + }, + { + "epoch": 28.56, + "grad_norm": 0.23828125, + "learning_rate": 0.00029986268503527815, + "loss": 0.4791, + "step": 10710 + }, + { + "epoch": 28.586666666666666, + "grad_norm": 0.28125, + "learning_rate": 0.00029986241593700996, + "loss": 0.4751, + "step": 10720 + }, + { + "epoch": 28.613333333333333, + "grad_norm": 0.275390625, + "learning_rate": 0.0002998621465754428, + "loss": 0.4607, + "step": 10730 + }, + { + "epoch": 28.64, + "grad_norm": 0.275390625, + "learning_rate": 0.000299861876950577, + "loss": 0.4652, + "step": 10740 + }, + { + "epoch": 28.666666666666668, + "grad_norm": 0.205078125, + "learning_rate": 0.00029986160706241326, + "loss": 0.4814, + "step": 10750 + }, + { + "epoch": 28.693333333333335, + "grad_norm": 0.271484375, + "learning_rate": 0.00029986133691095194, + "loss": 0.4642, + "step": 10760 + }, + { + "epoch": 28.72, + "grad_norm": 0.30078125, + "learning_rate": 0.0002998610664961935, + "loss": 0.481, + "step": 10770 + }, + { + "epoch": 28.746666666666666, + "grad_norm": 0.296875, + "learning_rate": 0.0002998607958181384, + "loss": 0.4862, + "step": 10780 + }, + { + "epoch": 28.773333333333333, + "grad_norm": 0.302734375, + "learning_rate": 0.0002998605248767872, + "loss": 0.4936, + "step": 10790 + }, + { + "epoch": 28.8, + "grad_norm": 0.33984375, + "learning_rate": 0.0002998602536721403, + "loss": 0.4805, + "step": 10800 + }, + { + "epoch": 28.826666666666668, + "grad_norm": 0.2099609375, + "learning_rate": 0.0002998599822041982, + "loss": 0.4751, + "step": 10810 + }, + { + "epoch": 28.85333333333333, + "grad_norm": 0.31640625, + "learning_rate": 0.0002998597104729614, + "loss": 0.4839, + "step": 10820 + }, + { + "epoch": 28.88, + "grad_norm": 0.21875, + "learning_rate": 0.00029985943847843035, + "loss": 0.4706, + "step": 10830 + }, + { + "epoch": 28.906666666666666, + "grad_norm": 0.25390625, + "learning_rate": 0.00029985916622060556, + "loss": 0.4743, + "step": 10840 + }, + { + "epoch": 28.933333333333334, + "grad_norm": 0.283203125, + "learning_rate": 0.0002998588936994875, + "loss": 0.4756, + "step": 10850 + }, + { + "epoch": 28.96, + "grad_norm": 0.255859375, + "learning_rate": 0.0002998586209150766, + "loss": 0.4732, + "step": 10860 + }, + { + "epoch": 28.986666666666668, + "grad_norm": 0.251953125, + "learning_rate": 0.0002998583478673734, + "loss": 0.4879, + "step": 10870 + }, + { + "epoch": 29.0, + "eval_loss": 0.48758020997047424, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.9573, + "eval_samples_per_second": 1.607, + "eval_steps_per_second": 0.1, + "step": 10875 + }, + { + "epoch": 29.013333333333332, + "grad_norm": 0.2236328125, + "learning_rate": 0.0002998580745563783, + "loss": 0.4765, + "step": 10880 + }, + { + "epoch": 29.04, + "grad_norm": 0.31640625, + "learning_rate": 0.0002998578009820918, + "loss": 0.5008, + "step": 10890 + }, + { + "epoch": 29.066666666666666, + "grad_norm": 0.294921875, + "learning_rate": 0.0002998575271445145, + "loss": 0.4886, + "step": 10900 + }, + { + "epoch": 29.093333333333334, + "grad_norm": 0.2470703125, + "learning_rate": 0.0002998572530436468, + "loss": 0.4828, + "step": 10910 + }, + { + "epoch": 29.12, + "grad_norm": 0.310546875, + "learning_rate": 0.00029985697867948916, + "loss": 0.4801, + "step": 10920 + }, + { + "epoch": 29.14666666666667, + "grad_norm": 0.23046875, + "learning_rate": 0.000299856704052042, + "loss": 0.4889, + "step": 10930 + }, + { + "epoch": 29.173333333333332, + "grad_norm": 0.306640625, + "learning_rate": 0.000299856429161306, + "loss": 0.4787, + "step": 10940 + }, + { + "epoch": 29.2, + "grad_norm": 0.30078125, + "learning_rate": 0.00029985615400728147, + "loss": 0.4782, + "step": 10950 + }, + { + "epoch": 29.226666666666667, + "grad_norm": 0.291015625, + "learning_rate": 0.0002998558785899689, + "loss": 0.4747, + "step": 10960 + }, + { + "epoch": 29.253333333333334, + "grad_norm": 0.2080078125, + "learning_rate": 0.00029985560290936894, + "loss": 0.4749, + "step": 10970 + }, + { + "epoch": 29.28, + "grad_norm": 0.27734375, + "learning_rate": 0.00029985532696548184, + "loss": 0.4883, + "step": 10980 + }, + { + "epoch": 29.306666666666665, + "grad_norm": 0.330078125, + "learning_rate": 0.0002998550507583082, + "loss": 0.469, + "step": 10990 + }, + { + "epoch": 29.333333333333332, + "grad_norm": 0.2138671875, + "learning_rate": 0.0002998547742878486, + "loss": 0.4849, + "step": 11000 + }, + { + "epoch": 29.36, + "grad_norm": 0.1953125, + "learning_rate": 0.0002998544975541034, + "loss": 0.4875, + "step": 11010 + }, + { + "epoch": 29.386666666666667, + "grad_norm": 0.216796875, + "learning_rate": 0.0002998542205570731, + "loss": 0.4788, + "step": 11020 + }, + { + "epoch": 29.413333333333334, + "grad_norm": 0.1923828125, + "learning_rate": 0.0002998539432967582, + "loss": 0.4824, + "step": 11030 + }, + { + "epoch": 29.44, + "grad_norm": 0.2001953125, + "learning_rate": 0.0002998536657731592, + "loss": 0.4866, + "step": 11040 + }, + { + "epoch": 29.466666666666665, + "grad_norm": 0.228515625, + "learning_rate": 0.00029985338798627656, + "loss": 0.4968, + "step": 11050 + }, + { + "epoch": 29.493333333333332, + "grad_norm": 0.197265625, + "learning_rate": 0.00029985310993611077, + "loss": 0.4861, + "step": 11060 + }, + { + "epoch": 29.52, + "grad_norm": 0.2890625, + "learning_rate": 0.0002998528316226624, + "loss": 0.4808, + "step": 11070 + }, + { + "epoch": 29.546666666666667, + "grad_norm": 0.234375, + "learning_rate": 0.00029985255304593183, + "loss": 0.4772, + "step": 11080 + }, + { + "epoch": 29.573333333333334, + "grad_norm": 0.2080078125, + "learning_rate": 0.0002998522742059196, + "loss": 0.4768, + "step": 11090 + }, + { + "epoch": 29.6, + "grad_norm": 0.251953125, + "learning_rate": 0.0002998519951026262, + "loss": 0.4709, + "step": 11100 + }, + { + "epoch": 29.626666666666665, + "grad_norm": 0.2060546875, + "learning_rate": 0.0002998517157360521, + "loss": 0.4575, + "step": 11110 + }, + { + "epoch": 29.653333333333332, + "grad_norm": 0.2109375, + "learning_rate": 0.0002998514361061978, + "loss": 0.4767, + "step": 11120 + }, + { + "epoch": 29.68, + "grad_norm": 0.2578125, + "learning_rate": 0.0002998511562130639, + "loss": 0.4681, + "step": 11130 + }, + { + "epoch": 29.706666666666667, + "grad_norm": 0.27734375, + "learning_rate": 0.00029985087605665067, + "loss": 0.469, + "step": 11140 + }, + { + "epoch": 29.733333333333334, + "grad_norm": 0.296875, + "learning_rate": 0.00029985059563695875, + "loss": 0.4883, + "step": 11150 + }, + { + "epoch": 29.76, + "grad_norm": 0.2392578125, + "learning_rate": 0.0002998503149539886, + "loss": 0.4895, + "step": 11160 + }, + { + "epoch": 29.786666666666665, + "grad_norm": 0.40234375, + "learning_rate": 0.00029985003400774074, + "loss": 0.4883, + "step": 11170 + }, + { + "epoch": 29.813333333333333, + "grad_norm": 0.26171875, + "learning_rate": 0.0002998497527982156, + "loss": 0.4727, + "step": 11180 + }, + { + "epoch": 29.84, + "grad_norm": 0.45703125, + "learning_rate": 0.00029984947132541374, + "loss": 0.479, + "step": 11190 + }, + { + "epoch": 29.866666666666667, + "grad_norm": 0.244140625, + "learning_rate": 0.00029984918958933564, + "loss": 0.4784, + "step": 11200 + }, + { + "epoch": 29.893333333333334, + "grad_norm": 0.2470703125, + "learning_rate": 0.00029984890758998176, + "loss": 0.469, + "step": 11210 + }, + { + "epoch": 29.92, + "grad_norm": 0.49609375, + "learning_rate": 0.00029984862532735264, + "loss": 0.4798, + "step": 11220 + }, + { + "epoch": 29.946666666666665, + "grad_norm": 0.23828125, + "learning_rate": 0.00029984834280144876, + "loss": 0.4725, + "step": 11230 + }, + { + "epoch": 29.973333333333333, + "grad_norm": 0.255859375, + "learning_rate": 0.0002998480600122705, + "loss": 0.4836, + "step": 11240 + }, + { + "epoch": 30.0, + "grad_norm": 0.2119140625, + "learning_rate": 0.0002998477769598186, + "loss": 0.4727, + "step": 11250 + }, + { + "epoch": 30.0, + "eval_loss": 0.4864569306373596, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 8.889, + "eval_samples_per_second": 1.8, + "eval_steps_per_second": 0.112, + "step": 11250 + }, + { + "epoch": 30.026666666666667, + "grad_norm": 0.255859375, + "learning_rate": 0.0002998474936440934, + "loss": 0.4922, + "step": 11260 + }, + { + "epoch": 30.053333333333335, + "grad_norm": 0.267578125, + "learning_rate": 0.0002998472100650954, + "loss": 0.4985, + "step": 11270 + }, + { + "epoch": 30.08, + "grad_norm": 0.23046875, + "learning_rate": 0.00029984692622282515, + "loss": 0.4846, + "step": 11280 + }, + { + "epoch": 30.106666666666666, + "grad_norm": 0.2470703125, + "learning_rate": 0.0002998466421172831, + "loss": 0.4798, + "step": 11290 + }, + { + "epoch": 30.133333333333333, + "grad_norm": 0.2421875, + "learning_rate": 0.0002998463577484697, + "loss": 0.4813, + "step": 11300 + }, + { + "epoch": 30.16, + "grad_norm": 0.306640625, + "learning_rate": 0.00029984607311638566, + "loss": 0.4865, + "step": 11310 + }, + { + "epoch": 30.186666666666667, + "grad_norm": 0.2734375, + "learning_rate": 0.0002998457882210313, + "loss": 0.4777, + "step": 11320 + }, + { + "epoch": 30.213333333333335, + "grad_norm": 0.185546875, + "learning_rate": 0.0002998455030624071, + "loss": 0.4737, + "step": 11330 + }, + { + "epoch": 30.24, + "grad_norm": 0.21875, + "learning_rate": 0.00029984521764051366, + "loss": 0.4767, + "step": 11340 + }, + { + "epoch": 30.266666666666666, + "grad_norm": 0.2373046875, + "learning_rate": 0.0002998449319553514, + "loss": 0.4809, + "step": 11350 + }, + { + "epoch": 30.293333333333333, + "grad_norm": 0.240234375, + "learning_rate": 0.00029984464600692093, + "loss": 0.4748, + "step": 11360 + }, + { + "epoch": 30.32, + "grad_norm": 0.2470703125, + "learning_rate": 0.00029984435979522265, + "loss": 0.4783, + "step": 11370 + }, + { + "epoch": 30.346666666666668, + "grad_norm": 0.33203125, + "learning_rate": 0.0002998440733202571, + "loss": 0.4871, + "step": 11380 + }, + { + "epoch": 30.373333333333335, + "grad_norm": 0.23828125, + "learning_rate": 0.0002998437865820247, + "loss": 0.4834, + "step": 11390 + }, + { + "epoch": 30.4, + "grad_norm": 0.25390625, + "learning_rate": 0.00029984349958052614, + "loss": 0.4793, + "step": 11400 + }, + { + "epoch": 30.426666666666666, + "grad_norm": 0.203125, + "learning_rate": 0.0002998432123157618, + "loss": 0.4862, + "step": 11410 + }, + { + "epoch": 30.453333333333333, + "grad_norm": 0.216796875, + "learning_rate": 0.0002998429247877322, + "loss": 0.4876, + "step": 11420 + }, + { + "epoch": 30.48, + "grad_norm": 0.28125, + "learning_rate": 0.0002998426369964379, + "loss": 0.495, + "step": 11430 + }, + { + "epoch": 30.506666666666668, + "grad_norm": 0.2177734375, + "learning_rate": 0.0002998423489418793, + "loss": 0.4836, + "step": 11440 + }, + { + "epoch": 30.533333333333335, + "grad_norm": 0.32421875, + "learning_rate": 0.00029984206062405697, + "loss": 0.4778, + "step": 11450 + }, + { + "epoch": 30.56, + "grad_norm": 0.29296875, + "learning_rate": 0.0002998417720429714, + "loss": 0.4784, + "step": 11460 + }, + { + "epoch": 30.586666666666666, + "grad_norm": 0.25, + "learning_rate": 0.0002998414831986231, + "loss": 0.4736, + "step": 11470 + }, + { + "epoch": 30.613333333333333, + "grad_norm": 0.197265625, + "learning_rate": 0.0002998411940910126, + "loss": 0.4596, + "step": 11480 + }, + { + "epoch": 30.64, + "grad_norm": 0.169921875, + "learning_rate": 0.0002998409047201404, + "loss": 0.4648, + "step": 11490 + }, + { + "epoch": 30.666666666666668, + "grad_norm": 0.26953125, + "learning_rate": 0.000299840615086007, + "loss": 0.4813, + "step": 11500 + }, + { + "epoch": 30.693333333333335, + "grad_norm": 0.236328125, + "learning_rate": 0.0002998403251886129, + "loss": 0.463, + "step": 11510 + }, + { + "epoch": 30.72, + "grad_norm": 0.25390625, + "learning_rate": 0.0002998400350279586, + "loss": 0.4809, + "step": 11520 + }, + { + "epoch": 30.746666666666666, + "grad_norm": 0.275390625, + "learning_rate": 0.0002998397446040446, + "loss": 0.4851, + "step": 11530 + }, + { + "epoch": 30.773333333333333, + "grad_norm": 0.263671875, + "learning_rate": 0.0002998394539168715, + "loss": 0.4928, + "step": 11540 + }, + { + "epoch": 30.8, + "grad_norm": 0.2236328125, + "learning_rate": 0.00029983916296643975, + "loss": 0.4789, + "step": 11550 + }, + { + "epoch": 30.826666666666668, + "grad_norm": 0.212890625, + "learning_rate": 0.0002998388717527498, + "loss": 0.474, + "step": 11560 + }, + { + "epoch": 30.85333333333333, + "grad_norm": 0.30078125, + "learning_rate": 0.00029983858027580226, + "loss": 0.4837, + "step": 11570 + }, + { + "epoch": 30.88, + "grad_norm": 0.337890625, + "learning_rate": 0.0002998382885355976, + "loss": 0.471, + "step": 11580 + }, + { + "epoch": 30.906666666666666, + "grad_norm": 0.31640625, + "learning_rate": 0.0002998379965321364, + "loss": 0.4731, + "step": 11590 + }, + { + "epoch": 30.933333333333334, + "grad_norm": 0.2578125, + "learning_rate": 0.000299837704265419, + "loss": 0.4754, + "step": 11600 + }, + { + "epoch": 30.96, + "grad_norm": 0.22265625, + "learning_rate": 0.0002998374117354461, + "loss": 0.472, + "step": 11610 + }, + { + "epoch": 30.986666666666668, + "grad_norm": 0.255859375, + "learning_rate": 0.00029983711894221806, + "loss": 0.4873, + "step": 11620 + }, + { + "epoch": 31.0, + "eval_loss": 0.48670804500579834, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.0195, + "eval_samples_per_second": 1.597, + "eval_steps_per_second": 0.1, + "step": 11625 + }, + { + "epoch": 31.013333333333332, + "grad_norm": 0.271484375, + "learning_rate": 0.00029983682588573555, + "loss": 0.4761, + "step": 11630 + }, + { + "epoch": 31.04, + "grad_norm": 0.3515625, + "learning_rate": 0.00029983653256599894, + "loss": 0.5006, + "step": 11640 + }, + { + "epoch": 31.066666666666666, + "grad_norm": 0.265625, + "learning_rate": 0.0002998362389830089, + "loss": 0.4883, + "step": 11650 + }, + { + "epoch": 31.093333333333334, + "grad_norm": 0.2470703125, + "learning_rate": 0.00029983594513676576, + "loss": 0.4822, + "step": 11660 + }, + { + "epoch": 31.12, + "grad_norm": 0.216796875, + "learning_rate": 0.0002998356510272702, + "loss": 0.4793, + "step": 11670 + }, + { + "epoch": 31.14666666666667, + "grad_norm": 0.291015625, + "learning_rate": 0.0002998353566545226, + "loss": 0.4883, + "step": 11680 + }, + { + "epoch": 31.173333333333332, + "grad_norm": 0.35546875, + "learning_rate": 0.0002998350620185236, + "loss": 0.478, + "step": 11690 + }, + { + "epoch": 31.2, + "grad_norm": 0.31640625, + "learning_rate": 0.00029983476711927366, + "loss": 0.4774, + "step": 11700 + }, + { + "epoch": 31.226666666666667, + "grad_norm": 0.240234375, + "learning_rate": 0.00029983447195677327, + "loss": 0.475, + "step": 11710 + }, + { + "epoch": 31.253333333333334, + "grad_norm": 0.412109375, + "learning_rate": 0.000299834176531023, + "loss": 0.474, + "step": 11720 + }, + { + "epoch": 31.28, + "grad_norm": 0.3125, + "learning_rate": 0.0002998338808420234, + "loss": 0.4872, + "step": 11730 + }, + { + "epoch": 31.306666666666665, + "grad_norm": 0.31640625, + "learning_rate": 0.0002998335848897749, + "loss": 0.4692, + "step": 11740 + }, + { + "epoch": 31.333333333333332, + "grad_norm": 0.224609375, + "learning_rate": 0.000299833288674278, + "loss": 0.4848, + "step": 11750 + }, + { + "epoch": 31.36, + "grad_norm": 0.2490234375, + "learning_rate": 0.0002998329921955334, + "loss": 0.4868, + "step": 11760 + }, + { + "epoch": 31.386666666666667, + "grad_norm": 0.3671875, + "learning_rate": 0.0002998326954535414, + "loss": 0.4786, + "step": 11770 + }, + { + "epoch": 31.413333333333334, + "grad_norm": 0.32421875, + "learning_rate": 0.0002998323984483027, + "loss": 0.4823, + "step": 11780 + }, + { + "epoch": 31.44, + "grad_norm": 0.240234375, + "learning_rate": 0.0002998321011798177, + "loss": 0.486, + "step": 11790 + }, + { + "epoch": 31.466666666666665, + "grad_norm": 0.23046875, + "learning_rate": 0.00029983180364808696, + "loss": 0.4952, + "step": 11800 + }, + { + "epoch": 31.493333333333332, + "grad_norm": 0.30078125, + "learning_rate": 0.00029983150585311105, + "loss": 0.487, + "step": 11810 + }, + { + "epoch": 31.52, + "grad_norm": 0.203125, + "learning_rate": 0.0002998312077948904, + "loss": 0.4806, + "step": 11820 + }, + { + "epoch": 31.546666666666667, + "grad_norm": 0.234375, + "learning_rate": 0.0002998309094734256, + "loss": 0.4773, + "step": 11830 + }, + { + "epoch": 31.573333333333334, + "grad_norm": 0.2578125, + "learning_rate": 0.0002998306108887172, + "loss": 0.4758, + "step": 11840 + }, + { + "epoch": 31.6, + "grad_norm": 0.28515625, + "learning_rate": 0.00029983031204076563, + "loss": 0.4704, + "step": 11850 + }, + { + "epoch": 31.626666666666665, + "grad_norm": 0.2275390625, + "learning_rate": 0.00029983001292957154, + "loss": 0.4559, + "step": 11860 + }, + { + "epoch": 31.653333333333332, + "grad_norm": 0.236328125, + "learning_rate": 0.0002998297135551353, + "loss": 0.4764, + "step": 11870 + }, + { + "epoch": 31.68, + "grad_norm": 0.220703125, + "learning_rate": 0.0002998294139174576, + "loss": 0.4677, + "step": 11880 + }, + { + "epoch": 31.706666666666667, + "grad_norm": 0.294921875, + "learning_rate": 0.0002998291140165389, + "loss": 0.4684, + "step": 11890 + }, + { + "epoch": 31.733333333333334, + "grad_norm": 0.24609375, + "learning_rate": 0.0002998288138523796, + "loss": 0.4878, + "step": 11900 + }, + { + "epoch": 31.76, + "grad_norm": 0.2734375, + "learning_rate": 0.00029982851342498046, + "loss": 0.4893, + "step": 11910 + }, + { + "epoch": 31.786666666666665, + "grad_norm": 0.279296875, + "learning_rate": 0.0002998282127343418, + "loss": 0.4877, + "step": 11920 + }, + { + "epoch": 31.813333333333333, + "grad_norm": 0.3984375, + "learning_rate": 0.0002998279117804643, + "loss": 0.4725, + "step": 11930 + }, + { + "epoch": 31.84, + "grad_norm": 0.400390625, + "learning_rate": 0.0002998276105633484, + "loss": 0.4786, + "step": 11940 + }, + { + "epoch": 31.866666666666667, + "grad_norm": 0.1943359375, + "learning_rate": 0.0002998273090829946, + "loss": 0.478, + "step": 11950 + }, + { + "epoch": 31.893333333333334, + "grad_norm": 0.296875, + "learning_rate": 0.00029982700733940357, + "loss": 0.4683, + "step": 11960 + }, + { + "epoch": 31.92, + "grad_norm": 0.291015625, + "learning_rate": 0.00029982670533257576, + "loss": 0.4787, + "step": 11970 + }, + { + "epoch": 31.946666666666665, + "grad_norm": 0.36328125, + "learning_rate": 0.00029982640306251164, + "loss": 0.4719, + "step": 11980 + }, + { + "epoch": 31.973333333333333, + "grad_norm": 0.337890625, + "learning_rate": 0.00029982610052921185, + "loss": 0.483, + "step": 11990 + }, + { + "epoch": 32.0, + "grad_norm": 0.26171875, + "learning_rate": 0.0002998257977326769, + "loss": 0.4716, + "step": 12000 + }, + { + "epoch": 32.0, + "eval_loss": 0.4881175458431244, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.5564, + "eval_samples_per_second": 1.674, + "eval_steps_per_second": 0.105, + "step": 12000 + }, + { + "epoch": 32.026666666666664, + "grad_norm": 0.2392578125, + "learning_rate": 0.0002998254946729072, + "loss": 0.4913, + "step": 12010 + }, + { + "epoch": 32.053333333333335, + "grad_norm": 0.2734375, + "learning_rate": 0.0002998251913499034, + "loss": 0.4976, + "step": 12020 + }, + { + "epoch": 32.08, + "grad_norm": 0.216796875, + "learning_rate": 0.00029982488776366604, + "loss": 0.4847, + "step": 12030 + }, + { + "epoch": 32.10666666666667, + "grad_norm": 0.37890625, + "learning_rate": 0.0002998245839141956, + "loss": 0.4796, + "step": 12040 + }, + { + "epoch": 32.13333333333333, + "grad_norm": 0.2451171875, + "learning_rate": 0.00029982427980149265, + "loss": 0.482, + "step": 12050 + }, + { + "epoch": 32.16, + "grad_norm": 0.341796875, + "learning_rate": 0.00029982397542555766, + "loss": 0.4858, + "step": 12060 + }, + { + "epoch": 32.18666666666667, + "grad_norm": 0.294921875, + "learning_rate": 0.00029982367078639123, + "loss": 0.4772, + "step": 12070 + }, + { + "epoch": 32.21333333333333, + "grad_norm": 0.2001953125, + "learning_rate": 0.0002998233658839939, + "loss": 0.4728, + "step": 12080 + }, + { + "epoch": 32.24, + "grad_norm": 0.263671875, + "learning_rate": 0.0002998230607183662, + "loss": 0.4769, + "step": 12090 + }, + { + "epoch": 32.266666666666666, + "grad_norm": 0.2197265625, + "learning_rate": 0.00029982275528950866, + "loss": 0.4795, + "step": 12100 + }, + { + "epoch": 32.29333333333334, + "grad_norm": 0.1943359375, + "learning_rate": 0.0002998224495974218, + "loss": 0.474, + "step": 12110 + }, + { + "epoch": 32.32, + "grad_norm": 0.2080078125, + "learning_rate": 0.00029982214364210607, + "loss": 0.4777, + "step": 12120 + }, + { + "epoch": 32.346666666666664, + "grad_norm": 0.2578125, + "learning_rate": 0.0002998218374235622, + "loss": 0.4861, + "step": 12130 + }, + { + "epoch": 32.373333333333335, + "grad_norm": 0.1904296875, + "learning_rate": 0.0002998215309417906, + "loss": 0.4827, + "step": 12140 + }, + { + "epoch": 32.4, + "grad_norm": 0.29296875, + "learning_rate": 0.00029982122419679186, + "loss": 0.479, + "step": 12150 + }, + { + "epoch": 32.42666666666667, + "grad_norm": 0.375, + "learning_rate": 0.0002998209171885665, + "loss": 0.4853, + "step": 12160 + }, + { + "epoch": 32.45333333333333, + "grad_norm": 0.349609375, + "learning_rate": 0.000299820609917115, + "loss": 0.4874, + "step": 12170 + }, + { + "epoch": 32.48, + "grad_norm": 0.287109375, + "learning_rate": 0.000299820302382438, + "loss": 0.4939, + "step": 12180 + }, + { + "epoch": 32.50666666666667, + "grad_norm": 0.208984375, + "learning_rate": 0.000299819994584536, + "loss": 0.4832, + "step": 12190 + }, + { + "epoch": 32.53333333333333, + "grad_norm": 0.169921875, + "learning_rate": 0.0002998196865234095, + "loss": 0.4762, + "step": 12200 + }, + { + "epoch": 32.56, + "grad_norm": 0.2333984375, + "learning_rate": 0.0002998193781990591, + "loss": 0.4779, + "step": 12210 + }, + { + "epoch": 32.586666666666666, + "grad_norm": 0.287109375, + "learning_rate": 0.0002998190696114853, + "loss": 0.473, + "step": 12220 + }, + { + "epoch": 32.61333333333333, + "grad_norm": 0.2490234375, + "learning_rate": 0.0002998187607606887, + "loss": 0.4594, + "step": 12230 + }, + { + "epoch": 32.64, + "grad_norm": 0.32421875, + "learning_rate": 0.00029981845164666975, + "loss": 0.4641, + "step": 12240 + }, + { + "epoch": 32.666666666666664, + "grad_norm": 0.263671875, + "learning_rate": 0.00029981814226942913, + "loss": 0.4799, + "step": 12250 + }, + { + "epoch": 32.693333333333335, + "grad_norm": 0.255859375, + "learning_rate": 0.00029981783262896726, + "loss": 0.4624, + "step": 12260 + }, + { + "epoch": 32.72, + "grad_norm": 0.41796875, + "learning_rate": 0.0002998175227252847, + "loss": 0.4797, + "step": 12270 + }, + { + "epoch": 32.74666666666667, + "grad_norm": 0.28515625, + "learning_rate": 0.00029981721255838205, + "loss": 0.4847, + "step": 12280 + }, + { + "epoch": 32.77333333333333, + "grad_norm": 0.302734375, + "learning_rate": 0.0002998169021282598, + "loss": 0.4927, + "step": 12290 + }, + { + "epoch": 32.8, + "grad_norm": 0.2060546875, + "learning_rate": 0.0002998165914349185, + "loss": 0.4794, + "step": 12300 + }, + { + "epoch": 32.82666666666667, + "grad_norm": 0.25, + "learning_rate": 0.0002998162804783588, + "loss": 0.4732, + "step": 12310 + }, + { + "epoch": 32.85333333333333, + "grad_norm": 0.25, + "learning_rate": 0.0002998159692585811, + "loss": 0.4825, + "step": 12320 + }, + { + "epoch": 32.88, + "grad_norm": 0.29296875, + "learning_rate": 0.00029981565777558605, + "loss": 0.4706, + "step": 12330 + }, + { + "epoch": 32.906666666666666, + "grad_norm": 0.33203125, + "learning_rate": 0.00029981534602937414, + "loss": 0.4733, + "step": 12340 + }, + { + "epoch": 32.93333333333333, + "grad_norm": 0.26171875, + "learning_rate": 0.0002998150340199459, + "loss": 0.4748, + "step": 12350 + }, + { + "epoch": 32.96, + "grad_norm": 0.2734375, + "learning_rate": 0.000299814721747302, + "loss": 0.4721, + "step": 12360 + }, + { + "epoch": 32.986666666666665, + "grad_norm": 0.263671875, + "learning_rate": 0.0002998144092114428, + "loss": 0.4865, + "step": 12370 + }, + { + "epoch": 33.0, + "eval_loss": 0.484887033700943, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.3807, + "eval_samples_per_second": 1.706, + "eval_steps_per_second": 0.107, + "step": 12375 + }, + { + "epoch": 33.013333333333335, + "grad_norm": 0.29296875, + "learning_rate": 0.000299814096412369, + "loss": 0.4753, + "step": 12380 + }, + { + "epoch": 33.04, + "grad_norm": 0.3515625, + "learning_rate": 0.0002998137833500811, + "loss": 0.4997, + "step": 12390 + }, + { + "epoch": 33.06666666666667, + "grad_norm": 0.306640625, + "learning_rate": 0.00029981347002457965, + "loss": 0.487, + "step": 12400 + }, + { + "epoch": 33.093333333333334, + "grad_norm": 0.31640625, + "learning_rate": 0.0002998131564358652, + "loss": 0.4815, + "step": 12410 + }, + { + "epoch": 33.12, + "grad_norm": 0.32421875, + "learning_rate": 0.00029981284258393827, + "loss": 0.478, + "step": 12420 + }, + { + "epoch": 33.14666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.0002998125284687995, + "loss": 0.4875, + "step": 12430 + }, + { + "epoch": 33.17333333333333, + "grad_norm": 0.224609375, + "learning_rate": 0.0002998122140904493, + "loss": 0.4773, + "step": 12440 + }, + { + "epoch": 33.2, + "grad_norm": 0.25390625, + "learning_rate": 0.0002998118994488884, + "loss": 0.4762, + "step": 12450 + }, + { + "epoch": 33.22666666666667, + "grad_norm": 0.2021484375, + "learning_rate": 0.0002998115845441172, + "loss": 0.4741, + "step": 12460 + }, + { + "epoch": 33.25333333333333, + "grad_norm": 0.23046875, + "learning_rate": 0.00029981126937613634, + "loss": 0.473, + "step": 12470 + }, + { + "epoch": 33.28, + "grad_norm": 0.3515625, + "learning_rate": 0.0002998109539449464, + "loss": 0.4868, + "step": 12480 + }, + { + "epoch": 33.306666666666665, + "grad_norm": 0.232421875, + "learning_rate": 0.00029981063825054775, + "loss": 0.4689, + "step": 12490 + }, + { + "epoch": 33.333333333333336, + "grad_norm": 0.26953125, + "learning_rate": 0.00029981032229294116, + "loss": 0.4843, + "step": 12500 + }, + { + "epoch": 33.36, + "grad_norm": 0.208984375, + "learning_rate": 0.0002998100060721271, + "loss": 0.4862, + "step": 12510 + }, + { + "epoch": 33.38666666666666, + "grad_norm": 0.267578125, + "learning_rate": 0.00029980968958810613, + "loss": 0.478, + "step": 12520 + }, + { + "epoch": 33.413333333333334, + "grad_norm": 0.2236328125, + "learning_rate": 0.0002998093728408788, + "loss": 0.4821, + "step": 12530 + }, + { + "epoch": 33.44, + "grad_norm": 0.25390625, + "learning_rate": 0.0002998090558304456, + "loss": 0.4852, + "step": 12540 + }, + { + "epoch": 33.46666666666667, + "grad_norm": 0.2392578125, + "learning_rate": 0.0002998087385568072, + "loss": 0.4946, + "step": 12550 + }, + { + "epoch": 33.49333333333333, + "grad_norm": 0.291015625, + "learning_rate": 0.00029980842101996416, + "loss": 0.4856, + "step": 12560 + }, + { + "epoch": 33.52, + "grad_norm": 0.27734375, + "learning_rate": 0.0002998081032199169, + "loss": 0.4806, + "step": 12570 + }, + { + "epoch": 33.54666666666667, + "grad_norm": 0.4140625, + "learning_rate": 0.00029980778515666616, + "loss": 0.477, + "step": 12580 + }, + { + "epoch": 33.57333333333333, + "grad_norm": 0.279296875, + "learning_rate": 0.00029980746683021237, + "loss": 0.4764, + "step": 12590 + }, + { + "epoch": 33.6, + "grad_norm": 0.322265625, + "learning_rate": 0.00029980714824055614, + "loss": 0.4699, + "step": 12600 + }, + { + "epoch": 33.626666666666665, + "grad_norm": 0.1904296875, + "learning_rate": 0.000299806829387698, + "loss": 0.4556, + "step": 12610 + }, + { + "epoch": 33.653333333333336, + "grad_norm": 0.197265625, + "learning_rate": 0.00029980651027163854, + "loss": 0.4765, + "step": 12620 + }, + { + "epoch": 33.68, + "grad_norm": 0.234375, + "learning_rate": 0.0002998061908923783, + "loss": 0.4676, + "step": 12630 + }, + { + "epoch": 33.70666666666666, + "grad_norm": 0.30859375, + "learning_rate": 0.00029980587124991785, + "loss": 0.4678, + "step": 12640 + }, + { + "epoch": 33.733333333333334, + "grad_norm": 0.275390625, + "learning_rate": 0.0002998055513442578, + "loss": 0.4875, + "step": 12650 + }, + { + "epoch": 33.76, + "grad_norm": 0.251953125, + "learning_rate": 0.0002998052311753986, + "loss": 0.4879, + "step": 12660 + }, + { + "epoch": 33.78666666666667, + "grad_norm": 0.234375, + "learning_rate": 0.0002998049107433409, + "loss": 0.4873, + "step": 12670 + }, + { + "epoch": 33.81333333333333, + "grad_norm": 0.353515625, + "learning_rate": 0.00029980459004808524, + "loss": 0.4716, + "step": 12680 + }, + { + "epoch": 33.84, + "grad_norm": 0.318359375, + "learning_rate": 0.0002998042690896321, + "loss": 0.478, + "step": 12690 + }, + { + "epoch": 33.86666666666667, + "grad_norm": 0.2001953125, + "learning_rate": 0.00029980394786798225, + "loss": 0.4781, + "step": 12700 + }, + { + "epoch": 33.89333333333333, + "grad_norm": 0.333984375, + "learning_rate": 0.0002998036263831361, + "loss": 0.4691, + "step": 12710 + }, + { + "epoch": 33.92, + "grad_norm": 0.2734375, + "learning_rate": 0.0002998033046350942, + "loss": 0.4785, + "step": 12720 + }, + { + "epoch": 33.946666666666665, + "grad_norm": 0.2890625, + "learning_rate": 0.0002998029826238572, + "loss": 0.471, + "step": 12730 + }, + { + "epoch": 33.973333333333336, + "grad_norm": 0.3671875, + "learning_rate": 0.00029980266034942564, + "loss": 0.4824, + "step": 12740 + }, + { + "epoch": 34.0, + "grad_norm": 0.328125, + "learning_rate": 0.0002998023378118, + "loss": 0.4717, + "step": 12750 + }, + { + "epoch": 34.0, + "eval_loss": 0.48443278670310974, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.9254, + "eval_samples_per_second": 1.464, + "eval_steps_per_second": 0.092, + "step": 12750 + }, + { + "epoch": 34.026666666666664, + "grad_norm": 0.380859375, + "learning_rate": 0.00029980201501098096, + "loss": 0.4909, + "step": 12760 + }, + { + "epoch": 34.053333333333335, + "grad_norm": 0.25390625, + "learning_rate": 0.00029980169194696905, + "loss": 0.4972, + "step": 12770 + }, + { + "epoch": 34.08, + "grad_norm": 0.2177734375, + "learning_rate": 0.00029980136861976485, + "loss": 0.4834, + "step": 12780 + }, + { + "epoch": 34.10666666666667, + "grad_norm": 0.26953125, + "learning_rate": 0.0002998010450293689, + "loss": 0.479, + "step": 12790 + }, + { + "epoch": 34.13333333333333, + "grad_norm": 0.2314453125, + "learning_rate": 0.00029980072117578177, + "loss": 0.4812, + "step": 12800 + }, + { + "epoch": 34.16, + "grad_norm": 0.30859375, + "learning_rate": 0.0002998003970590041, + "loss": 0.485, + "step": 12810 + }, + { + "epoch": 34.18666666666667, + "grad_norm": 0.333984375, + "learning_rate": 0.00029980007267903626, + "loss": 0.477, + "step": 12820 + }, + { + "epoch": 34.21333333333333, + "grad_norm": 0.279296875, + "learning_rate": 0.00029979974803587907, + "loss": 0.4715, + "step": 12830 + }, + { + "epoch": 34.24, + "grad_norm": 0.337890625, + "learning_rate": 0.000299799423129533, + "loss": 0.4764, + "step": 12840 + }, + { + "epoch": 34.266666666666666, + "grad_norm": 0.2392578125, + "learning_rate": 0.0002997990979599985, + "loss": 0.48, + "step": 12850 + }, + { + "epoch": 34.29333333333334, + "grad_norm": 0.1796875, + "learning_rate": 0.00029979877252727635, + "loss": 0.474, + "step": 12860 + }, + { + "epoch": 34.32, + "grad_norm": 0.16796875, + "learning_rate": 0.00029979844683136704, + "loss": 0.4774, + "step": 12870 + }, + { + "epoch": 34.346666666666664, + "grad_norm": 0.322265625, + "learning_rate": 0.00029979812087227106, + "loss": 0.4868, + "step": 12880 + }, + { + "epoch": 34.373333333333335, + "grad_norm": 0.26171875, + "learning_rate": 0.00029979779464998907, + "loss": 0.4821, + "step": 12890 + }, + { + "epoch": 34.4, + "grad_norm": 0.2236328125, + "learning_rate": 0.0002997974681645216, + "loss": 0.4776, + "step": 12900 + }, + { + "epoch": 34.42666666666667, + "grad_norm": 0.279296875, + "learning_rate": 0.0002997971414158693, + "loss": 0.4845, + "step": 12910 + }, + { + "epoch": 34.45333333333333, + "grad_norm": 0.2578125, + "learning_rate": 0.00029979681440403267, + "loss": 0.4864, + "step": 12920 + }, + { + "epoch": 34.48, + "grad_norm": 0.294921875, + "learning_rate": 0.0002997964871290122, + "loss": 0.4933, + "step": 12930 + }, + { + "epoch": 34.50666666666667, + "grad_norm": 0.203125, + "learning_rate": 0.0002997961595908087, + "loss": 0.4826, + "step": 12940 + }, + { + "epoch": 34.53333333333333, + "grad_norm": 0.1484375, + "learning_rate": 0.00029979583178942255, + "loss": 0.4766, + "step": 12950 + }, + { + "epoch": 34.56, + "grad_norm": 0.2275390625, + "learning_rate": 0.00029979550372485447, + "loss": 0.4775, + "step": 12960 + }, + { + "epoch": 34.586666666666666, + "grad_norm": 0.2177734375, + "learning_rate": 0.0002997951753971049, + "loss": 0.4732, + "step": 12970 + }, + { + "epoch": 34.61333333333333, + "grad_norm": 0.22265625, + "learning_rate": 0.0002997948468061744, + "loss": 0.459, + "step": 12980 + }, + { + "epoch": 34.64, + "grad_norm": 0.1630859375, + "learning_rate": 0.0002997945179520637, + "loss": 0.4635, + "step": 12990 + }, + { + "epoch": 34.666666666666664, + "grad_norm": 0.30859375, + "learning_rate": 0.0002997941888347733, + "loss": 0.4791, + "step": 13000 + }, + { + "epoch": 34.693333333333335, + "grad_norm": 0.2890625, + "learning_rate": 0.00029979385945430375, + "loss": 0.4626, + "step": 13010 + }, + { + "epoch": 34.72, + "grad_norm": 0.259765625, + "learning_rate": 0.0002997935298106557, + "loss": 0.4796, + "step": 13020 + }, + { + "epoch": 34.74666666666667, + "grad_norm": 0.3671875, + "learning_rate": 0.0002997931999038296, + "loss": 0.4842, + "step": 13030 + }, + { + "epoch": 34.77333333333333, + "grad_norm": 0.314453125, + "learning_rate": 0.00029979286973382625, + "loss": 0.4916, + "step": 13040 + }, + { + "epoch": 34.8, + "grad_norm": 0.232421875, + "learning_rate": 0.000299792539300646, + "loss": 0.4784, + "step": 13050 + }, + { + "epoch": 34.82666666666667, + "grad_norm": 0.380859375, + "learning_rate": 0.0002997922086042895, + "loss": 0.4728, + "step": 13060 + }, + { + "epoch": 34.85333333333333, + "grad_norm": 0.34765625, + "learning_rate": 0.0002997918776447574, + "loss": 0.4821, + "step": 13070 + }, + { + "epoch": 34.88, + "grad_norm": 0.36328125, + "learning_rate": 0.00029979154642205023, + "loss": 0.4698, + "step": 13080 + }, + { + "epoch": 34.906666666666666, + "grad_norm": 0.271484375, + "learning_rate": 0.0002997912149361686, + "loss": 0.4729, + "step": 13090 + }, + { + "epoch": 34.93333333333333, + "grad_norm": 0.265625, + "learning_rate": 0.00029979088318711304, + "loss": 0.4736, + "step": 13100 + }, + { + "epoch": 34.96, + "grad_norm": 0.2421875, + "learning_rate": 0.0002997905511748842, + "loss": 0.4721, + "step": 13110 + }, + { + "epoch": 34.986666666666665, + "grad_norm": 0.283203125, + "learning_rate": 0.00029979021889948255, + "loss": 0.4854, + "step": 13120 + }, + { + "epoch": 35.0, + "eval_loss": 0.4832444489002228, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.2491, + "eval_samples_per_second": 1.561, + "eval_steps_per_second": 0.098, + "step": 13125 + }, + { + "epoch": 35.013333333333335, + "grad_norm": 0.259765625, + "learning_rate": 0.0002997898863609088, + "loss": 0.4752, + "step": 13130 + }, + { + "epoch": 35.04, + "grad_norm": 0.26171875, + "learning_rate": 0.00029978955355916347, + "loss": 0.4986, + "step": 13140 + }, + { + "epoch": 35.06666666666667, + "grad_norm": 0.296875, + "learning_rate": 0.00029978922049424717, + "loss": 0.4866, + "step": 13150 + }, + { + "epoch": 35.093333333333334, + "grad_norm": 0.302734375, + "learning_rate": 0.0002997888871661605, + "loss": 0.4816, + "step": 13160 + }, + { + "epoch": 35.12, + "grad_norm": 0.271484375, + "learning_rate": 0.000299788553574904, + "loss": 0.4774, + "step": 13170 + }, + { + "epoch": 35.14666666666667, + "grad_norm": 0.21484375, + "learning_rate": 0.00029978821972047835, + "loss": 0.4871, + "step": 13180 + }, + { + "epoch": 35.17333333333333, + "grad_norm": 0.251953125, + "learning_rate": 0.0002997878856028839, + "loss": 0.4766, + "step": 13190 + }, + { + "epoch": 35.2, + "grad_norm": 0.2294921875, + "learning_rate": 0.00029978755122212153, + "loss": 0.4755, + "step": 13200 + }, + { + "epoch": 35.22666666666667, + "grad_norm": 0.2314453125, + "learning_rate": 0.00029978721657819167, + "loss": 0.4735, + "step": 13210 + }, + { + "epoch": 35.25333333333333, + "grad_norm": 0.271484375, + "learning_rate": 0.00029978688167109493, + "loss": 0.4732, + "step": 13220 + }, + { + "epoch": 35.28, + "grad_norm": 0.25390625, + "learning_rate": 0.0002997865465008319, + "loss": 0.4861, + "step": 13230 + }, + { + "epoch": 35.306666666666665, + "grad_norm": 0.283203125, + "learning_rate": 0.0002997862110674032, + "loss": 0.4682, + "step": 13240 + }, + { + "epoch": 35.333333333333336, + "grad_norm": 0.1923828125, + "learning_rate": 0.0002997858753708093, + "loss": 0.4838, + "step": 13250 + }, + { + "epoch": 35.36, + "grad_norm": 0.26171875, + "learning_rate": 0.000299785539411051, + "loss": 0.4856, + "step": 13260 + }, + { + "epoch": 35.38666666666666, + "grad_norm": 0.26171875, + "learning_rate": 0.00029978520318812876, + "loss": 0.4776, + "step": 13270 + }, + { + "epoch": 35.413333333333334, + "grad_norm": 0.2392578125, + "learning_rate": 0.00029978486670204313, + "loss": 0.4809, + "step": 13280 + }, + { + "epoch": 35.44, + "grad_norm": 0.2294921875, + "learning_rate": 0.0002997845299527948, + "loss": 0.4841, + "step": 13290 + }, + { + "epoch": 35.46666666666667, + "grad_norm": 0.328125, + "learning_rate": 0.00029978419294038425, + "loss": 0.4943, + "step": 13300 + }, + { + "epoch": 35.49333333333333, + "grad_norm": 0.1923828125, + "learning_rate": 0.0002997838556648122, + "loss": 0.4849, + "step": 13310 + }, + { + "epoch": 35.52, + "grad_norm": 0.1689453125, + "learning_rate": 0.0002997835181260791, + "loss": 0.4797, + "step": 13320 + }, + { + "epoch": 35.54666666666667, + "grad_norm": 0.2490234375, + "learning_rate": 0.00029978318032418573, + "loss": 0.4756, + "step": 13330 + }, + { + "epoch": 35.57333333333333, + "grad_norm": 0.1796875, + "learning_rate": 0.0002997828422591325, + "loss": 0.4751, + "step": 13340 + }, + { + "epoch": 35.6, + "grad_norm": 0.330078125, + "learning_rate": 0.0002997825039309201, + "loss": 0.4702, + "step": 13350 + }, + { + "epoch": 35.626666666666665, + "grad_norm": 0.267578125, + "learning_rate": 0.00029978216533954914, + "loss": 0.4557, + "step": 13360 + }, + { + "epoch": 35.653333333333336, + "grad_norm": 0.287109375, + "learning_rate": 0.0002997818264850202, + "loss": 0.4754, + "step": 13370 + }, + { + "epoch": 35.68, + "grad_norm": 0.2373046875, + "learning_rate": 0.00029978148736733377, + "loss": 0.4661, + "step": 13380 + }, + { + "epoch": 35.70666666666666, + "grad_norm": 0.28515625, + "learning_rate": 0.0002997811479864906, + "loss": 0.468, + "step": 13390 + }, + { + "epoch": 35.733333333333334, + "grad_norm": 0.29296875, + "learning_rate": 0.00029978080834249123, + "loss": 0.487, + "step": 13400 + }, + { + "epoch": 35.76, + "grad_norm": 0.3046875, + "learning_rate": 0.0002997804684353362, + "loss": 0.4881, + "step": 13410 + }, + { + "epoch": 35.78666666666667, + "grad_norm": 0.326171875, + "learning_rate": 0.00029978012826502613, + "loss": 0.4863, + "step": 13420 + }, + { + "epoch": 35.81333333333333, + "grad_norm": 0.3125, + "learning_rate": 0.0002997797878315617, + "loss": 0.4714, + "step": 13430 + }, + { + "epoch": 35.84, + "grad_norm": 0.306640625, + "learning_rate": 0.0002997794471349434, + "loss": 0.4779, + "step": 13440 + }, + { + "epoch": 35.86666666666667, + "grad_norm": 0.265625, + "learning_rate": 0.0002997791061751719, + "loss": 0.4774, + "step": 13450 + }, + { + "epoch": 35.89333333333333, + "grad_norm": 0.33203125, + "learning_rate": 0.0002997787649522478, + "loss": 0.4679, + "step": 13460 + }, + { + "epoch": 35.92, + "grad_norm": 0.376953125, + "learning_rate": 0.00029977842346617164, + "loss": 0.4774, + "step": 13470 + }, + { + "epoch": 35.946666666666665, + "grad_norm": 0.267578125, + "learning_rate": 0.0002997780817169441, + "loss": 0.4706, + "step": 13480 + }, + { + "epoch": 35.973333333333336, + "grad_norm": 0.34375, + "learning_rate": 0.00029977773970456565, + "loss": 0.4821, + "step": 13490 + }, + { + "epoch": 36.0, + "grad_norm": 0.283203125, + "learning_rate": 0.00029977739742903704, + "loss": 0.4707, + "step": 13500 + }, + { + "epoch": 36.0, + "eval_loss": 0.4858068525791168, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.3774, + "eval_samples_per_second": 1.542, + "eval_steps_per_second": 0.096, + "step": 13500 + }, + { + "epoch": 36.026666666666664, + "grad_norm": 0.3671875, + "learning_rate": 0.0002997770548903588, + "loss": 0.4907, + "step": 13510 + }, + { + "epoch": 36.053333333333335, + "grad_norm": 0.28515625, + "learning_rate": 0.0002997767120885315, + "loss": 0.4971, + "step": 13520 + }, + { + "epoch": 36.08, + "grad_norm": 0.271484375, + "learning_rate": 0.0002997763690235558, + "loss": 0.4841, + "step": 13530 + }, + { + "epoch": 36.10666666666667, + "grad_norm": 0.27734375, + "learning_rate": 0.00029977602569543235, + "loss": 0.4787, + "step": 13540 + }, + { + "epoch": 36.13333333333333, + "grad_norm": 0.2265625, + "learning_rate": 0.00029977568210416163, + "loss": 0.4803, + "step": 13550 + }, + { + "epoch": 36.16, + "grad_norm": 0.373046875, + "learning_rate": 0.0002997753382497443, + "loss": 0.4852, + "step": 13560 + }, + { + "epoch": 36.18666666666667, + "grad_norm": 0.28515625, + "learning_rate": 0.000299774994132181, + "loss": 0.4768, + "step": 13570 + }, + { + "epoch": 36.21333333333333, + "grad_norm": 0.34765625, + "learning_rate": 0.00029977464975147224, + "loss": 0.4719, + "step": 13580 + }, + { + "epoch": 36.24, + "grad_norm": 0.28125, + "learning_rate": 0.00029977430510761874, + "loss": 0.4748, + "step": 13590 + }, + { + "epoch": 36.266666666666666, + "grad_norm": 0.255859375, + "learning_rate": 0.00029977396020062103, + "loss": 0.4798, + "step": 13600 + }, + { + "epoch": 36.29333333333334, + "grad_norm": 0.29296875, + "learning_rate": 0.00029977361503047976, + "loss": 0.474, + "step": 13610 + }, + { + "epoch": 36.32, + "grad_norm": 0.396484375, + "learning_rate": 0.00029977326959719546, + "loss": 0.4773, + "step": 13620 + }, + { + "epoch": 36.346666666666664, + "grad_norm": 0.296875, + "learning_rate": 0.00029977292390076884, + "loss": 0.4857, + "step": 13630 + }, + { + "epoch": 36.373333333333335, + "grad_norm": 0.265625, + "learning_rate": 0.00029977257794120045, + "loss": 0.4823, + "step": 13640 + }, + { + "epoch": 36.4, + "grad_norm": 0.310546875, + "learning_rate": 0.0002997722317184909, + "loss": 0.478, + "step": 13650 + }, + { + "epoch": 36.42666666666667, + "grad_norm": 0.298828125, + "learning_rate": 0.00029977188523264077, + "loss": 0.4842, + "step": 13660 + }, + { + "epoch": 36.45333333333333, + "grad_norm": 0.234375, + "learning_rate": 0.00029977153848365074, + "loss": 0.4866, + "step": 13670 + }, + { + "epoch": 36.48, + "grad_norm": 0.2431640625, + "learning_rate": 0.00029977119147152136, + "loss": 0.4933, + "step": 13680 + }, + { + "epoch": 36.50666666666667, + "grad_norm": 0.306640625, + "learning_rate": 0.00029977084419625325, + "loss": 0.4826, + "step": 13690 + }, + { + "epoch": 36.53333333333333, + "grad_norm": 0.251953125, + "learning_rate": 0.00029977049665784705, + "loss": 0.4756, + "step": 13700 + }, + { + "epoch": 36.56, + "grad_norm": 0.240234375, + "learning_rate": 0.0002997701488563034, + "loss": 0.4773, + "step": 13710 + }, + { + "epoch": 36.586666666666666, + "grad_norm": 0.3125, + "learning_rate": 0.0002997698007916228, + "loss": 0.4721, + "step": 13720 + }, + { + "epoch": 36.61333333333333, + "grad_norm": 0.279296875, + "learning_rate": 0.000299769452463806, + "loss": 0.4582, + "step": 13730 + }, + { + "epoch": 36.64, + "grad_norm": 0.216796875, + "learning_rate": 0.00029976910387285343, + "loss": 0.4634, + "step": 13740 + }, + { + "epoch": 36.666666666666664, + "grad_norm": 0.1875, + "learning_rate": 0.00029976875501876583, + "loss": 0.4796, + "step": 13750 + }, + { + "epoch": 36.693333333333335, + "grad_norm": 0.193359375, + "learning_rate": 0.00029976840590154383, + "loss": 0.4618, + "step": 13760 + }, + { + "epoch": 36.72, + "grad_norm": 0.267578125, + "learning_rate": 0.000299768056521188, + "loss": 0.4789, + "step": 13770 + }, + { + "epoch": 36.74666666666667, + "grad_norm": 0.400390625, + "learning_rate": 0.00029976770687769894, + "loss": 0.4837, + "step": 13780 + }, + { + "epoch": 36.77333333333333, + "grad_norm": 0.375, + "learning_rate": 0.00029976735697107736, + "loss": 0.4919, + "step": 13790 + }, + { + "epoch": 36.8, + "grad_norm": 0.267578125, + "learning_rate": 0.0002997670068013237, + "loss": 0.4775, + "step": 13800 + }, + { + "epoch": 36.82666666666667, + "grad_norm": 0.2333984375, + "learning_rate": 0.0002997666563684387, + "loss": 0.4727, + "step": 13810 + }, + { + "epoch": 36.85333333333333, + "grad_norm": 0.328125, + "learning_rate": 0.000299766305672423, + "loss": 0.4822, + "step": 13820 + }, + { + "epoch": 36.88, + "grad_norm": 0.2578125, + "learning_rate": 0.0002997659547132771, + "loss": 0.4692, + "step": 13830 + }, + { + "epoch": 36.906666666666666, + "grad_norm": 0.384765625, + "learning_rate": 0.0002997656034910017, + "loss": 0.4721, + "step": 13840 + }, + { + "epoch": 36.93333333333333, + "grad_norm": 0.224609375, + "learning_rate": 0.00029976525200559745, + "loss": 0.4734, + "step": 13850 + }, + { + "epoch": 36.96, + "grad_norm": 0.2373046875, + "learning_rate": 0.00029976490025706486, + "loss": 0.4716, + "step": 13860 + }, + { + "epoch": 36.986666666666665, + "grad_norm": 0.220703125, + "learning_rate": 0.0002997645482454046, + "loss": 0.4849, + "step": 13870 + }, + { + "epoch": 37.0, + "eval_loss": 0.485599547624588, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.5734, + "eval_samples_per_second": 1.513, + "eval_steps_per_second": 0.095, + "step": 13875 + }, + { + "epoch": 37.013333333333335, + "grad_norm": 0.349609375, + "learning_rate": 0.0002997641959706173, + "loss": 0.474, + "step": 13880 + }, + { + "epoch": 37.04, + "grad_norm": 0.310546875, + "learning_rate": 0.0002997638434327036, + "loss": 0.4988, + "step": 13890 + }, + { + "epoch": 37.06666666666667, + "grad_norm": 0.3671875, + "learning_rate": 0.000299763490631664, + "loss": 0.4861, + "step": 13900 + }, + { + "epoch": 37.093333333333334, + "grad_norm": 0.302734375, + "learning_rate": 0.00029976313756749937, + "loss": 0.4811, + "step": 13910 + }, + { + "epoch": 37.12, + "grad_norm": 0.2890625, + "learning_rate": 0.00029976278424021007, + "loss": 0.4768, + "step": 13920 + }, + { + "epoch": 37.14666666666667, + "grad_norm": 0.34765625, + "learning_rate": 0.0002997624306497968, + "loss": 0.4863, + "step": 13930 + }, + { + "epoch": 37.17333333333333, + "grad_norm": 0.349609375, + "learning_rate": 0.0002997620767962603, + "loss": 0.4767, + "step": 13940 + }, + { + "epoch": 37.2, + "grad_norm": 0.294921875, + "learning_rate": 0.000299761722679601, + "loss": 0.4749, + "step": 13950 + }, + { + "epoch": 37.22666666666667, + "grad_norm": 0.24609375, + "learning_rate": 0.00029976136829981963, + "loss": 0.4727, + "step": 13960 + }, + { + "epoch": 37.25333333333333, + "grad_norm": 0.2353515625, + "learning_rate": 0.00029976101365691686, + "loss": 0.4726, + "step": 13970 + }, + { + "epoch": 37.28, + "grad_norm": 0.328125, + "learning_rate": 0.00029976065875089323, + "loss": 0.4863, + "step": 13980 + }, + { + "epoch": 37.306666666666665, + "grad_norm": 0.298828125, + "learning_rate": 0.00029976030358174936, + "loss": 0.4676, + "step": 13990 + }, + { + "epoch": 37.333333333333336, + "grad_norm": 0.263671875, + "learning_rate": 0.00029975994814948593, + "loss": 0.4835, + "step": 14000 + }, + { + "epoch": 37.36, + "grad_norm": 0.302734375, + "learning_rate": 0.0002997595924541035, + "loss": 0.4859, + "step": 14010 + }, + { + "epoch": 37.38666666666666, + "grad_norm": 0.306640625, + "learning_rate": 0.00029975923649560275, + "loss": 0.4769, + "step": 14020 + }, + { + "epoch": 37.413333333333334, + "grad_norm": 0.2578125, + "learning_rate": 0.0002997588802739843, + "loss": 0.4809, + "step": 14030 + }, + { + "epoch": 37.44, + "grad_norm": 0.234375, + "learning_rate": 0.00029975852378924875, + "loss": 0.4837, + "step": 14040 + }, + { + "epoch": 37.46666666666667, + "grad_norm": 0.263671875, + "learning_rate": 0.00029975816704139673, + "loss": 0.4936, + "step": 14050 + }, + { + "epoch": 37.49333333333333, + "grad_norm": 0.29296875, + "learning_rate": 0.0002997578100304289, + "loss": 0.4846, + "step": 14060 + }, + { + "epoch": 37.52, + "grad_norm": 0.265625, + "learning_rate": 0.0002997574527563458, + "loss": 0.4793, + "step": 14070 + }, + { + "epoch": 37.54666666666667, + "grad_norm": 0.2236328125, + "learning_rate": 0.00029975709521914816, + "loss": 0.4752, + "step": 14080 + }, + { + "epoch": 37.57333333333333, + "grad_norm": 0.22265625, + "learning_rate": 0.0002997567374188366, + "loss": 0.4751, + "step": 14090 + }, + { + "epoch": 37.6, + "grad_norm": 0.283203125, + "learning_rate": 0.00029975637935541165, + "loss": 0.4687, + "step": 14100 + }, + { + "epoch": 37.626666666666665, + "grad_norm": 0.322265625, + "learning_rate": 0.0002997560210288741, + "loss": 0.4549, + "step": 14110 + }, + { + "epoch": 37.653333333333336, + "grad_norm": 0.3828125, + "learning_rate": 0.00029975566243922437, + "loss": 0.4743, + "step": 14120 + }, + { + "epoch": 37.68, + "grad_norm": 0.2255859375, + "learning_rate": 0.0002997553035864633, + "loss": 0.4666, + "step": 14130 + }, + { + "epoch": 37.70666666666666, + "grad_norm": 0.310546875, + "learning_rate": 0.00029975494447059137, + "loss": 0.4671, + "step": 14140 + }, + { + "epoch": 37.733333333333334, + "grad_norm": 0.212890625, + "learning_rate": 0.0002997545850916093, + "loss": 0.4861, + "step": 14150 + }, + { + "epoch": 37.76, + "grad_norm": 0.4296875, + "learning_rate": 0.0002997542254495177, + "loss": 0.4875, + "step": 14160 + }, + { + "epoch": 37.78666666666667, + "grad_norm": 0.349609375, + "learning_rate": 0.0002997538655443171, + "loss": 0.4864, + "step": 14170 + }, + { + "epoch": 37.81333333333333, + "grad_norm": 0.271484375, + "learning_rate": 0.0002997535053760083, + "loss": 0.4709, + "step": 14180 + }, + { + "epoch": 37.84, + "grad_norm": 0.318359375, + "learning_rate": 0.0002997531449445918, + "loss": 0.4773, + "step": 14190 + }, + { + "epoch": 37.86666666666667, + "grad_norm": 0.25, + "learning_rate": 0.00029975278425006834, + "loss": 0.4767, + "step": 14200 + }, + { + "epoch": 37.89333333333333, + "grad_norm": 0.265625, + "learning_rate": 0.0002997524232924385, + "loss": 0.4668, + "step": 14210 + }, + { + "epoch": 37.92, + "grad_norm": 0.30078125, + "learning_rate": 0.00029975206207170284, + "loss": 0.4772, + "step": 14220 + }, + { + "epoch": 37.946666666666665, + "grad_norm": 0.2275390625, + "learning_rate": 0.00029975170058786215, + "loss": 0.4692, + "step": 14230 + }, + { + "epoch": 37.973333333333336, + "grad_norm": 0.1904296875, + "learning_rate": 0.000299751338840917, + "loss": 0.4809, + "step": 14240 + }, + { + "epoch": 38.0, + "grad_norm": 0.275390625, + "learning_rate": 0.000299750976830868, + "loss": 0.4702, + "step": 14250 + }, + { + "epoch": 38.0, + "eval_loss": 0.48388516902923584, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 11.8805, + "eval_samples_per_second": 1.347, + "eval_steps_per_second": 0.084, + "step": 14250 + }, + { + "epoch": 38.026666666666664, + "grad_norm": 0.2099609375, + "learning_rate": 0.0002997506145577157, + "loss": 0.4898, + "step": 14260 + }, + { + "epoch": 38.053333333333335, + "grad_norm": 0.271484375, + "learning_rate": 0.000299750252021461, + "loss": 0.4959, + "step": 14270 + }, + { + "epoch": 38.08, + "grad_norm": 0.25390625, + "learning_rate": 0.0002997498892221042, + "loss": 0.4826, + "step": 14280 + }, + { + "epoch": 38.10666666666667, + "grad_norm": 0.234375, + "learning_rate": 0.0002997495261596462, + "loss": 0.478, + "step": 14290 + }, + { + "epoch": 38.13333333333333, + "grad_norm": 0.2119140625, + "learning_rate": 0.00029974916283408756, + "loss": 0.4796, + "step": 14300 + }, + { + "epoch": 38.16, + "grad_norm": 0.244140625, + "learning_rate": 0.00029974879924542886, + "loss": 0.4838, + "step": 14310 + }, + { + "epoch": 38.18666666666667, + "grad_norm": 0.2451171875, + "learning_rate": 0.0002997484353936708, + "loss": 0.476, + "step": 14320 + }, + { + "epoch": 38.21333333333333, + "grad_norm": 0.2890625, + "learning_rate": 0.000299748071278814, + "loss": 0.4706, + "step": 14330 + }, + { + "epoch": 38.24, + "grad_norm": 0.287109375, + "learning_rate": 0.0002997477069008591, + "loss": 0.4757, + "step": 14340 + }, + { + "epoch": 38.266666666666666, + "grad_norm": 0.365234375, + "learning_rate": 0.00029974734225980676, + "loss": 0.4785, + "step": 14350 + }, + { + "epoch": 38.29333333333334, + "grad_norm": 0.24609375, + "learning_rate": 0.0002997469773556576, + "loss": 0.473, + "step": 14360 + }, + { + "epoch": 38.32, + "grad_norm": 0.240234375, + "learning_rate": 0.0002997466121884122, + "loss": 0.4763, + "step": 14370 + }, + { + "epoch": 38.346666666666664, + "grad_norm": 0.216796875, + "learning_rate": 0.0002997462467580714, + "loss": 0.4852, + "step": 14380 + }, + { + "epoch": 38.373333333333335, + "grad_norm": 0.318359375, + "learning_rate": 0.00029974588106463555, + "loss": 0.4808, + "step": 14390 + }, + { + "epoch": 38.4, + "grad_norm": 0.34375, + "learning_rate": 0.00029974551510810555, + "loss": 0.4773, + "step": 14400 + }, + { + "epoch": 38.42666666666667, + "grad_norm": 0.2734375, + "learning_rate": 0.0002997451488884819, + "loss": 0.4839, + "step": 14410 + }, + { + "epoch": 38.45333333333333, + "grad_norm": 0.251953125, + "learning_rate": 0.00029974478240576535, + "loss": 0.486, + "step": 14420 + }, + { + "epoch": 38.48, + "grad_norm": 0.337890625, + "learning_rate": 0.00029974441565995644, + "loss": 0.4923, + "step": 14430 + }, + { + "epoch": 38.50666666666667, + "grad_norm": 0.28515625, + "learning_rate": 0.0002997440486510558, + "loss": 0.4819, + "step": 14440 + }, + { + "epoch": 38.53333333333333, + "grad_norm": 0.1953125, + "learning_rate": 0.00029974368137906417, + "loss": 0.475, + "step": 14450 + }, + { + "epoch": 38.56, + "grad_norm": 0.2431640625, + "learning_rate": 0.0002997433138439822, + "loss": 0.4767, + "step": 14460 + }, + { + "epoch": 38.586666666666666, + "grad_norm": 0.267578125, + "learning_rate": 0.00029974294604581046, + "loss": 0.4724, + "step": 14470 + }, + { + "epoch": 38.61333333333333, + "grad_norm": 0.236328125, + "learning_rate": 0.00029974257798454963, + "loss": 0.4582, + "step": 14480 + }, + { + "epoch": 38.64, + "grad_norm": 0.2236328125, + "learning_rate": 0.0002997422096602003, + "loss": 0.4631, + "step": 14490 + }, + { + "epoch": 38.666666666666664, + "grad_norm": 0.201171875, + "learning_rate": 0.00029974184107276326, + "loss": 0.4781, + "step": 14500 + }, + { + "epoch": 38.693333333333335, + "grad_norm": 0.341796875, + "learning_rate": 0.000299741472222239, + "loss": 0.4613, + "step": 14510 + }, + { + "epoch": 38.72, + "grad_norm": 0.294921875, + "learning_rate": 0.00029974110310862826, + "loss": 0.4786, + "step": 14520 + }, + { + "epoch": 38.74666666666667, + "grad_norm": 0.275390625, + "learning_rate": 0.00029974073373193166, + "loss": 0.483, + "step": 14530 + }, + { + "epoch": 38.77333333333333, + "grad_norm": 0.345703125, + "learning_rate": 0.0002997403640921499, + "loss": 0.4916, + "step": 14540 + }, + { + "epoch": 38.8, + "grad_norm": 0.25, + "learning_rate": 0.0002997399941892835, + "loss": 0.4777, + "step": 14550 + }, + { + "epoch": 38.82666666666667, + "grad_norm": 0.294921875, + "learning_rate": 0.00029973962402333326, + "loss": 0.4716, + "step": 14560 + }, + { + "epoch": 38.85333333333333, + "grad_norm": 0.5546875, + "learning_rate": 0.00029973925359429973, + "loss": 0.4814, + "step": 14570 + }, + { + "epoch": 38.88, + "grad_norm": 0.423828125, + "learning_rate": 0.00029973888290218357, + "loss": 0.4692, + "step": 14580 + }, + { + "epoch": 38.906666666666666, + "grad_norm": 0.29296875, + "learning_rate": 0.00029973851194698553, + "loss": 0.4715, + "step": 14590 + }, + { + "epoch": 38.93333333333333, + "grad_norm": 0.306640625, + "learning_rate": 0.00029973814072870616, + "loss": 0.4735, + "step": 14600 + }, + { + "epoch": 38.96, + "grad_norm": 0.322265625, + "learning_rate": 0.00029973776924734606, + "loss": 0.4713, + "step": 14610 + }, + { + "epoch": 38.986666666666665, + "grad_norm": 0.296875, + "learning_rate": 0.00029973739750290603, + "loss": 0.4846, + "step": 14620 + }, + { + "epoch": 39.0, + "eval_loss": 0.4854857325553894, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.1291, + "eval_samples_per_second": 1.58, + "eval_steps_per_second": 0.099, + "step": 14625 + }, + { + "epoch": 39.013333333333335, + "grad_norm": 0.28125, + "learning_rate": 0.0002997370254953867, + "loss": 0.4735, + "step": 14630 + }, + { + "epoch": 39.04, + "grad_norm": 0.25, + "learning_rate": 0.0002997366532247886, + "loss": 0.4984, + "step": 14640 + }, + { + "epoch": 39.06666666666667, + "grad_norm": 0.388671875, + "learning_rate": 0.0002997362806911125, + "loss": 0.4856, + "step": 14650 + }, + { + "epoch": 39.093333333333334, + "grad_norm": 0.27734375, + "learning_rate": 0.000299735907894359, + "loss": 0.481, + "step": 14660 + }, + { + "epoch": 39.12, + "grad_norm": 0.255859375, + "learning_rate": 0.00029973553483452875, + "loss": 0.4766, + "step": 14670 + }, + { + "epoch": 39.14666666666667, + "grad_norm": 0.2470703125, + "learning_rate": 0.0002997351615116225, + "loss": 0.4856, + "step": 14680 + }, + { + "epoch": 39.17333333333333, + "grad_norm": 0.365234375, + "learning_rate": 0.0002997347879256408, + "loss": 0.4766, + "step": 14690 + }, + { + "epoch": 39.2, + "grad_norm": 0.3203125, + "learning_rate": 0.00029973441407658434, + "loss": 0.475, + "step": 14700 + }, + { + "epoch": 39.22666666666667, + "grad_norm": 0.34765625, + "learning_rate": 0.0002997340399644538, + "loss": 0.473, + "step": 14710 + }, + { + "epoch": 39.25333333333333, + "grad_norm": 0.2734375, + "learning_rate": 0.00029973366558924973, + "loss": 0.4719, + "step": 14720 + }, + { + "epoch": 39.28, + "grad_norm": 0.396484375, + "learning_rate": 0.00029973329095097295, + "loss": 0.4861, + "step": 14730 + }, + { + "epoch": 39.306666666666665, + "grad_norm": 0.5234375, + "learning_rate": 0.000299732916049624, + "loss": 0.4677, + "step": 14740 + }, + { + "epoch": 39.333333333333336, + "grad_norm": 0.47265625, + "learning_rate": 0.00029973254088520363, + "loss": 0.4827, + "step": 14750 + }, + { + "epoch": 39.36, + "grad_norm": 0.38671875, + "learning_rate": 0.0002997321654577124, + "loss": 0.4844, + "step": 14760 + }, + { + "epoch": 39.38666666666666, + "grad_norm": 0.3984375, + "learning_rate": 0.000299731789767151, + "loss": 0.4765, + "step": 14770 + }, + { + "epoch": 39.413333333333334, + "grad_norm": 0.36328125, + "learning_rate": 0.00029973141381352015, + "loss": 0.4805, + "step": 14780 + }, + { + "epoch": 39.44, + "grad_norm": 0.34375, + "learning_rate": 0.0002997310375968205, + "loss": 0.4841, + "step": 14790 + }, + { + "epoch": 39.46666666666667, + "grad_norm": 0.361328125, + "learning_rate": 0.0002997306611170526, + "loss": 0.4931, + "step": 14800 + }, + { + "epoch": 39.49333333333333, + "grad_norm": 0.384765625, + "learning_rate": 0.00029973028437421727, + "loss": 0.4843, + "step": 14810 + }, + { + "epoch": 39.52, + "grad_norm": 0.263671875, + "learning_rate": 0.000299729907368315, + "loss": 0.4787, + "step": 14820 + }, + { + "epoch": 39.54666666666667, + "grad_norm": 0.267578125, + "learning_rate": 0.0002997295300993466, + "loss": 0.4752, + "step": 14830 + }, + { + "epoch": 39.57333333333333, + "grad_norm": 0.25390625, + "learning_rate": 0.00029972915256731267, + "loss": 0.475, + "step": 14840 + }, + { + "epoch": 39.6, + "grad_norm": 0.318359375, + "learning_rate": 0.0002997287747722139, + "loss": 0.4684, + "step": 14850 + }, + { + "epoch": 39.626666666666665, + "grad_norm": 0.2353515625, + "learning_rate": 0.00029972839671405096, + "loss": 0.4547, + "step": 14860 + }, + { + "epoch": 39.653333333333336, + "grad_norm": 0.326171875, + "learning_rate": 0.0002997280183928244, + "loss": 0.4749, + "step": 14870 + }, + { + "epoch": 39.68, + "grad_norm": 0.341796875, + "learning_rate": 0.000299727639808535, + "loss": 0.4658, + "step": 14880 + }, + { + "epoch": 39.70666666666666, + "grad_norm": 0.3515625, + "learning_rate": 0.00029972726096118345, + "loss": 0.4669, + "step": 14890 + }, + { + "epoch": 39.733333333333334, + "grad_norm": 0.373046875, + "learning_rate": 0.0002997268818507703, + "loss": 0.4863, + "step": 14900 + }, + { + "epoch": 39.76, + "grad_norm": 0.259765625, + "learning_rate": 0.00029972650247729637, + "loss": 0.4868, + "step": 14910 + }, + { + "epoch": 39.78666666666667, + "grad_norm": 0.328125, + "learning_rate": 0.00029972612284076214, + "loss": 0.4858, + "step": 14920 + }, + { + "epoch": 39.81333333333333, + "grad_norm": 0.30078125, + "learning_rate": 0.0002997257429411684, + "loss": 0.471, + "step": 14930 + }, + { + "epoch": 39.84, + "grad_norm": 0.390625, + "learning_rate": 0.0002997253627785158, + "loss": 0.4763, + "step": 14940 + }, + { + "epoch": 39.86666666666667, + "grad_norm": 0.1767578125, + "learning_rate": 0.000299724982352805, + "loss": 0.4761, + "step": 14950 + }, + { + "epoch": 39.89333333333333, + "grad_norm": 0.236328125, + "learning_rate": 0.0002997246016640367, + "loss": 0.4667, + "step": 14960 + }, + { + "epoch": 39.92, + "grad_norm": 0.359375, + "learning_rate": 0.00029972422071221155, + "loss": 0.477, + "step": 14970 + }, + { + "epoch": 39.946666666666665, + "grad_norm": 0.25, + "learning_rate": 0.00029972383949733016, + "loss": 0.4695, + "step": 14980 + }, + { + "epoch": 39.973333333333336, + "grad_norm": 0.328125, + "learning_rate": 0.00029972345801939325, + "loss": 0.481, + "step": 14990 + }, + { + "epoch": 40.0, + "grad_norm": 0.2197265625, + "learning_rate": 0.0002997230762784015, + "loss": 0.4699, + "step": 15000 + }, + { + "epoch": 40.0, + "eval_loss": 0.4851369857788086, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.0451, + "eval_samples_per_second": 1.593, + "eval_steps_per_second": 0.1, + "step": 15000 + }, + { + "epoch": 40.026666666666664, + "grad_norm": 0.333984375, + "learning_rate": 0.00029972269427435555, + "loss": 0.4896, + "step": 15010 + }, + { + "epoch": 40.053333333333335, + "grad_norm": 0.26171875, + "learning_rate": 0.00029972231200725606, + "loss": 0.4955, + "step": 15020 + }, + { + "epoch": 40.08, + "grad_norm": 0.244140625, + "learning_rate": 0.00029972192947710376, + "loss": 0.4827, + "step": 15030 + }, + { + "epoch": 40.10666666666667, + "grad_norm": 0.345703125, + "learning_rate": 0.0002997215466838993, + "loss": 0.4776, + "step": 15040 + }, + { + "epoch": 40.13333333333333, + "grad_norm": 0.271484375, + "learning_rate": 0.00029972116362764336, + "loss": 0.4788, + "step": 15050 + }, + { + "epoch": 40.16, + "grad_norm": 0.294921875, + "learning_rate": 0.00029972078030833656, + "loss": 0.4838, + "step": 15060 + }, + { + "epoch": 40.18666666666667, + "grad_norm": 0.369140625, + "learning_rate": 0.00029972039672597966, + "loss": 0.4755, + "step": 15070 + }, + { + "epoch": 40.21333333333333, + "grad_norm": 0.287109375, + "learning_rate": 0.0002997200128805732, + "loss": 0.4709, + "step": 15080 + }, + { + "epoch": 40.24, + "grad_norm": 0.30078125, + "learning_rate": 0.000299719628772118, + "loss": 0.4746, + "step": 15090 + }, + { + "epoch": 40.266666666666666, + "grad_norm": 0.333984375, + "learning_rate": 0.0002997192444006147, + "loss": 0.4784, + "step": 15100 + }, + { + "epoch": 40.29333333333334, + "grad_norm": 0.263671875, + "learning_rate": 0.0002997188597660639, + "loss": 0.4723, + "step": 15110 + }, + { + "epoch": 40.32, + "grad_norm": 0.1923828125, + "learning_rate": 0.00029971847486846636, + "loss": 0.4766, + "step": 15120 + }, + { + "epoch": 40.346666666666664, + "grad_norm": 0.322265625, + "learning_rate": 0.00029971808970782264, + "loss": 0.4845, + "step": 15130 + }, + { + "epoch": 40.373333333333335, + "grad_norm": 0.42578125, + "learning_rate": 0.0002997177042841336, + "loss": 0.4809, + "step": 15140 + }, + { + "epoch": 40.4, + "grad_norm": 0.2890625, + "learning_rate": 0.00029971731859739973, + "loss": 0.4772, + "step": 15150 + }, + { + "epoch": 40.42666666666667, + "grad_norm": 0.34765625, + "learning_rate": 0.00029971693264762184, + "loss": 0.4825, + "step": 15160 + }, + { + "epoch": 40.45333333333333, + "grad_norm": 0.22265625, + "learning_rate": 0.00029971654643480057, + "loss": 0.4853, + "step": 15170 + }, + { + "epoch": 40.48, + "grad_norm": 0.265625, + "learning_rate": 0.00029971615995893656, + "loss": 0.492, + "step": 15180 + }, + { + "epoch": 40.50666666666667, + "grad_norm": 0.275390625, + "learning_rate": 0.0002997157732200305, + "loss": 0.4809, + "step": 15190 + }, + { + "epoch": 40.53333333333333, + "grad_norm": 0.228515625, + "learning_rate": 0.00029971538621808316, + "loss": 0.4752, + "step": 15200 + }, + { + "epoch": 40.56, + "grad_norm": 0.2099609375, + "learning_rate": 0.0002997149989530951, + "loss": 0.476, + "step": 15210 + }, + { + "epoch": 40.586666666666666, + "grad_norm": 0.46484375, + "learning_rate": 0.00029971461142506707, + "loss": 0.472, + "step": 15220 + }, + { + "epoch": 40.61333333333333, + "grad_norm": 0.251953125, + "learning_rate": 0.00029971422363399974, + "loss": 0.4579, + "step": 15230 + }, + { + "epoch": 40.64, + "grad_norm": 0.328125, + "learning_rate": 0.0002997138355798937, + "loss": 0.4625, + "step": 15240 + }, + { + "epoch": 40.666666666666664, + "grad_norm": 0.29296875, + "learning_rate": 0.0002997134472627498, + "loss": 0.4782, + "step": 15250 + }, + { + "epoch": 40.693333333333335, + "grad_norm": 0.291015625, + "learning_rate": 0.0002997130586825686, + "loss": 0.4606, + "step": 15260 + }, + { + "epoch": 40.72, + "grad_norm": 0.447265625, + "learning_rate": 0.0002997126698393508, + "loss": 0.478, + "step": 15270 + }, + { + "epoch": 40.74666666666667, + "grad_norm": 0.2734375, + "learning_rate": 0.00029971228073309713, + "loss": 0.4829, + "step": 15280 + }, + { + "epoch": 40.77333333333333, + "grad_norm": 0.287109375, + "learning_rate": 0.00029971189136380826, + "loss": 0.4905, + "step": 15290 + }, + { + "epoch": 40.8, + "grad_norm": 0.2451171875, + "learning_rate": 0.0002997115017314848, + "loss": 0.4768, + "step": 15300 + }, + { + "epoch": 40.82666666666667, + "grad_norm": 0.2490234375, + "learning_rate": 0.0002997111118361275, + "loss": 0.4717, + "step": 15310 + }, + { + "epoch": 40.85333333333333, + "grad_norm": 0.27734375, + "learning_rate": 0.00029971072167773706, + "loss": 0.4813, + "step": 15320 + }, + { + "epoch": 40.88, + "grad_norm": 0.232421875, + "learning_rate": 0.00029971033125631417, + "loss": 0.4684, + "step": 15330 + }, + { + "epoch": 40.906666666666666, + "grad_norm": 0.291015625, + "learning_rate": 0.00029970994057185944, + "loss": 0.4712, + "step": 15340 + }, + { + "epoch": 40.93333333333333, + "grad_norm": 0.25390625, + "learning_rate": 0.00029970954962437363, + "loss": 0.4729, + "step": 15350 + }, + { + "epoch": 40.96, + "grad_norm": 0.384765625, + "learning_rate": 0.00029970915841385744, + "loss": 0.4708, + "step": 15360 + }, + { + "epoch": 40.986666666666665, + "grad_norm": 0.384765625, + "learning_rate": 0.0002997087669403114, + "loss": 0.4847, + "step": 15370 + }, + { + "epoch": 41.0, + "eval_loss": 0.48485177755355835, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.1975, + "eval_samples_per_second": 1.569, + "eval_steps_per_second": 0.098, + "step": 15375 + }, + { + "epoch": 41.013333333333335, + "grad_norm": 0.2392578125, + "learning_rate": 0.00029970837520373645, + "loss": 0.4734, + "step": 15380 + }, + { + "epoch": 41.04, + "grad_norm": 0.341796875, + "learning_rate": 0.0002997079832041331, + "loss": 0.4973, + "step": 15390 + }, + { + "epoch": 41.06666666666667, + "grad_norm": 0.240234375, + "learning_rate": 0.000299707590941502, + "loss": 0.4856, + "step": 15400 + }, + { + "epoch": 41.093333333333334, + "grad_norm": 0.2373046875, + "learning_rate": 0.00029970719841584405, + "loss": 0.4804, + "step": 15410 + }, + { + "epoch": 41.12, + "grad_norm": 0.26953125, + "learning_rate": 0.00029970680562715977, + "loss": 0.4759, + "step": 15420 + }, + { + "epoch": 41.14666666666667, + "grad_norm": 0.30859375, + "learning_rate": 0.0002997064125754499, + "loss": 0.485, + "step": 15430 + }, + { + "epoch": 41.17333333333333, + "grad_norm": 0.34765625, + "learning_rate": 0.0002997060192607151, + "loss": 0.4758, + "step": 15440 + }, + { + "epoch": 41.2, + "grad_norm": 0.275390625, + "learning_rate": 0.00029970562568295607, + "loss": 0.4742, + "step": 15450 + }, + { + "epoch": 41.22666666666667, + "grad_norm": 0.265625, + "learning_rate": 0.00029970523184217354, + "loss": 0.4717, + "step": 15460 + }, + { + "epoch": 41.25333333333333, + "grad_norm": 0.251953125, + "learning_rate": 0.00029970483773836823, + "loss": 0.4713, + "step": 15470 + }, + { + "epoch": 41.28, + "grad_norm": 0.291015625, + "learning_rate": 0.00029970444337154074, + "loss": 0.4845, + "step": 15480 + }, + { + "epoch": 41.306666666666665, + "grad_norm": 0.228515625, + "learning_rate": 0.00029970404874169176, + "loss": 0.4668, + "step": 15490 + }, + { + "epoch": 41.333333333333336, + "grad_norm": 0.462890625, + "learning_rate": 0.00029970365384882205, + "loss": 0.4827, + "step": 15500 + }, + { + "epoch": 41.36, + "grad_norm": 0.244140625, + "learning_rate": 0.0002997032586929323, + "loss": 0.4837, + "step": 15510 + }, + { + "epoch": 41.38666666666666, + "grad_norm": 0.25390625, + "learning_rate": 0.0002997028632740232, + "loss": 0.4762, + "step": 15520 + }, + { + "epoch": 41.413333333333334, + "grad_norm": 0.28515625, + "learning_rate": 0.0002997024675920954, + "loss": 0.4795, + "step": 15530 + }, + { + "epoch": 41.44, + "grad_norm": 0.265625, + "learning_rate": 0.0002997020716471496, + "loss": 0.4835, + "step": 15540 + }, + { + "epoch": 41.46666666666667, + "grad_norm": 0.32421875, + "learning_rate": 0.00029970167543918655, + "loss": 0.4927, + "step": 15550 + }, + { + "epoch": 41.49333333333333, + "grad_norm": 0.35546875, + "learning_rate": 0.00029970127896820697, + "loss": 0.4844, + "step": 15560 + }, + { + "epoch": 41.52, + "grad_norm": 0.2421875, + "learning_rate": 0.00029970088223421143, + "loss": 0.4781, + "step": 15570 + }, + { + "epoch": 41.54666666666667, + "grad_norm": 0.380859375, + "learning_rate": 0.0002997004852372007, + "loss": 0.4749, + "step": 15580 + }, + { + "epoch": 41.57333333333333, + "grad_norm": 0.2578125, + "learning_rate": 0.0002997000879771755, + "loss": 0.4742, + "step": 15590 + }, + { + "epoch": 41.6, + "grad_norm": 0.27734375, + "learning_rate": 0.0002996996904541365, + "loss": 0.467, + "step": 15600 + }, + { + "epoch": 41.626666666666665, + "grad_norm": 0.341796875, + "learning_rate": 0.0002996992926680844, + "loss": 0.4539, + "step": 15610 + }, + { + "epoch": 41.653333333333336, + "grad_norm": 0.279296875, + "learning_rate": 0.0002996988946190199, + "loss": 0.4741, + "step": 15620 + }, + { + "epoch": 41.68, + "grad_norm": 0.333984375, + "learning_rate": 0.0002996984963069437, + "loss": 0.4655, + "step": 15630 + }, + { + "epoch": 41.70666666666666, + "grad_norm": 0.30859375, + "learning_rate": 0.00029969809773185656, + "loss": 0.4663, + "step": 15640 + }, + { + "epoch": 41.733333333333334, + "grad_norm": 0.296875, + "learning_rate": 0.00029969769889375903, + "loss": 0.4859, + "step": 15650 + }, + { + "epoch": 41.76, + "grad_norm": 0.32421875, + "learning_rate": 0.000299697299792652, + "loss": 0.487, + "step": 15660 + }, + { + "epoch": 41.78666666666667, + "grad_norm": 0.42578125, + "learning_rate": 0.000299696900428536, + "loss": 0.4858, + "step": 15670 + }, + { + "epoch": 41.81333333333333, + "grad_norm": 0.376953125, + "learning_rate": 0.00029969650080141185, + "loss": 0.4703, + "step": 15680 + }, + { + "epoch": 41.84, + "grad_norm": 0.388671875, + "learning_rate": 0.00029969610091128016, + "loss": 0.4762, + "step": 15690 + }, + { + "epoch": 41.86666666666667, + "grad_norm": 0.31640625, + "learning_rate": 0.0002996957007581418, + "loss": 0.4758, + "step": 15700 + }, + { + "epoch": 41.89333333333333, + "grad_norm": 0.1943359375, + "learning_rate": 0.0002996953003419972, + "loss": 0.466, + "step": 15710 + }, + { + "epoch": 41.92, + "grad_norm": 0.349609375, + "learning_rate": 0.0002996948996628473, + "loss": 0.4765, + "step": 15720 + }, + { + "epoch": 41.946666666666665, + "grad_norm": 0.248046875, + "learning_rate": 0.00029969449872069265, + "loss": 0.4692, + "step": 15730 + }, + { + "epoch": 41.973333333333336, + "grad_norm": 0.337890625, + "learning_rate": 0.0002996940975155341, + "loss": 0.4812, + "step": 15740 + }, + { + "epoch": 42.0, + "grad_norm": 0.275390625, + "learning_rate": 0.00029969369604737226, + "loss": 0.47, + "step": 15750 + }, + { + "epoch": 42.0, + "eval_loss": 0.48487091064453125, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.314, + "eval_samples_per_second": 1.718, + "eval_steps_per_second": 0.107, + "step": 15750 + }, + { + "epoch": 42.026666666666664, + "grad_norm": 0.22265625, + "learning_rate": 0.00029969329431620787, + "loss": 0.4887, + "step": 15760 + }, + { + "epoch": 42.053333333333335, + "grad_norm": 0.330078125, + "learning_rate": 0.0002996928923220416, + "loss": 0.4949, + "step": 15770 + }, + { + "epoch": 42.08, + "grad_norm": 0.291015625, + "learning_rate": 0.00029969249006487416, + "loss": 0.4822, + "step": 15780 + }, + { + "epoch": 42.10666666666667, + "grad_norm": 0.30078125, + "learning_rate": 0.00029969208754470635, + "loss": 0.4768, + "step": 15790 + }, + { + "epoch": 42.13333333333333, + "grad_norm": 0.546875, + "learning_rate": 0.00029969168476153875, + "loss": 0.4793, + "step": 15800 + }, + { + "epoch": 42.16, + "grad_norm": 0.390625, + "learning_rate": 0.0002996912817153721, + "loss": 0.4829, + "step": 15810 + }, + { + "epoch": 42.18666666666667, + "grad_norm": 0.28515625, + "learning_rate": 0.00029969087840620717, + "loss": 0.4756, + "step": 15820 + }, + { + "epoch": 42.21333333333333, + "grad_norm": 0.228515625, + "learning_rate": 0.0002996904748340446, + "loss": 0.4707, + "step": 15830 + }, + { + "epoch": 42.24, + "grad_norm": 0.23046875, + "learning_rate": 0.00029969007099888513, + "loss": 0.4746, + "step": 15840 + }, + { + "epoch": 42.266666666666666, + "grad_norm": 0.25, + "learning_rate": 0.0002996896669007294, + "loss": 0.4777, + "step": 15850 + }, + { + "epoch": 42.29333333333334, + "grad_norm": 0.306640625, + "learning_rate": 0.0002996892625395783, + "loss": 0.4722, + "step": 15860 + }, + { + "epoch": 42.32, + "grad_norm": 0.26953125, + "learning_rate": 0.0002996888579154324, + "loss": 0.4754, + "step": 15870 + }, + { + "epoch": 42.346666666666664, + "grad_norm": 0.380859375, + "learning_rate": 0.0002996884530282924, + "loss": 0.4841, + "step": 15880 + }, + { + "epoch": 42.373333333333335, + "grad_norm": 0.326171875, + "learning_rate": 0.00029968804787815906, + "loss": 0.4809, + "step": 15890 + }, + { + "epoch": 42.4, + "grad_norm": 0.3203125, + "learning_rate": 0.0002996876424650331, + "loss": 0.4761, + "step": 15900 + }, + { + "epoch": 42.42666666666667, + "grad_norm": 0.3359375, + "learning_rate": 0.00029968723678891517, + "loss": 0.4831, + "step": 15910 + }, + { + "epoch": 42.45333333333333, + "grad_norm": 0.314453125, + "learning_rate": 0.000299686830849806, + "loss": 0.4846, + "step": 15920 + }, + { + "epoch": 42.48, + "grad_norm": 0.291015625, + "learning_rate": 0.0002996864246477064, + "loss": 0.4915, + "step": 15930 + }, + { + "epoch": 42.50666666666667, + "grad_norm": 0.400390625, + "learning_rate": 0.000299686018182617, + "loss": 0.481, + "step": 15940 + }, + { + "epoch": 42.53333333333333, + "grad_norm": 0.25390625, + "learning_rate": 0.00029968561145453853, + "loss": 0.4742, + "step": 15950 + }, + { + "epoch": 42.56, + "grad_norm": 0.25390625, + "learning_rate": 0.00029968520446347165, + "loss": 0.4758, + "step": 15960 + }, + { + "epoch": 42.586666666666666, + "grad_norm": 0.22265625, + "learning_rate": 0.00029968479720941717, + "loss": 0.4712, + "step": 15970 + }, + { + "epoch": 42.61333333333333, + "grad_norm": 0.2490234375, + "learning_rate": 0.00029968438969237574, + "loss": 0.4573, + "step": 15980 + }, + { + "epoch": 42.64, + "grad_norm": 0.193359375, + "learning_rate": 0.0002996839819123481, + "loss": 0.462, + "step": 15990 + }, + { + "epoch": 42.666666666666664, + "grad_norm": 0.357421875, + "learning_rate": 0.000299683573869335, + "loss": 0.478, + "step": 16000 + }, + { + "epoch": 42.693333333333335, + "grad_norm": 0.279296875, + "learning_rate": 0.00029968316556333704, + "loss": 0.4604, + "step": 16010 + }, + { + "epoch": 42.72, + "grad_norm": 0.279296875, + "learning_rate": 0.00029968275699435507, + "loss": 0.4781, + "step": 16020 + }, + { + "epoch": 42.74666666666667, + "grad_norm": 0.2294921875, + "learning_rate": 0.0002996823481623897, + "loss": 0.4821, + "step": 16030 + }, + { + "epoch": 42.77333333333333, + "grad_norm": 0.390625, + "learning_rate": 0.0002996819390674418, + "loss": 0.4898, + "step": 16040 + }, + { + "epoch": 42.8, + "grad_norm": 0.259765625, + "learning_rate": 0.0002996815297095119, + "loss": 0.4766, + "step": 16050 + }, + { + "epoch": 42.82666666666667, + "grad_norm": 0.255859375, + "learning_rate": 0.0002996811200886009, + "loss": 0.4714, + "step": 16060 + }, + { + "epoch": 42.85333333333333, + "grad_norm": 0.36328125, + "learning_rate": 0.00029968071020470936, + "loss": 0.4802, + "step": 16070 + }, + { + "epoch": 42.88, + "grad_norm": 0.35546875, + "learning_rate": 0.00029968030005783815, + "loss": 0.4679, + "step": 16080 + }, + { + "epoch": 42.906666666666666, + "grad_norm": 0.248046875, + "learning_rate": 0.00029967988964798783, + "loss": 0.471, + "step": 16090 + }, + { + "epoch": 42.93333333333333, + "grad_norm": 0.240234375, + "learning_rate": 0.00029967947897515925, + "loss": 0.473, + "step": 16100 + }, + { + "epoch": 42.96, + "grad_norm": 0.33203125, + "learning_rate": 0.0002996790680393531, + "loss": 0.4701, + "step": 16110 + }, + { + "epoch": 42.986666666666665, + "grad_norm": 0.4375, + "learning_rate": 0.00029967865684057, + "loss": 0.4849, + "step": 16120 + }, + { + "epoch": 43.0, + "eval_loss": 0.4834711253643036, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.4961, + "eval_samples_per_second": 1.524, + "eval_steps_per_second": 0.095, + "step": 16125 + }, + { + "epoch": 43.013333333333335, + "grad_norm": 0.462890625, + "learning_rate": 0.00029967824537881086, + "loss": 0.4742, + "step": 16130 + }, + { + "epoch": 43.04, + "grad_norm": 0.310546875, + "learning_rate": 0.0002996778336540762, + "loss": 0.4984, + "step": 16140 + }, + { + "epoch": 43.06666666666667, + "grad_norm": 0.396484375, + "learning_rate": 0.00029967742166636695, + "loss": 0.4844, + "step": 16150 + }, + { + "epoch": 43.093333333333334, + "grad_norm": 0.28515625, + "learning_rate": 0.00029967700941568366, + "loss": 0.4798, + "step": 16160 + }, + { + "epoch": 43.12, + "grad_norm": 0.28125, + "learning_rate": 0.0002996765969020271, + "loss": 0.4762, + "step": 16170 + }, + { + "epoch": 43.14666666666667, + "grad_norm": 0.439453125, + "learning_rate": 0.0002996761841253981, + "loss": 0.4852, + "step": 16180 + }, + { + "epoch": 43.17333333333333, + "grad_norm": 0.30859375, + "learning_rate": 0.00029967577108579727, + "loss": 0.4754, + "step": 16190 + }, + { + "epoch": 43.2, + "grad_norm": 0.330078125, + "learning_rate": 0.00029967535778322536, + "loss": 0.4739, + "step": 16200 + }, + { + "epoch": 43.22666666666667, + "grad_norm": 0.26953125, + "learning_rate": 0.0002996749442176831, + "loss": 0.4717, + "step": 16210 + }, + { + "epoch": 43.25333333333333, + "grad_norm": 0.2353515625, + "learning_rate": 0.0002996745303891712, + "loss": 0.4714, + "step": 16220 + }, + { + "epoch": 43.28, + "grad_norm": 0.2353515625, + "learning_rate": 0.00029967411629769044, + "loss": 0.4848, + "step": 16230 + }, + { + "epoch": 43.306666666666665, + "grad_norm": 0.27734375, + "learning_rate": 0.00029967370194324157, + "loss": 0.4656, + "step": 16240 + }, + { + "epoch": 43.333333333333336, + "grad_norm": 0.2890625, + "learning_rate": 0.00029967328732582516, + "loss": 0.4818, + "step": 16250 + }, + { + "epoch": 43.36, + "grad_norm": 0.259765625, + "learning_rate": 0.00029967287244544213, + "loss": 0.4842, + "step": 16260 + }, + { + "epoch": 43.38666666666666, + "grad_norm": 0.38671875, + "learning_rate": 0.00029967245730209307, + "loss": 0.4753, + "step": 16270 + }, + { + "epoch": 43.413333333333334, + "grad_norm": 0.306640625, + "learning_rate": 0.00029967204189577874, + "loss": 0.4798, + "step": 16280 + }, + { + "epoch": 43.44, + "grad_norm": 0.35546875, + "learning_rate": 0.00029967162622649996, + "loss": 0.4827, + "step": 16290 + }, + { + "epoch": 43.46666666666667, + "grad_norm": 0.38671875, + "learning_rate": 0.0002996712102942574, + "loss": 0.4926, + "step": 16300 + }, + { + "epoch": 43.49333333333333, + "grad_norm": 0.40625, + "learning_rate": 0.0002996707940990517, + "loss": 0.4836, + "step": 16310 + }, + { + "epoch": 43.52, + "grad_norm": 0.2177734375, + "learning_rate": 0.0002996703776408837, + "loss": 0.4777, + "step": 16320 + }, + { + "epoch": 43.54666666666667, + "grad_norm": 0.2294921875, + "learning_rate": 0.0002996699609197541, + "loss": 0.4747, + "step": 16330 + }, + { + "epoch": 43.57333333333333, + "grad_norm": 0.220703125, + "learning_rate": 0.0002996695439356636, + "loss": 0.4742, + "step": 16340 + }, + { + "epoch": 43.6, + "grad_norm": 0.25, + "learning_rate": 0.00029966912668861307, + "loss": 0.4675, + "step": 16350 + }, + { + "epoch": 43.626666666666665, + "grad_norm": 0.2431640625, + "learning_rate": 0.0002996687091786031, + "loss": 0.4542, + "step": 16360 + }, + { + "epoch": 43.653333333333336, + "grad_norm": 0.2216796875, + "learning_rate": 0.0002996682914056345, + "loss": 0.4736, + "step": 16370 + }, + { + "epoch": 43.68, + "grad_norm": 0.2314453125, + "learning_rate": 0.0002996678733697079, + "loss": 0.466, + "step": 16380 + }, + { + "epoch": 43.70666666666666, + "grad_norm": 0.26171875, + "learning_rate": 0.00029966745507082417, + "loss": 0.4658, + "step": 16390 + }, + { + "epoch": 43.733333333333334, + "grad_norm": 0.296875, + "learning_rate": 0.0002996670365089839, + "loss": 0.4854, + "step": 16400 + }, + { + "epoch": 43.76, + "grad_norm": 0.392578125, + "learning_rate": 0.000299666617684188, + "loss": 0.4867, + "step": 16410 + }, + { + "epoch": 43.78666666666667, + "grad_norm": 0.3046875, + "learning_rate": 0.00029966619859643707, + "loss": 0.4846, + "step": 16420 + }, + { + "epoch": 43.81333333333333, + "grad_norm": 0.34765625, + "learning_rate": 0.00029966577924573186, + "loss": 0.4702, + "step": 16430 + }, + { + "epoch": 43.84, + "grad_norm": 0.333984375, + "learning_rate": 0.00029966535963207316, + "loss": 0.4756, + "step": 16440 + }, + { + "epoch": 43.86666666666667, + "grad_norm": 0.22265625, + "learning_rate": 0.0002996649397554617, + "loss": 0.4759, + "step": 16450 + }, + { + "epoch": 43.89333333333333, + "grad_norm": 0.2734375, + "learning_rate": 0.00029966451961589816, + "loss": 0.4658, + "step": 16460 + }, + { + "epoch": 43.92, + "grad_norm": 0.2197265625, + "learning_rate": 0.00029966409921338333, + "loss": 0.4766, + "step": 16470 + }, + { + "epoch": 43.946666666666665, + "grad_norm": 0.296875, + "learning_rate": 0.0002996636785479179, + "loss": 0.469, + "step": 16480 + }, + { + "epoch": 43.973333333333336, + "grad_norm": 0.2236328125, + "learning_rate": 0.0002996632576195027, + "loss": 0.4806, + "step": 16490 + }, + { + "epoch": 44.0, + "grad_norm": 0.2734375, + "learning_rate": 0.00029966283642813836, + "loss": 0.4697, + "step": 16500 + }, + { + "epoch": 44.0, + "eval_loss": 0.48331379890441895, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.0447, + "eval_samples_per_second": 1.593, + "eval_steps_per_second": 0.1, + "step": 16500 + }, + { + "epoch": 44.026666666666664, + "grad_norm": 0.2392578125, + "learning_rate": 0.0002996624149738257, + "loss": 0.4885, + "step": 16510 + }, + { + "epoch": 44.053333333333335, + "grad_norm": 0.306640625, + "learning_rate": 0.0002996619932565655, + "loss": 0.4948, + "step": 16520 + }, + { + "epoch": 44.08, + "grad_norm": 0.2119140625, + "learning_rate": 0.00029966157127635836, + "loss": 0.4815, + "step": 16530 + }, + { + "epoch": 44.10666666666667, + "grad_norm": 0.384765625, + "learning_rate": 0.0002996611490332051, + "loss": 0.4768, + "step": 16540 + }, + { + "epoch": 44.13333333333333, + "grad_norm": 0.46875, + "learning_rate": 0.00029966072652710653, + "loss": 0.4786, + "step": 16550 + }, + { + "epoch": 44.16, + "grad_norm": 0.466796875, + "learning_rate": 0.00029966030375806323, + "loss": 0.483, + "step": 16560 + }, + { + "epoch": 44.18666666666667, + "grad_norm": 0.26953125, + "learning_rate": 0.0002996598807260761, + "loss": 0.4751, + "step": 16570 + }, + { + "epoch": 44.21333333333333, + "grad_norm": 0.25, + "learning_rate": 0.0002996594574311458, + "loss": 0.4699, + "step": 16580 + }, + { + "epoch": 44.24, + "grad_norm": 0.41015625, + "learning_rate": 0.0002996590338732731, + "loss": 0.4738, + "step": 16590 + }, + { + "epoch": 44.266666666666666, + "grad_norm": 0.361328125, + "learning_rate": 0.0002996586100524587, + "loss": 0.4776, + "step": 16600 + }, + { + "epoch": 44.29333333333334, + "grad_norm": 0.251953125, + "learning_rate": 0.0002996581859687034, + "loss": 0.4714, + "step": 16610 + }, + { + "epoch": 44.32, + "grad_norm": 0.28515625, + "learning_rate": 0.0002996577616220079, + "loss": 0.4754, + "step": 16620 + }, + { + "epoch": 44.346666666666664, + "grad_norm": 0.302734375, + "learning_rate": 0.000299657337012373, + "loss": 0.4835, + "step": 16630 + }, + { + "epoch": 44.373333333333335, + "grad_norm": 0.25, + "learning_rate": 0.00029965691213979943, + "loss": 0.4795, + "step": 16640 + }, + { + "epoch": 44.4, + "grad_norm": 0.306640625, + "learning_rate": 0.0002996564870042879, + "loss": 0.4753, + "step": 16650 + }, + { + "epoch": 44.42666666666667, + "grad_norm": 0.3515625, + "learning_rate": 0.00029965606160583917, + "loss": 0.4826, + "step": 16660 + }, + { + "epoch": 44.45333333333333, + "grad_norm": 0.26171875, + "learning_rate": 0.000299655635944454, + "loss": 0.485, + "step": 16670 + }, + { + "epoch": 44.48, + "grad_norm": 0.388671875, + "learning_rate": 0.00029965521002013314, + "loss": 0.4904, + "step": 16680 + }, + { + "epoch": 44.50666666666667, + "grad_norm": 0.322265625, + "learning_rate": 0.00029965478383287735, + "loss": 0.4805, + "step": 16690 + }, + { + "epoch": 44.53333333333333, + "grad_norm": 0.265625, + "learning_rate": 0.00029965435738268736, + "loss": 0.4738, + "step": 16700 + }, + { + "epoch": 44.56, + "grad_norm": 0.2431640625, + "learning_rate": 0.0002996539306695639, + "loss": 0.4753, + "step": 16710 + }, + { + "epoch": 44.586666666666666, + "grad_norm": 0.5078125, + "learning_rate": 0.00029965350369350773, + "loss": 0.4712, + "step": 16720 + }, + { + "epoch": 44.61333333333333, + "grad_norm": 0.228515625, + "learning_rate": 0.0002996530764545197, + "loss": 0.457, + "step": 16730 + }, + { + "epoch": 44.64, + "grad_norm": 0.220703125, + "learning_rate": 0.00029965264895260034, + "loss": 0.4616, + "step": 16740 + }, + { + "epoch": 44.666666666666664, + "grad_norm": 0.375, + "learning_rate": 0.0002996522211877506, + "loss": 0.4769, + "step": 16750 + }, + { + "epoch": 44.693333333333335, + "grad_norm": 0.2451171875, + "learning_rate": 0.0002996517931599712, + "loss": 0.4605, + "step": 16760 + }, + { + "epoch": 44.72, + "grad_norm": 0.30078125, + "learning_rate": 0.0002996513648692628, + "loss": 0.477, + "step": 16770 + }, + { + "epoch": 44.74666666666667, + "grad_norm": 0.216796875, + "learning_rate": 0.00029965093631562626, + "loss": 0.4824, + "step": 16780 + }, + { + "epoch": 44.77333333333333, + "grad_norm": 0.2734375, + "learning_rate": 0.00029965050749906224, + "loss": 0.4896, + "step": 16790 + }, + { + "epoch": 44.8, + "grad_norm": 0.419921875, + "learning_rate": 0.0002996500784195715, + "loss": 0.476, + "step": 16800 + }, + { + "epoch": 44.82666666666667, + "grad_norm": 0.373046875, + "learning_rate": 0.0002996496490771549, + "loss": 0.4719, + "step": 16810 + }, + { + "epoch": 44.85333333333333, + "grad_norm": 0.4375, + "learning_rate": 0.00029964921947181315, + "loss": 0.4802, + "step": 16820 + }, + { + "epoch": 44.88, + "grad_norm": 0.271484375, + "learning_rate": 0.0002996487896035469, + "loss": 0.4676, + "step": 16830 + }, + { + "epoch": 44.906666666666666, + "grad_norm": 0.2578125, + "learning_rate": 0.000299648359472357, + "loss": 0.4704, + "step": 16840 + }, + { + "epoch": 44.93333333333333, + "grad_norm": 0.1650390625, + "learning_rate": 0.0002996479290782442, + "loss": 0.4723, + "step": 16850 + }, + { + "epoch": 44.96, + "grad_norm": 0.216796875, + "learning_rate": 0.00029964749842120925, + "loss": 0.4709, + "step": 16860 + }, + { + "epoch": 44.986666666666665, + "grad_norm": 0.421875, + "learning_rate": 0.0002996470675012529, + "loss": 0.4837, + "step": 16870 + }, + { + "epoch": 45.0, + "eval_loss": 0.48572611808776855, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.8974, + "eval_samples_per_second": 1.617, + "eval_steps_per_second": 0.101, + "step": 16875 + }, + { + "epoch": 45.013333333333335, + "grad_norm": 0.375, + "learning_rate": 0.0002996466363183759, + "loss": 0.4731, + "step": 16880 + }, + { + "epoch": 45.04, + "grad_norm": 0.30078125, + "learning_rate": 0.00029964620487257906, + "loss": 0.4974, + "step": 16890 + }, + { + "epoch": 45.06666666666667, + "grad_norm": 0.365234375, + "learning_rate": 0.00029964577316386303, + "loss": 0.4854, + "step": 16900 + }, + { + "epoch": 45.093333333333334, + "grad_norm": 0.353515625, + "learning_rate": 0.00029964534119222873, + "loss": 0.4791, + "step": 16910 + }, + { + "epoch": 45.12, + "grad_norm": 0.333984375, + "learning_rate": 0.0002996449089576767, + "loss": 0.4765, + "step": 16920 + }, + { + "epoch": 45.14666666666667, + "grad_norm": 0.2412109375, + "learning_rate": 0.0002996444764602079, + "loss": 0.4852, + "step": 16930 + }, + { + "epoch": 45.17333333333333, + "grad_norm": 0.33984375, + "learning_rate": 0.000299644043699823, + "loss": 0.4749, + "step": 16940 + }, + { + "epoch": 45.2, + "grad_norm": 0.25390625, + "learning_rate": 0.00029964361067652274, + "loss": 0.4732, + "step": 16950 + }, + { + "epoch": 45.22666666666667, + "grad_norm": 0.2734375, + "learning_rate": 0.00029964317739030795, + "loss": 0.4711, + "step": 16960 + }, + { + "epoch": 45.25333333333333, + "grad_norm": 0.326171875, + "learning_rate": 0.00029964274384117933, + "loss": 0.4709, + "step": 16970 + }, + { + "epoch": 45.28, + "grad_norm": 0.357421875, + "learning_rate": 0.0002996423100291377, + "loss": 0.4844, + "step": 16980 + }, + { + "epoch": 45.306666666666665, + "grad_norm": 0.2578125, + "learning_rate": 0.00029964187595418377, + "loss": 0.466, + "step": 16990 + }, + { + "epoch": 45.333333333333336, + "grad_norm": 0.306640625, + "learning_rate": 0.0002996414416163183, + "loss": 0.4814, + "step": 17000 + }, + { + "epoch": 45.36, + "grad_norm": 0.22265625, + "learning_rate": 0.0002996410070155421, + "loss": 0.4836, + "step": 17010 + }, + { + "epoch": 45.38666666666666, + "grad_norm": 0.3359375, + "learning_rate": 0.0002996405721518559, + "loss": 0.4747, + "step": 17020 + }, + { + "epoch": 45.413333333333334, + "grad_norm": 0.27734375, + "learning_rate": 0.00029964013702526044, + "loss": 0.4791, + "step": 17030 + }, + { + "epoch": 45.44, + "grad_norm": 0.2314453125, + "learning_rate": 0.0002996397016357566, + "loss": 0.4826, + "step": 17040 + }, + { + "epoch": 45.46666666666667, + "grad_norm": 0.25, + "learning_rate": 0.000299639265983345, + "loss": 0.4925, + "step": 17050 + }, + { + "epoch": 45.49333333333333, + "grad_norm": 0.296875, + "learning_rate": 0.00029963883006802643, + "loss": 0.4828, + "step": 17060 + }, + { + "epoch": 45.52, + "grad_norm": 0.26953125, + "learning_rate": 0.00029963839388980176, + "loss": 0.4774, + "step": 17070 + }, + { + "epoch": 45.54666666666667, + "grad_norm": 0.357421875, + "learning_rate": 0.0002996379574486716, + "loss": 0.4747, + "step": 17080 + }, + { + "epoch": 45.57333333333333, + "grad_norm": 0.169921875, + "learning_rate": 0.0002996375207446369, + "loss": 0.4732, + "step": 17090 + }, + { + "epoch": 45.6, + "grad_norm": 0.353515625, + "learning_rate": 0.0002996370837776983, + "loss": 0.4671, + "step": 17100 + }, + { + "epoch": 45.626666666666665, + "grad_norm": 0.23828125, + "learning_rate": 0.0002996366465478566, + "loss": 0.4539, + "step": 17110 + }, + { + "epoch": 45.653333333333336, + "grad_norm": 0.2373046875, + "learning_rate": 0.00029963620905511257, + "loss": 0.4736, + "step": 17120 + }, + { + "epoch": 45.68, + "grad_norm": 0.216796875, + "learning_rate": 0.000299635771299467, + "loss": 0.4649, + "step": 17130 + }, + { + "epoch": 45.70666666666666, + "grad_norm": 0.28515625, + "learning_rate": 0.0002996353332809206, + "loss": 0.4655, + "step": 17140 + }, + { + "epoch": 45.733333333333334, + "grad_norm": 0.2353515625, + "learning_rate": 0.0002996348949994742, + "loss": 0.4842, + "step": 17150 + }, + { + "epoch": 45.76, + "grad_norm": 0.283203125, + "learning_rate": 0.0002996344564551285, + "loss": 0.486, + "step": 17160 + }, + { + "epoch": 45.78666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.0002996340176478843, + "loss": 0.4849, + "step": 17170 + }, + { + "epoch": 45.81333333333333, + "grad_norm": 0.283203125, + "learning_rate": 0.00029963357857774246, + "loss": 0.4692, + "step": 17180 + }, + { + "epoch": 45.84, + "grad_norm": 0.302734375, + "learning_rate": 0.00029963313924470365, + "loss": 0.4752, + "step": 17190 + }, + { + "epoch": 45.86666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.0002996326996487687, + "loss": 0.4756, + "step": 17200 + }, + { + "epoch": 45.89333333333333, + "grad_norm": 0.263671875, + "learning_rate": 0.00029963225978993835, + "loss": 0.4657, + "step": 17210 + }, + { + "epoch": 45.92, + "grad_norm": 0.28515625, + "learning_rate": 0.0002996318196682133, + "loss": 0.4763, + "step": 17220 + }, + { + "epoch": 45.946666666666665, + "grad_norm": 0.2294921875, + "learning_rate": 0.00029963137928359446, + "loss": 0.469, + "step": 17230 + }, + { + "epoch": 45.973333333333336, + "grad_norm": 0.40234375, + "learning_rate": 0.00029963093863608254, + "loss": 0.4803, + "step": 17240 + }, + { + "epoch": 46.0, + "grad_norm": 0.35546875, + "learning_rate": 0.00029963049772567833, + "loss": 0.4688, + "step": 17250 + }, + { + "epoch": 46.0, + "eval_loss": 0.4832427501678467, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.9287, + "eval_samples_per_second": 1.611, + "eval_steps_per_second": 0.101, + "step": 17250 + }, + { + "epoch": 46.026666666666664, + "grad_norm": 0.49609375, + "learning_rate": 0.00029963005655238257, + "loss": 0.4883, + "step": 17260 + }, + { + "epoch": 46.053333333333335, + "grad_norm": 0.283203125, + "learning_rate": 0.00029962961511619603, + "loss": 0.495, + "step": 17270 + }, + { + "epoch": 46.08, + "grad_norm": 0.28515625, + "learning_rate": 0.00029962917341711957, + "loss": 0.4812, + "step": 17280 + }, + { + "epoch": 46.10666666666667, + "grad_norm": 0.26953125, + "learning_rate": 0.0002996287314551539, + "loss": 0.4773, + "step": 17290 + }, + { + "epoch": 46.13333333333333, + "grad_norm": 0.298828125, + "learning_rate": 0.0002996282892302998, + "loss": 0.4782, + "step": 17300 + }, + { + "epoch": 46.16, + "grad_norm": 0.322265625, + "learning_rate": 0.000299627846742558, + "loss": 0.4832, + "step": 17310 + }, + { + "epoch": 46.18666666666667, + "grad_norm": 0.330078125, + "learning_rate": 0.0002996274039919294, + "loss": 0.4748, + "step": 17320 + }, + { + "epoch": 46.21333333333333, + "grad_norm": 0.337890625, + "learning_rate": 0.0002996269609784146, + "loss": 0.4692, + "step": 17330 + }, + { + "epoch": 46.24, + "grad_norm": 0.375, + "learning_rate": 0.00029962651770201455, + "loss": 0.4727, + "step": 17340 + }, + { + "epoch": 46.266666666666666, + "grad_norm": 0.34765625, + "learning_rate": 0.00029962607416273, + "loss": 0.4775, + "step": 17350 + }, + { + "epoch": 46.29333333333334, + "grad_norm": 0.302734375, + "learning_rate": 0.0002996256303605617, + "loss": 0.4716, + "step": 17360 + }, + { + "epoch": 46.32, + "grad_norm": 0.322265625, + "learning_rate": 0.0002996251862955104, + "loss": 0.4758, + "step": 17370 + }, + { + "epoch": 46.346666666666664, + "grad_norm": 0.341796875, + "learning_rate": 0.0002996247419675769, + "loss": 0.4838, + "step": 17380 + }, + { + "epoch": 46.373333333333335, + "grad_norm": 0.23046875, + "learning_rate": 0.0002996242973767619, + "loss": 0.4796, + "step": 17390 + }, + { + "epoch": 46.4, + "grad_norm": 0.30078125, + "learning_rate": 0.00029962385252306636, + "loss": 0.476, + "step": 17400 + }, + { + "epoch": 46.42666666666667, + "grad_norm": 0.294921875, + "learning_rate": 0.000299623407406491, + "loss": 0.4826, + "step": 17410 + }, + { + "epoch": 46.45333333333333, + "grad_norm": 0.240234375, + "learning_rate": 0.00029962296202703647, + "loss": 0.4841, + "step": 17420 + }, + { + "epoch": 46.48, + "grad_norm": 0.287109375, + "learning_rate": 0.0002996225163847037, + "loss": 0.4904, + "step": 17430 + }, + { + "epoch": 46.50666666666667, + "grad_norm": 0.298828125, + "learning_rate": 0.00029962207047949343, + "loss": 0.4799, + "step": 17440 + }, + { + "epoch": 46.53333333333333, + "grad_norm": 0.2333984375, + "learning_rate": 0.00029962162431140647, + "loss": 0.4737, + "step": 17450 + }, + { + "epoch": 46.56, + "grad_norm": 0.2177734375, + "learning_rate": 0.00029962117788044347, + "loss": 0.4753, + "step": 17460 + }, + { + "epoch": 46.586666666666666, + "grad_norm": 0.2138671875, + "learning_rate": 0.0002996207311866054, + "loss": 0.4707, + "step": 17470 + }, + { + "epoch": 46.61333333333333, + "grad_norm": 0.234375, + "learning_rate": 0.00029962028422989294, + "loss": 0.456, + "step": 17480 + }, + { + "epoch": 46.64, + "grad_norm": 0.2412109375, + "learning_rate": 0.00029961983701030687, + "loss": 0.4615, + "step": 17490 + }, + { + "epoch": 46.666666666666664, + "grad_norm": 0.2041015625, + "learning_rate": 0.00029961938952784807, + "loss": 0.4771, + "step": 17500 + }, + { + "epoch": 46.693333333333335, + "grad_norm": 0.220703125, + "learning_rate": 0.0002996189417825172, + "loss": 0.4605, + "step": 17510 + }, + { + "epoch": 46.72, + "grad_norm": 0.302734375, + "learning_rate": 0.0002996184937743151, + "loss": 0.477, + "step": 17520 + }, + { + "epoch": 46.74666666666667, + "grad_norm": 0.330078125, + "learning_rate": 0.0002996180455032426, + "loss": 0.4819, + "step": 17530 + }, + { + "epoch": 46.77333333333333, + "grad_norm": 0.291015625, + "learning_rate": 0.0002996175969693004, + "loss": 0.4893, + "step": 17540 + }, + { + "epoch": 46.8, + "grad_norm": 0.298828125, + "learning_rate": 0.00029961714817248943, + "loss": 0.4758, + "step": 17550 + }, + { + "epoch": 46.82666666666667, + "grad_norm": 0.28125, + "learning_rate": 0.0002996166991128103, + "loss": 0.4699, + "step": 17560 + }, + { + "epoch": 46.85333333333333, + "grad_norm": 0.369140625, + "learning_rate": 0.0002996162497902639, + "loss": 0.4798, + "step": 17570 + }, + { + "epoch": 46.88, + "grad_norm": 0.33203125, + "learning_rate": 0.000299615800204851, + "loss": 0.4676, + "step": 17580 + }, + { + "epoch": 46.906666666666666, + "grad_norm": 0.28125, + "learning_rate": 0.0002996153503565724, + "loss": 0.47, + "step": 17590 + }, + { + "epoch": 46.93333333333333, + "grad_norm": 0.2236328125, + "learning_rate": 0.0002996149002454289, + "loss": 0.4715, + "step": 17600 + }, + { + "epoch": 46.96, + "grad_norm": 0.291015625, + "learning_rate": 0.0002996144498714212, + "loss": 0.4695, + "step": 17610 + }, + { + "epoch": 46.986666666666665, + "grad_norm": 0.451171875, + "learning_rate": 0.00029961399923455025, + "loss": 0.4833, + "step": 17620 + }, + { + "epoch": 47.0, + "eval_loss": 0.48381996154785156, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 11.2857, + "eval_samples_per_second": 1.418, + "eval_steps_per_second": 0.089, + "step": 17625 + }, + { + "epoch": 47.013333333333335, + "grad_norm": 0.478515625, + "learning_rate": 0.0002996135483348168, + "loss": 0.4723, + "step": 17630 + }, + { + "epoch": 47.04, + "grad_norm": 0.69140625, + "learning_rate": 0.0002996130971722215, + "loss": 0.4971, + "step": 17640 + }, + { + "epoch": 47.06666666666667, + "grad_norm": 0.96875, + "learning_rate": 0.0002996126457467653, + "loss": 0.4871, + "step": 17650 + }, + { + "epoch": 47.093333333333334, + "grad_norm": 0.67578125, + "learning_rate": 0.00029961219405844893, + "loss": 0.4813, + "step": 17660 + }, + { + "epoch": 47.12, + "grad_norm": 0.3203125, + "learning_rate": 0.0002996117421072732, + "loss": 0.4759, + "step": 17670 + }, + { + "epoch": 47.14666666666667, + "grad_norm": 0.33203125, + "learning_rate": 0.00029961128989323884, + "loss": 0.4853, + "step": 17680 + }, + { + "epoch": 47.17333333333333, + "grad_norm": 0.326171875, + "learning_rate": 0.00029961083741634673, + "loss": 0.4748, + "step": 17690 + }, + { + "epoch": 47.2, + "grad_norm": 0.341796875, + "learning_rate": 0.0002996103846765976, + "loss": 0.4733, + "step": 17700 + }, + { + "epoch": 47.22666666666667, + "grad_norm": 0.27734375, + "learning_rate": 0.00029960993167399235, + "loss": 0.4716, + "step": 17710 + }, + { + "epoch": 47.25333333333333, + "grad_norm": 0.2197265625, + "learning_rate": 0.00029960947840853165, + "loss": 0.4708, + "step": 17720 + }, + { + "epoch": 47.28, + "grad_norm": 0.2265625, + "learning_rate": 0.0002996090248802164, + "loss": 0.4833, + "step": 17730 + }, + { + "epoch": 47.306666666666665, + "grad_norm": 0.267578125, + "learning_rate": 0.00029960857108904734, + "loss": 0.4658, + "step": 17740 + }, + { + "epoch": 47.333333333333336, + "grad_norm": 0.2001953125, + "learning_rate": 0.0002996081170350252, + "loss": 0.4807, + "step": 17750 + }, + { + "epoch": 47.36, + "grad_norm": 0.2109375, + "learning_rate": 0.00029960766271815094, + "loss": 0.4834, + "step": 17760 + }, + { + "epoch": 47.38666666666666, + "grad_norm": 0.2470703125, + "learning_rate": 0.00029960720813842524, + "loss": 0.4749, + "step": 17770 + }, + { + "epoch": 47.413333333333334, + "grad_norm": 0.263671875, + "learning_rate": 0.0002996067532958489, + "loss": 0.4792, + "step": 17780 + }, + { + "epoch": 47.44, + "grad_norm": 0.287109375, + "learning_rate": 0.00029960629819042277, + "loss": 0.4824, + "step": 17790 + }, + { + "epoch": 47.46666666666667, + "grad_norm": 0.4453125, + "learning_rate": 0.0002996058428221477, + "loss": 0.4921, + "step": 17800 + }, + { + "epoch": 47.49333333333333, + "grad_norm": 0.33984375, + "learning_rate": 0.0002996053871910243, + "loss": 0.483, + "step": 17810 + }, + { + "epoch": 47.52, + "grad_norm": 0.205078125, + "learning_rate": 0.0002996049312970535, + "loss": 0.4768, + "step": 17820 + }, + { + "epoch": 47.54666666666667, + "grad_norm": 0.279296875, + "learning_rate": 0.00029960447514023616, + "loss": 0.4744, + "step": 17830 + }, + { + "epoch": 47.57333333333333, + "grad_norm": 0.3046875, + "learning_rate": 0.000299604018720573, + "loss": 0.4739, + "step": 17840 + }, + { + "epoch": 47.6, + "grad_norm": 0.2158203125, + "learning_rate": 0.0002996035620380648, + "loss": 0.4673, + "step": 17850 + }, + { + "epoch": 47.626666666666665, + "grad_norm": 0.1923828125, + "learning_rate": 0.00029960310509271243, + "loss": 0.4534, + "step": 17860 + }, + { + "epoch": 47.653333333333336, + "grad_norm": 0.294921875, + "learning_rate": 0.00029960264788451665, + "loss": 0.4735, + "step": 17870 + }, + { + "epoch": 47.68, + "grad_norm": 0.330078125, + "learning_rate": 0.0002996021904134783, + "loss": 0.4647, + "step": 17880 + }, + { + "epoch": 47.70666666666666, + "grad_norm": 0.341796875, + "learning_rate": 0.00029960173267959807, + "loss": 0.4652, + "step": 17890 + }, + { + "epoch": 47.733333333333334, + "grad_norm": 0.328125, + "learning_rate": 0.0002996012746828769, + "loss": 0.4844, + "step": 17900 + }, + { + "epoch": 47.76, + "grad_norm": 0.291015625, + "learning_rate": 0.0002996008164233156, + "loss": 0.4863, + "step": 17910 + }, + { + "epoch": 47.78666666666667, + "grad_norm": 0.26953125, + "learning_rate": 0.0002996003579009148, + "loss": 0.4844, + "step": 17920 + }, + { + "epoch": 47.81333333333333, + "grad_norm": 0.357421875, + "learning_rate": 0.0002995998991156755, + "loss": 0.4688, + "step": 17930 + }, + { + "epoch": 47.84, + "grad_norm": 0.265625, + "learning_rate": 0.00029959944006759847, + "loss": 0.4757, + "step": 17940 + }, + { + "epoch": 47.86666666666667, + "grad_norm": 0.404296875, + "learning_rate": 0.00029959898075668435, + "loss": 0.4747, + "step": 17950 + }, + { + "epoch": 47.89333333333333, + "grad_norm": 0.318359375, + "learning_rate": 0.0002995985211829342, + "loss": 0.4652, + "step": 17960 + }, + { + "epoch": 47.92, + "grad_norm": 0.3125, + "learning_rate": 0.0002995980613463486, + "loss": 0.4757, + "step": 17970 + }, + { + "epoch": 47.946666666666665, + "grad_norm": 0.3203125, + "learning_rate": 0.00029959760124692857, + "loss": 0.4678, + "step": 17980 + }, + { + "epoch": 47.973333333333336, + "grad_norm": 0.28515625, + "learning_rate": 0.0002995971408846747, + "loss": 0.4794, + "step": 17990 + }, + { + "epoch": 48.0, + "grad_norm": 0.2470703125, + "learning_rate": 0.000299596680259588, + "loss": 0.468, + "step": 18000 + }, + { + "epoch": 48.0, + "eval_loss": 0.48210230469703674, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.1772, + "eval_samples_per_second": 1.572, + "eval_steps_per_second": 0.098, + "step": 18000 + }, + { + "epoch": 48.026666666666664, + "grad_norm": 0.275390625, + "learning_rate": 0.00029959621937166917, + "loss": 0.4873, + "step": 18010 + }, + { + "epoch": 48.053333333333335, + "grad_norm": 0.263671875, + "learning_rate": 0.000299595758220919, + "loss": 0.4939, + "step": 18020 + }, + { + "epoch": 48.08, + "grad_norm": 0.296875, + "learning_rate": 0.00029959529680733836, + "loss": 0.4816, + "step": 18030 + }, + { + "epoch": 48.10666666666667, + "grad_norm": 0.201171875, + "learning_rate": 0.000299594835130928, + "loss": 0.4762, + "step": 18040 + }, + { + "epoch": 48.13333333333333, + "grad_norm": 0.251953125, + "learning_rate": 0.0002995943731916888, + "loss": 0.4779, + "step": 18050 + }, + { + "epoch": 48.16, + "grad_norm": 0.298828125, + "learning_rate": 0.00029959391098962154, + "loss": 0.4823, + "step": 18060 + }, + { + "epoch": 48.18666666666667, + "grad_norm": 0.2119140625, + "learning_rate": 0.00029959344852472703, + "loss": 0.4744, + "step": 18070 + }, + { + "epoch": 48.21333333333333, + "grad_norm": 0.220703125, + "learning_rate": 0.0002995929857970061, + "loss": 0.4694, + "step": 18080 + }, + { + "epoch": 48.24, + "grad_norm": 0.302734375, + "learning_rate": 0.00029959252280645953, + "loss": 0.4732, + "step": 18090 + }, + { + "epoch": 48.266666666666666, + "grad_norm": 0.30859375, + "learning_rate": 0.00029959205955308816, + "loss": 0.4763, + "step": 18100 + }, + { + "epoch": 48.29333333333334, + "grad_norm": 0.1650390625, + "learning_rate": 0.0002995915960368928, + "loss": 0.471, + "step": 18110 + }, + { + "epoch": 48.32, + "grad_norm": 0.1982421875, + "learning_rate": 0.00029959113225787423, + "loss": 0.4744, + "step": 18120 + }, + { + "epoch": 48.346666666666664, + "grad_norm": 0.283203125, + "learning_rate": 0.0002995906682160333, + "loss": 0.4828, + "step": 18130 + }, + { + "epoch": 48.373333333333335, + "grad_norm": 0.443359375, + "learning_rate": 0.00029959020391137083, + "loss": 0.479, + "step": 18140 + }, + { + "epoch": 48.4, + "grad_norm": 0.2373046875, + "learning_rate": 0.0002995897393438876, + "loss": 0.4753, + "step": 18150 + }, + { + "epoch": 48.42666666666667, + "grad_norm": 0.18359375, + "learning_rate": 0.00029958927451358445, + "loss": 0.4823, + "step": 18160 + }, + { + "epoch": 48.45333333333333, + "grad_norm": 0.26953125, + "learning_rate": 0.0002995888094204623, + "loss": 0.4848, + "step": 18170 + }, + { + "epoch": 48.48, + "grad_norm": 0.2490234375, + "learning_rate": 0.00029958834406452177, + "loss": 0.4902, + "step": 18180 + }, + { + "epoch": 48.50666666666667, + "grad_norm": 0.271484375, + "learning_rate": 0.0002995878784457638, + "loss": 0.4799, + "step": 18190 + }, + { + "epoch": 48.53333333333333, + "grad_norm": 0.31640625, + "learning_rate": 0.00029958741256418917, + "loss": 0.4733, + "step": 18200 + }, + { + "epoch": 48.56, + "grad_norm": 0.25390625, + "learning_rate": 0.0002995869464197987, + "loss": 0.4745, + "step": 18210 + }, + { + "epoch": 48.586666666666666, + "grad_norm": 0.2490234375, + "learning_rate": 0.0002995864800125932, + "loss": 0.4702, + "step": 18220 + }, + { + "epoch": 48.61333333333333, + "grad_norm": 0.25, + "learning_rate": 0.0002995860133425736, + "loss": 0.4564, + "step": 18230 + }, + { + "epoch": 48.64, + "grad_norm": 0.1962890625, + "learning_rate": 0.00029958554640974053, + "loss": 0.4601, + "step": 18240 + }, + { + "epoch": 48.666666666666664, + "grad_norm": 0.28125, + "learning_rate": 0.0002995850792140949, + "loss": 0.4764, + "step": 18250 + }, + { + "epoch": 48.693333333333335, + "grad_norm": 0.2119140625, + "learning_rate": 0.00029958461175563767, + "loss": 0.4598, + "step": 18260 + }, + { + "epoch": 48.72, + "grad_norm": 0.267578125, + "learning_rate": 0.00029958414403436943, + "loss": 0.4768, + "step": 18270 + }, + { + "epoch": 48.74666666666667, + "grad_norm": 0.322265625, + "learning_rate": 0.00029958367605029113, + "loss": 0.4815, + "step": 18280 + }, + { + "epoch": 48.77333333333333, + "grad_norm": 0.3203125, + "learning_rate": 0.0002995832078034035, + "loss": 0.4889, + "step": 18290 + }, + { + "epoch": 48.8, + "grad_norm": 0.35546875, + "learning_rate": 0.0002995827392937075, + "loss": 0.4761, + "step": 18300 + }, + { + "epoch": 48.82666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.00029958227052120386, + "loss": 0.4706, + "step": 18310 + }, + { + "epoch": 48.85333333333333, + "grad_norm": 0.361328125, + "learning_rate": 0.00029958180148589343, + "loss": 0.4792, + "step": 18320 + }, + { + "epoch": 48.88, + "grad_norm": 0.26171875, + "learning_rate": 0.000299581332187777, + "loss": 0.4676, + "step": 18330 + }, + { + "epoch": 48.906666666666666, + "grad_norm": 0.2216796875, + "learning_rate": 0.00029958086262685545, + "loss": 0.4696, + "step": 18340 + }, + { + "epoch": 48.93333333333333, + "grad_norm": 0.2197265625, + "learning_rate": 0.00029958039280312957, + "loss": 0.4715, + "step": 18350 + }, + { + "epoch": 48.96, + "grad_norm": 0.2734375, + "learning_rate": 0.0002995799227166002, + "loss": 0.4703, + "step": 18360 + }, + { + "epoch": 48.986666666666665, + "grad_norm": 0.26171875, + "learning_rate": 0.00029957945236726817, + "loss": 0.4831, + "step": 18370 + }, + { + "epoch": 49.0, + "eval_loss": 0.48411810398101807, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.0006, + "eval_samples_per_second": 1.6, + "eval_steps_per_second": 0.1, + "step": 18375 + }, + { + "epoch": 49.013333333333335, + "grad_norm": 0.220703125, + "learning_rate": 0.00029957898175513427, + "loss": 0.4721, + "step": 18380 + }, + { + "epoch": 49.04, + "grad_norm": 0.25390625, + "learning_rate": 0.00029957851088019936, + "loss": 0.4971, + "step": 18390 + }, + { + "epoch": 49.06666666666667, + "grad_norm": 0.24609375, + "learning_rate": 0.00029957803974246425, + "loss": 0.4837, + "step": 18400 + }, + { + "epoch": 49.093333333333334, + "grad_norm": 0.35546875, + "learning_rate": 0.00029957756834192976, + "loss": 0.4786, + "step": 18410 + }, + { + "epoch": 49.12, + "grad_norm": 0.26953125, + "learning_rate": 0.0002995770966785968, + "loss": 0.4751, + "step": 18420 + }, + { + "epoch": 49.14666666666667, + "grad_norm": 0.314453125, + "learning_rate": 0.0002995766247524661, + "loss": 0.4849, + "step": 18430 + }, + { + "epoch": 49.17333333333333, + "grad_norm": 0.375, + "learning_rate": 0.0002995761525635385, + "loss": 0.475, + "step": 18440 + }, + { + "epoch": 49.2, + "grad_norm": 0.263671875, + "learning_rate": 0.00029957568011181485, + "loss": 0.473, + "step": 18450 + }, + { + "epoch": 49.22666666666667, + "grad_norm": 0.318359375, + "learning_rate": 0.000299575207397296, + "loss": 0.4709, + "step": 18460 + }, + { + "epoch": 49.25333333333333, + "grad_norm": 0.240234375, + "learning_rate": 0.00029957473441998277, + "loss": 0.4707, + "step": 18470 + }, + { + "epoch": 49.28, + "grad_norm": 0.271484375, + "learning_rate": 0.000299574261179876, + "loss": 0.4839, + "step": 18480 + }, + { + "epoch": 49.306666666666665, + "grad_norm": 0.333984375, + "learning_rate": 0.00029957378767697646, + "loss": 0.465, + "step": 18490 + }, + { + "epoch": 49.333333333333336, + "grad_norm": 0.423828125, + "learning_rate": 0.00029957331391128507, + "loss": 0.4814, + "step": 18500 + }, + { + "epoch": 49.36, + "grad_norm": 0.34765625, + "learning_rate": 0.0002995728398828026, + "loss": 0.4832, + "step": 18510 + }, + { + "epoch": 49.38666666666666, + "grad_norm": 0.373046875, + "learning_rate": 0.0002995723655915299, + "loss": 0.4752, + "step": 18520 + }, + { + "epoch": 49.413333333333334, + "grad_norm": 0.380859375, + "learning_rate": 0.0002995718910374678, + "loss": 0.4794, + "step": 18530 + }, + { + "epoch": 49.44, + "grad_norm": 0.328125, + "learning_rate": 0.00029957141622061716, + "loss": 0.482, + "step": 18540 + }, + { + "epoch": 49.46666666666667, + "grad_norm": 0.28125, + "learning_rate": 0.00029957094114097877, + "loss": 0.4915, + "step": 18550 + }, + { + "epoch": 49.49333333333333, + "grad_norm": 0.33203125, + "learning_rate": 0.00029957046579855346, + "loss": 0.4822, + "step": 18560 + }, + { + "epoch": 49.52, + "grad_norm": 0.28125, + "learning_rate": 0.0002995699901933422, + "loss": 0.4771, + "step": 18570 + }, + { + "epoch": 49.54666666666667, + "grad_norm": 0.3359375, + "learning_rate": 0.0002995695143253457, + "loss": 0.474, + "step": 18580 + }, + { + "epoch": 49.57333333333333, + "grad_norm": 0.291015625, + "learning_rate": 0.0002995690381945647, + "loss": 0.4731, + "step": 18590 + }, + { + "epoch": 49.6, + "grad_norm": 0.26171875, + "learning_rate": 0.00029956856180100025, + "loss": 0.4667, + "step": 18600 + }, + { + "epoch": 49.626666666666665, + "grad_norm": 0.2294921875, + "learning_rate": 0.00029956808514465305, + "loss": 0.4534, + "step": 18610 + }, + { + "epoch": 49.653333333333336, + "grad_norm": 0.310546875, + "learning_rate": 0.00029956760822552397, + "loss": 0.4725, + "step": 18620 + }, + { + "epoch": 49.68, + "grad_norm": 0.27734375, + "learning_rate": 0.0002995671310436139, + "loss": 0.4642, + "step": 18630 + }, + { + "epoch": 49.70666666666666, + "grad_norm": 0.275390625, + "learning_rate": 0.0002995666535989236, + "loss": 0.4648, + "step": 18640 + }, + { + "epoch": 49.733333333333334, + "grad_norm": 0.28125, + "learning_rate": 0.00029956617589145393, + "loss": 0.4834, + "step": 18650 + }, + { + "epoch": 49.76, + "grad_norm": 0.228515625, + "learning_rate": 0.0002995656979212058, + "loss": 0.4853, + "step": 18660 + }, + { + "epoch": 49.78666666666667, + "grad_norm": 0.267578125, + "learning_rate": 0.00029956521968817993, + "loss": 0.4841, + "step": 18670 + }, + { + "epoch": 49.81333333333333, + "grad_norm": 0.390625, + "learning_rate": 0.00029956474119237727, + "loss": 0.4688, + "step": 18680 + }, + { + "epoch": 49.84, + "grad_norm": 0.38671875, + "learning_rate": 0.00029956426243379854, + "loss": 0.4751, + "step": 18690 + }, + { + "epoch": 49.86666666666667, + "grad_norm": 0.298828125, + "learning_rate": 0.0002995637834124447, + "loss": 0.4746, + "step": 18700 + }, + { + "epoch": 49.89333333333333, + "grad_norm": 0.2431640625, + "learning_rate": 0.00029956330412831653, + "loss": 0.4646, + "step": 18710 + }, + { + "epoch": 49.92, + "grad_norm": 0.318359375, + "learning_rate": 0.00029956282458141494, + "loss": 0.476, + "step": 18720 + }, + { + "epoch": 49.946666666666665, + "grad_norm": 0.287109375, + "learning_rate": 0.00029956234477174063, + "loss": 0.4674, + "step": 18730 + }, + { + "epoch": 49.973333333333336, + "grad_norm": 0.259765625, + "learning_rate": 0.0002995618646992946, + "loss": 0.4787, + "step": 18740 + }, + { + "epoch": 50.0, + "grad_norm": 0.30859375, + "learning_rate": 0.0002995613843640776, + "loss": 0.4685, + "step": 18750 + }, + { + "epoch": 50.0, + "eval_loss": 0.48534244298934937, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.7591, + "eval_samples_per_second": 1.487, + "eval_steps_per_second": 0.093, + "step": 18750 + }, + { + "epoch": 50.026666666666664, + "grad_norm": 0.27734375, + "learning_rate": 0.00029956090376609054, + "loss": 0.4884, + "step": 18760 + }, + { + "epoch": 50.053333333333335, + "grad_norm": 0.306640625, + "learning_rate": 0.00029956042290533416, + "loss": 0.4938, + "step": 18770 + }, + { + "epoch": 50.08, + "grad_norm": 0.2578125, + "learning_rate": 0.0002995599417818094, + "loss": 0.4814, + "step": 18780 + }, + { + "epoch": 50.10666666666667, + "grad_norm": 0.2734375, + "learning_rate": 0.00029955946039551703, + "loss": 0.4759, + "step": 18790 + }, + { + "epoch": 50.13333333333333, + "grad_norm": 0.279296875, + "learning_rate": 0.00029955897874645797, + "loss": 0.478, + "step": 18800 + }, + { + "epoch": 50.16, + "grad_norm": 0.294921875, + "learning_rate": 0.00029955849683463307, + "loss": 0.4813, + "step": 18810 + }, + { + "epoch": 50.18666666666667, + "grad_norm": 0.2451171875, + "learning_rate": 0.0002995580146600431, + "loss": 0.474, + "step": 18820 + }, + { + "epoch": 50.21333333333333, + "grad_norm": 0.369140625, + "learning_rate": 0.000299557532222689, + "loss": 0.4684, + "step": 18830 + }, + { + "epoch": 50.24, + "grad_norm": 0.228515625, + "learning_rate": 0.00029955704952257153, + "loss": 0.473, + "step": 18840 + }, + { + "epoch": 50.266666666666666, + "grad_norm": 0.22265625, + "learning_rate": 0.00029955656655969155, + "loss": 0.4763, + "step": 18850 + }, + { + "epoch": 50.29333333333334, + "grad_norm": 0.2001953125, + "learning_rate": 0.00029955608333405, + "loss": 0.4711, + "step": 18860 + }, + { + "epoch": 50.32, + "grad_norm": 0.30078125, + "learning_rate": 0.0002995555998456476, + "loss": 0.4745, + "step": 18870 + }, + { + "epoch": 50.346666666666664, + "grad_norm": 0.28515625, + "learning_rate": 0.0002995551160944853, + "loss": 0.4826, + "step": 18880 + }, + { + "epoch": 50.373333333333335, + "grad_norm": 0.33203125, + "learning_rate": 0.0002995546320805639, + "loss": 0.479, + "step": 18890 + }, + { + "epoch": 50.4, + "grad_norm": 0.326171875, + "learning_rate": 0.00029955414780388426, + "loss": 0.4751, + "step": 18900 + }, + { + "epoch": 50.42666666666667, + "grad_norm": 0.490234375, + "learning_rate": 0.00029955366326444725, + "loss": 0.4818, + "step": 18910 + }, + { + "epoch": 50.45333333333333, + "grad_norm": 0.2578125, + "learning_rate": 0.0002995531784622537, + "loss": 0.4842, + "step": 18920 + }, + { + "epoch": 50.48, + "grad_norm": 0.296875, + "learning_rate": 0.0002995526933973044, + "loss": 0.4912, + "step": 18930 + }, + { + "epoch": 50.50666666666667, + "grad_norm": 0.26953125, + "learning_rate": 0.00029955220806960036, + "loss": 0.4796, + "step": 18940 + }, + { + "epoch": 50.53333333333333, + "grad_norm": 0.31640625, + "learning_rate": 0.00029955172247914233, + "loss": 0.4727, + "step": 18950 + }, + { + "epoch": 50.56, + "grad_norm": 0.2314453125, + "learning_rate": 0.00029955123662593115, + "loss": 0.4741, + "step": 18960 + }, + { + "epoch": 50.586666666666666, + "grad_norm": 0.236328125, + "learning_rate": 0.0002995507505099677, + "loss": 0.4708, + "step": 18970 + }, + { + "epoch": 50.61333333333333, + "grad_norm": 0.28125, + "learning_rate": 0.00029955026413125283, + "loss": 0.4556, + "step": 18980 + }, + { + "epoch": 50.64, + "grad_norm": 0.306640625, + "learning_rate": 0.0002995497774897874, + "loss": 0.4604, + "step": 18990 + }, + { + "epoch": 50.666666666666664, + "grad_norm": 0.302734375, + "learning_rate": 0.00029954929058557223, + "loss": 0.4768, + "step": 19000 + }, + { + "epoch": 50.693333333333335, + "grad_norm": 0.23046875, + "learning_rate": 0.00029954880341860824, + "loss": 0.4595, + "step": 19010 + }, + { + "epoch": 50.72, + "grad_norm": 0.2294921875, + "learning_rate": 0.00029954831598889625, + "loss": 0.476, + "step": 19020 + }, + { + "epoch": 50.74666666666667, + "grad_norm": 0.2890625, + "learning_rate": 0.0002995478282964372, + "loss": 0.481, + "step": 19030 + }, + { + "epoch": 50.77333333333333, + "grad_norm": 0.26953125, + "learning_rate": 0.00029954734034123176, + "loss": 0.4885, + "step": 19040 + }, + { + "epoch": 50.8, + "grad_norm": 0.283203125, + "learning_rate": 0.00029954685212328093, + "loss": 0.4756, + "step": 19050 + }, + { + "epoch": 50.82666666666667, + "grad_norm": 0.3984375, + "learning_rate": 0.00029954636364258553, + "loss": 0.4701, + "step": 19060 + }, + { + "epoch": 50.85333333333333, + "grad_norm": 0.240234375, + "learning_rate": 0.00029954587489914637, + "loss": 0.4793, + "step": 19070 + }, + { + "epoch": 50.88, + "grad_norm": 0.328125, + "learning_rate": 0.00029954538589296447, + "loss": 0.4665, + "step": 19080 + }, + { + "epoch": 50.906666666666666, + "grad_norm": 0.353515625, + "learning_rate": 0.0002995448966240405, + "loss": 0.47, + "step": 19090 + }, + { + "epoch": 50.93333333333333, + "grad_norm": 0.291015625, + "learning_rate": 0.0002995444070923754, + "loss": 0.4712, + "step": 19100 + }, + { + "epoch": 50.96, + "grad_norm": 0.275390625, + "learning_rate": 0.00029954391729797005, + "loss": 0.4684, + "step": 19110 + }, + { + "epoch": 50.986666666666665, + "grad_norm": 0.234375, + "learning_rate": 0.0002995434272408252, + "loss": 0.4824, + "step": 19120 + }, + { + "epoch": 51.0, + "eval_loss": 0.482730507850647, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.0939, + "eval_samples_per_second": 1.585, + "eval_steps_per_second": 0.099, + "step": 19125 + }, + { + "epoch": 51.013333333333335, + "grad_norm": 0.271484375, + "learning_rate": 0.00029954293692094195, + "loss": 0.4726, + "step": 19130 + }, + { + "epoch": 51.04, + "grad_norm": 0.25, + "learning_rate": 0.0002995424463383209, + "loss": 0.4961, + "step": 19140 + }, + { + "epoch": 51.06666666666667, + "grad_norm": 0.263671875, + "learning_rate": 0.00029954195549296303, + "loss": 0.4835, + "step": 19150 + }, + { + "epoch": 51.093333333333334, + "grad_norm": 0.29296875, + "learning_rate": 0.0002995414643848693, + "loss": 0.4782, + "step": 19160 + }, + { + "epoch": 51.12, + "grad_norm": 0.267578125, + "learning_rate": 0.0002995409730140403, + "loss": 0.4743, + "step": 19170 + }, + { + "epoch": 51.14666666666667, + "grad_norm": 0.30859375, + "learning_rate": 0.0002995404813804772, + "loss": 0.4845, + "step": 19180 + }, + { + "epoch": 51.17333333333333, + "grad_norm": 0.333984375, + "learning_rate": 0.00029953998948418066, + "loss": 0.4738, + "step": 19190 + }, + { + "epoch": 51.2, + "grad_norm": 0.380859375, + "learning_rate": 0.00029953949732515163, + "loss": 0.4724, + "step": 19200 + }, + { + "epoch": 51.22666666666667, + "grad_norm": 0.32421875, + "learning_rate": 0.00029953900490339093, + "loss": 0.4707, + "step": 19210 + }, + { + "epoch": 51.25333333333333, + "grad_norm": 0.42578125, + "learning_rate": 0.0002995385122188995, + "loss": 0.4706, + "step": 19220 + }, + { + "epoch": 51.28, + "grad_norm": 0.404296875, + "learning_rate": 0.0002995380192716781, + "loss": 0.4839, + "step": 19230 + }, + { + "epoch": 51.306666666666665, + "grad_norm": 0.306640625, + "learning_rate": 0.00029953752606172766, + "loss": 0.4646, + "step": 19240 + }, + { + "epoch": 51.333333333333336, + "grad_norm": 0.279296875, + "learning_rate": 0.0002995370325890491, + "loss": 0.4808, + "step": 19250 + }, + { + "epoch": 51.36, + "grad_norm": 0.404296875, + "learning_rate": 0.0002995365388536431, + "loss": 0.4835, + "step": 19260 + }, + { + "epoch": 51.38666666666666, + "grad_norm": 0.294921875, + "learning_rate": 0.00029953604485551073, + "loss": 0.4741, + "step": 19270 + }, + { + "epoch": 51.413333333333334, + "grad_norm": 0.19140625, + "learning_rate": 0.0002995355505946528, + "loss": 0.478, + "step": 19280 + }, + { + "epoch": 51.44, + "grad_norm": 0.30078125, + "learning_rate": 0.0002995350560710701, + "loss": 0.4813, + "step": 19290 + }, + { + "epoch": 51.46666666666667, + "grad_norm": 0.328125, + "learning_rate": 0.0002995345612847636, + "loss": 0.4909, + "step": 19300 + }, + { + "epoch": 51.49333333333333, + "grad_norm": 0.322265625, + "learning_rate": 0.00029953406623573414, + "loss": 0.4821, + "step": 19310 + }, + { + "epoch": 51.52, + "grad_norm": 0.33203125, + "learning_rate": 0.0002995335709239825, + "loss": 0.4767, + "step": 19320 + }, + { + "epoch": 51.54666666666667, + "grad_norm": 0.205078125, + "learning_rate": 0.00029953307534950967, + "loss": 0.4732, + "step": 19330 + }, + { + "epoch": 51.57333333333333, + "grad_norm": 0.2431640625, + "learning_rate": 0.00029953257951231653, + "loss": 0.4726, + "step": 19340 + }, + { + "epoch": 51.6, + "grad_norm": 0.435546875, + "learning_rate": 0.0002995320834124038, + "loss": 0.4667, + "step": 19350 + }, + { + "epoch": 51.626666666666665, + "grad_norm": 0.365234375, + "learning_rate": 0.00029953158704977247, + "loss": 0.4532, + "step": 19360 + }, + { + "epoch": 51.653333333333336, + "grad_norm": 0.302734375, + "learning_rate": 0.00029953109042442344, + "loss": 0.4729, + "step": 19370 + }, + { + "epoch": 51.68, + "grad_norm": 0.28125, + "learning_rate": 0.00029953059353635754, + "loss": 0.464, + "step": 19380 + }, + { + "epoch": 51.70666666666666, + "grad_norm": 0.25, + "learning_rate": 0.00029953009638557563, + "loss": 0.4647, + "step": 19390 + }, + { + "epoch": 51.733333333333334, + "grad_norm": 0.23046875, + "learning_rate": 0.00029952959897207857, + "loss": 0.4839, + "step": 19400 + }, + { + "epoch": 51.76, + "grad_norm": 0.271484375, + "learning_rate": 0.00029952910129586724, + "loss": 0.4847, + "step": 19410 + }, + { + "epoch": 51.78666666666667, + "grad_norm": 0.26953125, + "learning_rate": 0.00029952860335694256, + "loss": 0.4835, + "step": 19420 + }, + { + "epoch": 51.81333333333333, + "grad_norm": 0.2890625, + "learning_rate": 0.00029952810515530533, + "loss": 0.4688, + "step": 19430 + }, + { + "epoch": 51.84, + "grad_norm": 0.275390625, + "learning_rate": 0.0002995276066909565, + "loss": 0.4757, + "step": 19440 + }, + { + "epoch": 51.86666666666667, + "grad_norm": 0.21875, + "learning_rate": 0.0002995271079638969, + "loss": 0.4742, + "step": 19450 + }, + { + "epoch": 51.89333333333333, + "grad_norm": 0.28515625, + "learning_rate": 0.00029952660897412746, + "loss": 0.4646, + "step": 19460 + }, + { + "epoch": 51.92, + "grad_norm": 0.390625, + "learning_rate": 0.00029952610972164897, + "loss": 0.4758, + "step": 19470 + }, + { + "epoch": 51.946666666666665, + "grad_norm": 0.25390625, + "learning_rate": 0.0002995256102064624, + "loss": 0.4672, + "step": 19480 + }, + { + "epoch": 51.973333333333336, + "grad_norm": 0.333984375, + "learning_rate": 0.00029952511042856855, + "loss": 0.4792, + "step": 19490 + }, + { + "epoch": 52.0, + "grad_norm": 0.2490234375, + "learning_rate": 0.00029952461038796827, + "loss": 0.4684, + "step": 19500 + }, + { + "epoch": 52.0, + "eval_loss": 0.4829648435115814, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.5574, + "eval_samples_per_second": 1.516, + "eval_steps_per_second": 0.095, + "step": 19500 + }, + { + "epoch": 52.026666666666664, + "grad_norm": 0.2294921875, + "learning_rate": 0.0002995241100846626, + "loss": 0.4875, + "step": 19510 + }, + { + "epoch": 52.053333333333335, + "grad_norm": 0.2412109375, + "learning_rate": 0.00029952360951865224, + "loss": 0.494, + "step": 19520 + }, + { + "epoch": 52.08, + "grad_norm": 0.2353515625, + "learning_rate": 0.00029952310868993823, + "loss": 0.4803, + "step": 19530 + }, + { + "epoch": 52.10666666666667, + "grad_norm": 0.23828125, + "learning_rate": 0.00029952260759852134, + "loss": 0.4758, + "step": 19540 + }, + { + "epoch": 52.13333333333333, + "grad_norm": 0.267578125, + "learning_rate": 0.00029952210624440247, + "loss": 0.4775, + "step": 19550 + }, + { + "epoch": 52.16, + "grad_norm": 0.451171875, + "learning_rate": 0.0002995216046275825, + "loss": 0.4816, + "step": 19560 + }, + { + "epoch": 52.18666666666667, + "grad_norm": 0.33203125, + "learning_rate": 0.0002995211027480623, + "loss": 0.4742, + "step": 19570 + }, + { + "epoch": 52.21333333333333, + "grad_norm": 0.232421875, + "learning_rate": 0.00029952060060584284, + "loss": 0.4687, + "step": 19580 + }, + { + "epoch": 52.24, + "grad_norm": 0.3359375, + "learning_rate": 0.0002995200982009249, + "loss": 0.4729, + "step": 19590 + }, + { + "epoch": 52.266666666666666, + "grad_norm": 0.294921875, + "learning_rate": 0.00029951959553330934, + "loss": 0.476, + "step": 19600 + }, + { + "epoch": 52.29333333333334, + "grad_norm": 0.279296875, + "learning_rate": 0.00029951909260299715, + "loss": 0.4701, + "step": 19610 + }, + { + "epoch": 52.32, + "grad_norm": 0.2373046875, + "learning_rate": 0.00029951858940998916, + "loss": 0.474, + "step": 19620 + }, + { + "epoch": 52.346666666666664, + "grad_norm": 0.259765625, + "learning_rate": 0.00029951808595428625, + "loss": 0.4828, + "step": 19630 + }, + { + "epoch": 52.373333333333335, + "grad_norm": 0.224609375, + "learning_rate": 0.00029951758223588934, + "loss": 0.4786, + "step": 19640 + }, + { + "epoch": 52.4, + "grad_norm": 0.21875, + "learning_rate": 0.00029951707825479925, + "loss": 0.4749, + "step": 19650 + }, + { + "epoch": 52.42666666666667, + "grad_norm": 0.3203125, + "learning_rate": 0.00029951657401101694, + "loss": 0.4814, + "step": 19660 + }, + { + "epoch": 52.45333333333333, + "grad_norm": 0.27734375, + "learning_rate": 0.00029951606950454323, + "loss": 0.483, + "step": 19670 + }, + { + "epoch": 52.48, + "grad_norm": 0.32421875, + "learning_rate": 0.00029951556473537905, + "loss": 0.4897, + "step": 19680 + }, + { + "epoch": 52.50666666666667, + "grad_norm": 0.23828125, + "learning_rate": 0.00029951505970352525, + "loss": 0.4798, + "step": 19690 + }, + { + "epoch": 52.53333333333333, + "grad_norm": 0.28515625, + "learning_rate": 0.00029951455440898277, + "loss": 0.4734, + "step": 19700 + }, + { + "epoch": 52.56, + "grad_norm": 0.3046875, + "learning_rate": 0.0002995140488517524, + "loss": 0.4747, + "step": 19710 + }, + { + "epoch": 52.586666666666666, + "grad_norm": 0.3359375, + "learning_rate": 0.00029951354303183516, + "loss": 0.47, + "step": 19720 + }, + { + "epoch": 52.61333333333333, + "grad_norm": 0.2314453125, + "learning_rate": 0.00029951303694923187, + "loss": 0.4562, + "step": 19730 + }, + { + "epoch": 52.64, + "grad_norm": 0.2490234375, + "learning_rate": 0.0002995125306039434, + "loss": 0.4611, + "step": 19740 + }, + { + "epoch": 52.666666666666664, + "grad_norm": 0.228515625, + "learning_rate": 0.00029951202399597067, + "loss": 0.4764, + "step": 19750 + }, + { + "epoch": 52.693333333333335, + "grad_norm": 0.216796875, + "learning_rate": 0.0002995115171253146, + "loss": 0.459, + "step": 19760 + }, + { + "epoch": 52.72, + "grad_norm": 0.28515625, + "learning_rate": 0.000299511009991976, + "loss": 0.4761, + "step": 19770 + }, + { + "epoch": 52.74666666666667, + "grad_norm": 0.251953125, + "learning_rate": 0.0002995105025959558, + "loss": 0.4807, + "step": 19780 + }, + { + "epoch": 52.77333333333333, + "grad_norm": 0.30859375, + "learning_rate": 0.0002995099949372549, + "loss": 0.4885, + "step": 19790 + }, + { + "epoch": 52.8, + "grad_norm": 0.330078125, + "learning_rate": 0.0002995094870158742, + "loss": 0.4751, + "step": 19800 + }, + { + "epoch": 52.82666666666667, + "grad_norm": 0.248046875, + "learning_rate": 0.00029950897883181457, + "loss": 0.47, + "step": 19810 + }, + { + "epoch": 52.85333333333333, + "grad_norm": 0.2353515625, + "learning_rate": 0.0002995084703850769, + "loss": 0.4788, + "step": 19820 + }, + { + "epoch": 52.88, + "grad_norm": 0.294921875, + "learning_rate": 0.00029950796167566214, + "loss": 0.4669, + "step": 19830 + }, + { + "epoch": 52.906666666666666, + "grad_norm": 0.291015625, + "learning_rate": 0.0002995074527035711, + "loss": 0.4696, + "step": 19840 + }, + { + "epoch": 52.93333333333333, + "grad_norm": 0.27734375, + "learning_rate": 0.00029950694346880477, + "loss": 0.472, + "step": 19850 + }, + { + "epoch": 52.96, + "grad_norm": 0.376953125, + "learning_rate": 0.0002995064339713639, + "loss": 0.4686, + "step": 19860 + }, + { + "epoch": 52.986666666666665, + "grad_norm": 0.2734375, + "learning_rate": 0.0002995059242112495, + "loss": 0.4825, + "step": 19870 + }, + { + "epoch": 53.0, + "eval_loss": 0.4844491183757782, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.1674, + "eval_samples_per_second": 1.574, + "eval_steps_per_second": 0.098, + "step": 19875 + }, + { + "epoch": 53.013333333333335, + "grad_norm": 0.265625, + "learning_rate": 0.00029950541418846254, + "loss": 0.4711, + "step": 19880 + }, + { + "epoch": 53.04, + "grad_norm": 0.4609375, + "learning_rate": 0.0002995049039030037, + "loss": 0.4956, + "step": 19890 + }, + { + "epoch": 53.06666666666667, + "grad_norm": 0.32421875, + "learning_rate": 0.00029950439335487403, + "loss": 0.4834, + "step": 19900 + }, + { + "epoch": 53.093333333333334, + "grad_norm": 0.369140625, + "learning_rate": 0.0002995038825440744, + "loss": 0.4783, + "step": 19910 + }, + { + "epoch": 53.12, + "grad_norm": 0.271484375, + "learning_rate": 0.00029950337147060564, + "loss": 0.475, + "step": 19920 + }, + { + "epoch": 53.14666666666667, + "grad_norm": 0.4453125, + "learning_rate": 0.00029950286013446874, + "loss": 0.4838, + "step": 19930 + }, + { + "epoch": 53.17333333333333, + "grad_norm": 0.392578125, + "learning_rate": 0.0002995023485356646, + "loss": 0.4739, + "step": 19940 + }, + { + "epoch": 53.2, + "grad_norm": 0.333984375, + "learning_rate": 0.00029950183667419404, + "loss": 0.4727, + "step": 19950 + }, + { + "epoch": 53.22666666666667, + "grad_norm": 0.310546875, + "learning_rate": 0.000299501324550058, + "loss": 0.4705, + "step": 19960 + }, + { + "epoch": 53.25333333333333, + "grad_norm": 0.361328125, + "learning_rate": 0.0002995008121632574, + "loss": 0.47, + "step": 19970 + }, + { + "epoch": 53.28, + "grad_norm": 0.2734375, + "learning_rate": 0.0002995002995137931, + "loss": 0.4838, + "step": 19980 + }, + { + "epoch": 53.306666666666665, + "grad_norm": 0.259765625, + "learning_rate": 0.0002994997866016661, + "loss": 0.4646, + "step": 19990 + }, + { + "epoch": 53.333333333333336, + "grad_norm": 0.2236328125, + "learning_rate": 0.0002994992734268771, + "loss": 0.4803, + "step": 20000 + }, + { + "epoch": 53.36, + "grad_norm": 0.259765625, + "learning_rate": 0.0002994987599894272, + "loss": 0.4829, + "step": 20010 + }, + { + "epoch": 53.38666666666666, + "grad_norm": 0.353515625, + "learning_rate": 0.0002994982462893172, + "loss": 0.4741, + "step": 20020 + }, + { + "epoch": 53.413333333333334, + "grad_norm": 0.29296875, + "learning_rate": 0.00029949773232654806, + "loss": 0.4777, + "step": 20030 + }, + { + "epoch": 53.44, + "grad_norm": 0.25390625, + "learning_rate": 0.00029949721810112063, + "loss": 0.4813, + "step": 20040 + }, + { + "epoch": 53.46666666666667, + "grad_norm": 0.26171875, + "learning_rate": 0.00029949670361303584, + "loss": 0.4914, + "step": 20050 + }, + { + "epoch": 53.49333333333333, + "grad_norm": 0.228515625, + "learning_rate": 0.00029949618886229457, + "loss": 0.4828, + "step": 20060 + }, + { + "epoch": 53.52, + "grad_norm": 0.2431640625, + "learning_rate": 0.0002994956738488978, + "loss": 0.4765, + "step": 20070 + }, + { + "epoch": 53.54666666666667, + "grad_norm": 0.412109375, + "learning_rate": 0.0002994951585728463, + "loss": 0.4729, + "step": 20080 + }, + { + "epoch": 53.57333333333333, + "grad_norm": 0.2138671875, + "learning_rate": 0.0002994946430341411, + "loss": 0.4725, + "step": 20090 + }, + { + "epoch": 53.6, + "grad_norm": 0.31640625, + "learning_rate": 0.00029949412723278304, + "loss": 0.4656, + "step": 20100 + }, + { + "epoch": 53.626666666666665, + "grad_norm": 0.279296875, + "learning_rate": 0.00029949361116877305, + "loss": 0.4528, + "step": 20110 + }, + { + "epoch": 53.653333333333336, + "grad_norm": 0.306640625, + "learning_rate": 0.0002994930948421121, + "loss": 0.4729, + "step": 20120 + }, + { + "epoch": 53.68, + "grad_norm": 0.392578125, + "learning_rate": 0.00029949257825280095, + "loss": 0.464, + "step": 20130 + }, + { + "epoch": 53.70666666666666, + "grad_norm": 0.271484375, + "learning_rate": 0.0002994920614008406, + "loss": 0.4649, + "step": 20140 + }, + { + "epoch": 53.733333333333334, + "grad_norm": 0.19921875, + "learning_rate": 0.0002994915442862319, + "loss": 0.4834, + "step": 20150 + }, + { + "epoch": 53.76, + "grad_norm": 0.30859375, + "learning_rate": 0.0002994910269089759, + "loss": 0.4847, + "step": 20160 + }, + { + "epoch": 53.78666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.0002994905092690734, + "loss": 0.4835, + "step": 20170 + }, + { + "epoch": 53.81333333333333, + "grad_norm": 0.404296875, + "learning_rate": 0.0002994899913665253, + "loss": 0.4685, + "step": 20180 + }, + { + "epoch": 53.84, + "grad_norm": 0.341796875, + "learning_rate": 0.00029948947320133245, + "loss": 0.4747, + "step": 20190 + }, + { + "epoch": 53.86666666666667, + "grad_norm": 0.30078125, + "learning_rate": 0.00029948895477349593, + "loss": 0.4737, + "step": 20200 + }, + { + "epoch": 53.89333333333333, + "grad_norm": 0.234375, + "learning_rate": 0.0002994884360830166, + "loss": 0.4646, + "step": 20210 + }, + { + "epoch": 53.92, + "grad_norm": 0.349609375, + "learning_rate": 0.0002994879171298953, + "loss": 0.475, + "step": 20220 + }, + { + "epoch": 53.946666666666665, + "grad_norm": 0.27734375, + "learning_rate": 0.00029948739791413293, + "loss": 0.4669, + "step": 20230 + }, + { + "epoch": 53.973333333333336, + "grad_norm": 0.248046875, + "learning_rate": 0.00029948687843573047, + "loss": 0.4792, + "step": 20240 + }, + { + "epoch": 54.0, + "grad_norm": 0.322265625, + "learning_rate": 0.0002994863586946888, + "loss": 0.4675, + "step": 20250 + }, + { + "epoch": 54.0, + "eval_loss": 0.48338034749031067, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.0245, + "eval_samples_per_second": 1.596, + "eval_steps_per_second": 0.1, + "step": 20250 + }, + { + "epoch": 54.026666666666664, + "grad_norm": 0.365234375, + "learning_rate": 0.0002994858386910089, + "loss": 0.4889, + "step": 20260 + }, + { + "epoch": 54.053333333333335, + "grad_norm": 0.2158203125, + "learning_rate": 0.0002994853184246916, + "loss": 0.4937, + "step": 20270 + }, + { + "epoch": 54.08, + "grad_norm": 0.279296875, + "learning_rate": 0.00029948479789573785, + "loss": 0.4812, + "step": 20280 + }, + { + "epoch": 54.10666666666667, + "grad_norm": 0.240234375, + "learning_rate": 0.00029948427710414853, + "loss": 0.4758, + "step": 20290 + }, + { + "epoch": 54.13333333333333, + "grad_norm": 0.298828125, + "learning_rate": 0.0002994837560499246, + "loss": 0.4774, + "step": 20300 + }, + { + "epoch": 54.16, + "grad_norm": 0.310546875, + "learning_rate": 0.000299483234733067, + "loss": 0.4816, + "step": 20310 + }, + { + "epoch": 54.18666666666667, + "grad_norm": 0.2470703125, + "learning_rate": 0.00029948271315357656, + "loss": 0.474, + "step": 20320 + }, + { + "epoch": 54.21333333333333, + "grad_norm": 0.3046875, + "learning_rate": 0.0002994821913114542, + "loss": 0.4682, + "step": 20330 + }, + { + "epoch": 54.24, + "grad_norm": 0.2431640625, + "learning_rate": 0.00029948166920670095, + "loss": 0.4729, + "step": 20340 + }, + { + "epoch": 54.266666666666666, + "grad_norm": 0.26953125, + "learning_rate": 0.0002994811468393176, + "loss": 0.4773, + "step": 20350 + }, + { + "epoch": 54.29333333333334, + "grad_norm": 0.28515625, + "learning_rate": 0.00029948062420930515, + "loss": 0.4703, + "step": 20360 + }, + { + "epoch": 54.32, + "grad_norm": 0.267578125, + "learning_rate": 0.0002994801013166645, + "loss": 0.4741, + "step": 20370 + }, + { + "epoch": 54.346666666666664, + "grad_norm": 0.279296875, + "learning_rate": 0.00029947957816139654, + "loss": 0.4822, + "step": 20380 + }, + { + "epoch": 54.373333333333335, + "grad_norm": 0.326171875, + "learning_rate": 0.0002994790547435022, + "loss": 0.4783, + "step": 20390 + }, + { + "epoch": 54.4, + "grad_norm": 0.294921875, + "learning_rate": 0.00029947853106298243, + "loss": 0.475, + "step": 20400 + }, + { + "epoch": 54.42666666666667, + "grad_norm": 0.27734375, + "learning_rate": 0.0002994780071198381, + "loss": 0.4812, + "step": 20410 + }, + { + "epoch": 54.45333333333333, + "grad_norm": 0.27734375, + "learning_rate": 0.0002994774829140702, + "loss": 0.4833, + "step": 20420 + }, + { + "epoch": 54.48, + "grad_norm": 0.33203125, + "learning_rate": 0.00029947695844567956, + "loss": 0.4894, + "step": 20430 + }, + { + "epoch": 54.50666666666667, + "grad_norm": 0.2392578125, + "learning_rate": 0.00029947643371466717, + "loss": 0.4791, + "step": 20440 + }, + { + "epoch": 54.53333333333333, + "grad_norm": 0.21484375, + "learning_rate": 0.00029947590872103397, + "loss": 0.4729, + "step": 20450 + }, + { + "epoch": 54.56, + "grad_norm": 0.37109375, + "learning_rate": 0.0002994753834647808, + "loss": 0.473, + "step": 20460 + }, + { + "epoch": 54.586666666666666, + "grad_norm": 0.2314453125, + "learning_rate": 0.0002994748579459086, + "loss": 0.4698, + "step": 20470 + }, + { + "epoch": 54.61333333333333, + "grad_norm": 0.2236328125, + "learning_rate": 0.00029947433216441835, + "loss": 0.4553, + "step": 20480 + }, + { + "epoch": 54.64, + "grad_norm": 0.3125, + "learning_rate": 0.00029947380612031094, + "loss": 0.4606, + "step": 20490 + }, + { + "epoch": 54.666666666666664, + "grad_norm": 0.30859375, + "learning_rate": 0.00029947327981358736, + "loss": 0.4757, + "step": 20500 + }, + { + "epoch": 54.693333333333335, + "grad_norm": 0.2421875, + "learning_rate": 0.0002994727532442484, + "loss": 0.4592, + "step": 20510 + }, + { + "epoch": 54.72, + "grad_norm": 0.287109375, + "learning_rate": 0.0002994722264122951, + "loss": 0.476, + "step": 20520 + }, + { + "epoch": 54.74666666666667, + "grad_norm": 0.2890625, + "learning_rate": 0.0002994716993177283, + "loss": 0.4808, + "step": 20530 + }, + { + "epoch": 54.77333333333333, + "grad_norm": 0.357421875, + "learning_rate": 0.00029947117196054904, + "loss": 0.4881, + "step": 20540 + }, + { + "epoch": 54.8, + "grad_norm": 0.267578125, + "learning_rate": 0.00029947064434075814, + "loss": 0.4746, + "step": 20550 + }, + { + "epoch": 54.82666666666667, + "grad_norm": 0.314453125, + "learning_rate": 0.0002994701164583565, + "loss": 0.4696, + "step": 20560 + }, + { + "epoch": 54.85333333333333, + "grad_norm": 0.265625, + "learning_rate": 0.0002994695883133452, + "loss": 0.4786, + "step": 20570 + }, + { + "epoch": 54.88, + "grad_norm": 0.33984375, + "learning_rate": 0.0002994690599057251, + "loss": 0.4663, + "step": 20580 + }, + { + "epoch": 54.906666666666666, + "grad_norm": 0.23828125, + "learning_rate": 0.000299468531235497, + "loss": 0.4689, + "step": 20590 + }, + { + "epoch": 54.93333333333333, + "grad_norm": 0.2353515625, + "learning_rate": 0.000299468002302662, + "loss": 0.4707, + "step": 20600 + }, + { + "epoch": 54.96, + "grad_norm": 0.21484375, + "learning_rate": 0.0002994674731072209, + "loss": 0.469, + "step": 20610 + }, + { + "epoch": 54.986666666666665, + "grad_norm": 0.328125, + "learning_rate": 0.00029946694364917483, + "loss": 0.4826, + "step": 20620 + }, + { + "epoch": 55.0, + "eval_loss": 0.48227477073669434, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.2026, + "eval_samples_per_second": 1.568, + "eval_steps_per_second": 0.098, + "step": 20625 + }, + { + "epoch": 55.013333333333335, + "grad_norm": 0.26171875, + "learning_rate": 0.0002994664139285245, + "loss": 0.4724, + "step": 20630 + }, + { + "epoch": 55.04, + "grad_norm": 0.54296875, + "learning_rate": 0.00029946588394527094, + "loss": 0.4966, + "step": 20640 + }, + { + "epoch": 55.06666666666667, + "grad_norm": 0.5078125, + "learning_rate": 0.0002994653536994151, + "loss": 0.4838, + "step": 20650 + }, + { + "epoch": 55.093333333333334, + "grad_norm": 0.318359375, + "learning_rate": 0.00029946482319095783, + "loss": 0.4785, + "step": 20660 + }, + { + "epoch": 55.12, + "grad_norm": 0.2490234375, + "learning_rate": 0.00029946429241990013, + "loss": 0.4745, + "step": 20670 + }, + { + "epoch": 55.14666666666667, + "grad_norm": 0.35546875, + "learning_rate": 0.00029946376138624293, + "loss": 0.4834, + "step": 20680 + }, + { + "epoch": 55.17333333333333, + "grad_norm": 0.248046875, + "learning_rate": 0.00029946323008998713, + "loss": 0.4745, + "step": 20690 + }, + { + "epoch": 55.2, + "grad_norm": 0.2421875, + "learning_rate": 0.00029946269853113367, + "loss": 0.472, + "step": 20700 + }, + { + "epoch": 55.22666666666667, + "grad_norm": 0.2353515625, + "learning_rate": 0.0002994621667096835, + "loss": 0.4699, + "step": 20710 + }, + { + "epoch": 55.25333333333333, + "grad_norm": 0.36328125, + "learning_rate": 0.0002994616346256375, + "loss": 0.4695, + "step": 20720 + }, + { + "epoch": 55.28, + "grad_norm": 0.36328125, + "learning_rate": 0.0002994611022789967, + "loss": 0.4839, + "step": 20730 + }, + { + "epoch": 55.306666666666665, + "grad_norm": 0.33984375, + "learning_rate": 0.00029946056966976203, + "loss": 0.465, + "step": 20740 + }, + { + "epoch": 55.333333333333336, + "grad_norm": 0.310546875, + "learning_rate": 0.0002994600367979343, + "loss": 0.4798, + "step": 20750 + }, + { + "epoch": 55.36, + "grad_norm": 0.30078125, + "learning_rate": 0.0002994595036635146, + "loss": 0.4819, + "step": 20760 + }, + { + "epoch": 55.38666666666666, + "grad_norm": 0.333984375, + "learning_rate": 0.0002994589702665038, + "loss": 0.4736, + "step": 20770 + }, + { + "epoch": 55.413333333333334, + "grad_norm": 0.2314453125, + "learning_rate": 0.0002994584366069028, + "loss": 0.478, + "step": 20780 + }, + { + "epoch": 55.44, + "grad_norm": 0.328125, + "learning_rate": 0.0002994579026847126, + "loss": 0.4808, + "step": 20790 + }, + { + "epoch": 55.46666666666667, + "grad_norm": 0.259765625, + "learning_rate": 0.0002994573684999341, + "loss": 0.4905, + "step": 20800 + }, + { + "epoch": 55.49333333333333, + "grad_norm": 0.38671875, + "learning_rate": 0.0002994568340525682, + "loss": 0.4821, + "step": 20810 + }, + { + "epoch": 55.52, + "grad_norm": 0.2373046875, + "learning_rate": 0.000299456299342616, + "loss": 0.4765, + "step": 20820 + }, + { + "epoch": 55.54666666666667, + "grad_norm": 0.2890625, + "learning_rate": 0.00029945576437007826, + "loss": 0.473, + "step": 20830 + }, + { + "epoch": 55.57333333333333, + "grad_norm": 0.19921875, + "learning_rate": 0.0002994552291349559, + "loss": 0.4722, + "step": 20840 + }, + { + "epoch": 55.6, + "grad_norm": 0.5078125, + "learning_rate": 0.0002994546936372501, + "loss": 0.466, + "step": 20850 + }, + { + "epoch": 55.626666666666665, + "grad_norm": 0.31640625, + "learning_rate": 0.00029945415787696155, + "loss": 0.4526, + "step": 20860 + }, + { + "epoch": 55.653333333333336, + "grad_norm": 0.267578125, + "learning_rate": 0.00029945362185409137, + "loss": 0.4721, + "step": 20870 + }, + { + "epoch": 55.68, + "grad_norm": 0.25, + "learning_rate": 0.00029945308556864037, + "loss": 0.4638, + "step": 20880 + }, + { + "epoch": 55.70666666666666, + "grad_norm": 0.34375, + "learning_rate": 0.0002994525490206095, + "loss": 0.464, + "step": 20890 + }, + { + "epoch": 55.733333333333334, + "grad_norm": 0.291015625, + "learning_rate": 0.0002994520122099998, + "loss": 0.4832, + "step": 20900 + }, + { + "epoch": 55.76, + "grad_norm": 0.333984375, + "learning_rate": 0.0002994514751368121, + "loss": 0.4849, + "step": 20910 + }, + { + "epoch": 55.78666666666667, + "grad_norm": 0.228515625, + "learning_rate": 0.0002994509378010475, + "loss": 0.4829, + "step": 20920 + }, + { + "epoch": 55.81333333333333, + "grad_norm": 0.345703125, + "learning_rate": 0.0002994504002027068, + "loss": 0.4678, + "step": 20930 + }, + { + "epoch": 55.84, + "grad_norm": 0.310546875, + "learning_rate": 0.000299449862341791, + "loss": 0.4743, + "step": 20940 + }, + { + "epoch": 55.86666666666667, + "grad_norm": 0.353515625, + "learning_rate": 0.00029944932421830105, + "loss": 0.474, + "step": 20950 + }, + { + "epoch": 55.89333333333333, + "grad_norm": 0.390625, + "learning_rate": 0.00029944878583223783, + "loss": 0.4645, + "step": 20960 + }, + { + "epoch": 55.92, + "grad_norm": 0.369140625, + "learning_rate": 0.0002994482471836024, + "loss": 0.4752, + "step": 20970 + }, + { + "epoch": 55.946666666666665, + "grad_norm": 0.23828125, + "learning_rate": 0.0002994477082723956, + "loss": 0.4673, + "step": 20980 + }, + { + "epoch": 55.973333333333336, + "grad_norm": 0.23828125, + "learning_rate": 0.00029944716909861846, + "loss": 0.4788, + "step": 20990 + }, + { + "epoch": 56.0, + "grad_norm": 0.2236328125, + "learning_rate": 0.00029944662966227185, + "loss": 0.4679, + "step": 21000 + }, + { + "epoch": 56.0, + "eval_loss": 0.4822176694869995, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.3155, + "eval_samples_per_second": 1.551, + "eval_steps_per_second": 0.097, + "step": 21000 + }, + { + "epoch": 56.026666666666664, + "grad_norm": 0.322265625, + "learning_rate": 0.0002994460899633568, + "loss": 0.4876, + "step": 21010 + }, + { + "epoch": 56.053333333333335, + "grad_norm": 0.2177734375, + "learning_rate": 0.00029944555000187414, + "loss": 0.493, + "step": 21020 + }, + { + "epoch": 56.08, + "grad_norm": 0.357421875, + "learning_rate": 0.00029944500977782494, + "loss": 0.4808, + "step": 21030 + }, + { + "epoch": 56.10666666666667, + "grad_norm": 0.3125, + "learning_rate": 0.00029944446929121006, + "loss": 0.4754, + "step": 21040 + }, + { + "epoch": 56.13333333333333, + "grad_norm": 0.38671875, + "learning_rate": 0.0002994439285420306, + "loss": 0.4769, + "step": 21050 + }, + { + "epoch": 56.16, + "grad_norm": 0.34375, + "learning_rate": 0.0002994433875302873, + "loss": 0.4814, + "step": 21060 + }, + { + "epoch": 56.18666666666667, + "grad_norm": 0.3046875, + "learning_rate": 0.0002994428462559813, + "loss": 0.473, + "step": 21070 + }, + { + "epoch": 56.21333333333333, + "grad_norm": 0.328125, + "learning_rate": 0.0002994423047191134, + "loss": 0.4678, + "step": 21080 + }, + { + "epoch": 56.24, + "grad_norm": 0.29296875, + "learning_rate": 0.00029944176291968463, + "loss": 0.4719, + "step": 21090 + }, + { + "epoch": 56.266666666666666, + "grad_norm": 0.220703125, + "learning_rate": 0.0002994412208576959, + "loss": 0.4762, + "step": 21100 + }, + { + "epoch": 56.29333333333334, + "grad_norm": 0.37109375, + "learning_rate": 0.0002994406785331482, + "loss": 0.4699, + "step": 21110 + }, + { + "epoch": 56.32, + "grad_norm": 0.34765625, + "learning_rate": 0.0002994401359460425, + "loss": 0.4745, + "step": 21120 + }, + { + "epoch": 56.346666666666664, + "grad_norm": 0.375, + "learning_rate": 0.0002994395930963797, + "loss": 0.4827, + "step": 21130 + }, + { + "epoch": 56.373333333333335, + "grad_norm": 0.267578125, + "learning_rate": 0.0002994390499841608, + "loss": 0.4779, + "step": 21140 + }, + { + "epoch": 56.4, + "grad_norm": 0.208984375, + "learning_rate": 0.0002994385066093867, + "loss": 0.4743, + "step": 21150 + }, + { + "epoch": 56.42666666666667, + "grad_norm": 0.314453125, + "learning_rate": 0.00029943796297205843, + "loss": 0.4808, + "step": 21160 + }, + { + "epoch": 56.45333333333333, + "grad_norm": 0.376953125, + "learning_rate": 0.00029943741907217686, + "loss": 0.483, + "step": 21170 + }, + { + "epoch": 56.48, + "grad_norm": 0.35546875, + "learning_rate": 0.00029943687490974305, + "loss": 0.4892, + "step": 21180 + }, + { + "epoch": 56.50666666666667, + "grad_norm": 0.265625, + "learning_rate": 0.0002994363304847578, + "loss": 0.4786, + "step": 21190 + }, + { + "epoch": 56.53333333333333, + "grad_norm": 0.275390625, + "learning_rate": 0.00029943578579722224, + "loss": 0.4723, + "step": 21200 + }, + { + "epoch": 56.56, + "grad_norm": 0.357421875, + "learning_rate": 0.00029943524084713723, + "loss": 0.4739, + "step": 21210 + }, + { + "epoch": 56.586666666666666, + "grad_norm": 0.515625, + "learning_rate": 0.00029943469563450373, + "loss": 0.4698, + "step": 21220 + }, + { + "epoch": 56.61333333333333, + "grad_norm": 0.28125, + "learning_rate": 0.00029943415015932275, + "loss": 0.4556, + "step": 21230 + }, + { + "epoch": 56.64, + "grad_norm": 0.26171875, + "learning_rate": 0.0002994336044215952, + "loss": 0.4601, + "step": 21240 + }, + { + "epoch": 56.666666666666664, + "grad_norm": 0.3515625, + "learning_rate": 0.000299433058421322, + "loss": 0.4757, + "step": 21250 + }, + { + "epoch": 56.693333333333335, + "grad_norm": 0.314453125, + "learning_rate": 0.0002994325121585042, + "loss": 0.4589, + "step": 21260 + }, + { + "epoch": 56.72, + "grad_norm": 0.2236328125, + "learning_rate": 0.00029943196563314274, + "loss": 0.4759, + "step": 21270 + }, + { + "epoch": 56.74666666666667, + "grad_norm": 0.2255859375, + "learning_rate": 0.00029943141884523856, + "loss": 0.4803, + "step": 21280 + }, + { + "epoch": 56.77333333333333, + "grad_norm": 0.263671875, + "learning_rate": 0.0002994308717947926, + "loss": 0.488, + "step": 21290 + }, + { + "epoch": 56.8, + "grad_norm": 0.265625, + "learning_rate": 0.0002994303244818058, + "loss": 0.4749, + "step": 21300 + }, + { + "epoch": 56.82666666666667, + "grad_norm": 0.306640625, + "learning_rate": 0.0002994297769062792, + "loss": 0.4693, + "step": 21310 + }, + { + "epoch": 56.85333333333333, + "grad_norm": 0.251953125, + "learning_rate": 0.00029942922906821376, + "loss": 0.479, + "step": 21320 + }, + { + "epoch": 56.88, + "grad_norm": 0.333984375, + "learning_rate": 0.0002994286809676104, + "loss": 0.4673, + "step": 21330 + }, + { + "epoch": 56.906666666666666, + "grad_norm": 0.279296875, + "learning_rate": 0.00029942813260447, + "loss": 0.4684, + "step": 21340 + }, + { + "epoch": 56.93333333333333, + "grad_norm": 0.25, + "learning_rate": 0.0002994275839787937, + "loss": 0.4706, + "step": 21350 + }, + { + "epoch": 56.96, + "grad_norm": 0.30078125, + "learning_rate": 0.0002994270350905824, + "loss": 0.4689, + "step": 21360 + }, + { + "epoch": 56.986666666666665, + "grad_norm": 0.2890625, + "learning_rate": 0.00029942648593983697, + "loss": 0.4821, + "step": 21370 + }, + { + "epoch": 57.0, + "eval_loss": 0.4817401170730591, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.8223, + "eval_samples_per_second": 1.629, + "eval_steps_per_second": 0.102, + "step": 21375 + }, + { + "epoch": 57.013333333333335, + "grad_norm": 0.21484375, + "learning_rate": 0.00029942593652655853, + "loss": 0.4709, + "step": 21380 + }, + { + "epoch": 57.04, + "grad_norm": 0.271484375, + "learning_rate": 0.0002994253868507479, + "loss": 0.4956, + "step": 21390 + }, + { + "epoch": 57.06666666666667, + "grad_norm": 0.390625, + "learning_rate": 0.0002994248369124061, + "loss": 0.4832, + "step": 21400 + }, + { + "epoch": 57.093333333333334, + "grad_norm": 0.31640625, + "learning_rate": 0.00029942428671153414, + "loss": 0.4776, + "step": 21410 + }, + { + "epoch": 57.12, + "grad_norm": 0.25, + "learning_rate": 0.00029942373624813293, + "loss": 0.4744, + "step": 21420 + }, + { + "epoch": 57.14666666666667, + "grad_norm": 0.32421875, + "learning_rate": 0.00029942318552220344, + "loss": 0.4837, + "step": 21430 + }, + { + "epoch": 57.17333333333333, + "grad_norm": 0.33203125, + "learning_rate": 0.0002994226345337467, + "loss": 0.473, + "step": 21440 + }, + { + "epoch": 57.2, + "grad_norm": 0.423828125, + "learning_rate": 0.00029942208328276364, + "loss": 0.472, + "step": 21450 + }, + { + "epoch": 57.22666666666667, + "grad_norm": 0.25, + "learning_rate": 0.0002994215317692552, + "loss": 0.4694, + "step": 21460 + }, + { + "epoch": 57.25333333333333, + "grad_norm": 0.283203125, + "learning_rate": 0.00029942097999322237, + "loss": 0.4695, + "step": 21470 + }, + { + "epoch": 57.28, + "grad_norm": 0.388671875, + "learning_rate": 0.0002994204279546661, + "loss": 0.4827, + "step": 21480 + }, + { + "epoch": 57.306666666666665, + "grad_norm": 0.412109375, + "learning_rate": 0.00029941987565358744, + "loss": 0.4643, + "step": 21490 + }, + { + "epoch": 57.333333333333336, + "grad_norm": 0.3046875, + "learning_rate": 0.00029941932308998726, + "loss": 0.4799, + "step": 21500 + }, + { + "epoch": 57.36, + "grad_norm": 0.265625, + "learning_rate": 0.0002994187702638666, + "loss": 0.4823, + "step": 21510 + }, + { + "epoch": 57.38666666666666, + "grad_norm": 0.314453125, + "learning_rate": 0.00029941821717522634, + "loss": 0.4732, + "step": 21520 + }, + { + "epoch": 57.413333333333334, + "grad_norm": 0.3046875, + "learning_rate": 0.0002994176638240676, + "loss": 0.4783, + "step": 21530 + }, + { + "epoch": 57.44, + "grad_norm": 0.310546875, + "learning_rate": 0.0002994171102103912, + "loss": 0.4808, + "step": 21540 + }, + { + "epoch": 57.46666666666667, + "grad_norm": 0.255859375, + "learning_rate": 0.0002994165563341982, + "loss": 0.4903, + "step": 21550 + }, + { + "epoch": 57.49333333333333, + "grad_norm": 0.263671875, + "learning_rate": 0.00029941600219548955, + "loss": 0.4812, + "step": 21560 + }, + { + "epoch": 57.52, + "grad_norm": 0.20703125, + "learning_rate": 0.00029941544779426627, + "loss": 0.476, + "step": 21570 + }, + { + "epoch": 57.54666666666667, + "grad_norm": 0.32421875, + "learning_rate": 0.00029941489313052924, + "loss": 0.4725, + "step": 21580 + }, + { + "epoch": 57.57333333333333, + "grad_norm": 0.263671875, + "learning_rate": 0.00029941433820427954, + "loss": 0.4722, + "step": 21590 + }, + { + "epoch": 57.6, + "grad_norm": 0.353515625, + "learning_rate": 0.00029941378301551804, + "loss": 0.4654, + "step": 21600 + }, + { + "epoch": 57.626666666666665, + "grad_norm": 0.337890625, + "learning_rate": 0.00029941322756424577, + "loss": 0.4532, + "step": 21610 + }, + { + "epoch": 57.653333333333336, + "grad_norm": 0.2373046875, + "learning_rate": 0.0002994126718504637, + "loss": 0.4716, + "step": 21620 + }, + { + "epoch": 57.68, + "grad_norm": 0.1904296875, + "learning_rate": 0.0002994121158741728, + "loss": 0.4638, + "step": 21630 + }, + { + "epoch": 57.70666666666666, + "grad_norm": 0.2890625, + "learning_rate": 0.0002994115596353741, + "loss": 0.4642, + "step": 21640 + }, + { + "epoch": 57.733333333333334, + "grad_norm": 0.357421875, + "learning_rate": 0.0002994110031340685, + "loss": 0.4833, + "step": 21650 + }, + { + "epoch": 57.76, + "grad_norm": 0.283203125, + "learning_rate": 0.000299410446370257, + "loss": 0.485, + "step": 21660 + }, + { + "epoch": 57.78666666666667, + "grad_norm": 0.251953125, + "learning_rate": 0.0002994098893439406, + "loss": 0.4828, + "step": 21670 + }, + { + "epoch": 57.81333333333333, + "grad_norm": 0.26953125, + "learning_rate": 0.0002994093320551203, + "loss": 0.4677, + "step": 21680 + }, + { + "epoch": 57.84, + "grad_norm": 0.275390625, + "learning_rate": 0.000299408774503797, + "loss": 0.4738, + "step": 21690 + }, + { + "epoch": 57.86666666666667, + "grad_norm": 0.2734375, + "learning_rate": 0.0002994082166899717, + "loss": 0.4738, + "step": 21700 + }, + { + "epoch": 57.89333333333333, + "grad_norm": 0.2578125, + "learning_rate": 0.0002994076586136455, + "loss": 0.4642, + "step": 21710 + }, + { + "epoch": 57.92, + "grad_norm": 0.24609375, + "learning_rate": 0.0002994071002748192, + "loss": 0.4743, + "step": 21720 + }, + { + "epoch": 57.946666666666665, + "grad_norm": 0.26171875, + "learning_rate": 0.00029940654167349393, + "loss": 0.467, + "step": 21730 + }, + { + "epoch": 57.973333333333336, + "grad_norm": 0.23828125, + "learning_rate": 0.0002994059828096706, + "loss": 0.4781, + "step": 21740 + }, + { + "epoch": 58.0, + "grad_norm": 0.265625, + "learning_rate": 0.00029940542368335016, + "loss": 0.4677, + "step": 21750 + }, + { + "epoch": 58.0, + "eval_loss": 0.482833594083786, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.7365, + "eval_samples_per_second": 1.49, + "eval_steps_per_second": 0.093, + "step": 21750 + }, + { + "epoch": 58.026666666666664, + "grad_norm": 0.455078125, + "learning_rate": 0.00029940486429453364, + "loss": 0.4869, + "step": 21760 + }, + { + "epoch": 58.053333333333335, + "grad_norm": 0.35546875, + "learning_rate": 0.0002994043046432221, + "loss": 0.4935, + "step": 21770 + }, + { + "epoch": 58.08, + "grad_norm": 0.30078125, + "learning_rate": 0.00029940374472941627, + "loss": 0.4806, + "step": 21780 + }, + { + "epoch": 58.10666666666667, + "grad_norm": 0.30859375, + "learning_rate": 0.0002994031845531174, + "loss": 0.4761, + "step": 21790 + }, + { + "epoch": 58.13333333333333, + "grad_norm": 0.49609375, + "learning_rate": 0.0002994026241143264, + "loss": 0.4771, + "step": 21800 + }, + { + "epoch": 58.16, + "grad_norm": 0.265625, + "learning_rate": 0.00029940206341304423, + "loss": 0.4811, + "step": 21810 + }, + { + "epoch": 58.18666666666667, + "grad_norm": 0.369140625, + "learning_rate": 0.00029940150244927183, + "loss": 0.4731, + "step": 21820 + }, + { + "epoch": 58.21333333333333, + "grad_norm": 0.26171875, + "learning_rate": 0.00029940094122301024, + "loss": 0.4678, + "step": 21830 + }, + { + "epoch": 58.24, + "grad_norm": 0.578125, + "learning_rate": 0.0002994003797342605, + "loss": 0.4721, + "step": 21840 + }, + { + "epoch": 58.266666666666666, + "grad_norm": 0.359375, + "learning_rate": 0.0002993998179830235, + "loss": 0.4767, + "step": 21850 + }, + { + "epoch": 58.29333333333334, + "grad_norm": 0.283203125, + "learning_rate": 0.00029939925596930017, + "loss": 0.4705, + "step": 21860 + }, + { + "epoch": 58.32, + "grad_norm": 0.275390625, + "learning_rate": 0.0002993986936930917, + "loss": 0.4732, + "step": 21870 + }, + { + "epoch": 58.346666666666664, + "grad_norm": 0.3203125, + "learning_rate": 0.00029939813115439896, + "loss": 0.4823, + "step": 21880 + }, + { + "epoch": 58.373333333333335, + "grad_norm": 0.265625, + "learning_rate": 0.0002993975683532229, + "loss": 0.4786, + "step": 21890 + }, + { + "epoch": 58.4, + "grad_norm": 0.380859375, + "learning_rate": 0.0002993970052895646, + "loss": 0.4743, + "step": 21900 + }, + { + "epoch": 58.42666666666667, + "grad_norm": 0.333984375, + "learning_rate": 0.00029939644196342495, + "loss": 0.4806, + "step": 21910 + }, + { + "epoch": 58.45333333333333, + "grad_norm": 0.337890625, + "learning_rate": 0.000299395878374805, + "loss": 0.4826, + "step": 21920 + }, + { + "epoch": 58.48, + "grad_norm": 0.287109375, + "learning_rate": 0.00029939531452370573, + "loss": 0.489, + "step": 21930 + }, + { + "epoch": 58.50666666666667, + "grad_norm": 0.2490234375, + "learning_rate": 0.0002993947504101282, + "loss": 0.479, + "step": 21940 + }, + { + "epoch": 58.53333333333333, + "grad_norm": 0.2353515625, + "learning_rate": 0.00029939418603407326, + "loss": 0.4727, + "step": 21950 + }, + { + "epoch": 58.56, + "grad_norm": 0.2060546875, + "learning_rate": 0.0002993936213955421, + "loss": 0.4739, + "step": 21960 + }, + { + "epoch": 58.586666666666666, + "grad_norm": 0.26171875, + "learning_rate": 0.00029939305649453546, + "loss": 0.4694, + "step": 21970 + }, + { + "epoch": 58.61333333333333, + "grad_norm": 0.2353515625, + "learning_rate": 0.0002993924913310545, + "loss": 0.4546, + "step": 21980 + }, + { + "epoch": 58.64, + "grad_norm": 0.279296875, + "learning_rate": 0.0002993919259051002, + "loss": 0.4597, + "step": 21990 + }, + { + "epoch": 58.666666666666664, + "grad_norm": 0.341796875, + "learning_rate": 0.00029939136021667347, + "loss": 0.476, + "step": 22000 + }, + { + "epoch": 58.693333333333335, + "grad_norm": 0.2060546875, + "learning_rate": 0.0002993907942657754, + "loss": 0.4589, + "step": 22010 + }, + { + "epoch": 58.72, + "grad_norm": 0.314453125, + "learning_rate": 0.0002993902280524069, + "loss": 0.4755, + "step": 22020 + }, + { + "epoch": 58.74666666666667, + "grad_norm": 0.310546875, + "learning_rate": 0.00029938966157656903, + "loss": 0.4802, + "step": 22030 + }, + { + "epoch": 58.77333333333333, + "grad_norm": 0.384765625, + "learning_rate": 0.0002993890948382628, + "loss": 0.4877, + "step": 22040 + }, + { + "epoch": 58.8, + "grad_norm": 0.2421875, + "learning_rate": 0.00029938852783748914, + "loss": 0.4744, + "step": 22050 + }, + { + "epoch": 58.82666666666667, + "grad_norm": 0.40625, + "learning_rate": 0.0002993879605742491, + "loss": 0.4692, + "step": 22060 + }, + { + "epoch": 58.85333333333333, + "grad_norm": 0.267578125, + "learning_rate": 0.00029938739304854366, + "loss": 0.4784, + "step": 22070 + }, + { + "epoch": 58.88, + "grad_norm": 0.326171875, + "learning_rate": 0.0002993868252603738, + "loss": 0.4663, + "step": 22080 + }, + { + "epoch": 58.906666666666666, + "grad_norm": 0.2275390625, + "learning_rate": 0.0002993862572097405, + "loss": 0.469, + "step": 22090 + }, + { + "epoch": 58.93333333333333, + "grad_norm": 0.236328125, + "learning_rate": 0.00029938568889664486, + "loss": 0.4704, + "step": 22100 + }, + { + "epoch": 58.96, + "grad_norm": 0.234375, + "learning_rate": 0.0002993851203210877, + "loss": 0.4678, + "step": 22110 + }, + { + "epoch": 58.986666666666665, + "grad_norm": 0.29296875, + "learning_rate": 0.00029938455148307023, + "loss": 0.4824, + "step": 22120 + }, + { + "epoch": 59.0, + "eval_loss": 0.48143550753593445, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.9892, + "eval_samples_per_second": 1.456, + "eval_steps_per_second": 0.091, + "step": 22125 + }, + { + "epoch": 59.013333333333335, + "grad_norm": 0.29296875, + "learning_rate": 0.00029938398238259326, + "loss": 0.4708, + "step": 22130 + }, + { + "epoch": 59.04, + "grad_norm": 0.287109375, + "learning_rate": 0.00029938341301965793, + "loss": 0.4954, + "step": 22140 + }, + { + "epoch": 59.06666666666667, + "grad_norm": 0.361328125, + "learning_rate": 0.0002993828433942651, + "loss": 0.4836, + "step": 22150 + }, + { + "epoch": 59.093333333333334, + "grad_norm": 0.3203125, + "learning_rate": 0.000299382273506416, + "loss": 0.4775, + "step": 22160 + }, + { + "epoch": 59.12, + "grad_norm": 0.29296875, + "learning_rate": 0.0002993817033561114, + "loss": 0.4737, + "step": 22170 + }, + { + "epoch": 59.14666666666667, + "grad_norm": 0.310546875, + "learning_rate": 0.0002993811329433524, + "loss": 0.4832, + "step": 22180 + }, + { + "epoch": 59.17333333333333, + "grad_norm": 0.29296875, + "learning_rate": 0.00029938056226813995, + "loss": 0.4728, + "step": 22190 + }, + { + "epoch": 59.2, + "grad_norm": 0.25390625, + "learning_rate": 0.00029937999133047513, + "loss": 0.4715, + "step": 22200 + }, + { + "epoch": 59.22666666666667, + "grad_norm": 0.2158203125, + "learning_rate": 0.0002993794201303589, + "loss": 0.4693, + "step": 22210 + }, + { + "epoch": 59.25333333333333, + "grad_norm": 0.373046875, + "learning_rate": 0.0002993788486677923, + "loss": 0.4697, + "step": 22220 + }, + { + "epoch": 59.28, + "grad_norm": 0.353515625, + "learning_rate": 0.00029937827694277627, + "loss": 0.4821, + "step": 22230 + }, + { + "epoch": 59.306666666666665, + "grad_norm": 0.259765625, + "learning_rate": 0.0002993777049553118, + "loss": 0.4642, + "step": 22240 + }, + { + "epoch": 59.333333333333336, + "grad_norm": 0.26953125, + "learning_rate": 0.00029937713270540003, + "loss": 0.4797, + "step": 22250 + }, + { + "epoch": 59.36, + "grad_norm": 0.25, + "learning_rate": 0.0002993765601930418, + "loss": 0.4818, + "step": 22260 + }, + { + "epoch": 59.38666666666666, + "grad_norm": 0.333984375, + "learning_rate": 0.00029937598741823826, + "loss": 0.4734, + "step": 22270 + }, + { + "epoch": 59.413333333333334, + "grad_norm": 0.298828125, + "learning_rate": 0.00029937541438099035, + "loss": 0.4778, + "step": 22280 + }, + { + "epoch": 59.44, + "grad_norm": 0.2734375, + "learning_rate": 0.0002993748410812991, + "loss": 0.4805, + "step": 22290 + }, + { + "epoch": 59.46666666666667, + "grad_norm": 0.345703125, + "learning_rate": 0.00029937426751916544, + "loss": 0.4899, + "step": 22300 + }, + { + "epoch": 59.49333333333333, + "grad_norm": 0.314453125, + "learning_rate": 0.0002993736936945904, + "loss": 0.4816, + "step": 22310 + }, + { + "epoch": 59.52, + "grad_norm": 0.2392578125, + "learning_rate": 0.00029937311960757506, + "loss": 0.4761, + "step": 22320 + }, + { + "epoch": 59.54666666666667, + "grad_norm": 0.32421875, + "learning_rate": 0.0002993725452581204, + "loss": 0.4726, + "step": 22330 + }, + { + "epoch": 59.57333333333333, + "grad_norm": 0.1962890625, + "learning_rate": 0.0002993719706462274, + "loss": 0.4709, + "step": 22340 + }, + { + "epoch": 59.6, + "grad_norm": 0.2490234375, + "learning_rate": 0.0002993713957718971, + "loss": 0.4652, + "step": 22350 + }, + { + "epoch": 59.626666666666665, + "grad_norm": 0.26953125, + "learning_rate": 0.0002993708206351305, + "loss": 0.4518, + "step": 22360 + }, + { + "epoch": 59.653333333333336, + "grad_norm": 0.353515625, + "learning_rate": 0.0002993702452359286, + "loss": 0.4718, + "step": 22370 + }, + { + "epoch": 59.68, + "grad_norm": 0.306640625, + "learning_rate": 0.0002993696695742924, + "loss": 0.4637, + "step": 22380 + }, + { + "epoch": 59.70666666666666, + "grad_norm": 0.314453125, + "learning_rate": 0.00029936909365022295, + "loss": 0.4642, + "step": 22390 + }, + { + "epoch": 59.733333333333334, + "grad_norm": 0.3046875, + "learning_rate": 0.00029936851746372123, + "loss": 0.4835, + "step": 22400 + }, + { + "epoch": 59.76, + "grad_norm": 1.1796875, + "learning_rate": 0.0002993679410147883, + "loss": 0.4845, + "step": 22410 + }, + { + "epoch": 59.78666666666667, + "grad_norm": 0.359375, + "learning_rate": 0.00029936736430342514, + "loss": 0.4832, + "step": 22420 + }, + { + "epoch": 59.81333333333333, + "grad_norm": 0.34375, + "learning_rate": 0.0002993667873296327, + "loss": 0.468, + "step": 22430 + }, + { + "epoch": 59.84, + "grad_norm": 0.43359375, + "learning_rate": 0.0002993662100934121, + "loss": 0.474, + "step": 22440 + }, + { + "epoch": 59.86666666666667, + "grad_norm": 0.365234375, + "learning_rate": 0.00029936563259476434, + "loss": 0.4738, + "step": 22450 + }, + { + "epoch": 59.89333333333333, + "grad_norm": 0.29296875, + "learning_rate": 0.0002993650548336903, + "loss": 0.4639, + "step": 22460 + }, + { + "epoch": 59.92, + "grad_norm": 0.2275390625, + "learning_rate": 0.0002993644768101912, + "loss": 0.475, + "step": 22470 + }, + { + "epoch": 59.946666666666665, + "grad_norm": 0.265625, + "learning_rate": 0.00029936389852426793, + "loss": 0.4671, + "step": 22480 + }, + { + "epoch": 59.973333333333336, + "grad_norm": 0.421875, + "learning_rate": 0.0002993633199759215, + "loss": 0.4786, + "step": 22490 + }, + { + "epoch": 60.0, + "grad_norm": 0.3828125, + "learning_rate": 0.0002993627411651529, + "loss": 0.4681, + "step": 22500 + }, + { + "epoch": 60.0, + "eval_loss": 0.4817136228084564, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 8.9804, + "eval_samples_per_second": 1.782, + "eval_steps_per_second": 0.111, + "step": 22500 + }, + { + "epoch": 60.026666666666664, + "grad_norm": 0.41015625, + "learning_rate": 0.0002993621620919633, + "loss": 0.4871, + "step": 22510 + }, + { + "epoch": 60.053333333333335, + "grad_norm": 0.29296875, + "learning_rate": 0.00029936158275635364, + "loss": 0.4927, + "step": 22520 + }, + { + "epoch": 60.08, + "grad_norm": 0.294921875, + "learning_rate": 0.00029936100315832483, + "loss": 0.4794, + "step": 22530 + }, + { + "epoch": 60.10666666666667, + "grad_norm": 0.3203125, + "learning_rate": 0.000299360423297878, + "loss": 0.475, + "step": 22540 + }, + { + "epoch": 60.13333333333333, + "grad_norm": 0.359375, + "learning_rate": 0.0002993598431750142, + "loss": 0.4765, + "step": 22550 + }, + { + "epoch": 60.16, + "grad_norm": 0.328125, + "learning_rate": 0.00029935926278973433, + "loss": 0.4807, + "step": 22560 + }, + { + "epoch": 60.18666666666667, + "grad_norm": 0.2275390625, + "learning_rate": 0.0002993586821420395, + "loss": 0.4733, + "step": 22570 + }, + { + "epoch": 60.21333333333333, + "grad_norm": 0.283203125, + "learning_rate": 0.0002993581012319307, + "loss": 0.4679, + "step": 22580 + }, + { + "epoch": 60.24, + "grad_norm": 0.259765625, + "learning_rate": 0.000299357520059409, + "loss": 0.4718, + "step": 22590 + }, + { + "epoch": 60.266666666666666, + "grad_norm": 0.248046875, + "learning_rate": 0.00029935693862447537, + "loss": 0.4757, + "step": 22600 + }, + { + "epoch": 60.29333333333334, + "grad_norm": 0.36328125, + "learning_rate": 0.0002993563569271308, + "loss": 0.4703, + "step": 22610 + }, + { + "epoch": 60.32, + "grad_norm": 0.294921875, + "learning_rate": 0.00029935577496737636, + "loss": 0.4741, + "step": 22620 + }, + { + "epoch": 60.346666666666664, + "grad_norm": 0.251953125, + "learning_rate": 0.00029935519274521303, + "loss": 0.4817, + "step": 22630 + }, + { + "epoch": 60.373333333333335, + "grad_norm": 0.3203125, + "learning_rate": 0.00029935461026064187, + "loss": 0.4779, + "step": 22640 + }, + { + "epoch": 60.4, + "grad_norm": 0.263671875, + "learning_rate": 0.000299354027513664, + "loss": 0.474, + "step": 22650 + }, + { + "epoch": 60.42666666666667, + "grad_norm": 0.333984375, + "learning_rate": 0.0002993534445042802, + "loss": 0.4799, + "step": 22660 + }, + { + "epoch": 60.45333333333333, + "grad_norm": 0.28515625, + "learning_rate": 0.0002993528612324917, + "loss": 0.483, + "step": 22670 + }, + { + "epoch": 60.48, + "grad_norm": 0.412109375, + "learning_rate": 0.0002993522776982995, + "loss": 0.4892, + "step": 22680 + }, + { + "epoch": 60.50666666666667, + "grad_norm": 0.2353515625, + "learning_rate": 0.00029935169390170454, + "loss": 0.4786, + "step": 22690 + }, + { + "epoch": 60.53333333333333, + "grad_norm": 0.3203125, + "learning_rate": 0.0002993511098427079, + "loss": 0.4722, + "step": 22700 + }, + { + "epoch": 60.56, + "grad_norm": 0.3828125, + "learning_rate": 0.0002993505255213106, + "loss": 0.4728, + "step": 22710 + }, + { + "epoch": 60.586666666666666, + "grad_norm": 0.27734375, + "learning_rate": 0.0002993499409375137, + "loss": 0.4689, + "step": 22720 + }, + { + "epoch": 60.61333333333333, + "grad_norm": 0.294921875, + "learning_rate": 0.00029934935609131813, + "loss": 0.4551, + "step": 22730 + }, + { + "epoch": 60.64, + "grad_norm": 0.337890625, + "learning_rate": 0.00029934877098272504, + "loss": 0.4596, + "step": 22740 + }, + { + "epoch": 60.666666666666664, + "grad_norm": 0.25, + "learning_rate": 0.00029934818561173535, + "loss": 0.4755, + "step": 22750 + }, + { + "epoch": 60.693333333333335, + "grad_norm": 0.27734375, + "learning_rate": 0.00029934759997835014, + "loss": 0.4584, + "step": 22760 + }, + { + "epoch": 60.72, + "grad_norm": 0.26953125, + "learning_rate": 0.00029934701408257044, + "loss": 0.4758, + "step": 22770 + }, + { + "epoch": 60.74666666666667, + "grad_norm": 0.3125, + "learning_rate": 0.0002993464279243973, + "loss": 0.4804, + "step": 22780 + }, + { + "epoch": 60.77333333333333, + "grad_norm": 0.361328125, + "learning_rate": 0.0002993458415038317, + "loss": 0.4879, + "step": 22790 + }, + { + "epoch": 60.8, + "grad_norm": 0.26171875, + "learning_rate": 0.0002993452548208747, + "loss": 0.4741, + "step": 22800 + }, + { + "epoch": 60.82666666666667, + "grad_norm": 0.236328125, + "learning_rate": 0.00029934466787552734, + "loss": 0.4689, + "step": 22810 + }, + { + "epoch": 60.85333333333333, + "grad_norm": 0.29296875, + "learning_rate": 0.00029934408066779064, + "loss": 0.4778, + "step": 22820 + }, + { + "epoch": 60.88, + "grad_norm": 0.2392578125, + "learning_rate": 0.00029934349319766563, + "loss": 0.4657, + "step": 22830 + }, + { + "epoch": 60.906666666666666, + "grad_norm": 0.271484375, + "learning_rate": 0.0002993429054651533, + "loss": 0.4687, + "step": 22840 + }, + { + "epoch": 60.93333333333333, + "grad_norm": 0.2490234375, + "learning_rate": 0.00029934231747025475, + "loss": 0.4699, + "step": 22850 + }, + { + "epoch": 60.96, + "grad_norm": 0.291015625, + "learning_rate": 0.000299341729212971, + "loss": 0.4681, + "step": 22860 + }, + { + "epoch": 60.986666666666665, + "grad_norm": 0.220703125, + "learning_rate": 0.00029934114069330304, + "loss": 0.4823, + "step": 22870 + }, + { + "epoch": 61.0, + "eval_loss": 0.48083022236824036, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.2915, + "eval_samples_per_second": 1.555, + "eval_steps_per_second": 0.097, + "step": 22875 + }, + { + "epoch": 61.013333333333335, + "grad_norm": 0.2373046875, + "learning_rate": 0.00029934055191125193, + "loss": 0.4713, + "step": 22880 + }, + { + "epoch": 61.04, + "grad_norm": 0.33984375, + "learning_rate": 0.00029933996286681875, + "loss": 0.496, + "step": 22890 + }, + { + "epoch": 61.06666666666667, + "grad_norm": 0.439453125, + "learning_rate": 0.0002993393735600045, + "loss": 0.483, + "step": 22900 + }, + { + "epoch": 61.093333333333334, + "grad_norm": 0.248046875, + "learning_rate": 0.00029933878399081016, + "loss": 0.4772, + "step": 22910 + }, + { + "epoch": 61.12, + "grad_norm": 0.220703125, + "learning_rate": 0.0002993381941592369, + "loss": 0.4739, + "step": 22920 + }, + { + "epoch": 61.14666666666667, + "grad_norm": 0.255859375, + "learning_rate": 0.00029933760406528553, + "loss": 0.4822, + "step": 22930 + }, + { + "epoch": 61.17333333333333, + "grad_norm": 0.34765625, + "learning_rate": 0.0002993370137089573, + "loss": 0.4729, + "step": 22940 + }, + { + "epoch": 61.2, + "grad_norm": 0.333984375, + "learning_rate": 0.0002993364230902532, + "loss": 0.4714, + "step": 22950 + }, + { + "epoch": 61.22666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.0002993358322091742, + "loss": 0.4688, + "step": 22960 + }, + { + "epoch": 61.25333333333333, + "grad_norm": 0.27734375, + "learning_rate": 0.0002993352410657214, + "loss": 0.4691, + "step": 22970 + }, + { + "epoch": 61.28, + "grad_norm": 0.296875, + "learning_rate": 0.0002993346496598958, + "loss": 0.4828, + "step": 22980 + }, + { + "epoch": 61.306666666666665, + "grad_norm": 0.2451171875, + "learning_rate": 0.0002993340579916985, + "loss": 0.464, + "step": 22990 + }, + { + "epoch": 61.333333333333336, + "grad_norm": 0.228515625, + "learning_rate": 0.0002993334660611305, + "loss": 0.4792, + "step": 23000 + }, + { + "epoch": 61.36, + "grad_norm": 0.2451171875, + "learning_rate": 0.0002993328738681928, + "loss": 0.4809, + "step": 23010 + }, + { + "epoch": 61.38666666666666, + "grad_norm": 0.298828125, + "learning_rate": 0.0002993322814128865, + "loss": 0.4732, + "step": 23020 + }, + { + "epoch": 61.413333333333334, + "grad_norm": 0.28125, + "learning_rate": 0.0002993316886952126, + "loss": 0.4774, + "step": 23030 + }, + { + "epoch": 61.44, + "grad_norm": 0.333984375, + "learning_rate": 0.0002993310957151722, + "loss": 0.4801, + "step": 23040 + }, + { + "epoch": 61.46666666666667, + "grad_norm": 0.294921875, + "learning_rate": 0.00029933050247276624, + "loss": 0.4894, + "step": 23050 + }, + { + "epoch": 61.49333333333333, + "grad_norm": 0.298828125, + "learning_rate": 0.00029932990896799585, + "loss": 0.4816, + "step": 23060 + }, + { + "epoch": 61.52, + "grad_norm": 0.283203125, + "learning_rate": 0.000299329315200862, + "loss": 0.4755, + "step": 23070 + }, + { + "epoch": 61.54666666666667, + "grad_norm": 0.421875, + "learning_rate": 0.0002993287211713659, + "loss": 0.4724, + "step": 23080 + }, + { + "epoch": 61.57333333333333, + "grad_norm": 0.259765625, + "learning_rate": 0.0002993281268795084, + "loss": 0.4713, + "step": 23090 + }, + { + "epoch": 61.6, + "grad_norm": 0.263671875, + "learning_rate": 0.0002993275323252906, + "loss": 0.4655, + "step": 23100 + }, + { + "epoch": 61.626666666666665, + "grad_norm": 0.34765625, + "learning_rate": 0.0002993269375087136, + "loss": 0.4521, + "step": 23110 + }, + { + "epoch": 61.653333333333336, + "grad_norm": 0.23046875, + "learning_rate": 0.0002993263424297784, + "loss": 0.472, + "step": 23120 + }, + { + "epoch": 61.68, + "grad_norm": 0.3359375, + "learning_rate": 0.0002993257470884861, + "loss": 0.4629, + "step": 23130 + }, + { + "epoch": 61.70666666666666, + "grad_norm": 0.24609375, + "learning_rate": 0.0002993251514848376, + "loss": 0.4632, + "step": 23140 + }, + { + "epoch": 61.733333333333334, + "grad_norm": 0.2392578125, + "learning_rate": 0.00029932455561883415, + "loss": 0.4831, + "step": 23150 + }, + { + "epoch": 61.76, + "grad_norm": 0.33984375, + "learning_rate": 0.0002993239594904766, + "loss": 0.4841, + "step": 23160 + }, + { + "epoch": 61.78666666666667, + "grad_norm": 0.2734375, + "learning_rate": 0.0002993233630997662, + "loss": 0.483, + "step": 23170 + }, + { + "epoch": 61.81333333333333, + "grad_norm": 0.326171875, + "learning_rate": 0.00029932276644670377, + "loss": 0.4675, + "step": 23180 + }, + { + "epoch": 61.84, + "grad_norm": 0.28515625, + "learning_rate": 0.0002993221695312905, + "loss": 0.4741, + "step": 23190 + }, + { + "epoch": 61.86666666666667, + "grad_norm": 0.265625, + "learning_rate": 0.00029932157235352744, + "loss": 0.4731, + "step": 23200 + }, + { + "epoch": 61.89333333333333, + "grad_norm": 0.2373046875, + "learning_rate": 0.0002993209749134156, + "loss": 0.4642, + "step": 23210 + }, + { + "epoch": 61.92, + "grad_norm": 0.3046875, + "learning_rate": 0.0002993203772109561, + "loss": 0.4753, + "step": 23220 + }, + { + "epoch": 61.946666666666665, + "grad_norm": 0.3671875, + "learning_rate": 0.0002993197792461499, + "loss": 0.4674, + "step": 23230 + }, + { + "epoch": 61.973333333333336, + "grad_norm": 0.251953125, + "learning_rate": 0.00029931918101899806, + "loss": 0.4785, + "step": 23240 + }, + { + "epoch": 62.0, + "grad_norm": 0.275390625, + "learning_rate": 0.00029931858252950166, + "loss": 0.4676, + "step": 23250 + }, + { + "epoch": 62.0, + "eval_loss": 0.4819358289241791, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.6535, + "eval_samples_per_second": 1.657, + "eval_steps_per_second": 0.104, + "step": 23250 + }, + { + "epoch": 62.026666666666664, + "grad_norm": 0.3203125, + "learning_rate": 0.00029931798377766177, + "loss": 0.4871, + "step": 23260 + }, + { + "epoch": 62.053333333333335, + "grad_norm": 0.396484375, + "learning_rate": 0.00029931738476347944, + "loss": 0.4929, + "step": 23270 + }, + { + "epoch": 62.08, + "grad_norm": 0.302734375, + "learning_rate": 0.00029931678548695564, + "loss": 0.4796, + "step": 23280 + }, + { + "epoch": 62.10666666666667, + "grad_norm": 0.265625, + "learning_rate": 0.00029931618594809155, + "loss": 0.4743, + "step": 23290 + }, + { + "epoch": 62.13333333333333, + "grad_norm": 0.283203125, + "learning_rate": 0.0002993155861468881, + "loss": 0.4772, + "step": 23300 + }, + { + "epoch": 62.16, + "grad_norm": 0.248046875, + "learning_rate": 0.00029931498608334645, + "loss": 0.4811, + "step": 23310 + }, + { + "epoch": 62.18666666666667, + "grad_norm": 0.302734375, + "learning_rate": 0.0002993143857574676, + "loss": 0.4729, + "step": 23320 + }, + { + "epoch": 62.21333333333333, + "grad_norm": 0.232421875, + "learning_rate": 0.00029931378516925253, + "loss": 0.4676, + "step": 23330 + }, + { + "epoch": 62.24, + "grad_norm": 0.2353515625, + "learning_rate": 0.00029931318431870244, + "loss": 0.4716, + "step": 23340 + }, + { + "epoch": 62.266666666666666, + "grad_norm": 0.28515625, + "learning_rate": 0.0002993125832058183, + "loss": 0.4759, + "step": 23350 + }, + { + "epoch": 62.29333333333334, + "grad_norm": 0.294921875, + "learning_rate": 0.0002993119818306012, + "loss": 0.4701, + "step": 23360 + }, + { + "epoch": 62.32, + "grad_norm": 0.341796875, + "learning_rate": 0.00029931138019305225, + "loss": 0.4734, + "step": 23370 + }, + { + "epoch": 62.346666666666664, + "grad_norm": 0.279296875, + "learning_rate": 0.0002993107782931724, + "loss": 0.4815, + "step": 23380 + }, + { + "epoch": 62.373333333333335, + "grad_norm": 0.2216796875, + "learning_rate": 0.0002993101761309627, + "loss": 0.478, + "step": 23390 + }, + { + "epoch": 62.4, + "grad_norm": 0.32421875, + "learning_rate": 0.00029930957370642426, + "loss": 0.4735, + "step": 23400 + }, + { + "epoch": 62.42666666666667, + "grad_norm": 0.31640625, + "learning_rate": 0.0002993089710195582, + "loss": 0.4802, + "step": 23410 + }, + { + "epoch": 62.45333333333333, + "grad_norm": 0.310546875, + "learning_rate": 0.00029930836807036545, + "loss": 0.4831, + "step": 23420 + }, + { + "epoch": 62.48, + "grad_norm": 0.283203125, + "learning_rate": 0.00029930776485884717, + "loss": 0.4888, + "step": 23430 + }, + { + "epoch": 62.50666666666667, + "grad_norm": 0.3671875, + "learning_rate": 0.0002993071613850044, + "loss": 0.4782, + "step": 23440 + }, + { + "epoch": 62.53333333333333, + "grad_norm": 0.2890625, + "learning_rate": 0.00029930655764883813, + "loss": 0.472, + "step": 23450 + }, + { + "epoch": 62.56, + "grad_norm": 0.291015625, + "learning_rate": 0.0002993059536503495, + "loss": 0.4731, + "step": 23460 + }, + { + "epoch": 62.586666666666666, + "grad_norm": 0.212890625, + "learning_rate": 0.0002993053493895395, + "loss": 0.4696, + "step": 23470 + }, + { + "epoch": 62.61333333333333, + "grad_norm": 0.28125, + "learning_rate": 0.00029930474486640935, + "loss": 0.4552, + "step": 23480 + }, + { + "epoch": 62.64, + "grad_norm": 0.359375, + "learning_rate": 0.0002993041400809599, + "loss": 0.4603, + "step": 23490 + }, + { + "epoch": 62.666666666666664, + "grad_norm": 0.33984375, + "learning_rate": 0.00029930353503319234, + "loss": 0.4749, + "step": 23500 + }, + { + "epoch": 62.693333333333335, + "grad_norm": 0.322265625, + "learning_rate": 0.00029930292972310773, + "loss": 0.458, + "step": 23510 + }, + { + "epoch": 62.72, + "grad_norm": 0.34375, + "learning_rate": 0.0002993023241507071, + "loss": 0.4755, + "step": 23520 + }, + { + "epoch": 62.74666666666667, + "grad_norm": 0.265625, + "learning_rate": 0.00029930171831599146, + "loss": 0.4794, + "step": 23530 + }, + { + "epoch": 62.77333333333333, + "grad_norm": 0.34765625, + "learning_rate": 0.000299301112218962, + "loss": 0.4874, + "step": 23540 + }, + { + "epoch": 62.8, + "grad_norm": 0.2734375, + "learning_rate": 0.0002993005058596197, + "loss": 0.4747, + "step": 23550 + }, + { + "epoch": 62.82666666666667, + "grad_norm": 0.30078125, + "learning_rate": 0.00029929989923796566, + "loss": 0.4695, + "step": 23560 + }, + { + "epoch": 62.85333333333333, + "grad_norm": 0.26953125, + "learning_rate": 0.000299299292354001, + "loss": 0.4779, + "step": 23570 + }, + { + "epoch": 62.88, + "grad_norm": 0.3046875, + "learning_rate": 0.0002992986852077266, + "loss": 0.4657, + "step": 23580 + }, + { + "epoch": 62.906666666666666, + "grad_norm": 0.279296875, + "learning_rate": 0.0002992980777991437, + "loss": 0.469, + "step": 23590 + }, + { + "epoch": 62.93333333333333, + "grad_norm": 0.244140625, + "learning_rate": 0.0002992974701282533, + "loss": 0.4699, + "step": 23600 + }, + { + "epoch": 62.96, + "grad_norm": 0.357421875, + "learning_rate": 0.00029929686219505645, + "loss": 0.4676, + "step": 23610 + }, + { + "epoch": 62.986666666666665, + "grad_norm": 0.2412109375, + "learning_rate": 0.0002992962539995543, + "loss": 0.4818, + "step": 23620 + }, + { + "epoch": 63.0, + "eval_loss": 0.48129552602767944, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.0491, + "eval_samples_per_second": 1.592, + "eval_steps_per_second": 0.1, + "step": 23625 + }, + { + "epoch": 63.013333333333335, + "grad_norm": 0.373046875, + "learning_rate": 0.00029929564554174786, + "loss": 0.4699, + "step": 23630 + }, + { + "epoch": 63.04, + "grad_norm": 0.349609375, + "learning_rate": 0.00029929503682163817, + "loss": 0.4947, + "step": 23640 + }, + { + "epoch": 63.06666666666667, + "grad_norm": 0.3515625, + "learning_rate": 0.00029929442783922637, + "loss": 0.4823, + "step": 23650 + }, + { + "epoch": 63.093333333333334, + "grad_norm": 0.365234375, + "learning_rate": 0.0002992938185945135, + "loss": 0.4777, + "step": 23660 + }, + { + "epoch": 63.12, + "grad_norm": 0.322265625, + "learning_rate": 0.0002992932090875006, + "loss": 0.474, + "step": 23670 + }, + { + "epoch": 63.14666666666667, + "grad_norm": 0.41015625, + "learning_rate": 0.0002992925993181888, + "loss": 0.4827, + "step": 23680 + }, + { + "epoch": 63.17333333333333, + "grad_norm": 0.421875, + "learning_rate": 0.0002992919892865791, + "loss": 0.4732, + "step": 23690 + }, + { + "epoch": 63.2, + "grad_norm": 0.291015625, + "learning_rate": 0.0002992913789926726, + "loss": 0.4716, + "step": 23700 + }, + { + "epoch": 63.22666666666667, + "grad_norm": 0.34765625, + "learning_rate": 0.00029929076843647045, + "loss": 0.469, + "step": 23710 + }, + { + "epoch": 63.25333333333333, + "grad_norm": 0.357421875, + "learning_rate": 0.0002992901576179736, + "loss": 0.469, + "step": 23720 + }, + { + "epoch": 63.28, + "grad_norm": 0.43359375, + "learning_rate": 0.0002992895465371832, + "loss": 0.483, + "step": 23730 + }, + { + "epoch": 63.306666666666665, + "grad_norm": 0.34375, + "learning_rate": 0.00029928893519410026, + "loss": 0.4638, + "step": 23740 + }, + { + "epoch": 63.333333333333336, + "grad_norm": 0.302734375, + "learning_rate": 0.00029928832358872595, + "loss": 0.4795, + "step": 23750 + }, + { + "epoch": 63.36, + "grad_norm": 0.322265625, + "learning_rate": 0.00029928771172106123, + "loss": 0.4811, + "step": 23760 + }, + { + "epoch": 63.38666666666666, + "grad_norm": 0.34765625, + "learning_rate": 0.0002992870995911073, + "loss": 0.4723, + "step": 23770 + }, + { + "epoch": 63.413333333333334, + "grad_norm": 0.28515625, + "learning_rate": 0.00029928648719886513, + "loss": 0.4768, + "step": 23780 + }, + { + "epoch": 63.44, + "grad_norm": 0.234375, + "learning_rate": 0.0002992858745443359, + "loss": 0.4805, + "step": 23790 + }, + { + "epoch": 63.46666666666667, + "grad_norm": 0.251953125, + "learning_rate": 0.0002992852616275206, + "loss": 0.4897, + "step": 23800 + }, + { + "epoch": 63.49333333333333, + "grad_norm": 0.369140625, + "learning_rate": 0.00029928464844842026, + "loss": 0.4807, + "step": 23810 + }, + { + "epoch": 63.52, + "grad_norm": 0.357421875, + "learning_rate": 0.0002992840350070361, + "loss": 0.4756, + "step": 23820 + }, + { + "epoch": 63.54666666666667, + "grad_norm": 0.3125, + "learning_rate": 0.00029928342130336905, + "loss": 0.4723, + "step": 23830 + }, + { + "epoch": 63.57333333333333, + "grad_norm": 0.255859375, + "learning_rate": 0.00029928280733742033, + "loss": 0.4713, + "step": 23840 + }, + { + "epoch": 63.6, + "grad_norm": 0.326171875, + "learning_rate": 0.00029928219310919096, + "loss": 0.4648, + "step": 23850 + }, + { + "epoch": 63.626666666666665, + "grad_norm": 0.30078125, + "learning_rate": 0.000299281578618682, + "loss": 0.4516, + "step": 23860 + }, + { + "epoch": 63.653333333333336, + "grad_norm": 0.333984375, + "learning_rate": 0.0002992809638658945, + "loss": 0.4717, + "step": 23870 + }, + { + "epoch": 63.68, + "grad_norm": 0.294921875, + "learning_rate": 0.0002992803488508296, + "loss": 0.463, + "step": 23880 + }, + { + "epoch": 63.70666666666666, + "grad_norm": 0.265625, + "learning_rate": 0.00029927973357348836, + "loss": 0.4638, + "step": 23890 + }, + { + "epoch": 63.733333333333334, + "grad_norm": 0.28125, + "learning_rate": 0.00029927911803387185, + "loss": 0.4824, + "step": 23900 + }, + { + "epoch": 63.76, + "grad_norm": 0.294921875, + "learning_rate": 0.0002992785022319812, + "loss": 0.4843, + "step": 23910 + }, + { + "epoch": 63.78666666666667, + "grad_norm": 0.2431640625, + "learning_rate": 0.00029927788616781743, + "loss": 0.4828, + "step": 23920 + }, + { + "epoch": 63.81333333333333, + "grad_norm": 0.29296875, + "learning_rate": 0.0002992772698413817, + "loss": 0.4674, + "step": 23930 + }, + { + "epoch": 63.84, + "grad_norm": 0.306640625, + "learning_rate": 0.000299276653252675, + "loss": 0.4734, + "step": 23940 + }, + { + "epoch": 63.86666666666667, + "grad_norm": 0.2109375, + "learning_rate": 0.0002992760364016984, + "loss": 0.4723, + "step": 23950 + }, + { + "epoch": 63.89333333333333, + "grad_norm": 0.357421875, + "learning_rate": 0.00029927541928845313, + "loss": 0.4637, + "step": 23960 + }, + { + "epoch": 63.92, + "grad_norm": 0.306640625, + "learning_rate": 0.0002992748019129401, + "loss": 0.4736, + "step": 23970 + }, + { + "epoch": 63.946666666666665, + "grad_norm": 0.3203125, + "learning_rate": 0.00029927418427516054, + "loss": 0.4668, + "step": 23980 + }, + { + "epoch": 63.973333333333336, + "grad_norm": 0.29296875, + "learning_rate": 0.0002992735663751155, + "loss": 0.4781, + "step": 23990 + }, + { + "epoch": 64.0, + "grad_norm": 0.392578125, + "learning_rate": 0.00029927294821280597, + "loss": 0.4674, + "step": 24000 + }, + { + "epoch": 64.0, + "eval_loss": 0.48202311992645264, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.2055, + "eval_samples_per_second": 1.568, + "eval_steps_per_second": 0.098, + "step": 24000 + }, + { + "epoch": 64.02666666666667, + "grad_norm": 0.48828125, + "learning_rate": 0.00029927232978823313, + "loss": 0.4864, + "step": 24010 + }, + { + "epoch": 64.05333333333333, + "grad_norm": 0.322265625, + "learning_rate": 0.000299271711101398, + "loss": 0.4927, + "step": 24020 + }, + { + "epoch": 64.08, + "grad_norm": 0.3203125, + "learning_rate": 0.00029927109215230173, + "loss": 0.4798, + "step": 24030 + }, + { + "epoch": 64.10666666666667, + "grad_norm": 0.330078125, + "learning_rate": 0.00029927047294094544, + "loss": 0.4745, + "step": 24040 + }, + { + "epoch": 64.13333333333334, + "grad_norm": 0.328125, + "learning_rate": 0.00029926985346733013, + "loss": 0.4766, + "step": 24050 + }, + { + "epoch": 64.16, + "grad_norm": 0.345703125, + "learning_rate": 0.0002992692337314569, + "loss": 0.4812, + "step": 24060 + }, + { + "epoch": 64.18666666666667, + "grad_norm": 0.310546875, + "learning_rate": 0.00029926861373332685, + "loss": 0.4725, + "step": 24070 + }, + { + "epoch": 64.21333333333334, + "grad_norm": 0.373046875, + "learning_rate": 0.0002992679934729411, + "loss": 0.4676, + "step": 24080 + }, + { + "epoch": 64.24, + "grad_norm": 0.234375, + "learning_rate": 0.0002992673729503007, + "loss": 0.4714, + "step": 24090 + }, + { + "epoch": 64.26666666666667, + "grad_norm": 0.326171875, + "learning_rate": 0.0002992667521654068, + "loss": 0.4752, + "step": 24100 + }, + { + "epoch": 64.29333333333334, + "grad_norm": 0.361328125, + "learning_rate": 0.0002992661311182604, + "loss": 0.47, + "step": 24110 + }, + { + "epoch": 64.32, + "grad_norm": 0.26953125, + "learning_rate": 0.00029926550980886266, + "loss": 0.4734, + "step": 24120 + }, + { + "epoch": 64.34666666666666, + "grad_norm": 0.416015625, + "learning_rate": 0.00029926488823721467, + "loss": 0.481, + "step": 24130 + }, + { + "epoch": 64.37333333333333, + "grad_norm": 0.328125, + "learning_rate": 0.0002992642664033175, + "loss": 0.4777, + "step": 24140 + }, + { + "epoch": 64.4, + "grad_norm": 0.3359375, + "learning_rate": 0.00029926364430717226, + "loss": 0.4731, + "step": 24150 + }, + { + "epoch": 64.42666666666666, + "grad_norm": 0.2490234375, + "learning_rate": 0.00029926302194878, + "loss": 0.48, + "step": 24160 + }, + { + "epoch": 64.45333333333333, + "grad_norm": 0.2353515625, + "learning_rate": 0.0002992623993281419, + "loss": 0.4828, + "step": 24170 + }, + { + "epoch": 64.48, + "grad_norm": 0.42578125, + "learning_rate": 0.00029926177644525894, + "loss": 0.4887, + "step": 24180 + }, + { + "epoch": 64.50666666666666, + "grad_norm": 0.26171875, + "learning_rate": 0.0002992611533001323, + "loss": 0.4779, + "step": 24190 + }, + { + "epoch": 64.53333333333333, + "grad_norm": 0.2216796875, + "learning_rate": 0.000299260529892763, + "loss": 0.4719, + "step": 24200 + }, + { + "epoch": 64.56, + "grad_norm": 0.287109375, + "learning_rate": 0.00029925990622315225, + "loss": 0.4733, + "step": 24210 + }, + { + "epoch": 64.58666666666667, + "grad_norm": 0.349609375, + "learning_rate": 0.00029925928229130103, + "loss": 0.4682, + "step": 24220 + }, + { + "epoch": 64.61333333333333, + "grad_norm": 0.203125, + "learning_rate": 0.0002992586580972105, + "loss": 0.4552, + "step": 24230 + }, + { + "epoch": 64.64, + "grad_norm": 0.23046875, + "learning_rate": 0.00029925803364088175, + "loss": 0.4596, + "step": 24240 + }, + { + "epoch": 64.66666666666667, + "grad_norm": 0.396484375, + "learning_rate": 0.00029925740892231586, + "loss": 0.4754, + "step": 24250 + }, + { + "epoch": 64.69333333333333, + "grad_norm": 0.279296875, + "learning_rate": 0.0002992567839415139, + "loss": 0.4591, + "step": 24260 + }, + { + "epoch": 64.72, + "grad_norm": 0.302734375, + "learning_rate": 0.00029925615869847707, + "loss": 0.4752, + "step": 24270 + }, + { + "epoch": 64.74666666666667, + "grad_norm": 0.2890625, + "learning_rate": 0.00029925553319320634, + "loss": 0.4798, + "step": 24280 + }, + { + "epoch": 64.77333333333333, + "grad_norm": 0.296875, + "learning_rate": 0.0002992549074257029, + "loss": 0.4873, + "step": 24290 + }, + { + "epoch": 64.8, + "grad_norm": 0.322265625, + "learning_rate": 0.0002992542813959678, + "loss": 0.4738, + "step": 24300 + }, + { + "epoch": 64.82666666666667, + "grad_norm": 0.291015625, + "learning_rate": 0.00029925365510400216, + "loss": 0.4687, + "step": 24310 + }, + { + "epoch": 64.85333333333334, + "grad_norm": 0.384765625, + "learning_rate": 0.00029925302854980713, + "loss": 0.4777, + "step": 24320 + }, + { + "epoch": 64.88, + "grad_norm": 0.2333984375, + "learning_rate": 0.00029925240173338377, + "loss": 0.4653, + "step": 24330 + }, + { + "epoch": 64.90666666666667, + "grad_norm": 0.298828125, + "learning_rate": 0.0002992517746547331, + "loss": 0.4687, + "step": 24340 + }, + { + "epoch": 64.93333333333334, + "grad_norm": 0.2236328125, + "learning_rate": 0.0002992511473138563, + "loss": 0.4704, + "step": 24350 + }, + { + "epoch": 64.96, + "grad_norm": 0.326171875, + "learning_rate": 0.0002992505197107545, + "loss": 0.4671, + "step": 24360 + }, + { + "epoch": 64.98666666666666, + "grad_norm": 0.25390625, + "learning_rate": 0.0002992498918454288, + "loss": 0.482, + "step": 24370 + }, + { + "epoch": 65.0, + "eval_loss": 0.4812326729297638, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.9729, + "eval_samples_per_second": 1.458, + "eval_steps_per_second": 0.091, + "step": 24375 + }, + { + "epoch": 65.01333333333334, + "grad_norm": 0.263671875, + "learning_rate": 0.00029924926371788024, + "loss": 0.4705, + "step": 24380 + }, + { + "epoch": 65.04, + "grad_norm": 0.51953125, + "learning_rate": 0.00029924863532810995, + "loss": 0.4951, + "step": 24390 + }, + { + "epoch": 65.06666666666666, + "grad_norm": 0.3515625, + "learning_rate": 0.000299248006676119, + "loss": 0.4827, + "step": 24400 + }, + { + "epoch": 65.09333333333333, + "grad_norm": 0.271484375, + "learning_rate": 0.0002992473777619086, + "loss": 0.4766, + "step": 24410 + }, + { + "epoch": 65.12, + "grad_norm": 0.328125, + "learning_rate": 0.00029924674858547976, + "loss": 0.4738, + "step": 24420 + }, + { + "epoch": 65.14666666666666, + "grad_norm": 0.296875, + "learning_rate": 0.00029924611914683365, + "loss": 0.4829, + "step": 24430 + }, + { + "epoch": 65.17333333333333, + "grad_norm": 0.322265625, + "learning_rate": 0.0002992454894459713, + "loss": 0.473, + "step": 24440 + }, + { + "epoch": 65.2, + "grad_norm": 0.2353515625, + "learning_rate": 0.00029924485948289387, + "loss": 0.4713, + "step": 24450 + }, + { + "epoch": 65.22666666666667, + "grad_norm": 0.400390625, + "learning_rate": 0.00029924422925760243, + "loss": 0.4691, + "step": 24460 + }, + { + "epoch": 65.25333333333333, + "grad_norm": 0.3671875, + "learning_rate": 0.00029924359877009815, + "loss": 0.469, + "step": 24470 + }, + { + "epoch": 65.28, + "grad_norm": 0.345703125, + "learning_rate": 0.0002992429680203821, + "loss": 0.483, + "step": 24480 + }, + { + "epoch": 65.30666666666667, + "grad_norm": 0.26953125, + "learning_rate": 0.00029924233700845534, + "loss": 0.4634, + "step": 24490 + }, + { + "epoch": 65.33333333333333, + "grad_norm": 0.314453125, + "learning_rate": 0.0002992417057343191, + "loss": 0.4794, + "step": 24500 + }, + { + "epoch": 65.36, + "grad_norm": 0.240234375, + "learning_rate": 0.0002992410741979744, + "loss": 0.4812, + "step": 24510 + }, + { + "epoch": 65.38666666666667, + "grad_norm": 0.30859375, + "learning_rate": 0.0002992404423994223, + "loss": 0.473, + "step": 24520 + }, + { + "epoch": 65.41333333333333, + "grad_norm": 0.2890625, + "learning_rate": 0.00029923981033866403, + "loss": 0.4765, + "step": 24530 + }, + { + "epoch": 65.44, + "grad_norm": 0.3125, + "learning_rate": 0.0002992391780157006, + "loss": 0.4798, + "step": 24540 + }, + { + "epoch": 65.46666666666667, + "grad_norm": 0.251953125, + "learning_rate": 0.00029923854543053316, + "loss": 0.4896, + "step": 24550 + }, + { + "epoch": 65.49333333333334, + "grad_norm": 0.3046875, + "learning_rate": 0.0002992379125831629, + "loss": 0.4805, + "step": 24560 + }, + { + "epoch": 65.52, + "grad_norm": 0.26953125, + "learning_rate": 0.00029923727947359086, + "loss": 0.4752, + "step": 24570 + }, + { + "epoch": 65.54666666666667, + "grad_norm": 0.28125, + "learning_rate": 0.0002992366461018181, + "loss": 0.4723, + "step": 24580 + }, + { + "epoch": 65.57333333333334, + "grad_norm": 0.2236328125, + "learning_rate": 0.0002992360124678458, + "loss": 0.4708, + "step": 24590 + }, + { + "epoch": 65.6, + "grad_norm": 0.271484375, + "learning_rate": 0.00029923537857167506, + "loss": 0.4649, + "step": 24600 + }, + { + "epoch": 65.62666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.00029923474441330693, + "loss": 0.4517, + "step": 24610 + }, + { + "epoch": 65.65333333333334, + "grad_norm": 0.23046875, + "learning_rate": 0.00029923410999274267, + "loss": 0.4713, + "step": 24620 + }, + { + "epoch": 65.68, + "grad_norm": 0.2314453125, + "learning_rate": 0.00029923347530998325, + "loss": 0.4626, + "step": 24630 + }, + { + "epoch": 65.70666666666666, + "grad_norm": 0.24609375, + "learning_rate": 0.0002992328403650299, + "loss": 0.4633, + "step": 24640 + }, + { + "epoch": 65.73333333333333, + "grad_norm": 0.26171875, + "learning_rate": 0.00029923220515788365, + "loss": 0.4826, + "step": 24650 + }, + { + "epoch": 65.76, + "grad_norm": 0.25, + "learning_rate": 0.0002992315696885457, + "loss": 0.4841, + "step": 24660 + }, + { + "epoch": 65.78666666666666, + "grad_norm": 0.28125, + "learning_rate": 0.000299230933957017, + "loss": 0.482, + "step": 24670 + }, + { + "epoch": 65.81333333333333, + "grad_norm": 0.302734375, + "learning_rate": 0.0002992302979632989, + "loss": 0.4666, + "step": 24680 + }, + { + "epoch": 65.84, + "grad_norm": 0.326171875, + "learning_rate": 0.0002992296617073923, + "loss": 0.473, + "step": 24690 + }, + { + "epoch": 65.86666666666666, + "grad_norm": 0.302734375, + "learning_rate": 0.0002992290251892985, + "loss": 0.4729, + "step": 24700 + }, + { + "epoch": 65.89333333333333, + "grad_norm": 0.236328125, + "learning_rate": 0.00029922838840901845, + "loss": 0.4635, + "step": 24710 + }, + { + "epoch": 65.92, + "grad_norm": 0.30078125, + "learning_rate": 0.0002992277513665534, + "loss": 0.4739, + "step": 24720 + }, + { + "epoch": 65.94666666666667, + "grad_norm": 0.326171875, + "learning_rate": 0.00029922711406190445, + "loss": 0.4668, + "step": 24730 + }, + { + "epoch": 65.97333333333333, + "grad_norm": 0.32421875, + "learning_rate": 0.00029922647649507266, + "loss": 0.4777, + "step": 24740 + }, + { + "epoch": 66.0, + "grad_norm": 0.265625, + "learning_rate": 0.00029922583866605915, + "loss": 0.4668, + "step": 24750 + }, + { + "epoch": 66.0, + "eval_loss": 0.4806465804576874, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.9252, + "eval_samples_per_second": 1.612, + "eval_steps_per_second": 0.101, + "step": 24750 + }, + { + "epoch": 66.02666666666667, + "grad_norm": 0.482421875, + "learning_rate": 0.0002992252005748651, + "loss": 0.4868, + "step": 24760 + }, + { + "epoch": 66.05333333333333, + "grad_norm": 0.57421875, + "learning_rate": 0.00029922456222149165, + "loss": 0.4924, + "step": 24770 + }, + { + "epoch": 66.08, + "grad_norm": 0.7734375, + "learning_rate": 0.0002992239236059398, + "loss": 0.4821, + "step": 24780 + }, + { + "epoch": 66.10666666666667, + "grad_norm": 0.796875, + "learning_rate": 0.0002992232847282108, + "loss": 0.4756, + "step": 24790 + }, + { + "epoch": 66.13333333333334, + "grad_norm": 0.5078125, + "learning_rate": 0.00029922264558830566, + "loss": 0.4774, + "step": 24800 + }, + { + "epoch": 66.16, + "grad_norm": 0.39453125, + "learning_rate": 0.00029922200618622566, + "loss": 0.4799, + "step": 24810 + }, + { + "epoch": 66.18666666666667, + "grad_norm": 0.27734375, + "learning_rate": 0.00029922136652197175, + "loss": 0.4734, + "step": 24820 + }, + { + "epoch": 66.21333333333334, + "grad_norm": 0.279296875, + "learning_rate": 0.0002992207265955451, + "loss": 0.4676, + "step": 24830 + }, + { + "epoch": 66.24, + "grad_norm": 0.28515625, + "learning_rate": 0.00029922008640694697, + "loss": 0.4714, + "step": 24840 + }, + { + "epoch": 66.26666666666667, + "grad_norm": 0.2890625, + "learning_rate": 0.0002992194459561783, + "loss": 0.4755, + "step": 24850 + }, + { + "epoch": 66.29333333333334, + "grad_norm": 0.279296875, + "learning_rate": 0.0002992188052432403, + "loss": 0.4696, + "step": 24860 + }, + { + "epoch": 66.32, + "grad_norm": 0.2216796875, + "learning_rate": 0.00029921816426813416, + "loss": 0.4732, + "step": 24870 + }, + { + "epoch": 66.34666666666666, + "grad_norm": 0.240234375, + "learning_rate": 0.00029921752303086087, + "loss": 0.4811, + "step": 24880 + }, + { + "epoch": 66.37333333333333, + "grad_norm": 0.2734375, + "learning_rate": 0.00029921688153142163, + "loss": 0.4776, + "step": 24890 + }, + { + "epoch": 66.4, + "grad_norm": 0.2265625, + "learning_rate": 0.00029921623976981754, + "loss": 0.4733, + "step": 24900 + }, + { + "epoch": 66.42666666666666, + "grad_norm": 0.390625, + "learning_rate": 0.00029921559774604973, + "loss": 0.4797, + "step": 24910 + }, + { + "epoch": 66.45333333333333, + "grad_norm": 0.359375, + "learning_rate": 0.00029921495546011946, + "loss": 0.4826, + "step": 24920 + }, + { + "epoch": 66.48, + "grad_norm": 0.349609375, + "learning_rate": 0.00029921431291202763, + "loss": 0.4885, + "step": 24930 + }, + { + "epoch": 66.50666666666666, + "grad_norm": 0.23046875, + "learning_rate": 0.0002992136701017755, + "loss": 0.4776, + "step": 24940 + }, + { + "epoch": 66.53333333333333, + "grad_norm": 0.2294921875, + "learning_rate": 0.0002992130270293642, + "loss": 0.4714, + "step": 24950 + }, + { + "epoch": 66.56, + "grad_norm": 0.2412109375, + "learning_rate": 0.0002992123836947949, + "loss": 0.4735, + "step": 24960 + }, + { + "epoch": 66.58666666666667, + "grad_norm": 0.2109375, + "learning_rate": 0.00029921174009806857, + "loss": 0.4695, + "step": 24970 + }, + { + "epoch": 66.61333333333333, + "grad_norm": 0.255859375, + "learning_rate": 0.0002992110962391865, + "loss": 0.4543, + "step": 24980 + }, + { + "epoch": 66.64, + "grad_norm": 0.1953125, + "learning_rate": 0.0002992104521181497, + "loss": 0.4594, + "step": 24990 + }, + { + "epoch": 66.66666666666667, + "grad_norm": 0.3125, + "learning_rate": 0.00029920980773495947, + "loss": 0.4749, + "step": 25000 + }, + { + "epoch": 66.69333333333333, + "grad_norm": 0.263671875, + "learning_rate": 0.0002992091630896168, + "loss": 0.4582, + "step": 25010 + }, + { + "epoch": 66.72, + "grad_norm": 0.306640625, + "learning_rate": 0.00029920851818212283, + "loss": 0.4752, + "step": 25020 + }, + { + "epoch": 66.74666666666667, + "grad_norm": 0.302734375, + "learning_rate": 0.0002992078730124787, + "loss": 0.4795, + "step": 25030 + }, + { + "epoch": 66.77333333333333, + "grad_norm": 0.3203125, + "learning_rate": 0.0002992072275806857, + "loss": 0.4867, + "step": 25040 + }, + { + "epoch": 66.8, + "grad_norm": 0.1953125, + "learning_rate": 0.0002992065818867447, + "loss": 0.4742, + "step": 25050 + }, + { + "epoch": 66.82666666666667, + "grad_norm": 0.255859375, + "learning_rate": 0.000299205935930657, + "loss": 0.4685, + "step": 25060 + }, + { + "epoch": 66.85333333333334, + "grad_norm": 0.3359375, + "learning_rate": 0.0002992052897124237, + "loss": 0.4778, + "step": 25070 + }, + { + "epoch": 66.88, + "grad_norm": 0.3203125, + "learning_rate": 0.00029920464323204593, + "loss": 0.4655, + "step": 25080 + }, + { + "epoch": 66.90666666666667, + "grad_norm": 0.2255859375, + "learning_rate": 0.00029920399648952485, + "loss": 0.4676, + "step": 25090 + }, + { + "epoch": 66.93333333333334, + "grad_norm": 0.205078125, + "learning_rate": 0.00029920334948486157, + "loss": 0.4697, + "step": 25100 + }, + { + "epoch": 66.96, + "grad_norm": 0.265625, + "learning_rate": 0.00029920270221805723, + "loss": 0.4676, + "step": 25110 + }, + { + "epoch": 66.98666666666666, + "grad_norm": 0.31640625, + "learning_rate": 0.000299202054689113, + "loss": 0.4815, + "step": 25120 + }, + { + "epoch": 67.0, + "eval_loss": 0.481969952583313, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.4397, + "eval_samples_per_second": 1.533, + "eval_steps_per_second": 0.096, + "step": 25125 + }, + { + "epoch": 67.01333333333334, + "grad_norm": 0.275390625, + "learning_rate": 0.00029920140689802994, + "loss": 0.4708, + "step": 25130 + }, + { + "epoch": 67.04, + "grad_norm": 0.341796875, + "learning_rate": 0.00029920075884480926, + "loss": 0.4952, + "step": 25140 + }, + { + "epoch": 67.06666666666666, + "grad_norm": 0.3203125, + "learning_rate": 0.00029920011052945203, + "loss": 0.482, + "step": 25150 + }, + { + "epoch": 67.09333333333333, + "grad_norm": 0.416015625, + "learning_rate": 0.00029919946195195953, + "loss": 0.4772, + "step": 25160 + }, + { + "epoch": 67.12, + "grad_norm": 0.310546875, + "learning_rate": 0.00029919881311233276, + "loss": 0.4734, + "step": 25170 + }, + { + "epoch": 67.14666666666666, + "grad_norm": 0.291015625, + "learning_rate": 0.0002991981640105729, + "loss": 0.4818, + "step": 25180 + }, + { + "epoch": 67.17333333333333, + "grad_norm": 0.318359375, + "learning_rate": 0.00029919751464668114, + "loss": 0.4733, + "step": 25190 + }, + { + "epoch": 67.2, + "grad_norm": 0.28125, + "learning_rate": 0.00029919686502065846, + "loss": 0.471, + "step": 25200 + }, + { + "epoch": 67.22666666666667, + "grad_norm": 0.26171875, + "learning_rate": 0.0002991962151325062, + "loss": 0.4689, + "step": 25210 + }, + { + "epoch": 67.25333333333333, + "grad_norm": 0.259765625, + "learning_rate": 0.00029919556498222543, + "loss": 0.4691, + "step": 25220 + }, + { + "epoch": 67.28, + "grad_norm": 0.2265625, + "learning_rate": 0.00029919491456981725, + "loss": 0.4819, + "step": 25230 + }, + { + "epoch": 67.30666666666667, + "grad_norm": 0.2392578125, + "learning_rate": 0.00029919426389528287, + "loss": 0.4635, + "step": 25240 + }, + { + "epoch": 67.33333333333333, + "grad_norm": 0.24609375, + "learning_rate": 0.0002991936129586233, + "loss": 0.4792, + "step": 25250 + }, + { + "epoch": 67.36, + "grad_norm": 0.3828125, + "learning_rate": 0.0002991929617598399, + "loss": 0.4815, + "step": 25260 + }, + { + "epoch": 67.38666666666667, + "grad_norm": 0.384765625, + "learning_rate": 0.0002991923102989337, + "loss": 0.473, + "step": 25270 + }, + { + "epoch": 67.41333333333333, + "grad_norm": 0.494140625, + "learning_rate": 0.00029919165857590575, + "loss": 0.4775, + "step": 25280 + }, + { + "epoch": 67.44, + "grad_norm": 0.267578125, + "learning_rate": 0.0002991910065907573, + "loss": 0.4801, + "step": 25290 + }, + { + "epoch": 67.46666666666667, + "grad_norm": 0.2373046875, + "learning_rate": 0.0002991903543434895, + "loss": 0.489, + "step": 25300 + }, + { + "epoch": 67.49333333333334, + "grad_norm": 0.2890625, + "learning_rate": 0.00029918970183410347, + "loss": 0.4808, + "step": 25310 + }, + { + "epoch": 67.52, + "grad_norm": 0.291015625, + "learning_rate": 0.0002991890490626004, + "loss": 0.4752, + "step": 25320 + }, + { + "epoch": 67.54666666666667, + "grad_norm": 0.294921875, + "learning_rate": 0.0002991883960289814, + "loss": 0.4722, + "step": 25330 + }, + { + "epoch": 67.57333333333334, + "grad_norm": 0.3125, + "learning_rate": 0.00029918774273324754, + "loss": 0.4711, + "step": 25340 + }, + { + "epoch": 67.6, + "grad_norm": 0.23828125, + "learning_rate": 0.0002991870891754001, + "loss": 0.4649, + "step": 25350 + }, + { + "epoch": 67.62666666666667, + "grad_norm": 0.1806640625, + "learning_rate": 0.0002991864353554402, + "loss": 0.4521, + "step": 25360 + }, + { + "epoch": 67.65333333333334, + "grad_norm": 0.365234375, + "learning_rate": 0.0002991857812733689, + "loss": 0.4719, + "step": 25370 + }, + { + "epoch": 67.68, + "grad_norm": 0.322265625, + "learning_rate": 0.0002991851269291875, + "loss": 0.4628, + "step": 25380 + }, + { + "epoch": 67.70666666666666, + "grad_norm": 0.29296875, + "learning_rate": 0.00029918447232289697, + "loss": 0.4633, + "step": 25390 + }, + { + "epoch": 67.73333333333333, + "grad_norm": 0.26171875, + "learning_rate": 0.0002991838174544986, + "loss": 0.4821, + "step": 25400 + }, + { + "epoch": 67.76, + "grad_norm": 0.35546875, + "learning_rate": 0.00029918316232399345, + "loss": 0.4835, + "step": 25410 + }, + { + "epoch": 67.78666666666666, + "grad_norm": 0.33984375, + "learning_rate": 0.00029918250693138266, + "loss": 0.4818, + "step": 25420 + }, + { + "epoch": 67.81333333333333, + "grad_norm": 0.41796875, + "learning_rate": 0.0002991818512766676, + "loss": 0.4675, + "step": 25430 + }, + { + "epoch": 67.84, + "grad_norm": 0.431640625, + "learning_rate": 0.0002991811953598491, + "loss": 0.4728, + "step": 25440 + }, + { + "epoch": 67.86666666666666, + "grad_norm": 0.2734375, + "learning_rate": 0.00029918053918092855, + "loss": 0.4729, + "step": 25450 + }, + { + "epoch": 67.89333333333333, + "grad_norm": 0.2294921875, + "learning_rate": 0.000299179882739907, + "loss": 0.4636, + "step": 25460 + }, + { + "epoch": 67.92, + "grad_norm": 0.30859375, + "learning_rate": 0.0002991792260367856, + "loss": 0.4727, + "step": 25470 + }, + { + "epoch": 67.94666666666667, + "grad_norm": 0.244140625, + "learning_rate": 0.0002991785690715656, + "loss": 0.4662, + "step": 25480 + }, + { + "epoch": 67.97333333333333, + "grad_norm": 0.32421875, + "learning_rate": 0.00029917791184424803, + "loss": 0.4778, + "step": 25490 + }, + { + "epoch": 68.0, + "grad_norm": 0.36328125, + "learning_rate": 0.0002991772543548341, + "loss": 0.4673, + "step": 25500 + }, + { + "epoch": 68.0, + "eval_loss": 0.482963889837265, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.6219, + "eval_samples_per_second": 1.663, + "eval_steps_per_second": 0.104, + "step": 25500 + }, + { + "epoch": 68.02666666666667, + "grad_norm": 0.30078125, + "learning_rate": 0.0002991765966033249, + "loss": 0.4862, + "step": 25510 + }, + { + "epoch": 68.05333333333333, + "grad_norm": 0.33984375, + "learning_rate": 0.0002991759385897217, + "loss": 0.4916, + "step": 25520 + }, + { + "epoch": 68.08, + "grad_norm": 0.322265625, + "learning_rate": 0.0002991752803140257, + "loss": 0.4794, + "step": 25530 + }, + { + "epoch": 68.10666666666667, + "grad_norm": 0.306640625, + "learning_rate": 0.00029917462177623784, + "loss": 0.4744, + "step": 25540 + }, + { + "epoch": 68.13333333333334, + "grad_norm": 0.330078125, + "learning_rate": 0.0002991739629763594, + "loss": 0.4759, + "step": 25550 + }, + { + "epoch": 68.16, + "grad_norm": 0.37109375, + "learning_rate": 0.0002991733039143916, + "loss": 0.4807, + "step": 25560 + }, + { + "epoch": 68.18666666666667, + "grad_norm": 0.330078125, + "learning_rate": 0.00029917264459033554, + "loss": 0.4723, + "step": 25570 + }, + { + "epoch": 68.21333333333334, + "grad_norm": 0.263671875, + "learning_rate": 0.0002991719850041923, + "loss": 0.4672, + "step": 25580 + }, + { + "epoch": 68.24, + "grad_norm": 0.314453125, + "learning_rate": 0.0002991713251559631, + "loss": 0.4708, + "step": 25590 + }, + { + "epoch": 68.26666666666667, + "grad_norm": 0.251953125, + "learning_rate": 0.00029917066504564916, + "loss": 0.4757, + "step": 25600 + }, + { + "epoch": 68.29333333333334, + "grad_norm": 0.365234375, + "learning_rate": 0.0002991700046732516, + "loss": 0.469, + "step": 25610 + }, + { + "epoch": 68.32, + "grad_norm": 0.240234375, + "learning_rate": 0.00029916934403877155, + "loss": 0.4728, + "step": 25620 + }, + { + "epoch": 68.34666666666666, + "grad_norm": 0.263671875, + "learning_rate": 0.00029916868314221017, + "loss": 0.4804, + "step": 25630 + }, + { + "epoch": 68.37333333333333, + "grad_norm": 0.3203125, + "learning_rate": 0.00029916802198356866, + "loss": 0.4766, + "step": 25640 + }, + { + "epoch": 68.4, + "grad_norm": 0.28515625, + "learning_rate": 0.00029916736056284816, + "loss": 0.4737, + "step": 25650 + }, + { + "epoch": 68.42666666666666, + "grad_norm": 0.302734375, + "learning_rate": 0.0002991666988800499, + "loss": 0.4802, + "step": 25660 + }, + { + "epoch": 68.45333333333333, + "grad_norm": 0.296875, + "learning_rate": 0.0002991660369351749, + "loss": 0.482, + "step": 25670 + }, + { + "epoch": 68.48, + "grad_norm": 0.306640625, + "learning_rate": 0.00029916537472822436, + "loss": 0.4874, + "step": 25680 + }, + { + "epoch": 68.50666666666666, + "grad_norm": 0.29296875, + "learning_rate": 0.0002991647122591996, + "loss": 0.4779, + "step": 25690 + }, + { + "epoch": 68.53333333333333, + "grad_norm": 0.2470703125, + "learning_rate": 0.0002991640495281016, + "loss": 0.4713, + "step": 25700 + }, + { + "epoch": 68.56, + "grad_norm": 0.23046875, + "learning_rate": 0.0002991633865349316, + "loss": 0.4725, + "step": 25710 + }, + { + "epoch": 68.58666666666667, + "grad_norm": 0.28125, + "learning_rate": 0.00029916272327969076, + "loss": 0.4688, + "step": 25720 + }, + { + "epoch": 68.61333333333333, + "grad_norm": 0.296875, + "learning_rate": 0.00029916205976238016, + "loss": 0.4546, + "step": 25730 + }, + { + "epoch": 68.64, + "grad_norm": 0.2890625, + "learning_rate": 0.0002991613959830012, + "loss": 0.4591, + "step": 25740 + }, + { + "epoch": 68.66666666666667, + "grad_norm": 0.275390625, + "learning_rate": 0.0002991607319415548, + "loss": 0.4744, + "step": 25750 + }, + { + "epoch": 68.69333333333333, + "grad_norm": 0.380859375, + "learning_rate": 0.0002991600676380422, + "loss": 0.4578, + "step": 25760 + }, + { + "epoch": 68.72, + "grad_norm": 0.3359375, + "learning_rate": 0.0002991594030724647, + "loss": 0.4744, + "step": 25770 + }, + { + "epoch": 68.74666666666667, + "grad_norm": 0.2216796875, + "learning_rate": 0.00029915873824482324, + "loss": 0.4796, + "step": 25780 + }, + { + "epoch": 68.77333333333333, + "grad_norm": 0.271484375, + "learning_rate": 0.00029915807315511917, + "loss": 0.4875, + "step": 25790 + }, + { + "epoch": 68.8, + "grad_norm": 0.32421875, + "learning_rate": 0.00029915740780335357, + "loss": 0.4733, + "step": 25800 + }, + { + "epoch": 68.82666666666667, + "grad_norm": 0.28125, + "learning_rate": 0.00029915674218952763, + "loss": 0.4673, + "step": 25810 + }, + { + "epoch": 68.85333333333334, + "grad_norm": 0.29296875, + "learning_rate": 0.0002991560763136425, + "loss": 0.4776, + "step": 25820 + }, + { + "epoch": 68.88, + "grad_norm": 0.30859375, + "learning_rate": 0.0002991554101756994, + "loss": 0.4645, + "step": 25830 + }, + { + "epoch": 68.90666666666667, + "grad_norm": 0.28515625, + "learning_rate": 0.00029915474377569944, + "loss": 0.4676, + "step": 25840 + }, + { + "epoch": 68.93333333333334, + "grad_norm": 0.2890625, + "learning_rate": 0.0002991540771136439, + "loss": 0.4683, + "step": 25850 + }, + { + "epoch": 68.96, + "grad_norm": 0.2470703125, + "learning_rate": 0.0002991534101895338, + "loss": 0.4679, + "step": 25860 + }, + { + "epoch": 68.98666666666666, + "grad_norm": 0.30078125, + "learning_rate": 0.0002991527430033704, + "loss": 0.4816, + "step": 25870 + }, + { + "epoch": 69.0, + "eval_loss": 0.48096296191215515, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.278, + "eval_samples_per_second": 1.557, + "eval_steps_per_second": 0.097, + "step": 25875 + }, + { + "epoch": 69.01333333333334, + "grad_norm": 0.318359375, + "learning_rate": 0.00029915207555515486, + "loss": 0.4706, + "step": 25880 + }, + { + "epoch": 69.04, + "grad_norm": 0.322265625, + "learning_rate": 0.00029915140784488834, + "loss": 0.4949, + "step": 25890 + }, + { + "epoch": 69.06666666666666, + "grad_norm": 0.279296875, + "learning_rate": 0.00029915073987257204, + "loss": 0.4821, + "step": 25900 + }, + { + "epoch": 69.09333333333333, + "grad_norm": 0.267578125, + "learning_rate": 0.0002991500716382071, + "loss": 0.4776, + "step": 25910 + }, + { + "epoch": 69.12, + "grad_norm": 0.296875, + "learning_rate": 0.00029914940314179476, + "loss": 0.4729, + "step": 25920 + }, + { + "epoch": 69.14666666666666, + "grad_norm": 0.25390625, + "learning_rate": 0.00029914873438333605, + "loss": 0.482, + "step": 25930 + }, + { + "epoch": 69.17333333333333, + "grad_norm": 0.30859375, + "learning_rate": 0.00029914806536283234, + "loss": 0.4724, + "step": 25940 + }, + { + "epoch": 69.2, + "grad_norm": 0.26171875, + "learning_rate": 0.0002991473960802846, + "loss": 0.4708, + "step": 25950 + }, + { + "epoch": 69.22666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.0002991467265356942, + "loss": 0.4684, + "step": 25960 + }, + { + "epoch": 69.25333333333333, + "grad_norm": 0.283203125, + "learning_rate": 0.00029914605672906223, + "loss": 0.4684, + "step": 25970 + }, + { + "epoch": 69.28, + "grad_norm": 0.33203125, + "learning_rate": 0.0002991453866603898, + "loss": 0.4817, + "step": 25980 + }, + { + "epoch": 69.30666666666667, + "grad_norm": 0.34375, + "learning_rate": 0.0002991447163296782, + "loss": 0.4634, + "step": 25990 + }, + { + "epoch": 69.33333333333333, + "grad_norm": 0.46484375, + "learning_rate": 0.00029914404573692856, + "loss": 0.4795, + "step": 26000 + }, + { + "epoch": 69.36, + "grad_norm": 0.349609375, + "learning_rate": 0.000299143374882142, + "loss": 0.4811, + "step": 26010 + }, + { + "epoch": 69.38666666666667, + "grad_norm": 0.322265625, + "learning_rate": 0.00029914270376531985, + "loss": 0.4728, + "step": 26020 + }, + { + "epoch": 69.41333333333333, + "grad_norm": 0.287109375, + "learning_rate": 0.0002991420323864631, + "loss": 0.477, + "step": 26030 + }, + { + "epoch": 69.44, + "grad_norm": 0.25, + "learning_rate": 0.00029914136074557306, + "loss": 0.4799, + "step": 26040 + }, + { + "epoch": 69.46666666666667, + "grad_norm": 0.45703125, + "learning_rate": 0.00029914068884265093, + "loss": 0.4892, + "step": 26050 + }, + { + "epoch": 69.49333333333334, + "grad_norm": 0.431640625, + "learning_rate": 0.0002991400166776978, + "loss": 0.4803, + "step": 26060 + }, + { + "epoch": 69.52, + "grad_norm": 0.36328125, + "learning_rate": 0.0002991393442507148, + "loss": 0.4747, + "step": 26070 + }, + { + "epoch": 69.54666666666667, + "grad_norm": 0.296875, + "learning_rate": 0.0002991386715617033, + "loss": 0.4715, + "step": 26080 + }, + { + "epoch": 69.57333333333334, + "grad_norm": 0.26953125, + "learning_rate": 0.00029913799861066437, + "loss": 0.4718, + "step": 26090 + }, + { + "epoch": 69.6, + "grad_norm": 0.29296875, + "learning_rate": 0.00029913732539759916, + "loss": 0.4646, + "step": 26100 + }, + { + "epoch": 69.62666666666667, + "grad_norm": 0.318359375, + "learning_rate": 0.00029913665192250895, + "loss": 0.4517, + "step": 26110 + }, + { + "epoch": 69.65333333333334, + "grad_norm": 0.30078125, + "learning_rate": 0.00029913597818539484, + "loss": 0.4709, + "step": 26120 + }, + { + "epoch": 69.68, + "grad_norm": 0.2392578125, + "learning_rate": 0.000299135304186258, + "loss": 0.4626, + "step": 26130 + }, + { + "epoch": 69.70666666666666, + "grad_norm": 0.33203125, + "learning_rate": 0.0002991346299250997, + "loss": 0.4634, + "step": 26140 + }, + { + "epoch": 69.73333333333333, + "grad_norm": 0.263671875, + "learning_rate": 0.0002991339554019211, + "loss": 0.4822, + "step": 26150 + }, + { + "epoch": 69.76, + "grad_norm": 0.291015625, + "learning_rate": 0.00029913328061672336, + "loss": 0.4838, + "step": 26160 + }, + { + "epoch": 69.78666666666666, + "grad_norm": 0.306640625, + "learning_rate": 0.00029913260556950765, + "loss": 0.4814, + "step": 26170 + }, + { + "epoch": 69.81333333333333, + "grad_norm": 0.251953125, + "learning_rate": 0.0002991319302602752, + "loss": 0.4673, + "step": 26180 + }, + { + "epoch": 69.84, + "grad_norm": 0.40625, + "learning_rate": 0.0002991312546890271, + "loss": 0.4729, + "step": 26190 + }, + { + "epoch": 69.86666666666666, + "grad_norm": 0.263671875, + "learning_rate": 0.00029913057885576464, + "loss": 0.4724, + "step": 26200 + }, + { + "epoch": 69.89333333333333, + "grad_norm": 0.291015625, + "learning_rate": 0.000299129902760489, + "loss": 0.4635, + "step": 26210 + }, + { + "epoch": 69.92, + "grad_norm": 0.26953125, + "learning_rate": 0.0002991292264032014, + "loss": 0.4729, + "step": 26220 + }, + { + "epoch": 69.94666666666667, + "grad_norm": 0.30859375, + "learning_rate": 0.0002991285497839029, + "loss": 0.4661, + "step": 26230 + }, + { + "epoch": 69.97333333333333, + "grad_norm": 0.341796875, + "learning_rate": 0.00029912787290259477, + "loss": 0.4779, + "step": 26240 + }, + { + "epoch": 70.0, + "grad_norm": 0.32421875, + "learning_rate": 0.00029912719575927825, + "loss": 0.4661, + "step": 26250 + }, + { + "epoch": 70.0, + "eval_loss": 0.4806675612926483, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.9085, + "eval_samples_per_second": 1.615, + "eval_steps_per_second": 0.101, + "step": 26250 + }, + { + "epoch": 70.02666666666667, + "grad_norm": 0.39453125, + "learning_rate": 0.0002991265183539544, + "loss": 0.4862, + "step": 26260 + }, + { + "epoch": 70.05333333333333, + "grad_norm": 0.279296875, + "learning_rate": 0.0002991258406866245, + "loss": 0.4925, + "step": 26270 + }, + { + "epoch": 70.08, + "grad_norm": 0.33203125, + "learning_rate": 0.00029912516275728976, + "loss": 0.4794, + "step": 26280 + }, + { + "epoch": 70.10666666666667, + "grad_norm": 0.2138671875, + "learning_rate": 0.0002991244845659513, + "loss": 0.4741, + "step": 26290 + }, + { + "epoch": 70.13333333333334, + "grad_norm": 0.2412109375, + "learning_rate": 0.00029912380611261035, + "loss": 0.4759, + "step": 26300 + }, + { + "epoch": 70.16, + "grad_norm": 0.279296875, + "learning_rate": 0.00029912312739726807, + "loss": 0.4789, + "step": 26310 + }, + { + "epoch": 70.18666666666667, + "grad_norm": 0.248046875, + "learning_rate": 0.00029912244841992573, + "loss": 0.472, + "step": 26320 + }, + { + "epoch": 70.21333333333334, + "grad_norm": 0.267578125, + "learning_rate": 0.0002991217691805844, + "loss": 0.467, + "step": 26330 + }, + { + "epoch": 70.24, + "grad_norm": 0.2392578125, + "learning_rate": 0.00029912108967924543, + "loss": 0.4717, + "step": 26340 + }, + { + "epoch": 70.26666666666667, + "grad_norm": 0.328125, + "learning_rate": 0.00029912040991590986, + "loss": 0.4747, + "step": 26350 + }, + { + "epoch": 70.29333333333334, + "grad_norm": 0.291015625, + "learning_rate": 0.00029911972989057905, + "loss": 0.4687, + "step": 26360 + }, + { + "epoch": 70.32, + "grad_norm": 0.28515625, + "learning_rate": 0.00029911904960325405, + "loss": 0.4731, + "step": 26370 + }, + { + "epoch": 70.34666666666666, + "grad_norm": 0.28125, + "learning_rate": 0.0002991183690539361, + "loss": 0.4811, + "step": 26380 + }, + { + "epoch": 70.37333333333333, + "grad_norm": 0.294921875, + "learning_rate": 0.00029911768824262636, + "loss": 0.478, + "step": 26390 + }, + { + "epoch": 70.4, + "grad_norm": 0.3203125, + "learning_rate": 0.0002991170071693261, + "loss": 0.4728, + "step": 26400 + }, + { + "epoch": 70.42666666666666, + "grad_norm": 0.2734375, + "learning_rate": 0.0002991163258340365, + "loss": 0.4789, + "step": 26410 + }, + { + "epoch": 70.45333333333333, + "grad_norm": 0.2421875, + "learning_rate": 0.0002991156442367587, + "loss": 0.4821, + "step": 26420 + }, + { + "epoch": 70.48, + "grad_norm": 0.333984375, + "learning_rate": 0.000299114962377494, + "loss": 0.4879, + "step": 26430 + }, + { + "epoch": 70.50666666666666, + "grad_norm": 0.310546875, + "learning_rate": 0.00029911428025624346, + "loss": 0.4776, + "step": 26440 + }, + { + "epoch": 70.53333333333333, + "grad_norm": 0.2412109375, + "learning_rate": 0.0002991135978730084, + "loss": 0.4714, + "step": 26450 + }, + { + "epoch": 70.56, + "grad_norm": 0.3984375, + "learning_rate": 0.00029911291522778996, + "loss": 0.473, + "step": 26460 + }, + { + "epoch": 70.58666666666667, + "grad_norm": 0.310546875, + "learning_rate": 0.0002991122323205894, + "loss": 0.4685, + "step": 26470 + }, + { + "epoch": 70.61333333333333, + "grad_norm": 0.294921875, + "learning_rate": 0.0002991115491514078, + "loss": 0.4539, + "step": 26480 + }, + { + "epoch": 70.64, + "grad_norm": 0.3046875, + "learning_rate": 0.0002991108657202464, + "loss": 0.459, + "step": 26490 + }, + { + "epoch": 70.66666666666667, + "grad_norm": 0.28125, + "learning_rate": 0.00029911018202710655, + "loss": 0.4748, + "step": 26500 + }, + { + "epoch": 70.69333333333333, + "grad_norm": 0.322265625, + "learning_rate": 0.00029910949807198924, + "loss": 0.4578, + "step": 26510 + }, + { + "epoch": 70.72, + "grad_norm": 0.37890625, + "learning_rate": 0.0002991088138548958, + "loss": 0.4755, + "step": 26520 + }, + { + "epoch": 70.74666666666667, + "grad_norm": 0.267578125, + "learning_rate": 0.0002991081293758274, + "loss": 0.4788, + "step": 26530 + }, + { + "epoch": 70.77333333333333, + "grad_norm": 0.353515625, + "learning_rate": 0.0002991074446347852, + "loss": 0.486, + "step": 26540 + }, + { + "epoch": 70.8, + "grad_norm": 0.3046875, + "learning_rate": 0.0002991067596317705, + "loss": 0.473, + "step": 26550 + }, + { + "epoch": 70.82666666666667, + "grad_norm": 0.296875, + "learning_rate": 0.0002991060743667844, + "loss": 0.4679, + "step": 26560 + }, + { + "epoch": 70.85333333333334, + "grad_norm": 0.244140625, + "learning_rate": 0.00029910538883982826, + "loss": 0.4769, + "step": 26570 + }, + { + "epoch": 70.88, + "grad_norm": 0.302734375, + "learning_rate": 0.00029910470305090305, + "loss": 0.4647, + "step": 26580 + }, + { + "epoch": 70.90666666666667, + "grad_norm": 0.357421875, + "learning_rate": 0.00029910401700001014, + "loss": 0.4675, + "step": 26590 + }, + { + "epoch": 70.93333333333334, + "grad_norm": 0.275390625, + "learning_rate": 0.00029910333068715073, + "loss": 0.4693, + "step": 26600 + }, + { + "epoch": 70.96, + "grad_norm": 0.26953125, + "learning_rate": 0.00029910264411232596, + "loss": 0.4672, + "step": 26610 + }, + { + "epoch": 70.98666666666666, + "grad_norm": 0.412109375, + "learning_rate": 0.00029910195727553707, + "loss": 0.481, + "step": 26620 + }, + { + "epoch": 71.0, + "eval_loss": 0.4816884398460388, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.311, + "eval_samples_per_second": 1.552, + "eval_steps_per_second": 0.097, + "step": 26625 + }, + { + "epoch": 71.01333333333334, + "grad_norm": 0.298828125, + "learning_rate": 0.0002991012701767853, + "loss": 0.4697, + "step": 26630 + }, + { + "epoch": 71.04, + "grad_norm": 0.32421875, + "learning_rate": 0.0002991005828160717, + "loss": 0.4945, + "step": 26640 + }, + { + "epoch": 71.06666666666666, + "grad_norm": 0.330078125, + "learning_rate": 0.00029909989519339775, + "loss": 0.4816, + "step": 26650 + }, + { + "epoch": 71.09333333333333, + "grad_norm": 0.291015625, + "learning_rate": 0.00029909920730876444, + "loss": 0.4764, + "step": 26660 + }, + { + "epoch": 71.12, + "grad_norm": 0.283203125, + "learning_rate": 0.000299098519162173, + "loss": 0.4732, + "step": 26670 + }, + { + "epoch": 71.14666666666666, + "grad_norm": 0.30078125, + "learning_rate": 0.00029909783075362476, + "loss": 0.4819, + "step": 26680 + }, + { + "epoch": 71.17333333333333, + "grad_norm": 0.337890625, + "learning_rate": 0.00029909714208312084, + "loss": 0.4728, + "step": 26690 + }, + { + "epoch": 71.2, + "grad_norm": 0.263671875, + "learning_rate": 0.00029909645315066244, + "loss": 0.4705, + "step": 26700 + }, + { + "epoch": 71.22666666666667, + "grad_norm": 0.27734375, + "learning_rate": 0.00029909576395625083, + "loss": 0.4684, + "step": 26710 + }, + { + "epoch": 71.25333333333333, + "grad_norm": 0.2421875, + "learning_rate": 0.00029909507449988714, + "loss": 0.4688, + "step": 26720 + }, + { + "epoch": 71.28, + "grad_norm": 0.302734375, + "learning_rate": 0.0002990943847815726, + "loss": 0.4814, + "step": 26730 + }, + { + "epoch": 71.30666666666667, + "grad_norm": 0.30859375, + "learning_rate": 0.00029909369480130856, + "loss": 0.4633, + "step": 26740 + }, + { + "epoch": 71.33333333333333, + "grad_norm": 0.265625, + "learning_rate": 0.00029909300455909605, + "loss": 0.4792, + "step": 26750 + }, + { + "epoch": 71.36, + "grad_norm": 0.357421875, + "learning_rate": 0.00029909231405493634, + "loss": 0.4807, + "step": 26760 + }, + { + "epoch": 71.38666666666667, + "grad_norm": 0.337890625, + "learning_rate": 0.0002990916232888307, + "loss": 0.4726, + "step": 26770 + }, + { + "epoch": 71.41333333333333, + "grad_norm": 0.396484375, + "learning_rate": 0.0002990909322607803, + "loss": 0.4771, + "step": 26780 + }, + { + "epoch": 71.44, + "grad_norm": 0.373046875, + "learning_rate": 0.00029909024097078636, + "loss": 0.4799, + "step": 26790 + }, + { + "epoch": 71.46666666666667, + "grad_norm": 0.49609375, + "learning_rate": 0.00029908954941885004, + "loss": 0.4892, + "step": 26800 + }, + { + "epoch": 71.49333333333334, + "grad_norm": 0.4296875, + "learning_rate": 0.00029908885760497264, + "loss": 0.4797, + "step": 26810 + }, + { + "epoch": 71.52, + "grad_norm": 0.341796875, + "learning_rate": 0.0002990881655291553, + "loss": 0.4744, + "step": 26820 + }, + { + "epoch": 71.54666666666667, + "grad_norm": 0.3125, + "learning_rate": 0.00029908747319139933, + "loss": 0.4717, + "step": 26830 + }, + { + "epoch": 71.57333333333334, + "grad_norm": 0.4140625, + "learning_rate": 0.00029908678059170586, + "loss": 0.4707, + "step": 26840 + }, + { + "epoch": 71.6, + "grad_norm": 0.390625, + "learning_rate": 0.00029908608773007614, + "loss": 0.4648, + "step": 26850 + }, + { + "epoch": 71.62666666666667, + "grad_norm": 0.2353515625, + "learning_rate": 0.00029908539460651135, + "loss": 0.4512, + "step": 26860 + }, + { + "epoch": 71.65333333333334, + "grad_norm": 0.2578125, + "learning_rate": 0.0002990847012210128, + "loss": 0.4715, + "step": 26870 + }, + { + "epoch": 71.68, + "grad_norm": 0.2236328125, + "learning_rate": 0.00029908400757358165, + "loss": 0.4622, + "step": 26880 + }, + { + "epoch": 71.70666666666666, + "grad_norm": 0.45703125, + "learning_rate": 0.0002990833136642191, + "loss": 0.4627, + "step": 26890 + }, + { + "epoch": 71.73333333333333, + "grad_norm": 0.2294921875, + "learning_rate": 0.00029908261949292635, + "loss": 0.4823, + "step": 26900 + }, + { + "epoch": 71.76, + "grad_norm": 0.3671875, + "learning_rate": 0.00029908192505970476, + "loss": 0.4837, + "step": 26910 + }, + { + "epoch": 71.78666666666666, + "grad_norm": 0.314453125, + "learning_rate": 0.00029908123036455537, + "loss": 0.4826, + "step": 26920 + }, + { + "epoch": 71.81333333333333, + "grad_norm": 0.3125, + "learning_rate": 0.00029908053540747954, + "loss": 0.4665, + "step": 26930 + }, + { + "epoch": 71.84, + "grad_norm": 0.31640625, + "learning_rate": 0.0002990798401884784, + "loss": 0.4729, + "step": 26940 + }, + { + "epoch": 71.86666666666666, + "grad_norm": 0.3984375, + "learning_rate": 0.0002990791447075532, + "loss": 0.4722, + "step": 26950 + }, + { + "epoch": 71.89333333333333, + "grad_norm": 0.306640625, + "learning_rate": 0.00029907844896470513, + "loss": 0.4633, + "step": 26960 + }, + { + "epoch": 71.92, + "grad_norm": 0.2470703125, + "learning_rate": 0.0002990777529599355, + "loss": 0.4734, + "step": 26970 + }, + { + "epoch": 71.94666666666667, + "grad_norm": 0.2060546875, + "learning_rate": 0.00029907705669324544, + "loss": 0.4648, + "step": 26980 + }, + { + "epoch": 71.97333333333333, + "grad_norm": 0.38671875, + "learning_rate": 0.00029907636016463624, + "loss": 0.4775, + "step": 26990 + }, + { + "epoch": 72.0, + "grad_norm": 0.255859375, + "learning_rate": 0.0002990756633741091, + "loss": 0.4662, + "step": 27000 + }, + { + "epoch": 72.0, + "eval_loss": 0.4817294776439667, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.7689, + "eval_samples_per_second": 1.638, + "eval_steps_per_second": 0.102, + "step": 27000 + }, + { + "epoch": 72.02666666666667, + "grad_norm": 0.251953125, + "learning_rate": 0.00029907496632166524, + "loss": 0.4857, + "step": 27010 + }, + { + "epoch": 72.05333333333333, + "grad_norm": 0.29296875, + "learning_rate": 0.0002990742690073059, + "loss": 0.4925, + "step": 27020 + }, + { + "epoch": 72.08, + "grad_norm": 0.333984375, + "learning_rate": 0.0002990735714310323, + "loss": 0.4785, + "step": 27030 + }, + { + "epoch": 72.10666666666667, + "grad_norm": 0.2890625, + "learning_rate": 0.0002990728735928456, + "loss": 0.4741, + "step": 27040 + }, + { + "epoch": 72.13333333333334, + "grad_norm": 0.298828125, + "learning_rate": 0.00029907217549274707, + "loss": 0.4752, + "step": 27050 + }, + { + "epoch": 72.16, + "grad_norm": 0.4453125, + "learning_rate": 0.000299071477130738, + "loss": 0.4802, + "step": 27060 + }, + { + "epoch": 72.18666666666667, + "grad_norm": 0.2734375, + "learning_rate": 0.0002990707785068196, + "loss": 0.4719, + "step": 27070 + }, + { + "epoch": 72.21333333333334, + "grad_norm": 0.447265625, + "learning_rate": 0.000299070079620993, + "loss": 0.4667, + "step": 27080 + }, + { + "epoch": 72.24, + "grad_norm": 0.318359375, + "learning_rate": 0.0002990693804732595, + "loss": 0.4707, + "step": 27090 + }, + { + "epoch": 72.26666666666667, + "grad_norm": 0.3515625, + "learning_rate": 0.0002990686810636203, + "loss": 0.4752, + "step": 27100 + }, + { + "epoch": 72.29333333333334, + "grad_norm": 0.3203125, + "learning_rate": 0.0002990679813920767, + "loss": 0.4687, + "step": 27110 + }, + { + "epoch": 72.32, + "grad_norm": 0.328125, + "learning_rate": 0.00029906728145862987, + "loss": 0.473, + "step": 27120 + }, + { + "epoch": 72.34666666666666, + "grad_norm": 0.365234375, + "learning_rate": 0.000299066581263281, + "loss": 0.4809, + "step": 27130 + }, + { + "epoch": 72.37333333333333, + "grad_norm": 0.4140625, + "learning_rate": 0.0002990658808060314, + "loss": 0.4769, + "step": 27140 + }, + { + "epoch": 72.4, + "grad_norm": 0.35546875, + "learning_rate": 0.0002990651800868823, + "loss": 0.4735, + "step": 27150 + }, + { + "epoch": 72.42666666666666, + "grad_norm": 0.390625, + "learning_rate": 0.00029906447910583485, + "loss": 0.4787, + "step": 27160 + }, + { + "epoch": 72.45333333333333, + "grad_norm": 0.388671875, + "learning_rate": 0.00029906377786289033, + "loss": 0.4816, + "step": 27170 + }, + { + "epoch": 72.48, + "grad_norm": 0.361328125, + "learning_rate": 0.00029906307635805, + "loss": 0.488, + "step": 27180 + }, + { + "epoch": 72.50666666666666, + "grad_norm": 0.431640625, + "learning_rate": 0.00029906237459131506, + "loss": 0.4774, + "step": 27190 + }, + { + "epoch": 72.53333333333333, + "grad_norm": 0.30078125, + "learning_rate": 0.00029906167256268674, + "loss": 0.4711, + "step": 27200 + }, + { + "epoch": 72.56, + "grad_norm": 0.60546875, + "learning_rate": 0.0002990609702721663, + "loss": 0.4729, + "step": 27210 + }, + { + "epoch": 72.58666666666667, + "grad_norm": 0.375, + "learning_rate": 0.000299060267719755, + "loss": 0.4688, + "step": 27220 + }, + { + "epoch": 72.61333333333333, + "grad_norm": 0.431640625, + "learning_rate": 0.00029905956490545397, + "loss": 0.454, + "step": 27230 + }, + { + "epoch": 72.64, + "grad_norm": 0.26953125, + "learning_rate": 0.00029905886182926447, + "loss": 0.4591, + "step": 27240 + }, + { + "epoch": 72.66666666666667, + "grad_norm": 0.259765625, + "learning_rate": 0.00029905815849118783, + "loss": 0.4752, + "step": 27250 + }, + { + "epoch": 72.69333333333333, + "grad_norm": 0.26171875, + "learning_rate": 0.0002990574548912252, + "loss": 0.4575, + "step": 27260 + }, + { + "epoch": 72.72, + "grad_norm": 0.328125, + "learning_rate": 0.00029905675102937787, + "loss": 0.4747, + "step": 27270 + }, + { + "epoch": 72.74666666666667, + "grad_norm": 0.30859375, + "learning_rate": 0.00029905604690564703, + "loss": 0.4787, + "step": 27280 + }, + { + "epoch": 72.77333333333333, + "grad_norm": 0.29296875, + "learning_rate": 0.00029905534252003393, + "loss": 0.4863, + "step": 27290 + }, + { + "epoch": 72.8, + "grad_norm": 0.388671875, + "learning_rate": 0.00029905463787253977, + "loss": 0.4729, + "step": 27300 + }, + { + "epoch": 72.82666666666667, + "grad_norm": 0.26953125, + "learning_rate": 0.0002990539329631659, + "loss": 0.4682, + "step": 27310 + }, + { + "epoch": 72.85333333333334, + "grad_norm": 0.337890625, + "learning_rate": 0.0002990532277919135, + "loss": 0.4768, + "step": 27320 + }, + { + "epoch": 72.88, + "grad_norm": 0.21875, + "learning_rate": 0.00029905252235878373, + "loss": 0.4648, + "step": 27330 + }, + { + "epoch": 72.90666666666667, + "grad_norm": 0.296875, + "learning_rate": 0.00029905181666377794, + "loss": 0.4674, + "step": 27340 + }, + { + "epoch": 72.93333333333334, + "grad_norm": 0.23828125, + "learning_rate": 0.0002990511107068973, + "loss": 0.469, + "step": 27350 + }, + { + "epoch": 72.96, + "grad_norm": 0.2490234375, + "learning_rate": 0.0002990504044881431, + "loss": 0.4673, + "step": 27360 + }, + { + "epoch": 72.98666666666666, + "grad_norm": 0.330078125, + "learning_rate": 0.0002990496980075166, + "loss": 0.481, + "step": 27370 + }, + { + "epoch": 73.0, + "eval_loss": 0.4834159314632416, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.116, + "eval_samples_per_second": 1.582, + "eval_steps_per_second": 0.099, + "step": 27375 + }, + { + "epoch": 73.01333333333334, + "grad_norm": 0.357421875, + "learning_rate": 0.000299048991265019, + "loss": 0.4702, + "step": 27380 + }, + { + "epoch": 73.04, + "grad_norm": 0.287109375, + "learning_rate": 0.0002990482842606515, + "loss": 0.4945, + "step": 27390 + }, + { + "epoch": 73.06666666666666, + "grad_norm": 0.412109375, + "learning_rate": 0.0002990475769944154, + "loss": 0.4819, + "step": 27400 + }, + { + "epoch": 73.09333333333333, + "grad_norm": 0.337890625, + "learning_rate": 0.0002990468694663119, + "loss": 0.4774, + "step": 27410 + }, + { + "epoch": 73.12, + "grad_norm": 0.33984375, + "learning_rate": 0.0002990461616763423, + "loss": 0.4726, + "step": 27420 + }, + { + "epoch": 73.14666666666666, + "grad_norm": 0.306640625, + "learning_rate": 0.0002990454536245078, + "loss": 0.4819, + "step": 27430 + }, + { + "epoch": 73.17333333333333, + "grad_norm": 0.267578125, + "learning_rate": 0.00029904474531080964, + "loss": 0.4725, + "step": 27440 + }, + { + "epoch": 73.2, + "grad_norm": 0.224609375, + "learning_rate": 0.0002990440367352491, + "loss": 0.4706, + "step": 27450 + }, + { + "epoch": 73.22666666666667, + "grad_norm": 0.2294921875, + "learning_rate": 0.0002990433278978274, + "loss": 0.4688, + "step": 27460 + }, + { + "epoch": 73.25333333333333, + "grad_norm": 0.30078125, + "learning_rate": 0.00029904261879854584, + "loss": 0.4686, + "step": 27470 + }, + { + "epoch": 73.28, + "grad_norm": 0.345703125, + "learning_rate": 0.0002990419094374056, + "loss": 0.4815, + "step": 27480 + }, + { + "epoch": 73.30666666666667, + "grad_norm": 0.40234375, + "learning_rate": 0.0002990411998144079, + "loss": 0.4627, + "step": 27490 + }, + { + "epoch": 73.33333333333333, + "grad_norm": 0.30859375, + "learning_rate": 0.00029904048992955405, + "loss": 0.4788, + "step": 27500 + }, + { + "epoch": 73.36, + "grad_norm": 0.392578125, + "learning_rate": 0.0002990397797828453, + "loss": 0.4812, + "step": 27510 + }, + { + "epoch": 73.38666666666667, + "grad_norm": 0.345703125, + "learning_rate": 0.00029903906937428287, + "loss": 0.4716, + "step": 27520 + }, + { + "epoch": 73.41333333333333, + "grad_norm": 0.310546875, + "learning_rate": 0.000299038358703868, + "loss": 0.4766, + "step": 27530 + }, + { + "epoch": 73.44, + "grad_norm": 0.392578125, + "learning_rate": 0.000299037647771602, + "loss": 0.4796, + "step": 27540 + }, + { + "epoch": 73.46666666666667, + "grad_norm": 0.296875, + "learning_rate": 0.00029903693657748595, + "loss": 0.4892, + "step": 27550 + }, + { + "epoch": 73.49333333333334, + "grad_norm": 0.34375, + "learning_rate": 0.00029903622512152133, + "loss": 0.4803, + "step": 27560 + }, + { + "epoch": 73.52, + "grad_norm": 0.271484375, + "learning_rate": 0.00029903551340370926, + "loss": 0.4744, + "step": 27570 + }, + { + "epoch": 73.54666666666667, + "grad_norm": 0.365234375, + "learning_rate": 0.000299034801424051, + "loss": 0.4716, + "step": 27580 + }, + { + "epoch": 73.57333333333334, + "grad_norm": 0.28125, + "learning_rate": 0.00029903408918254785, + "loss": 0.471, + "step": 27590 + }, + { + "epoch": 73.6, + "grad_norm": 0.421875, + "learning_rate": 0.00029903337667920094, + "loss": 0.4639, + "step": 27600 + }, + { + "epoch": 73.62666666666667, + "grad_norm": 0.31640625, + "learning_rate": 0.0002990326639140117, + "loss": 0.4505, + "step": 27610 + }, + { + "epoch": 73.65333333333334, + "grad_norm": 0.462890625, + "learning_rate": 0.00029903195088698125, + "loss": 0.4709, + "step": 27620 + }, + { + "epoch": 73.68, + "grad_norm": 0.32421875, + "learning_rate": 0.0002990312375981109, + "loss": 0.4624, + "step": 27630 + }, + { + "epoch": 73.70666666666666, + "grad_norm": 0.33984375, + "learning_rate": 0.0002990305240474018, + "loss": 0.4629, + "step": 27640 + }, + { + "epoch": 73.73333333333333, + "grad_norm": 0.228515625, + "learning_rate": 0.0002990298102348554, + "loss": 0.482, + "step": 27650 + }, + { + "epoch": 73.76, + "grad_norm": 0.390625, + "learning_rate": 0.0002990290961604728, + "loss": 0.4825, + "step": 27660 + }, + { + "epoch": 73.78666666666666, + "grad_norm": 0.302734375, + "learning_rate": 0.0002990283818242553, + "loss": 0.4814, + "step": 27670 + }, + { + "epoch": 73.81333333333333, + "grad_norm": 0.318359375, + "learning_rate": 0.00029902766722620413, + "loss": 0.4666, + "step": 27680 + }, + { + "epoch": 73.84, + "grad_norm": 0.416015625, + "learning_rate": 0.0002990269523663206, + "loss": 0.4731, + "step": 27690 + }, + { + "epoch": 73.86666666666666, + "grad_norm": 0.2431640625, + "learning_rate": 0.0002990262372446059, + "loss": 0.4719, + "step": 27700 + }, + { + "epoch": 73.89333333333333, + "grad_norm": 0.287109375, + "learning_rate": 0.0002990255218610613, + "loss": 0.463, + "step": 27710 + }, + { + "epoch": 73.92, + "grad_norm": 0.2490234375, + "learning_rate": 0.0002990248062156881, + "loss": 0.4731, + "step": 27720 + }, + { + "epoch": 73.94666666666667, + "grad_norm": 0.294921875, + "learning_rate": 0.0002990240903084876, + "loss": 0.4665, + "step": 27730 + }, + { + "epoch": 73.97333333333333, + "grad_norm": 0.28515625, + "learning_rate": 0.00029902337413946094, + "loss": 0.4769, + "step": 27740 + }, + { + "epoch": 74.0, + "grad_norm": 0.294921875, + "learning_rate": 0.0002990226577086094, + "loss": 0.4662, + "step": 27750 + }, + { + "epoch": 74.0, + "eval_loss": 0.48103514313697815, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.8958, + "eval_samples_per_second": 1.617, + "eval_steps_per_second": 0.101, + "step": 27750 + }, + { + "epoch": 74.02666666666667, + "grad_norm": 0.30859375, + "learning_rate": 0.00029902194101593435, + "loss": 0.486, + "step": 27760 + }, + { + "epoch": 74.05333333333333, + "grad_norm": 0.28515625, + "learning_rate": 0.0002990212240614369, + "loss": 0.4917, + "step": 27770 + }, + { + "epoch": 74.08, + "grad_norm": 0.23046875, + "learning_rate": 0.00029902050684511833, + "loss": 0.4784, + "step": 27780 + }, + { + "epoch": 74.10666666666667, + "grad_norm": 0.31640625, + "learning_rate": 0.00029901978936698007, + "loss": 0.4742, + "step": 27790 + }, + { + "epoch": 74.13333333333334, + "grad_norm": 0.263671875, + "learning_rate": 0.0002990190716270232, + "loss": 0.4755, + "step": 27800 + }, + { + "epoch": 74.16, + "grad_norm": 0.42578125, + "learning_rate": 0.000299018353625249, + "loss": 0.4799, + "step": 27810 + }, + { + "epoch": 74.18666666666667, + "grad_norm": 0.27734375, + "learning_rate": 0.0002990176353616588, + "loss": 0.4715, + "step": 27820 + }, + { + "epoch": 74.21333333333334, + "grad_norm": 0.376953125, + "learning_rate": 0.0002990169168362538, + "loss": 0.4669, + "step": 27830 + }, + { + "epoch": 74.24, + "grad_norm": 0.248046875, + "learning_rate": 0.0002990161980490354, + "loss": 0.4707, + "step": 27840 + }, + { + "epoch": 74.26666666666667, + "grad_norm": 0.2734375, + "learning_rate": 0.0002990154790000047, + "loss": 0.4745, + "step": 27850 + }, + { + "epoch": 74.29333333333334, + "grad_norm": 0.314453125, + "learning_rate": 0.00029901475968916304, + "loss": 0.4691, + "step": 27860 + }, + { + "epoch": 74.32, + "grad_norm": 0.220703125, + "learning_rate": 0.00029901404011651163, + "loss": 0.4726, + "step": 27870 + }, + { + "epoch": 74.34666666666666, + "grad_norm": 0.462890625, + "learning_rate": 0.00029901332028205174, + "loss": 0.4807, + "step": 27880 + }, + { + "epoch": 74.37333333333333, + "grad_norm": 0.41796875, + "learning_rate": 0.00029901260018578473, + "loss": 0.4775, + "step": 27890 + }, + { + "epoch": 74.4, + "grad_norm": 0.30859375, + "learning_rate": 0.0002990118798277118, + "loss": 0.4734, + "step": 27900 + }, + { + "epoch": 74.42666666666666, + "grad_norm": 0.294921875, + "learning_rate": 0.00029901115920783416, + "loss": 0.4788, + "step": 27910 + }, + { + "epoch": 74.45333333333333, + "grad_norm": 0.357421875, + "learning_rate": 0.00029901043832615315, + "loss": 0.4817, + "step": 27920 + }, + { + "epoch": 74.48, + "grad_norm": 0.431640625, + "learning_rate": 0.00029900971718267, + "loss": 0.4876, + "step": 27930 + }, + { + "epoch": 74.50666666666666, + "grad_norm": 0.345703125, + "learning_rate": 0.000299008995777386, + "loss": 0.4771, + "step": 27940 + }, + { + "epoch": 74.53333333333333, + "grad_norm": 0.3046875, + "learning_rate": 0.00029900827411030246, + "loss": 0.4716, + "step": 27950 + }, + { + "epoch": 74.56, + "grad_norm": 0.3515625, + "learning_rate": 0.0002990075521814206, + "loss": 0.4721, + "step": 27960 + }, + { + "epoch": 74.58666666666667, + "grad_norm": 0.275390625, + "learning_rate": 0.00029900682999074165, + "loss": 0.4686, + "step": 27970 + }, + { + "epoch": 74.61333333333333, + "grad_norm": 0.2041015625, + "learning_rate": 0.00029900610753826696, + "loss": 0.4546, + "step": 27980 + }, + { + "epoch": 74.64, + "grad_norm": 0.306640625, + "learning_rate": 0.00029900538482399773, + "loss": 0.4586, + "step": 27990 + }, + { + "epoch": 74.66666666666667, + "grad_norm": 0.478515625, + "learning_rate": 0.00029900466184793525, + "loss": 0.4742, + "step": 28000 + }, + { + "epoch": 74.69333333333333, + "grad_norm": 0.30078125, + "learning_rate": 0.00029900393861008077, + "loss": 0.4574, + "step": 28010 + }, + { + "epoch": 74.72, + "grad_norm": 0.32421875, + "learning_rate": 0.00029900321511043565, + "loss": 0.4757, + "step": 28020 + }, + { + "epoch": 74.74666666666667, + "grad_norm": 0.2578125, + "learning_rate": 0.000299002491349001, + "loss": 0.4787, + "step": 28030 + }, + { + "epoch": 74.77333333333333, + "grad_norm": 0.31640625, + "learning_rate": 0.0002990017673257783, + "loss": 0.4862, + "step": 28040 + }, + { + "epoch": 74.8, + "grad_norm": 0.30078125, + "learning_rate": 0.0002990010430407686, + "loss": 0.4734, + "step": 28050 + }, + { + "epoch": 74.82666666666667, + "grad_norm": 0.396484375, + "learning_rate": 0.0002990003184939734, + "loss": 0.4681, + "step": 28060 + }, + { + "epoch": 74.85333333333334, + "grad_norm": 0.41015625, + "learning_rate": 0.0002989995936853938, + "loss": 0.4771, + "step": 28070 + }, + { + "epoch": 74.88, + "grad_norm": 0.267578125, + "learning_rate": 0.00029899886861503117, + "loss": 0.4646, + "step": 28080 + }, + { + "epoch": 74.90666666666667, + "grad_norm": 0.349609375, + "learning_rate": 0.00029899814328288667, + "loss": 0.467, + "step": 28090 + }, + { + "epoch": 74.93333333333334, + "grad_norm": 0.357421875, + "learning_rate": 0.00029899741768896166, + "loss": 0.4691, + "step": 28100 + }, + { + "epoch": 74.96, + "grad_norm": 0.32421875, + "learning_rate": 0.00029899669183325745, + "loss": 0.4658, + "step": 28110 + }, + { + "epoch": 74.98666666666666, + "grad_norm": 0.30078125, + "learning_rate": 0.0002989959657157753, + "loss": 0.4805, + "step": 28120 + }, + { + "epoch": 75.0, + "eval_loss": 0.48107996582984924, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.6286, + "eval_samples_per_second": 1.505, + "eval_steps_per_second": 0.094, + "step": 28125 + }, + { + "epoch": 75.01333333333334, + "grad_norm": 0.2451171875, + "learning_rate": 0.0002989952393365164, + "loss": 0.47, + "step": 28130 + }, + { + "epoch": 75.04, + "grad_norm": 0.296875, + "learning_rate": 0.00029899451269548206, + "loss": 0.4943, + "step": 28140 + }, + { + "epoch": 75.06666666666666, + "grad_norm": 0.30078125, + "learning_rate": 0.00029899378579267366, + "loss": 0.4818, + "step": 28150 + }, + { + "epoch": 75.09333333333333, + "grad_norm": 0.30078125, + "learning_rate": 0.0002989930586280923, + "loss": 0.4762, + "step": 28160 + }, + { + "epoch": 75.12, + "grad_norm": 0.259765625, + "learning_rate": 0.0002989923312017394, + "loss": 0.4724, + "step": 28170 + }, + { + "epoch": 75.14666666666666, + "grad_norm": 0.275390625, + "learning_rate": 0.00029899160351361617, + "loss": 0.4821, + "step": 28180 + }, + { + "epoch": 75.17333333333333, + "grad_norm": 0.392578125, + "learning_rate": 0.00029899087556372396, + "loss": 0.4723, + "step": 28190 + }, + { + "epoch": 75.2, + "grad_norm": 0.251953125, + "learning_rate": 0.000298990147352064, + "loss": 0.4707, + "step": 28200 + }, + { + "epoch": 75.22666666666667, + "grad_norm": 0.333984375, + "learning_rate": 0.00029898941887863744, + "loss": 0.4678, + "step": 28210 + }, + { + "epoch": 75.25333333333333, + "grad_norm": 0.30078125, + "learning_rate": 0.0002989886901434458, + "loss": 0.4683, + "step": 28220 + }, + { + "epoch": 75.28, + "grad_norm": 0.28125, + "learning_rate": 0.00029898796114649027, + "loss": 0.4817, + "step": 28230 + }, + { + "epoch": 75.30666666666667, + "grad_norm": 0.302734375, + "learning_rate": 0.0002989872318877721, + "loss": 0.4631, + "step": 28240 + }, + { + "epoch": 75.33333333333333, + "grad_norm": 0.291015625, + "learning_rate": 0.0002989865023672925, + "loss": 0.4781, + "step": 28250 + }, + { + "epoch": 75.36, + "grad_norm": 0.33984375, + "learning_rate": 0.00029898577258505283, + "loss": 0.4802, + "step": 28260 + }, + { + "epoch": 75.38666666666667, + "grad_norm": 0.3671875, + "learning_rate": 0.0002989850425410545, + "loss": 0.4718, + "step": 28270 + }, + { + "epoch": 75.41333333333333, + "grad_norm": 0.357421875, + "learning_rate": 0.0002989843122352985, + "loss": 0.4762, + "step": 28280 + }, + { + "epoch": 75.44, + "grad_norm": 0.271484375, + "learning_rate": 0.00029898358166778637, + "loss": 0.4796, + "step": 28290 + }, + { + "epoch": 75.46666666666667, + "grad_norm": 0.423828125, + "learning_rate": 0.0002989828508385193, + "loss": 0.4885, + "step": 28300 + }, + { + "epoch": 75.49333333333334, + "grad_norm": 0.349609375, + "learning_rate": 0.00029898211974749864, + "loss": 0.4798, + "step": 28310 + }, + { + "epoch": 75.52, + "grad_norm": 0.244140625, + "learning_rate": 0.0002989813883947255, + "loss": 0.4743, + "step": 28320 + }, + { + "epoch": 75.54666666666667, + "grad_norm": 0.314453125, + "learning_rate": 0.0002989806567802013, + "loss": 0.4714, + "step": 28330 + }, + { + "epoch": 75.57333333333334, + "grad_norm": 0.28515625, + "learning_rate": 0.00029897992490392737, + "loss": 0.4708, + "step": 28340 + }, + { + "epoch": 75.6, + "grad_norm": 0.294921875, + "learning_rate": 0.00029897919276590485, + "loss": 0.4642, + "step": 28350 + }, + { + "epoch": 75.62666666666667, + "grad_norm": 0.271484375, + "learning_rate": 0.00029897846036613517, + "loss": 0.4508, + "step": 28360 + }, + { + "epoch": 75.65333333333334, + "grad_norm": 0.392578125, + "learning_rate": 0.0002989777277046195, + "loss": 0.4708, + "step": 28370 + }, + { + "epoch": 75.68, + "grad_norm": 0.3046875, + "learning_rate": 0.00029897699478135923, + "loss": 0.4623, + "step": 28380 + }, + { + "epoch": 75.70666666666666, + "grad_norm": 0.267578125, + "learning_rate": 0.00029897626159635553, + "loss": 0.4626, + "step": 28390 + }, + { + "epoch": 75.73333333333333, + "grad_norm": 0.296875, + "learning_rate": 0.00029897552814960976, + "loss": 0.4814, + "step": 28400 + }, + { + "epoch": 75.76, + "grad_norm": 0.41015625, + "learning_rate": 0.00029897479444112327, + "loss": 0.4826, + "step": 28410 + }, + { + "epoch": 75.78666666666666, + "grad_norm": 0.34765625, + "learning_rate": 0.0002989740604708972, + "loss": 0.481, + "step": 28420 + }, + { + "epoch": 75.81333333333333, + "grad_norm": 0.279296875, + "learning_rate": 0.00029897332623893296, + "loss": 0.467, + "step": 28430 + }, + { + "epoch": 75.84, + "grad_norm": 0.3125, + "learning_rate": 0.0002989725917452318, + "loss": 0.4723, + "step": 28440 + }, + { + "epoch": 75.86666666666666, + "grad_norm": 0.2060546875, + "learning_rate": 0.000298971856989795, + "loss": 0.4717, + "step": 28450 + }, + { + "epoch": 75.89333333333333, + "grad_norm": 0.287109375, + "learning_rate": 0.0002989711219726239, + "loss": 0.4633, + "step": 28460 + }, + { + "epoch": 75.92, + "grad_norm": 0.3125, + "learning_rate": 0.0002989703866937197, + "loss": 0.4723, + "step": 28470 + }, + { + "epoch": 75.94666666666667, + "grad_norm": 0.3671875, + "learning_rate": 0.0002989696511530838, + "loss": 0.4656, + "step": 28480 + }, + { + "epoch": 75.97333333333333, + "grad_norm": 0.43359375, + "learning_rate": 0.0002989689153507174, + "loss": 0.4776, + "step": 28490 + }, + { + "epoch": 76.0, + "grad_norm": 0.228515625, + "learning_rate": 0.0002989681792866219, + "loss": 0.4662, + "step": 28500 + }, + { + "epoch": 76.0, + "eval_loss": 0.4805218577384949, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.9242, + "eval_samples_per_second": 1.465, + "eval_steps_per_second": 0.092, + "step": 28500 + }, + { + "epoch": 76.02666666666667, + "grad_norm": 0.390625, + "learning_rate": 0.00029896744296079844, + "loss": 0.4858, + "step": 28510 + }, + { + "epoch": 76.05333333333333, + "grad_norm": 0.265625, + "learning_rate": 0.0002989667063732484, + "loss": 0.4921, + "step": 28520 + }, + { + "epoch": 76.08, + "grad_norm": 0.306640625, + "learning_rate": 0.00029896596952397314, + "loss": 0.4785, + "step": 28530 + }, + { + "epoch": 76.10666666666667, + "grad_norm": 0.26171875, + "learning_rate": 0.00029896523241297384, + "loss": 0.4735, + "step": 28540 + }, + { + "epoch": 76.13333333333334, + "grad_norm": 0.37109375, + "learning_rate": 0.0002989644950402518, + "loss": 0.4754, + "step": 28550 + }, + { + "epoch": 76.16, + "grad_norm": 0.3203125, + "learning_rate": 0.00029896375740580844, + "loss": 0.4797, + "step": 28560 + }, + { + "epoch": 76.18666666666667, + "grad_norm": 0.28125, + "learning_rate": 0.00029896301950964495, + "loss": 0.4723, + "step": 28570 + }, + { + "epoch": 76.21333333333334, + "grad_norm": 0.208984375, + "learning_rate": 0.0002989622813517626, + "loss": 0.4666, + "step": 28580 + }, + { + "epoch": 76.24, + "grad_norm": 0.29296875, + "learning_rate": 0.0002989615429321628, + "loss": 0.47, + "step": 28590 + }, + { + "epoch": 76.26666666666667, + "grad_norm": 0.28125, + "learning_rate": 0.0002989608042508467, + "loss": 0.4749, + "step": 28600 + }, + { + "epoch": 76.29333333333334, + "grad_norm": 0.37890625, + "learning_rate": 0.00029896006530781577, + "loss": 0.4691, + "step": 28610 + }, + { + "epoch": 76.32, + "grad_norm": 0.376953125, + "learning_rate": 0.0002989593261030712, + "loss": 0.4725, + "step": 28620 + }, + { + "epoch": 76.34666666666666, + "grad_norm": 0.30078125, + "learning_rate": 0.0002989585866366143, + "loss": 0.4805, + "step": 28630 + }, + { + "epoch": 76.37333333333333, + "grad_norm": 0.2490234375, + "learning_rate": 0.0002989578469084464, + "loss": 0.4767, + "step": 28640 + }, + { + "epoch": 76.4, + "grad_norm": 0.236328125, + "learning_rate": 0.0002989571069185687, + "loss": 0.4728, + "step": 28650 + }, + { + "epoch": 76.42666666666666, + "grad_norm": 0.326171875, + "learning_rate": 0.00029895636666698265, + "loss": 0.4792, + "step": 28660 + }, + { + "epoch": 76.45333333333333, + "grad_norm": 0.2890625, + "learning_rate": 0.00029895562615368944, + "loss": 0.4813, + "step": 28670 + }, + { + "epoch": 76.48, + "grad_norm": 0.3046875, + "learning_rate": 0.00029895488537869043, + "loss": 0.4874, + "step": 28680 + }, + { + "epoch": 76.50666666666666, + "grad_norm": 0.255859375, + "learning_rate": 0.00029895414434198686, + "loss": 0.477, + "step": 28690 + }, + { + "epoch": 76.53333333333333, + "grad_norm": 0.2109375, + "learning_rate": 0.00029895340304358014, + "loss": 0.4713, + "step": 28700 + }, + { + "epoch": 76.56, + "grad_norm": 0.35546875, + "learning_rate": 0.00029895266148347147, + "loss": 0.4719, + "step": 28710 + }, + { + "epoch": 76.58666666666667, + "grad_norm": 0.27734375, + "learning_rate": 0.0002989519196616622, + "loss": 0.4679, + "step": 28720 + }, + { + "epoch": 76.61333333333333, + "grad_norm": 0.1796875, + "learning_rate": 0.0002989511775781536, + "loss": 0.4542, + "step": 28730 + }, + { + "epoch": 76.64, + "grad_norm": 0.279296875, + "learning_rate": 0.000298950435232947, + "loss": 0.4587, + "step": 28740 + }, + { + "epoch": 76.66666666666667, + "grad_norm": 0.3046875, + "learning_rate": 0.0002989496926260437, + "loss": 0.4748, + "step": 28750 + }, + { + "epoch": 76.69333333333333, + "grad_norm": 0.263671875, + "learning_rate": 0.00029894894975744505, + "loss": 0.4576, + "step": 28760 + }, + { + "epoch": 76.72, + "grad_norm": 0.36328125, + "learning_rate": 0.00029894820662715224, + "loss": 0.4743, + "step": 28770 + }, + { + "epoch": 76.74666666666667, + "grad_norm": 0.306640625, + "learning_rate": 0.0002989474632351667, + "loss": 0.4789, + "step": 28780 + }, + { + "epoch": 76.77333333333333, + "grad_norm": 0.33984375, + "learning_rate": 0.00029894671958148963, + "loss": 0.486, + "step": 28790 + }, + { + "epoch": 76.8, + "grad_norm": 0.375, + "learning_rate": 0.00029894597566612244, + "loss": 0.473, + "step": 28800 + }, + { + "epoch": 76.82666666666667, + "grad_norm": 0.287109375, + "learning_rate": 0.0002989452314890663, + "loss": 0.4678, + "step": 28810 + }, + { + "epoch": 76.85333333333334, + "grad_norm": 0.2109375, + "learning_rate": 0.00029894448705032264, + "loss": 0.4765, + "step": 28820 + }, + { + "epoch": 76.88, + "grad_norm": 0.2734375, + "learning_rate": 0.0002989437423498928, + "loss": 0.4644, + "step": 28830 + }, + { + "epoch": 76.90666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.00029894299738777796, + "loss": 0.4671, + "step": 28840 + }, + { + "epoch": 76.93333333333334, + "grad_norm": 0.2431640625, + "learning_rate": 0.0002989422521639795, + "loss": 0.4691, + "step": 28850 + }, + { + "epoch": 76.96, + "grad_norm": 0.3359375, + "learning_rate": 0.0002989415066784987, + "loss": 0.4668, + "step": 28860 + }, + { + "epoch": 76.98666666666666, + "grad_norm": 0.318359375, + "learning_rate": 0.0002989407609313369, + "loss": 0.4813, + "step": 28870 + }, + { + "epoch": 77.0, + "eval_loss": 0.4802263081073761, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.9162, + "eval_samples_per_second": 1.614, + "eval_steps_per_second": 0.101, + "step": 28875 + }, + { + "epoch": 77.01333333333334, + "grad_norm": 0.294921875, + "learning_rate": 0.0002989400149224954, + "loss": 0.4696, + "step": 28880 + }, + { + "epoch": 77.04, + "grad_norm": 0.318359375, + "learning_rate": 0.00029893926865197547, + "loss": 0.4937, + "step": 28890 + }, + { + "epoch": 77.06666666666666, + "grad_norm": 0.322265625, + "learning_rate": 0.0002989385221197785, + "loss": 0.4809, + "step": 28900 + }, + { + "epoch": 77.09333333333333, + "grad_norm": 0.24609375, + "learning_rate": 0.00029893777532590573, + "loss": 0.476, + "step": 28910 + }, + { + "epoch": 77.12, + "grad_norm": 0.337890625, + "learning_rate": 0.00029893702827035854, + "loss": 0.4722, + "step": 28920 + }, + { + "epoch": 77.14666666666666, + "grad_norm": 0.291015625, + "learning_rate": 0.00029893628095313817, + "loss": 0.482, + "step": 28930 + }, + { + "epoch": 77.17333333333333, + "grad_norm": 0.36328125, + "learning_rate": 0.000298935533374246, + "loss": 0.4718, + "step": 28940 + }, + { + "epoch": 77.2, + "grad_norm": 0.25, + "learning_rate": 0.0002989347855336833, + "loss": 0.4707, + "step": 28950 + }, + { + "epoch": 77.22666666666667, + "grad_norm": 0.2890625, + "learning_rate": 0.0002989340374314514, + "loss": 0.4683, + "step": 28960 + }, + { + "epoch": 77.25333333333333, + "grad_norm": 0.3515625, + "learning_rate": 0.00029893328906755156, + "loss": 0.4678, + "step": 28970 + }, + { + "epoch": 77.28, + "grad_norm": 0.33984375, + "learning_rate": 0.0002989325404419852, + "loss": 0.4817, + "step": 28980 + }, + { + "epoch": 77.30666666666667, + "grad_norm": 0.35546875, + "learning_rate": 0.0002989317915547535, + "loss": 0.4625, + "step": 28990 + }, + { + "epoch": 77.33333333333333, + "grad_norm": 0.2451171875, + "learning_rate": 0.0002989310424058579, + "loss": 0.4777, + "step": 29000 + }, + { + "epoch": 77.36, + "grad_norm": 0.341796875, + "learning_rate": 0.0002989302929952997, + "loss": 0.4806, + "step": 29010 + }, + { + "epoch": 77.38666666666667, + "grad_norm": 0.330078125, + "learning_rate": 0.00029892954332308024, + "loss": 0.4721, + "step": 29020 + }, + { + "epoch": 77.41333333333333, + "grad_norm": 0.3984375, + "learning_rate": 0.0002989287933892007, + "loss": 0.4769, + "step": 29030 + }, + { + "epoch": 77.44, + "grad_norm": 0.287109375, + "learning_rate": 0.00029892804319366247, + "loss": 0.4787, + "step": 29040 + }, + { + "epoch": 77.46666666666667, + "grad_norm": 0.296875, + "learning_rate": 0.00029892729273646695, + "loss": 0.4891, + "step": 29050 + }, + { + "epoch": 77.49333333333334, + "grad_norm": 0.2890625, + "learning_rate": 0.00029892654201761534, + "loss": 0.4801, + "step": 29060 + }, + { + "epoch": 77.52, + "grad_norm": 0.212890625, + "learning_rate": 0.000298925791037109, + "loss": 0.4739, + "step": 29070 + }, + { + "epoch": 77.54666666666667, + "grad_norm": 0.259765625, + "learning_rate": 0.00029892503979494925, + "loss": 0.4704, + "step": 29080 + }, + { + "epoch": 77.57333333333334, + "grad_norm": 0.212890625, + "learning_rate": 0.0002989242882911375, + "loss": 0.4702, + "step": 29090 + }, + { + "epoch": 77.6, + "grad_norm": 0.28515625, + "learning_rate": 0.0002989235365256749, + "loss": 0.4638, + "step": 29100 + }, + { + "epoch": 77.62666666666667, + "grad_norm": 0.353515625, + "learning_rate": 0.00029892278449856287, + "loss": 0.4503, + "step": 29110 + }, + { + "epoch": 77.65333333333334, + "grad_norm": 0.435546875, + "learning_rate": 0.0002989220322098027, + "loss": 0.4705, + "step": 29120 + }, + { + "epoch": 77.68, + "grad_norm": 0.439453125, + "learning_rate": 0.0002989212796593958, + "loss": 0.4616, + "step": 29130 + }, + { + "epoch": 77.70666666666666, + "grad_norm": 0.322265625, + "learning_rate": 0.00029892052684734347, + "loss": 0.462, + "step": 29140 + }, + { + "epoch": 77.73333333333333, + "grad_norm": 0.279296875, + "learning_rate": 0.00029891977377364686, + "loss": 0.482, + "step": 29150 + }, + { + "epoch": 77.76, + "grad_norm": 0.326171875, + "learning_rate": 0.0002989190204383075, + "loss": 0.483, + "step": 29160 + }, + { + "epoch": 77.78666666666666, + "grad_norm": 0.3125, + "learning_rate": 0.00029891826684132656, + "loss": 0.4815, + "step": 29170 + }, + { + "epoch": 77.81333333333333, + "grad_norm": 0.51171875, + "learning_rate": 0.00029891751298270547, + "loss": 0.4664, + "step": 29180 + }, + { + "epoch": 77.84, + "grad_norm": 0.314453125, + "learning_rate": 0.0002989167588624456, + "loss": 0.4723, + "step": 29190 + }, + { + "epoch": 77.86666666666666, + "grad_norm": 0.2890625, + "learning_rate": 0.0002989160044805481, + "loss": 0.4722, + "step": 29200 + }, + { + "epoch": 77.89333333333333, + "grad_norm": 0.26171875, + "learning_rate": 0.0002989152498370144, + "loss": 0.4622, + "step": 29210 + }, + { + "epoch": 77.92, + "grad_norm": 0.2490234375, + "learning_rate": 0.00029891449493184584, + "loss": 0.4729, + "step": 29220 + }, + { + "epoch": 77.94666666666667, + "grad_norm": 0.34375, + "learning_rate": 0.00029891373976504375, + "loss": 0.4653, + "step": 29230 + }, + { + "epoch": 77.97333333333333, + "grad_norm": 0.458984375, + "learning_rate": 0.0002989129843366094, + "loss": 0.4763, + "step": 29240 + }, + { + "epoch": 78.0, + "grad_norm": 0.380859375, + "learning_rate": 0.00029891222864654416, + "loss": 0.4653, + "step": 29250 + }, + { + "epoch": 78.0, + "eval_loss": 0.4812386631965637, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.6074, + "eval_samples_per_second": 1.508, + "eval_steps_per_second": 0.094, + "step": 29250 + }, + { + "epoch": 78.02666666666667, + "grad_norm": 0.2490234375, + "learning_rate": 0.0002989114726948493, + "loss": 0.4855, + "step": 29260 + }, + { + "epoch": 78.05333333333333, + "grad_norm": 0.28125, + "learning_rate": 0.00029891071648152623, + "loss": 0.4916, + "step": 29270 + }, + { + "epoch": 78.08, + "grad_norm": 0.3125, + "learning_rate": 0.0002989099600065763, + "loss": 0.4788, + "step": 29280 + }, + { + "epoch": 78.10666666666667, + "grad_norm": 0.2890625, + "learning_rate": 0.0002989092032700007, + "loss": 0.4733, + "step": 29290 + }, + { + "epoch": 78.13333333333334, + "grad_norm": 0.421875, + "learning_rate": 0.00029890844627180084, + "loss": 0.4754, + "step": 29300 + }, + { + "epoch": 78.16, + "grad_norm": 0.451171875, + "learning_rate": 0.00029890768901197806, + "loss": 0.4797, + "step": 29310 + }, + { + "epoch": 78.18666666666667, + "grad_norm": 0.4453125, + "learning_rate": 0.00029890693149053373, + "loss": 0.4719, + "step": 29320 + }, + { + "epoch": 78.21333333333334, + "grad_norm": 0.546875, + "learning_rate": 0.0002989061737074691, + "loss": 0.467, + "step": 29330 + }, + { + "epoch": 78.24, + "grad_norm": 0.34375, + "learning_rate": 0.0002989054156627855, + "loss": 0.4708, + "step": 29340 + }, + { + "epoch": 78.26666666666667, + "grad_norm": 0.3125, + "learning_rate": 0.00029890465735648436, + "loss": 0.475, + "step": 29350 + }, + { + "epoch": 78.29333333333334, + "grad_norm": 0.2421875, + "learning_rate": 0.0002989038987885669, + "loss": 0.4686, + "step": 29360 + }, + { + "epoch": 78.32, + "grad_norm": 0.267578125, + "learning_rate": 0.00029890313995903454, + "loss": 0.4722, + "step": 29370 + }, + { + "epoch": 78.34666666666666, + "grad_norm": 0.265625, + "learning_rate": 0.00029890238086788853, + "loss": 0.4811, + "step": 29380 + }, + { + "epoch": 78.37333333333333, + "grad_norm": 0.36328125, + "learning_rate": 0.0002989016215151303, + "loss": 0.477, + "step": 29390 + }, + { + "epoch": 78.4, + "grad_norm": 0.3515625, + "learning_rate": 0.0002989008619007611, + "loss": 0.4726, + "step": 29400 + }, + { + "epoch": 78.42666666666666, + "grad_norm": 0.28515625, + "learning_rate": 0.00029890010202478234, + "loss": 0.479, + "step": 29410 + }, + { + "epoch": 78.45333333333333, + "grad_norm": 0.3671875, + "learning_rate": 0.00029889934188719524, + "loss": 0.4813, + "step": 29420 + }, + { + "epoch": 78.48, + "grad_norm": 0.29296875, + "learning_rate": 0.0002988985814880012, + "loss": 0.4875, + "step": 29430 + }, + { + "epoch": 78.50666666666666, + "grad_norm": 0.267578125, + "learning_rate": 0.0002988978208272016, + "loss": 0.4772, + "step": 29440 + }, + { + "epoch": 78.53333333333333, + "grad_norm": 0.255859375, + "learning_rate": 0.0002988970599047978, + "loss": 0.4712, + "step": 29450 + }, + { + "epoch": 78.56, + "grad_norm": 0.255859375, + "learning_rate": 0.000298896298720791, + "loss": 0.4723, + "step": 29460 + }, + { + "epoch": 78.58666666666667, + "grad_norm": 0.267578125, + "learning_rate": 0.00029889553727518265, + "loss": 0.4682, + "step": 29470 + }, + { + "epoch": 78.61333333333333, + "grad_norm": 0.240234375, + "learning_rate": 0.000298894775567974, + "loss": 0.4543, + "step": 29480 + }, + { + "epoch": 78.64, + "grad_norm": 0.326171875, + "learning_rate": 0.0002988940135991665, + "loss": 0.4586, + "step": 29490 + }, + { + "epoch": 78.66666666666667, + "grad_norm": 0.3984375, + "learning_rate": 0.00029889325136876136, + "loss": 0.4745, + "step": 29500 + }, + { + "epoch": 78.69333333333333, + "grad_norm": 0.271484375, + "learning_rate": 0.0002988924888767601, + "loss": 0.4574, + "step": 29510 + }, + { + "epoch": 78.72, + "grad_norm": 0.2734375, + "learning_rate": 0.00029889172612316384, + "loss": 0.4733, + "step": 29520 + }, + { + "epoch": 78.74666666666667, + "grad_norm": 0.26953125, + "learning_rate": 0.0002988909631079741, + "loss": 0.4785, + "step": 29530 + }, + { + "epoch": 78.77333333333333, + "grad_norm": 0.22265625, + "learning_rate": 0.0002988901998311921, + "loss": 0.4861, + "step": 29540 + }, + { + "epoch": 78.8, + "grad_norm": 0.287109375, + "learning_rate": 0.00029888943629281925, + "loss": 0.4731, + "step": 29550 + }, + { + "epoch": 78.82666666666667, + "grad_norm": 0.412109375, + "learning_rate": 0.00029888867249285684, + "loss": 0.4675, + "step": 29560 + }, + { + "epoch": 78.85333333333334, + "grad_norm": 0.4296875, + "learning_rate": 0.00029888790843130627, + "loss": 0.4764, + "step": 29570 + }, + { + "epoch": 78.88, + "grad_norm": 0.23828125, + "learning_rate": 0.0002988871441081688, + "loss": 0.4647, + "step": 29580 + }, + { + "epoch": 78.90666666666667, + "grad_norm": 0.3046875, + "learning_rate": 0.0002988863795234459, + "loss": 0.4674, + "step": 29590 + }, + { + "epoch": 78.93333333333334, + "grad_norm": 0.27734375, + "learning_rate": 0.00029888561467713887, + "loss": 0.469, + "step": 29600 + }, + { + "epoch": 78.96, + "grad_norm": 0.337890625, + "learning_rate": 0.00029888484956924896, + "loss": 0.4669, + "step": 29610 + }, + { + "epoch": 78.98666666666666, + "grad_norm": 0.251953125, + "learning_rate": 0.0002988840841997776, + "loss": 0.4804, + "step": 29620 + }, + { + "epoch": 79.0, + "eval_loss": 0.48059168457984924, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.1909, + "eval_samples_per_second": 1.57, + "eval_steps_per_second": 0.098, + "step": 29625 + }, + { + "epoch": 79.01333333333334, + "grad_norm": 0.279296875, + "learning_rate": 0.0002988833185687261, + "loss": 0.4694, + "step": 29630 + }, + { + "epoch": 79.04, + "grad_norm": 0.251953125, + "learning_rate": 0.0002988825526760958, + "loss": 0.4937, + "step": 29640 + }, + { + "epoch": 79.06666666666666, + "grad_norm": 0.37890625, + "learning_rate": 0.0002988817865218881, + "loss": 0.4809, + "step": 29650 + }, + { + "epoch": 79.09333333333333, + "grad_norm": 0.431640625, + "learning_rate": 0.0002988810201061043, + "loss": 0.4764, + "step": 29660 + }, + { + "epoch": 79.12, + "grad_norm": 0.404296875, + "learning_rate": 0.0002988802534287458, + "loss": 0.4723, + "step": 29670 + }, + { + "epoch": 79.14666666666666, + "grad_norm": 0.32421875, + "learning_rate": 0.0002988794864898138, + "loss": 0.4817, + "step": 29680 + }, + { + "epoch": 79.17333333333333, + "grad_norm": 0.30859375, + "learning_rate": 0.00029887871928930984, + "loss": 0.4719, + "step": 29690 + }, + { + "epoch": 79.2, + "grad_norm": 0.29296875, + "learning_rate": 0.00029887795182723516, + "loss": 0.4698, + "step": 29700 + }, + { + "epoch": 79.22666666666667, + "grad_norm": 0.275390625, + "learning_rate": 0.0002988771841035911, + "loss": 0.4685, + "step": 29710 + }, + { + "epoch": 79.25333333333333, + "grad_norm": 0.322265625, + "learning_rate": 0.00029887641611837907, + "loss": 0.4675, + "step": 29720 + }, + { + "epoch": 79.28, + "grad_norm": 0.361328125, + "learning_rate": 0.0002988756478716004, + "loss": 0.4813, + "step": 29730 + }, + { + "epoch": 79.30666666666667, + "grad_norm": 0.390625, + "learning_rate": 0.0002988748793632564, + "loss": 0.4627, + "step": 29740 + }, + { + "epoch": 79.33333333333333, + "grad_norm": 0.291015625, + "learning_rate": 0.0002988741105933484, + "loss": 0.4781, + "step": 29750 + }, + { + "epoch": 79.36, + "grad_norm": 0.279296875, + "learning_rate": 0.00029887334156187786, + "loss": 0.4806, + "step": 29760 + }, + { + "epoch": 79.38666666666667, + "grad_norm": 0.265625, + "learning_rate": 0.0002988725722688461, + "loss": 0.4716, + "step": 29770 + }, + { + "epoch": 79.41333333333333, + "grad_norm": 0.349609375, + "learning_rate": 0.00029887180271425437, + "loss": 0.4762, + "step": 29780 + }, + { + "epoch": 79.44, + "grad_norm": 0.318359375, + "learning_rate": 0.0002988710328981041, + "loss": 0.4789, + "step": 29790 + }, + { + "epoch": 79.46666666666667, + "grad_norm": 0.2421875, + "learning_rate": 0.00029887026282039665, + "loss": 0.4893, + "step": 29800 + }, + { + "epoch": 79.49333333333334, + "grad_norm": 0.31640625, + "learning_rate": 0.00029886949248113335, + "loss": 0.4795, + "step": 29810 + }, + { + "epoch": 79.52, + "grad_norm": 0.2373046875, + "learning_rate": 0.0002988687218803156, + "loss": 0.4743, + "step": 29820 + }, + { + "epoch": 79.54666666666667, + "grad_norm": 0.26953125, + "learning_rate": 0.00029886795101794465, + "loss": 0.471, + "step": 29830 + }, + { + "epoch": 79.57333333333334, + "grad_norm": 0.32421875, + "learning_rate": 0.00029886717989402196, + "loss": 0.4703, + "step": 29840 + }, + { + "epoch": 79.6, + "grad_norm": 0.2578125, + "learning_rate": 0.00029886640850854883, + "loss": 0.464, + "step": 29850 + }, + { + "epoch": 79.62666666666667, + "grad_norm": 0.328125, + "learning_rate": 0.00029886563686152667, + "loss": 0.4506, + "step": 29860 + }, + { + "epoch": 79.65333333333334, + "grad_norm": 0.369140625, + "learning_rate": 0.00029886486495295673, + "loss": 0.4702, + "step": 29870 + }, + { + "epoch": 79.68, + "grad_norm": 0.439453125, + "learning_rate": 0.0002988640927828404, + "loss": 0.4616, + "step": 29880 + }, + { + "epoch": 79.70666666666666, + "grad_norm": 0.27734375, + "learning_rate": 0.0002988633203511792, + "loss": 0.4624, + "step": 29890 + }, + { + "epoch": 79.73333333333333, + "grad_norm": 0.279296875, + "learning_rate": 0.00029886254765797425, + "loss": 0.4812, + "step": 29900 + }, + { + "epoch": 79.76, + "grad_norm": 0.361328125, + "learning_rate": 0.00029886177470322706, + "loss": 0.4826, + "step": 29910 + }, + { + "epoch": 79.78666666666666, + "grad_norm": 0.345703125, + "learning_rate": 0.00029886100148693886, + "loss": 0.4811, + "step": 29920 + }, + { + "epoch": 79.81333333333333, + "grad_norm": 0.3203125, + "learning_rate": 0.0002988602280091112, + "loss": 0.4666, + "step": 29930 + }, + { + "epoch": 79.84, + "grad_norm": 0.39453125, + "learning_rate": 0.00029885945426974525, + "loss": 0.4721, + "step": 29940 + }, + { + "epoch": 79.86666666666666, + "grad_norm": 0.283203125, + "learning_rate": 0.0002988586802688425, + "loss": 0.4713, + "step": 29950 + }, + { + "epoch": 79.89333333333333, + "grad_norm": 0.3359375, + "learning_rate": 0.00029885790600640426, + "loss": 0.4634, + "step": 29960 + }, + { + "epoch": 79.92, + "grad_norm": 0.46484375, + "learning_rate": 0.0002988571314824318, + "loss": 0.4728, + "step": 29970 + }, + { + "epoch": 79.94666666666667, + "grad_norm": 0.447265625, + "learning_rate": 0.0002988563566969267, + "loss": 0.4658, + "step": 29980 + }, + { + "epoch": 79.97333333333333, + "grad_norm": 0.33203125, + "learning_rate": 0.0002988555816498901, + "loss": 0.4765, + "step": 29990 + }, + { + "epoch": 80.0, + "grad_norm": 0.369140625, + "learning_rate": 0.00029885480634132345, + "loss": 0.4661, + "step": 30000 + }, + { + "epoch": 80.0, + "eval_loss": 0.4805583655834198, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.3038, + "eval_samples_per_second": 1.553, + "eval_steps_per_second": 0.097, + "step": 30000 + }, + { + "epoch": 80.02666666666667, + "grad_norm": 0.3203125, + "learning_rate": 0.0002988540307712281, + "loss": 0.4855, + "step": 30010 + }, + { + "epoch": 80.05333333333333, + "grad_norm": 0.2373046875, + "learning_rate": 0.00029885325493960547, + "loss": 0.4912, + "step": 30020 + }, + { + "epoch": 80.08, + "grad_norm": 0.3671875, + "learning_rate": 0.00029885247884645685, + "loss": 0.4778, + "step": 30030 + }, + { + "epoch": 80.10666666666667, + "grad_norm": 0.265625, + "learning_rate": 0.0002988517024917837, + "loss": 0.4733, + "step": 30040 + }, + { + "epoch": 80.13333333333334, + "grad_norm": 0.376953125, + "learning_rate": 0.0002988509258755872, + "loss": 0.4748, + "step": 30050 + }, + { + "epoch": 80.16, + "grad_norm": 0.40625, + "learning_rate": 0.0002988501489978689, + "loss": 0.4796, + "step": 30060 + }, + { + "epoch": 80.18666666666667, + "grad_norm": 0.353515625, + "learning_rate": 0.00029884937185863016, + "loss": 0.4716, + "step": 30070 + }, + { + "epoch": 80.21333333333334, + "grad_norm": 0.392578125, + "learning_rate": 0.0002988485944578722, + "loss": 0.4665, + "step": 30080 + }, + { + "epoch": 80.24, + "grad_norm": 0.33984375, + "learning_rate": 0.00029884781679559647, + "loss": 0.4706, + "step": 30090 + }, + { + "epoch": 80.26666666666667, + "grad_norm": 0.265625, + "learning_rate": 0.00029884703887180436, + "loss": 0.4743, + "step": 30100 + }, + { + "epoch": 80.29333333333334, + "grad_norm": 0.26171875, + "learning_rate": 0.0002988462606864972, + "loss": 0.4684, + "step": 30110 + }, + { + "epoch": 80.32, + "grad_norm": 0.259765625, + "learning_rate": 0.00029884548223967636, + "loss": 0.4722, + "step": 30120 + }, + { + "epoch": 80.34666666666666, + "grad_norm": 0.3125, + "learning_rate": 0.0002988447035313432, + "loss": 0.4802, + "step": 30130 + }, + { + "epoch": 80.37333333333333, + "grad_norm": 0.375, + "learning_rate": 0.00029884392456149916, + "loss": 0.4759, + "step": 30140 + }, + { + "epoch": 80.4, + "grad_norm": 0.30078125, + "learning_rate": 0.0002988431453301455, + "loss": 0.4732, + "step": 30150 + }, + { + "epoch": 80.42666666666666, + "grad_norm": 0.6796875, + "learning_rate": 0.00029884236583728365, + "loss": 0.4792, + "step": 30160 + }, + { + "epoch": 80.45333333333333, + "grad_norm": 1.046875, + "learning_rate": 0.000298841586082915, + "loss": 0.485, + "step": 30170 + }, + { + "epoch": 80.48, + "grad_norm": 0.59375, + "learning_rate": 0.00029884080606704084, + "loss": 0.4903, + "step": 30180 + }, + { + "epoch": 80.50666666666666, + "grad_norm": 0.451171875, + "learning_rate": 0.0002988400257896626, + "loss": 0.4783, + "step": 30190 + }, + { + "epoch": 80.53333333333333, + "grad_norm": 0.30859375, + "learning_rate": 0.00029883924525078167, + "loss": 0.4707, + "step": 30200 + }, + { + "epoch": 80.56, + "grad_norm": 0.267578125, + "learning_rate": 0.00029883846445039936, + "loss": 0.4717, + "step": 30210 + }, + { + "epoch": 80.58666666666667, + "grad_norm": 0.28515625, + "learning_rate": 0.00029883768338851715, + "loss": 0.4685, + "step": 30220 + }, + { + "epoch": 80.61333333333333, + "grad_norm": 0.18359375, + "learning_rate": 0.00029883690206513626, + "loss": 0.4535, + "step": 30230 + }, + { + "epoch": 80.64, + "grad_norm": 0.2294921875, + "learning_rate": 0.00029883612048025817, + "loss": 0.4585, + "step": 30240 + }, + { + "epoch": 80.66666666666667, + "grad_norm": 0.259765625, + "learning_rate": 0.0002988353386338842, + "loss": 0.4739, + "step": 30250 + }, + { + "epoch": 80.69333333333333, + "grad_norm": 0.27734375, + "learning_rate": 0.00029883455652601575, + "loss": 0.4573, + "step": 30260 + }, + { + "epoch": 80.72, + "grad_norm": 0.3359375, + "learning_rate": 0.00029883377415665423, + "loss": 0.474, + "step": 30270 + }, + { + "epoch": 80.74666666666667, + "grad_norm": 0.189453125, + "learning_rate": 0.00029883299152580093, + "loss": 0.4784, + "step": 30280 + }, + { + "epoch": 80.77333333333333, + "grad_norm": 0.244140625, + "learning_rate": 0.0002988322086334573, + "loss": 0.4862, + "step": 30290 + }, + { + "epoch": 80.8, + "grad_norm": 0.2236328125, + "learning_rate": 0.0002988314254796246, + "loss": 0.4731, + "step": 30300 + }, + { + "epoch": 80.82666666666667, + "grad_norm": 0.2255859375, + "learning_rate": 0.00029883064206430443, + "loss": 0.4674, + "step": 30310 + }, + { + "epoch": 80.85333333333334, + "grad_norm": 0.46875, + "learning_rate": 0.000298829858387498, + "loss": 0.4767, + "step": 30320 + }, + { + "epoch": 80.88, + "grad_norm": 0.271484375, + "learning_rate": 0.00029882907444920664, + "loss": 0.4645, + "step": 30330 + }, + { + "epoch": 80.90666666666667, + "grad_norm": 0.32421875, + "learning_rate": 0.00029882829024943186, + "loss": 0.4676, + "step": 30340 + }, + { + "epoch": 80.93333333333334, + "grad_norm": 0.19140625, + "learning_rate": 0.00029882750578817495, + "loss": 0.4686, + "step": 30350 + }, + { + "epoch": 80.96, + "grad_norm": 0.24609375, + "learning_rate": 0.0002988267210654373, + "loss": 0.4661, + "step": 30360 + }, + { + "epoch": 80.98666666666666, + "grad_norm": 0.310546875, + "learning_rate": 0.00029882593608122036, + "loss": 0.4798, + "step": 30370 + }, + { + "epoch": 81.0, + "eval_loss": 0.4806881844997406, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.3578, + "eval_samples_per_second": 1.545, + "eval_steps_per_second": 0.097, + "step": 30375 + }, + { + "epoch": 81.01333333333334, + "grad_norm": 0.28125, + "learning_rate": 0.00029882515083552545, + "loss": 0.47, + "step": 30380 + }, + { + "epoch": 81.04, + "grad_norm": 0.287109375, + "learning_rate": 0.000298824365328354, + "loss": 0.4937, + "step": 30390 + }, + { + "epoch": 81.06666666666666, + "grad_norm": 0.3671875, + "learning_rate": 0.00029882357955970723, + "loss": 0.4813, + "step": 30400 + }, + { + "epoch": 81.09333333333333, + "grad_norm": 0.275390625, + "learning_rate": 0.0002988227935295867, + "loss": 0.4761, + "step": 30410 + }, + { + "epoch": 81.12, + "grad_norm": 0.2255859375, + "learning_rate": 0.0002988220072379937, + "loss": 0.4725, + "step": 30420 + }, + { + "epoch": 81.14666666666666, + "grad_norm": 0.271484375, + "learning_rate": 0.0002988212206849297, + "loss": 0.4818, + "step": 30430 + }, + { + "epoch": 81.17333333333333, + "grad_norm": 0.298828125, + "learning_rate": 0.000298820433870396, + "loss": 0.4717, + "step": 30440 + }, + { + "epoch": 81.2, + "grad_norm": 0.330078125, + "learning_rate": 0.00029881964679439395, + "loss": 0.47, + "step": 30450 + }, + { + "epoch": 81.22666666666667, + "grad_norm": 0.259765625, + "learning_rate": 0.0002988188594569251, + "loss": 0.4676, + "step": 30460 + }, + { + "epoch": 81.25333333333333, + "grad_norm": 0.2373046875, + "learning_rate": 0.0002988180718579906, + "loss": 0.4679, + "step": 30470 + }, + { + "epoch": 81.28, + "grad_norm": 0.361328125, + "learning_rate": 0.000298817283997592, + "loss": 0.4817, + "step": 30480 + }, + { + "epoch": 81.30666666666667, + "grad_norm": 0.357421875, + "learning_rate": 0.00029881649587573065, + "loss": 0.463, + "step": 30490 + }, + { + "epoch": 81.33333333333333, + "grad_norm": 0.283203125, + "learning_rate": 0.0002988157074924079, + "loss": 0.478, + "step": 30500 + }, + { + "epoch": 81.36, + "grad_norm": 0.310546875, + "learning_rate": 0.0002988149188476251, + "loss": 0.4796, + "step": 30510 + }, + { + "epoch": 81.38666666666667, + "grad_norm": 0.408203125, + "learning_rate": 0.0002988141299413838, + "loss": 0.4716, + "step": 30520 + }, + { + "epoch": 81.41333333333333, + "grad_norm": 0.435546875, + "learning_rate": 0.00029881334077368524, + "loss": 0.4765, + "step": 30530 + }, + { + "epoch": 81.44, + "grad_norm": 0.373046875, + "learning_rate": 0.0002988125513445309, + "loss": 0.4791, + "step": 30540 + }, + { + "epoch": 81.46666666666667, + "grad_norm": 0.25390625, + "learning_rate": 0.00029881176165392196, + "loss": 0.4884, + "step": 30550 + }, + { + "epoch": 81.49333333333334, + "grad_norm": 0.36328125, + "learning_rate": 0.0002988109717018601, + "loss": 0.4794, + "step": 30560 + }, + { + "epoch": 81.52, + "grad_norm": 0.2294921875, + "learning_rate": 0.00029881018148834653, + "loss": 0.4741, + "step": 30570 + }, + { + "epoch": 81.54666666666667, + "grad_norm": 0.2734375, + "learning_rate": 0.0002988093910133826, + "loss": 0.4711, + "step": 30580 + }, + { + "epoch": 81.57333333333334, + "grad_norm": 0.2275390625, + "learning_rate": 0.0002988086002769699, + "loss": 0.4702, + "step": 30590 + }, + { + "epoch": 81.6, + "grad_norm": 0.39453125, + "learning_rate": 0.00029880780927910966, + "loss": 0.4643, + "step": 30600 + }, + { + "epoch": 81.62666666666667, + "grad_norm": 0.3046875, + "learning_rate": 0.00029880701801980326, + "loss": 0.4513, + "step": 30610 + }, + { + "epoch": 81.65333333333334, + "grad_norm": 0.2890625, + "learning_rate": 0.00029880622649905214, + "loss": 0.4706, + "step": 30620 + }, + { + "epoch": 81.68, + "grad_norm": 0.349609375, + "learning_rate": 0.0002988054347168577, + "loss": 0.4626, + "step": 30630 + }, + { + "epoch": 81.70666666666666, + "grad_norm": 0.41796875, + "learning_rate": 0.0002988046426732214, + "loss": 0.4623, + "step": 30640 + }, + { + "epoch": 81.73333333333333, + "grad_norm": 0.2890625, + "learning_rate": 0.00029880385036814444, + "loss": 0.4812, + "step": 30650 + }, + { + "epoch": 81.76, + "grad_norm": 0.3671875, + "learning_rate": 0.00029880305780162833, + "loss": 0.4827, + "step": 30660 + }, + { + "epoch": 81.78666666666666, + "grad_norm": 0.35546875, + "learning_rate": 0.00029880226497367443, + "loss": 0.4811, + "step": 30670 + }, + { + "epoch": 81.81333333333333, + "grad_norm": 0.306640625, + "learning_rate": 0.0002988014718842842, + "loss": 0.4662, + "step": 30680 + }, + { + "epoch": 81.84, + "grad_norm": 0.28125, + "learning_rate": 0.000298800678533459, + "loss": 0.4723, + "step": 30690 + }, + { + "epoch": 81.86666666666666, + "grad_norm": 0.275390625, + "learning_rate": 0.0002987998849212002, + "loss": 0.4713, + "step": 30700 + }, + { + "epoch": 81.89333333333333, + "grad_norm": 0.30078125, + "learning_rate": 0.00029879909104750925, + "loss": 0.4626, + "step": 30710 + }, + { + "epoch": 81.92, + "grad_norm": 0.30859375, + "learning_rate": 0.00029879829691238744, + "loss": 0.4729, + "step": 30720 + }, + { + "epoch": 81.94666666666667, + "grad_norm": 0.294921875, + "learning_rate": 0.00029879750251583624, + "loss": 0.4649, + "step": 30730 + }, + { + "epoch": 81.97333333333333, + "grad_norm": 0.32421875, + "learning_rate": 0.000298796707857857, + "loss": 0.4773, + "step": 30740 + }, + { + "epoch": 82.0, + "grad_norm": 0.291015625, + "learning_rate": 0.00029879591293845116, + "loss": 0.4664, + "step": 30750 + }, + { + "epoch": 82.0, + "eval_loss": 0.4804117679595947, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.1678, + "eval_samples_per_second": 1.574, + "eval_steps_per_second": 0.098, + "step": 30750 + }, + { + "epoch": 82.02666666666667, + "grad_norm": 0.3203125, + "learning_rate": 0.00029879511775762014, + "loss": 0.4853, + "step": 30760 + }, + { + "epoch": 82.05333333333333, + "grad_norm": 0.392578125, + "learning_rate": 0.00029879432231536533, + "loss": 0.4913, + "step": 30770 + }, + { + "epoch": 82.08, + "grad_norm": 0.259765625, + "learning_rate": 0.00029879352661168806, + "loss": 0.4789, + "step": 30780 + }, + { + "epoch": 82.10666666666667, + "grad_norm": 0.2470703125, + "learning_rate": 0.00029879273064658976, + "loss": 0.4736, + "step": 30790 + }, + { + "epoch": 82.13333333333334, + "grad_norm": 0.341796875, + "learning_rate": 0.00029879193442007183, + "loss": 0.4739, + "step": 30800 + }, + { + "epoch": 82.16, + "grad_norm": 0.365234375, + "learning_rate": 0.0002987911379321357, + "loss": 0.4794, + "step": 30810 + }, + { + "epoch": 82.18666666666667, + "grad_norm": 0.359375, + "learning_rate": 0.0002987903411827827, + "loss": 0.4711, + "step": 30820 + }, + { + "epoch": 82.21333333333334, + "grad_norm": 0.34765625, + "learning_rate": 0.00029878954417201435, + "loss": 0.4663, + "step": 30830 + }, + { + "epoch": 82.24, + "grad_norm": 0.333984375, + "learning_rate": 0.00029878874689983194, + "loss": 0.4707, + "step": 30840 + }, + { + "epoch": 82.26666666666667, + "grad_norm": 0.2333984375, + "learning_rate": 0.0002987879493662369, + "loss": 0.4751, + "step": 30850 + }, + { + "epoch": 82.29333333333334, + "grad_norm": 0.220703125, + "learning_rate": 0.0002987871515712306, + "loss": 0.4685, + "step": 30860 + }, + { + "epoch": 82.32, + "grad_norm": 0.283203125, + "learning_rate": 0.00029878635351481453, + "loss": 0.4719, + "step": 30870 + }, + { + "epoch": 82.34666666666666, + "grad_norm": 0.333984375, + "learning_rate": 0.00029878555519699003, + "loss": 0.4801, + "step": 30880 + }, + { + "epoch": 82.37333333333333, + "grad_norm": 0.41015625, + "learning_rate": 0.00029878475661775854, + "loss": 0.4753, + "step": 30890 + }, + { + "epoch": 82.4, + "grad_norm": 0.3203125, + "learning_rate": 0.0002987839577771214, + "loss": 0.4728, + "step": 30900 + }, + { + "epoch": 82.42666666666666, + "grad_norm": 0.263671875, + "learning_rate": 0.00029878315867508, + "loss": 0.4793, + "step": 30910 + }, + { + "epoch": 82.45333333333333, + "grad_norm": 0.37109375, + "learning_rate": 0.0002987823593116359, + "loss": 0.4804, + "step": 30920 + }, + { + "epoch": 82.48, + "grad_norm": 0.4140625, + "learning_rate": 0.0002987815596867903, + "loss": 0.4876, + "step": 30930 + }, + { + "epoch": 82.50666666666666, + "grad_norm": 0.28515625, + "learning_rate": 0.0002987807598005448, + "loss": 0.4765, + "step": 30940 + }, + { + "epoch": 82.53333333333333, + "grad_norm": 0.271484375, + "learning_rate": 0.00029877995965290065, + "loss": 0.4707, + "step": 30950 + }, + { + "epoch": 82.56, + "grad_norm": 0.388671875, + "learning_rate": 0.0002987791592438593, + "loss": 0.4719, + "step": 30960 + }, + { + "epoch": 82.58666666666667, + "grad_norm": 0.2734375, + "learning_rate": 0.0002987783585734222, + "loss": 0.4677, + "step": 30970 + }, + { + "epoch": 82.61333333333333, + "grad_norm": 0.2353515625, + "learning_rate": 0.00029877755764159074, + "loss": 0.4539, + "step": 30980 + }, + { + "epoch": 82.64, + "grad_norm": 0.236328125, + "learning_rate": 0.00029877675644836624, + "loss": 0.4587, + "step": 30990 + }, + { + "epoch": 82.66666666666667, + "grad_norm": 0.40625, + "learning_rate": 0.0002987759549937503, + "loss": 0.4742, + "step": 31000 + }, + { + "epoch": 82.69333333333333, + "grad_norm": 0.2451171875, + "learning_rate": 0.0002987751532777441, + "loss": 0.457, + "step": 31010 + }, + { + "epoch": 82.72, + "grad_norm": 0.28125, + "learning_rate": 0.00029877435130034924, + "loss": 0.4747, + "step": 31020 + }, + { + "epoch": 82.74666666666667, + "grad_norm": 0.251953125, + "learning_rate": 0.000298773549061567, + "loss": 0.4779, + "step": 31030 + }, + { + "epoch": 82.77333333333333, + "grad_norm": 0.28125, + "learning_rate": 0.00029877274656139885, + "loss": 0.4861, + "step": 31040 + }, + { + "epoch": 82.8, + "grad_norm": 0.26953125, + "learning_rate": 0.0002987719437998462, + "loss": 0.4733, + "step": 31050 + }, + { + "epoch": 82.82666666666667, + "grad_norm": 0.35546875, + "learning_rate": 0.0002987711407769104, + "loss": 0.4674, + "step": 31060 + }, + { + "epoch": 82.85333333333334, + "grad_norm": 0.33984375, + "learning_rate": 0.00029877033749259297, + "loss": 0.4761, + "step": 31070 + }, + { + "epoch": 82.88, + "grad_norm": 0.294921875, + "learning_rate": 0.0002987695339468952, + "loss": 0.4643, + "step": 31080 + }, + { + "epoch": 82.90666666666667, + "grad_norm": 0.328125, + "learning_rate": 0.00029876873013981865, + "loss": 0.4669, + "step": 31090 + }, + { + "epoch": 82.93333333333334, + "grad_norm": 0.29296875, + "learning_rate": 0.0002987679260713645, + "loss": 0.4685, + "step": 31100 + }, + { + "epoch": 82.96, + "grad_norm": 0.3046875, + "learning_rate": 0.00029876712174153446, + "loss": 0.4668, + "step": 31110 + }, + { + "epoch": 82.98666666666666, + "grad_norm": 0.26953125, + "learning_rate": 0.0002987663171503297, + "loss": 0.4802, + "step": 31120 + }, + { + "epoch": 83.0, + "eval_loss": 0.48024803400039673, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.8308, + "eval_samples_per_second": 1.628, + "eval_steps_per_second": 0.102, + "step": 31125 + }, + { + "epoch": 83.01333333333334, + "grad_norm": 0.251953125, + "learning_rate": 0.0002987655122977518, + "loss": 0.4696, + "step": 31130 + }, + { + "epoch": 83.04, + "grad_norm": 0.35546875, + "learning_rate": 0.000298764707183802, + "loss": 0.4939, + "step": 31140 + }, + { + "epoch": 83.06666666666666, + "grad_norm": 0.267578125, + "learning_rate": 0.0002987639018084819, + "loss": 0.4816, + "step": 31150 + }, + { + "epoch": 83.09333333333333, + "grad_norm": 0.2578125, + "learning_rate": 0.00029876309617179276, + "loss": 0.4755, + "step": 31160 + }, + { + "epoch": 83.12, + "grad_norm": 0.2490234375, + "learning_rate": 0.0002987622902737361, + "loss": 0.4729, + "step": 31170 + }, + { + "epoch": 83.14666666666666, + "grad_norm": 0.294921875, + "learning_rate": 0.0002987614841143133, + "loss": 0.4816, + "step": 31180 + }, + { + "epoch": 83.17333333333333, + "grad_norm": 0.38671875, + "learning_rate": 0.0002987606776935257, + "loss": 0.472, + "step": 31190 + }, + { + "epoch": 83.2, + "grad_norm": 0.35546875, + "learning_rate": 0.00029875987101137485, + "loss": 0.47, + "step": 31200 + }, + { + "epoch": 83.22666666666667, + "grad_norm": 0.26953125, + "learning_rate": 0.00029875906406786213, + "loss": 0.4682, + "step": 31210 + }, + { + "epoch": 83.25333333333333, + "grad_norm": 0.328125, + "learning_rate": 0.00029875825686298893, + "loss": 0.4684, + "step": 31220 + }, + { + "epoch": 83.28, + "grad_norm": 0.35546875, + "learning_rate": 0.00029875744939675665, + "loss": 0.4813, + "step": 31230 + }, + { + "epoch": 83.30666666666667, + "grad_norm": 0.259765625, + "learning_rate": 0.00029875664166916676, + "loss": 0.4621, + "step": 31240 + }, + { + "epoch": 83.33333333333333, + "grad_norm": 0.265625, + "learning_rate": 0.0002987558336802206, + "loss": 0.4775, + "step": 31250 + }, + { + "epoch": 83.36, + "grad_norm": 0.27734375, + "learning_rate": 0.0002987550254299197, + "loss": 0.4795, + "step": 31260 + }, + { + "epoch": 83.38666666666667, + "grad_norm": 0.3828125, + "learning_rate": 0.00029875421691826545, + "loss": 0.4714, + "step": 31270 + }, + { + "epoch": 83.41333333333333, + "grad_norm": 0.36328125, + "learning_rate": 0.0002987534081452592, + "loss": 0.4755, + "step": 31280 + }, + { + "epoch": 83.44, + "grad_norm": 0.2158203125, + "learning_rate": 0.0002987525991109024, + "loss": 0.4789, + "step": 31290 + }, + { + "epoch": 83.46666666666667, + "grad_norm": 0.365234375, + "learning_rate": 0.00029875178981519647, + "loss": 0.4879, + "step": 31300 + }, + { + "epoch": 83.49333333333334, + "grad_norm": 0.51953125, + "learning_rate": 0.00029875098025814286, + "loss": 0.4793, + "step": 31310 + }, + { + "epoch": 83.52, + "grad_norm": 0.2890625, + "learning_rate": 0.000298750170439743, + "loss": 0.4736, + "step": 31320 + }, + { + "epoch": 83.54666666666667, + "grad_norm": 0.259765625, + "learning_rate": 0.0002987493603599983, + "loss": 0.4708, + "step": 31330 + }, + { + "epoch": 83.57333333333334, + "grad_norm": 0.28125, + "learning_rate": 0.00029874855001891013, + "loss": 0.4702, + "step": 31340 + }, + { + "epoch": 83.6, + "grad_norm": 0.359375, + "learning_rate": 0.00029874773941648, + "loss": 0.4641, + "step": 31350 + }, + { + "epoch": 83.62666666666667, + "grad_norm": 0.310546875, + "learning_rate": 0.0002987469285527093, + "loss": 0.4512, + "step": 31360 + }, + { + "epoch": 83.65333333333334, + "grad_norm": 0.40625, + "learning_rate": 0.0002987461174275994, + "loss": 0.4703, + "step": 31370 + }, + { + "epoch": 83.68, + "grad_norm": 0.28125, + "learning_rate": 0.0002987453060411518, + "loss": 0.4619, + "step": 31380 + }, + { + "epoch": 83.70666666666666, + "grad_norm": 0.310546875, + "learning_rate": 0.0002987444943933679, + "loss": 0.4629, + "step": 31390 + }, + { + "epoch": 83.73333333333333, + "grad_norm": 0.291015625, + "learning_rate": 0.0002987436824842491, + "loss": 0.4817, + "step": 31400 + }, + { + "epoch": 83.76, + "grad_norm": 0.294921875, + "learning_rate": 0.0002987428703137969, + "loss": 0.4827, + "step": 31410 + }, + { + "epoch": 83.78666666666666, + "grad_norm": 0.322265625, + "learning_rate": 0.00029874205788201267, + "loss": 0.4816, + "step": 31420 + }, + { + "epoch": 83.81333333333333, + "grad_norm": 0.41796875, + "learning_rate": 0.0002987412451888978, + "loss": 0.4666, + "step": 31430 + }, + { + "epoch": 83.84, + "grad_norm": 0.423828125, + "learning_rate": 0.0002987404322344538, + "loss": 0.4718, + "step": 31440 + }, + { + "epoch": 83.86666666666666, + "grad_norm": 0.24609375, + "learning_rate": 0.00029873961901868203, + "loss": 0.4709, + "step": 31450 + }, + { + "epoch": 83.89333333333333, + "grad_norm": 0.267578125, + "learning_rate": 0.000298738805541584, + "loss": 0.4624, + "step": 31460 + }, + { + "epoch": 83.92, + "grad_norm": 0.41796875, + "learning_rate": 0.00029873799180316107, + "loss": 0.4729, + "step": 31470 + }, + { + "epoch": 83.94666666666667, + "grad_norm": 0.396484375, + "learning_rate": 0.00029873717780341466, + "loss": 0.4648, + "step": 31480 + }, + { + "epoch": 83.97333333333333, + "grad_norm": 0.447265625, + "learning_rate": 0.00029873636354234626, + "loss": 0.4776, + "step": 31490 + }, + { + "epoch": 84.0, + "grad_norm": 0.349609375, + "learning_rate": 0.00029873554901995727, + "loss": 0.4658, + "step": 31500 + }, + { + "epoch": 84.0, + "eval_loss": 0.48183757066726685, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.5507, + "eval_samples_per_second": 1.675, + "eval_steps_per_second": 0.105, + "step": 31500 + }, + { + "epoch": 84.02666666666667, + "grad_norm": 0.279296875, + "learning_rate": 0.00029873473423624905, + "loss": 0.4854, + "step": 31510 + }, + { + "epoch": 84.05333333333333, + "grad_norm": 0.3515625, + "learning_rate": 0.0002987339191912232, + "loss": 0.4905, + "step": 31520 + }, + { + "epoch": 84.08, + "grad_norm": 0.2119140625, + "learning_rate": 0.00029873310388488103, + "loss": 0.4782, + "step": 31530 + }, + { + "epoch": 84.10666666666667, + "grad_norm": 0.275390625, + "learning_rate": 0.000298732288317224, + "loss": 0.4729, + "step": 31540 + }, + { + "epoch": 84.13333333333334, + "grad_norm": 0.34375, + "learning_rate": 0.0002987314724882535, + "loss": 0.475, + "step": 31550 + }, + { + "epoch": 84.16, + "grad_norm": 0.34765625, + "learning_rate": 0.000298730656397971, + "loss": 0.4785, + "step": 31560 + }, + { + "epoch": 84.18666666666667, + "grad_norm": 0.26953125, + "learning_rate": 0.000298729840046378, + "loss": 0.4714, + "step": 31570 + }, + { + "epoch": 84.21333333333334, + "grad_norm": 0.24609375, + "learning_rate": 0.00029872902343347583, + "loss": 0.4656, + "step": 31580 + }, + { + "epoch": 84.24, + "grad_norm": 0.357421875, + "learning_rate": 0.000298728206559266, + "loss": 0.4699, + "step": 31590 + }, + { + "epoch": 84.26666666666667, + "grad_norm": 0.2734375, + "learning_rate": 0.00029872738942374985, + "loss": 0.4742, + "step": 31600 + }, + { + "epoch": 84.29333333333334, + "grad_norm": 0.279296875, + "learning_rate": 0.0002987265720269289, + "loss": 0.4685, + "step": 31610 + }, + { + "epoch": 84.32, + "grad_norm": 0.236328125, + "learning_rate": 0.00029872575436880463, + "loss": 0.4715, + "step": 31620 + }, + { + "epoch": 84.34666666666666, + "grad_norm": 0.287109375, + "learning_rate": 0.0002987249364493783, + "loss": 0.4804, + "step": 31630 + }, + { + "epoch": 84.37333333333333, + "grad_norm": 0.349609375, + "learning_rate": 0.00029872411826865154, + "loss": 0.4758, + "step": 31640 + }, + { + "epoch": 84.4, + "grad_norm": 0.20703125, + "learning_rate": 0.00029872329982662564, + "loss": 0.472, + "step": 31650 + }, + { + "epoch": 84.42666666666666, + "grad_norm": 0.2275390625, + "learning_rate": 0.0002987224811233022, + "loss": 0.4787, + "step": 31660 + }, + { + "epoch": 84.45333333333333, + "grad_norm": 0.310546875, + "learning_rate": 0.0002987216621586825, + "loss": 0.4805, + "step": 31670 + }, + { + "epoch": 84.48, + "grad_norm": 0.28125, + "learning_rate": 0.000298720842932768, + "loss": 0.4872, + "step": 31680 + }, + { + "epoch": 84.50666666666666, + "grad_norm": 0.318359375, + "learning_rate": 0.0002987200234455602, + "loss": 0.4768, + "step": 31690 + }, + { + "epoch": 84.53333333333333, + "grad_norm": 0.259765625, + "learning_rate": 0.00029871920369706055, + "loss": 0.4707, + "step": 31700 + }, + { + "epoch": 84.56, + "grad_norm": 0.248046875, + "learning_rate": 0.00029871838368727044, + "loss": 0.4719, + "step": 31710 + }, + { + "epoch": 84.58666666666667, + "grad_norm": 0.26953125, + "learning_rate": 0.00029871756341619135, + "loss": 0.4668, + "step": 31720 + }, + { + "epoch": 84.61333333333333, + "grad_norm": 0.435546875, + "learning_rate": 0.0002987167428838247, + "loss": 0.453, + "step": 31730 + }, + { + "epoch": 84.64, + "grad_norm": 0.27734375, + "learning_rate": 0.00029871592209017187, + "loss": 0.4585, + "step": 31740 + }, + { + "epoch": 84.66666666666667, + "grad_norm": 0.34375, + "learning_rate": 0.0002987151010352344, + "loss": 0.4739, + "step": 31750 + }, + { + "epoch": 84.69333333333333, + "grad_norm": 0.337890625, + "learning_rate": 0.0002987142797190137, + "loss": 0.4565, + "step": 31760 + }, + { + "epoch": 84.72, + "grad_norm": 0.28125, + "learning_rate": 0.00029871345814151126, + "loss": 0.4742, + "step": 31770 + }, + { + "epoch": 84.74666666666667, + "grad_norm": 0.31640625, + "learning_rate": 0.0002987126363027284, + "loss": 0.4786, + "step": 31780 + }, + { + "epoch": 84.77333333333333, + "grad_norm": 0.34765625, + "learning_rate": 0.00029871181420266667, + "loss": 0.486, + "step": 31790 + }, + { + "epoch": 84.8, + "grad_norm": 0.40234375, + "learning_rate": 0.00029871099184132743, + "loss": 0.4731, + "step": 31800 + }, + { + "epoch": 84.82666666666667, + "grad_norm": 0.2890625, + "learning_rate": 0.0002987101692187123, + "loss": 0.4663, + "step": 31810 + }, + { + "epoch": 84.85333333333334, + "grad_norm": 0.240234375, + "learning_rate": 0.0002987093463348225, + "loss": 0.4756, + "step": 31820 + }, + { + "epoch": 84.88, + "grad_norm": 0.2431640625, + "learning_rate": 0.0002987085231896596, + "loss": 0.4643, + "step": 31830 + }, + { + "epoch": 84.90666666666667, + "grad_norm": 0.279296875, + "learning_rate": 0.000298707699783225, + "loss": 0.4665, + "step": 31840 + }, + { + "epoch": 84.93333333333334, + "grad_norm": 0.255859375, + "learning_rate": 0.00029870687611552023, + "loss": 0.4678, + "step": 31850 + }, + { + "epoch": 84.96, + "grad_norm": 0.29296875, + "learning_rate": 0.0002987060521865466, + "loss": 0.4666, + "step": 31860 + }, + { + "epoch": 84.98666666666666, + "grad_norm": 0.34765625, + "learning_rate": 0.0002987052279963057, + "loss": 0.4805, + "step": 31870 + }, + { + "epoch": 85.0, + "eval_loss": 0.48072928190231323, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.7018, + "eval_samples_per_second": 1.649, + "eval_steps_per_second": 0.103, + "step": 31875 + }, + { + "epoch": 85.01333333333334, + "grad_norm": 0.2333984375, + "learning_rate": 0.00029870440354479893, + "loss": 0.4689, + "step": 31880 + }, + { + "epoch": 85.04, + "grad_norm": 0.244140625, + "learning_rate": 0.00029870357883202765, + "loss": 0.4933, + "step": 31890 + }, + { + "epoch": 85.06666666666666, + "grad_norm": 0.419921875, + "learning_rate": 0.0002987027538579934, + "loss": 0.4812, + "step": 31900 + }, + { + "epoch": 85.09333333333333, + "grad_norm": 0.291015625, + "learning_rate": 0.0002987019286226977, + "loss": 0.4754, + "step": 31910 + }, + { + "epoch": 85.12, + "grad_norm": 0.248046875, + "learning_rate": 0.0002987011031261418, + "loss": 0.4721, + "step": 31920 + }, + { + "epoch": 85.14666666666666, + "grad_norm": 0.283203125, + "learning_rate": 0.0002987002773683273, + "loss": 0.4811, + "step": 31930 + }, + { + "epoch": 85.17333333333333, + "grad_norm": 0.29296875, + "learning_rate": 0.00029869945134925564, + "loss": 0.4715, + "step": 31940 + }, + { + "epoch": 85.2, + "grad_norm": 0.3046875, + "learning_rate": 0.00029869862506892817, + "loss": 0.4698, + "step": 31950 + }, + { + "epoch": 85.22666666666667, + "grad_norm": 0.3203125, + "learning_rate": 0.00029869779852734646, + "loss": 0.4683, + "step": 31960 + }, + { + "epoch": 85.25333333333333, + "grad_norm": 0.306640625, + "learning_rate": 0.0002986969717245119, + "loss": 0.467, + "step": 31970 + }, + { + "epoch": 85.28, + "grad_norm": 0.3515625, + "learning_rate": 0.000298696144660426, + "loss": 0.4812, + "step": 31980 + }, + { + "epoch": 85.30666666666667, + "grad_norm": 0.35546875, + "learning_rate": 0.0002986953173350901, + "loss": 0.4616, + "step": 31990 + }, + { + "epoch": 85.33333333333333, + "grad_norm": 0.373046875, + "learning_rate": 0.00029869448974850576, + "loss": 0.4779, + "step": 32000 + }, + { + "epoch": 85.36, + "grad_norm": 0.47265625, + "learning_rate": 0.0002986936619006744, + "loss": 0.4797, + "step": 32010 + }, + { + "epoch": 85.38666666666667, + "grad_norm": 0.291015625, + "learning_rate": 0.0002986928337915975, + "loss": 0.4714, + "step": 32020 + }, + { + "epoch": 85.41333333333333, + "grad_norm": 0.318359375, + "learning_rate": 0.00029869200542127647, + "loss": 0.4752, + "step": 32030 + }, + { + "epoch": 85.44, + "grad_norm": 0.2333984375, + "learning_rate": 0.00029869117678971277, + "loss": 0.4787, + "step": 32040 + }, + { + "epoch": 85.46666666666667, + "grad_norm": 0.314453125, + "learning_rate": 0.00029869034789690784, + "loss": 0.4874, + "step": 32050 + }, + { + "epoch": 85.49333333333334, + "grad_norm": 0.431640625, + "learning_rate": 0.00029868951874286327, + "loss": 0.4802, + "step": 32060 + }, + { + "epoch": 85.52, + "grad_norm": 0.328125, + "learning_rate": 0.00029868868932758034, + "loss": 0.474, + "step": 32070 + }, + { + "epoch": 85.54666666666667, + "grad_norm": 0.255859375, + "learning_rate": 0.0002986878596510606, + "loss": 0.4711, + "step": 32080 + }, + { + "epoch": 85.57333333333334, + "grad_norm": 0.2373046875, + "learning_rate": 0.0002986870297133055, + "loss": 0.4699, + "step": 32090 + }, + { + "epoch": 85.6, + "grad_norm": 0.28125, + "learning_rate": 0.0002986861995143164, + "loss": 0.4635, + "step": 32100 + }, + { + "epoch": 85.62666666666667, + "grad_norm": 0.275390625, + "learning_rate": 0.000298685369054095, + "loss": 0.4502, + "step": 32110 + }, + { + "epoch": 85.65333333333334, + "grad_norm": 0.302734375, + "learning_rate": 0.0002986845383326425, + "loss": 0.4706, + "step": 32120 + }, + { + "epoch": 85.68, + "grad_norm": 0.2236328125, + "learning_rate": 0.00029868370734996045, + "loss": 0.4617, + "step": 32130 + }, + { + "epoch": 85.70666666666666, + "grad_norm": 0.365234375, + "learning_rate": 0.0002986828761060504, + "loss": 0.4619, + "step": 32140 + }, + { + "epoch": 85.73333333333333, + "grad_norm": 0.27734375, + "learning_rate": 0.0002986820446009136, + "loss": 0.4807, + "step": 32150 + }, + { + "epoch": 85.76, + "grad_norm": 0.341796875, + "learning_rate": 0.00029868121283455176, + "loss": 0.4818, + "step": 32160 + }, + { + "epoch": 85.78666666666666, + "grad_norm": 0.2265625, + "learning_rate": 0.0002986803808069662, + "loss": 0.4811, + "step": 32170 + }, + { + "epoch": 85.81333333333333, + "grad_norm": 0.337890625, + "learning_rate": 0.0002986795485181584, + "loss": 0.4663, + "step": 32180 + }, + { + "epoch": 85.84, + "grad_norm": 0.283203125, + "learning_rate": 0.00029867871596812986, + "loss": 0.4723, + "step": 32190 + }, + { + "epoch": 85.86666666666666, + "grad_norm": 0.234375, + "learning_rate": 0.000298677883156882, + "loss": 0.4709, + "step": 32200 + }, + { + "epoch": 85.89333333333333, + "grad_norm": 0.294921875, + "learning_rate": 0.00029867705008441634, + "loss": 0.4625, + "step": 32210 + }, + { + "epoch": 85.92, + "grad_norm": 0.318359375, + "learning_rate": 0.00029867621675073417, + "loss": 0.4726, + "step": 32220 + }, + { + "epoch": 85.94666666666667, + "grad_norm": 0.46875, + "learning_rate": 0.0002986753831558372, + "loss": 0.4655, + "step": 32230 + }, + { + "epoch": 85.97333333333333, + "grad_norm": 0.373046875, + "learning_rate": 0.0002986745492997267, + "loss": 0.4775, + "step": 32240 + }, + { + "epoch": 86.0, + "grad_norm": 0.345703125, + "learning_rate": 0.0002986737151824043, + "loss": 0.4658, + "step": 32250 + }, + { + "epoch": 86.0, + "eval_loss": 0.48104819655418396, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.7417, + "eval_samples_per_second": 1.49, + "eval_steps_per_second": 0.093, + "step": 32250 + }, + { + "epoch": 86.02666666666667, + "grad_norm": 0.423828125, + "learning_rate": 0.0002986728808038713, + "loss": 0.4851, + "step": 32260 + }, + { + "epoch": 86.05333333333333, + "grad_norm": 0.36328125, + "learning_rate": 0.0002986720461641293, + "loss": 0.491, + "step": 32270 + }, + { + "epoch": 86.08, + "grad_norm": 0.2734375, + "learning_rate": 0.00029867121126317967, + "loss": 0.4782, + "step": 32280 + }, + { + "epoch": 86.10666666666667, + "grad_norm": 0.265625, + "learning_rate": 0.000298670376101024, + "loss": 0.4731, + "step": 32290 + }, + { + "epoch": 86.13333333333334, + "grad_norm": 0.3203125, + "learning_rate": 0.00029866954067766355, + "loss": 0.4752, + "step": 32300 + }, + { + "epoch": 86.16, + "grad_norm": 0.2890625, + "learning_rate": 0.0002986687049931, + "loss": 0.4786, + "step": 32310 + }, + { + "epoch": 86.18666666666667, + "grad_norm": 0.279296875, + "learning_rate": 0.0002986678690473347, + "loss": 0.4708, + "step": 32320 + }, + { + "epoch": 86.21333333333334, + "grad_norm": 0.27734375, + "learning_rate": 0.00029866703284036917, + "loss": 0.4655, + "step": 32330 + }, + { + "epoch": 86.24, + "grad_norm": 0.283203125, + "learning_rate": 0.00029866619637220485, + "loss": 0.47, + "step": 32340 + }, + { + "epoch": 86.26666666666667, + "grad_norm": 0.2294921875, + "learning_rate": 0.0002986653596428432, + "loss": 0.4741, + "step": 32350 + }, + { + "epoch": 86.29333333333334, + "grad_norm": 0.2119140625, + "learning_rate": 0.00029866452265228573, + "loss": 0.4685, + "step": 32360 + }, + { + "epoch": 86.32, + "grad_norm": 0.26171875, + "learning_rate": 0.0002986636854005339, + "loss": 0.4712, + "step": 32370 + }, + { + "epoch": 86.34666666666666, + "grad_norm": 0.2890625, + "learning_rate": 0.0002986628478875892, + "loss": 0.4796, + "step": 32380 + }, + { + "epoch": 86.37333333333333, + "grad_norm": 0.27734375, + "learning_rate": 0.000298662010113453, + "loss": 0.4762, + "step": 32390 + }, + { + "epoch": 86.4, + "grad_norm": 0.2431640625, + "learning_rate": 0.0002986611720781269, + "loss": 0.4724, + "step": 32400 + }, + { + "epoch": 86.42666666666666, + "grad_norm": 0.28515625, + "learning_rate": 0.0002986603337816123, + "loss": 0.4788, + "step": 32410 + }, + { + "epoch": 86.45333333333333, + "grad_norm": 0.43359375, + "learning_rate": 0.00029865949522391065, + "loss": 0.4804, + "step": 32420 + }, + { + "epoch": 86.48, + "grad_norm": 0.29296875, + "learning_rate": 0.00029865865640502353, + "loss": 0.4869, + "step": 32430 + }, + { + "epoch": 86.50666666666666, + "grad_norm": 0.306640625, + "learning_rate": 0.00029865781732495226, + "loss": 0.4764, + "step": 32440 + }, + { + "epoch": 86.53333333333333, + "grad_norm": 0.365234375, + "learning_rate": 0.0002986569779836985, + "loss": 0.4705, + "step": 32450 + }, + { + "epoch": 86.56, + "grad_norm": 0.38671875, + "learning_rate": 0.00029865613838126354, + "loss": 0.4715, + "step": 32460 + }, + { + "epoch": 86.58666666666667, + "grad_norm": 0.306640625, + "learning_rate": 0.000298655298517649, + "loss": 0.467, + "step": 32470 + }, + { + "epoch": 86.61333333333333, + "grad_norm": 0.3046875, + "learning_rate": 0.0002986544583928563, + "loss": 0.4536, + "step": 32480 + }, + { + "epoch": 86.64, + "grad_norm": 0.259765625, + "learning_rate": 0.0002986536180068869, + "loss": 0.4579, + "step": 32490 + }, + { + "epoch": 86.66666666666667, + "grad_norm": 0.470703125, + "learning_rate": 0.0002986527773597422, + "loss": 0.4735, + "step": 32500 + }, + { + "epoch": 86.69333333333333, + "grad_norm": 0.3046875, + "learning_rate": 0.0002986519364514239, + "loss": 0.4572, + "step": 32510 + }, + { + "epoch": 86.72, + "grad_norm": 0.3125, + "learning_rate": 0.00029865109528193326, + "loss": 0.4737, + "step": 32520 + }, + { + "epoch": 86.74666666666667, + "grad_norm": 0.306640625, + "learning_rate": 0.00029865025385127184, + "loss": 0.4781, + "step": 32530 + }, + { + "epoch": 86.77333333333333, + "grad_norm": 0.384765625, + "learning_rate": 0.0002986494121594412, + "loss": 0.4864, + "step": 32540 + }, + { + "epoch": 86.8, + "grad_norm": 0.3203125, + "learning_rate": 0.00029864857020644265, + "loss": 0.4727, + "step": 32550 + }, + { + "epoch": 86.82666666666667, + "grad_norm": 0.29296875, + "learning_rate": 0.0002986477279922778, + "loss": 0.4676, + "step": 32560 + }, + { + "epoch": 86.85333333333334, + "grad_norm": 0.30859375, + "learning_rate": 0.0002986468855169481, + "loss": 0.4765, + "step": 32570 + }, + { + "epoch": 86.88, + "grad_norm": 0.267578125, + "learning_rate": 0.000298646042780455, + "loss": 0.4636, + "step": 32580 + }, + { + "epoch": 86.90666666666667, + "grad_norm": 0.357421875, + "learning_rate": 0.0002986451997828, + "loss": 0.4672, + "step": 32590 + }, + { + "epoch": 86.93333333333334, + "grad_norm": 0.283203125, + "learning_rate": 0.0002986443565239845, + "loss": 0.4687, + "step": 32600 + }, + { + "epoch": 86.96, + "grad_norm": 0.392578125, + "learning_rate": 0.00029864351300401017, + "loss": 0.466, + "step": 32610 + }, + { + "epoch": 86.98666666666666, + "grad_norm": 0.337890625, + "learning_rate": 0.00029864266922287834, + "loss": 0.4798, + "step": 32620 + }, + { + "epoch": 87.0, + "eval_loss": 0.4798685312271118, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.9855, + "eval_samples_per_second": 1.602, + "eval_steps_per_second": 0.1, + "step": 32625 + }, + { + "epoch": 87.01333333333334, + "grad_norm": 0.22265625, + "learning_rate": 0.00029864182518059057, + "loss": 0.4695, + "step": 32630 + }, + { + "epoch": 87.04, + "grad_norm": 0.322265625, + "learning_rate": 0.00029864098087714825, + "loss": 0.4932, + "step": 32640 + }, + { + "epoch": 87.06666666666666, + "grad_norm": 0.3671875, + "learning_rate": 0.00029864013631255296, + "loss": 0.4814, + "step": 32650 + }, + { + "epoch": 87.09333333333333, + "grad_norm": 0.3203125, + "learning_rate": 0.00029863929148680617, + "loss": 0.4764, + "step": 32660 + }, + { + "epoch": 87.12, + "grad_norm": 0.34765625, + "learning_rate": 0.0002986384463999093, + "loss": 0.4726, + "step": 32670 + }, + { + "epoch": 87.14666666666666, + "grad_norm": 0.279296875, + "learning_rate": 0.00029863760105186386, + "loss": 0.4808, + "step": 32680 + }, + { + "epoch": 87.17333333333333, + "grad_norm": 0.24609375, + "learning_rate": 0.00029863675544267133, + "loss": 0.4709, + "step": 32690 + }, + { + "epoch": 87.2, + "grad_norm": 0.302734375, + "learning_rate": 0.00029863590957233325, + "loss": 0.4694, + "step": 32700 + }, + { + "epoch": 87.22666666666667, + "grad_norm": 0.26953125, + "learning_rate": 0.0002986350634408511, + "loss": 0.4674, + "step": 32710 + }, + { + "epoch": 87.25333333333333, + "grad_norm": 0.3046875, + "learning_rate": 0.00029863421704822633, + "loss": 0.4673, + "step": 32720 + }, + { + "epoch": 87.28, + "grad_norm": 0.35546875, + "learning_rate": 0.00029863337039446035, + "loss": 0.4809, + "step": 32730 + }, + { + "epoch": 87.30666666666667, + "grad_norm": 0.28125, + "learning_rate": 0.00029863252347955485, + "loss": 0.462, + "step": 32740 + }, + { + "epoch": 87.33333333333333, + "grad_norm": 0.2578125, + "learning_rate": 0.0002986316763035112, + "loss": 0.4772, + "step": 32750 + }, + { + "epoch": 87.36, + "grad_norm": 0.2490234375, + "learning_rate": 0.0002986308288663308, + "loss": 0.4793, + "step": 32760 + }, + { + "epoch": 87.38666666666667, + "grad_norm": 0.3359375, + "learning_rate": 0.0002986299811680153, + "loss": 0.4715, + "step": 32770 + }, + { + "epoch": 87.41333333333333, + "grad_norm": 0.322265625, + "learning_rate": 0.00029862913320856605, + "loss": 0.4755, + "step": 32780 + }, + { + "epoch": 87.44, + "grad_norm": 0.333984375, + "learning_rate": 0.00029862828498798466, + "loss": 0.4785, + "step": 32790 + }, + { + "epoch": 87.46666666666667, + "grad_norm": 0.404296875, + "learning_rate": 0.0002986274365062725, + "loss": 0.4883, + "step": 32800 + }, + { + "epoch": 87.49333333333334, + "grad_norm": 0.369140625, + "learning_rate": 0.0002986265877634312, + "loss": 0.4802, + "step": 32810 + }, + { + "epoch": 87.52, + "grad_norm": 0.408203125, + "learning_rate": 0.00029862573875946214, + "loss": 0.4742, + "step": 32820 + }, + { + "epoch": 87.54666666666667, + "grad_norm": 0.349609375, + "learning_rate": 0.00029862488949436694, + "loss": 0.4708, + "step": 32830 + }, + { + "epoch": 87.57333333333334, + "grad_norm": 0.298828125, + "learning_rate": 0.0002986240399681469, + "loss": 0.4696, + "step": 32840 + }, + { + "epoch": 87.6, + "grad_norm": 0.3046875, + "learning_rate": 0.00029862319018080364, + "loss": 0.4636, + "step": 32850 + }, + { + "epoch": 87.62666666666667, + "grad_norm": 0.2470703125, + "learning_rate": 0.00029862234013233865, + "loss": 0.451, + "step": 32860 + }, + { + "epoch": 87.65333333333334, + "grad_norm": 0.255859375, + "learning_rate": 0.0002986214898227534, + "loss": 0.4692, + "step": 32870 + }, + { + "epoch": 87.68, + "grad_norm": 0.283203125, + "learning_rate": 0.00029862063925204934, + "loss": 0.4608, + "step": 32880 + }, + { + "epoch": 87.70666666666666, + "grad_norm": 0.306640625, + "learning_rate": 0.000298619788420228, + "loss": 0.462, + "step": 32890 + }, + { + "epoch": 87.73333333333333, + "grad_norm": 0.349609375, + "learning_rate": 0.000298618937327291, + "loss": 0.4811, + "step": 32900 + }, + { + "epoch": 87.76, + "grad_norm": 0.2890625, + "learning_rate": 0.0002986180859732396, + "loss": 0.4822, + "step": 32910 + }, + { + "epoch": 87.78666666666666, + "grad_norm": 0.48828125, + "learning_rate": 0.00029861723435807547, + "loss": 0.4806, + "step": 32920 + }, + { + "epoch": 87.81333333333333, + "grad_norm": 0.43359375, + "learning_rate": 0.00029861638248180006, + "loss": 0.4659, + "step": 32930 + }, + { + "epoch": 87.84, + "grad_norm": 0.337890625, + "learning_rate": 0.00029861553034441483, + "loss": 0.4715, + "step": 32940 + }, + { + "epoch": 87.86666666666666, + "grad_norm": 0.328125, + "learning_rate": 0.0002986146779459213, + "loss": 0.4707, + "step": 32950 + }, + { + "epoch": 87.89333333333333, + "grad_norm": 0.291015625, + "learning_rate": 0.00029861382528632103, + "loss": 0.4624, + "step": 32960 + }, + { + "epoch": 87.92, + "grad_norm": 0.341796875, + "learning_rate": 0.00029861297236561545, + "loss": 0.4724, + "step": 32970 + }, + { + "epoch": 87.94666666666667, + "grad_norm": 0.208984375, + "learning_rate": 0.000298612119183806, + "loss": 0.465, + "step": 32980 + }, + { + "epoch": 87.97333333333333, + "grad_norm": 0.302734375, + "learning_rate": 0.0002986112657408943, + "loss": 0.4768, + "step": 32990 + }, + { + "epoch": 88.0, + "grad_norm": 0.203125, + "learning_rate": 0.0002986104120368818, + "loss": 0.4652, + "step": 33000 + }, + { + "epoch": 88.0, + "eval_loss": 0.4803306758403778, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.9873, + "eval_samples_per_second": 1.602, + "eval_steps_per_second": 0.1, + "step": 33000 + }, + { + "epoch": 88.02666666666667, + "grad_norm": 0.40234375, + "learning_rate": 0.00029860955807177003, + "loss": 0.4856, + "step": 33010 + }, + { + "epoch": 88.05333333333333, + "grad_norm": 0.25, + "learning_rate": 0.0002986087038455604, + "loss": 0.4915, + "step": 33020 + }, + { + "epoch": 88.08, + "grad_norm": 0.22265625, + "learning_rate": 0.0002986078493582545, + "loss": 0.4781, + "step": 33030 + }, + { + "epoch": 88.10666666666667, + "grad_norm": 0.2314453125, + "learning_rate": 0.0002986069946098538, + "loss": 0.4728, + "step": 33040 + }, + { + "epoch": 88.13333333333334, + "grad_norm": 0.349609375, + "learning_rate": 0.0002986061396003598, + "loss": 0.4753, + "step": 33050 + }, + { + "epoch": 88.16, + "grad_norm": 0.279296875, + "learning_rate": 0.00029860528432977404, + "loss": 0.4796, + "step": 33060 + }, + { + "epoch": 88.18666666666667, + "grad_norm": 0.2314453125, + "learning_rate": 0.00029860442879809794, + "loss": 0.471, + "step": 33070 + }, + { + "epoch": 88.21333333333334, + "grad_norm": 0.3046875, + "learning_rate": 0.00029860357300533306, + "loss": 0.4663, + "step": 33080 + }, + { + "epoch": 88.24, + "grad_norm": 0.263671875, + "learning_rate": 0.0002986027169514809, + "loss": 0.4697, + "step": 33090 + }, + { + "epoch": 88.26666666666667, + "grad_norm": 0.373046875, + "learning_rate": 0.00029860186063654294, + "loss": 0.4741, + "step": 33100 + }, + { + "epoch": 88.29333333333334, + "grad_norm": 0.306640625, + "learning_rate": 0.0002986010040605207, + "loss": 0.468, + "step": 33110 + }, + { + "epoch": 88.32, + "grad_norm": 0.33203125, + "learning_rate": 0.00029860014722341574, + "loss": 0.4711, + "step": 33120 + }, + { + "epoch": 88.34666666666666, + "grad_norm": 0.326171875, + "learning_rate": 0.0002985992901252295, + "loss": 0.4801, + "step": 33130 + }, + { + "epoch": 88.37333333333333, + "grad_norm": 0.392578125, + "learning_rate": 0.0002985984327659635, + "loss": 0.4761, + "step": 33140 + }, + { + "epoch": 88.4, + "grad_norm": 0.5546875, + "learning_rate": 0.00029859757514561923, + "loss": 0.4725, + "step": 33150 + }, + { + "epoch": 88.42666666666666, + "grad_norm": 0.32421875, + "learning_rate": 0.0002985967172641982, + "loss": 0.4788, + "step": 33160 + }, + { + "epoch": 88.45333333333333, + "grad_norm": 0.46875, + "learning_rate": 0.0002985958591217019, + "loss": 0.4807, + "step": 33170 + }, + { + "epoch": 88.48, + "grad_norm": 0.322265625, + "learning_rate": 0.0002985950007181319, + "loss": 0.4867, + "step": 33180 + }, + { + "epoch": 88.50666666666666, + "grad_norm": 0.275390625, + "learning_rate": 0.00029859414205348975, + "loss": 0.4763, + "step": 33190 + }, + { + "epoch": 88.53333333333333, + "grad_norm": 0.23828125, + "learning_rate": 0.00029859328312777675, + "loss": 0.4701, + "step": 33200 + }, + { + "epoch": 88.56, + "grad_norm": 0.263671875, + "learning_rate": 0.00029859242394099464, + "loss": 0.4712, + "step": 33210 + }, + { + "epoch": 88.58666666666667, + "grad_norm": 0.3125, + "learning_rate": 0.00029859156449314484, + "loss": 0.4678, + "step": 33220 + }, + { + "epoch": 88.61333333333333, + "grad_norm": 0.26953125, + "learning_rate": 0.00029859070478422875, + "loss": 0.4534, + "step": 33230 + }, + { + "epoch": 88.64, + "grad_norm": 0.26171875, + "learning_rate": 0.00029858984481424805, + "loss": 0.4579, + "step": 33240 + }, + { + "epoch": 88.66666666666667, + "grad_norm": 0.310546875, + "learning_rate": 0.0002985889845832042, + "loss": 0.4737, + "step": 33250 + }, + { + "epoch": 88.69333333333333, + "grad_norm": 0.2734375, + "learning_rate": 0.0002985881240910987, + "loss": 0.4564, + "step": 33260 + }, + { + "epoch": 88.72, + "grad_norm": 0.283203125, + "learning_rate": 0.00029858726333793306, + "loss": 0.4737, + "step": 33270 + }, + { + "epoch": 88.74666666666667, + "grad_norm": 0.2138671875, + "learning_rate": 0.00029858640232370874, + "loss": 0.4786, + "step": 33280 + }, + { + "epoch": 88.77333333333333, + "grad_norm": 0.326171875, + "learning_rate": 0.00029858554104842733, + "loss": 0.4854, + "step": 33290 + }, + { + "epoch": 88.8, + "grad_norm": 0.26171875, + "learning_rate": 0.0002985846795120903, + "loss": 0.4718, + "step": 33300 + }, + { + "epoch": 88.82666666666667, + "grad_norm": 0.306640625, + "learning_rate": 0.0002985838177146992, + "loss": 0.4665, + "step": 33310 + }, + { + "epoch": 88.85333333333334, + "grad_norm": 0.263671875, + "learning_rate": 0.00029858295565625555, + "loss": 0.4757, + "step": 33320 + }, + { + "epoch": 88.88, + "grad_norm": 0.265625, + "learning_rate": 0.0002985820933367608, + "loss": 0.4638, + "step": 33330 + }, + { + "epoch": 88.90666666666667, + "grad_norm": 0.42578125, + "learning_rate": 0.00029858123075621656, + "loss": 0.4667, + "step": 33340 + }, + { + "epoch": 88.93333333333334, + "grad_norm": 0.28515625, + "learning_rate": 0.00029858036791462417, + "loss": 0.4678, + "step": 33350 + }, + { + "epoch": 88.96, + "grad_norm": 0.326171875, + "learning_rate": 0.0002985795048119854, + "loss": 0.4661, + "step": 33360 + }, + { + "epoch": 88.98666666666666, + "grad_norm": 0.244140625, + "learning_rate": 0.0002985786414483015, + "loss": 0.4806, + "step": 33370 + }, + { + "epoch": 89.0, + "eval_loss": 0.48046040534973145, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 11.5105, + "eval_samples_per_second": 1.39, + "eval_steps_per_second": 0.087, + "step": 33375 + }, + { + "epoch": 89.01333333333334, + "grad_norm": 0.244140625, + "learning_rate": 0.00029857777782357417, + "loss": 0.4689, + "step": 33380 + }, + { + "epoch": 89.04, + "grad_norm": 0.267578125, + "learning_rate": 0.00029857691393780493, + "loss": 0.4924, + "step": 33390 + }, + { + "epoch": 89.06666666666666, + "grad_norm": 0.357421875, + "learning_rate": 0.0002985760497909952, + "loss": 0.4813, + "step": 33400 + }, + { + "epoch": 89.09333333333333, + "grad_norm": 0.361328125, + "learning_rate": 0.00029857518538314653, + "loss": 0.4757, + "step": 33410 + }, + { + "epoch": 89.12, + "grad_norm": 0.333984375, + "learning_rate": 0.00029857432071426045, + "loss": 0.4715, + "step": 33420 + }, + { + "epoch": 89.14666666666666, + "grad_norm": 0.353515625, + "learning_rate": 0.0002985734557843385, + "loss": 0.4811, + "step": 33430 + }, + { + "epoch": 89.17333333333333, + "grad_norm": 0.314453125, + "learning_rate": 0.00029857259059338224, + "loss": 0.472, + "step": 33440 + }, + { + "epoch": 89.2, + "grad_norm": 0.29296875, + "learning_rate": 0.00029857172514139303, + "loss": 0.47, + "step": 33450 + }, + { + "epoch": 89.22666666666667, + "grad_norm": 0.40625, + "learning_rate": 0.0002985708594283725, + "loss": 0.4672, + "step": 33460 + }, + { + "epoch": 89.25333333333333, + "grad_norm": 0.380859375, + "learning_rate": 0.0002985699934543222, + "loss": 0.4681, + "step": 33470 + }, + { + "epoch": 89.28, + "grad_norm": 0.361328125, + "learning_rate": 0.00029856912721924354, + "loss": 0.4815, + "step": 33480 + }, + { + "epoch": 89.30666666666667, + "grad_norm": 0.263671875, + "learning_rate": 0.0002985682607231382, + "loss": 0.4625, + "step": 33490 + }, + { + "epoch": 89.33333333333333, + "grad_norm": 0.23046875, + "learning_rate": 0.0002985673939660076, + "loss": 0.4775, + "step": 33500 + }, + { + "epoch": 89.36, + "grad_norm": 0.2578125, + "learning_rate": 0.00029856652694785325, + "loss": 0.4799, + "step": 33510 + }, + { + "epoch": 89.38666666666667, + "grad_norm": 0.259765625, + "learning_rate": 0.0002985656596686767, + "loss": 0.4709, + "step": 33520 + }, + { + "epoch": 89.41333333333333, + "grad_norm": 0.314453125, + "learning_rate": 0.0002985647921284795, + "loss": 0.4756, + "step": 33530 + }, + { + "epoch": 89.44, + "grad_norm": 0.306640625, + "learning_rate": 0.0002985639243272631, + "loss": 0.4786, + "step": 33540 + }, + { + "epoch": 89.46666666666667, + "grad_norm": 0.2470703125, + "learning_rate": 0.0002985630562650291, + "loss": 0.4879, + "step": 33550 + }, + { + "epoch": 89.49333333333334, + "grad_norm": 0.279296875, + "learning_rate": 0.00029856218794177905, + "loss": 0.4795, + "step": 33560 + }, + { + "epoch": 89.52, + "grad_norm": 0.365234375, + "learning_rate": 0.00029856131935751437, + "loss": 0.4736, + "step": 33570 + }, + { + "epoch": 89.54666666666667, + "grad_norm": 0.2470703125, + "learning_rate": 0.0002985604505122367, + "loss": 0.4702, + "step": 33580 + }, + { + "epoch": 89.57333333333334, + "grad_norm": 0.29296875, + "learning_rate": 0.0002985595814059474, + "loss": 0.4695, + "step": 33590 + }, + { + "epoch": 89.6, + "grad_norm": 0.314453125, + "learning_rate": 0.00029855871203864824, + "loss": 0.4631, + "step": 33600 + }, + { + "epoch": 89.62666666666667, + "grad_norm": 0.3046875, + "learning_rate": 0.0002985578424103405, + "loss": 0.4506, + "step": 33610 + }, + { + "epoch": 89.65333333333334, + "grad_norm": 0.255859375, + "learning_rate": 0.0002985569725210259, + "loss": 0.4697, + "step": 33620 + }, + { + "epoch": 89.68, + "grad_norm": 0.28125, + "learning_rate": 0.00029855610237070583, + "loss": 0.4623, + "step": 33630 + }, + { + "epoch": 89.70666666666666, + "grad_norm": 0.423828125, + "learning_rate": 0.0002985552319593819, + "loss": 0.4619, + "step": 33640 + }, + { + "epoch": 89.73333333333333, + "grad_norm": 0.287109375, + "learning_rate": 0.00029855436128705564, + "loss": 0.4804, + "step": 33650 + }, + { + "epoch": 89.76, + "grad_norm": 0.287109375, + "learning_rate": 0.00029855349035372855, + "loss": 0.4822, + "step": 33660 + }, + { + "epoch": 89.78666666666666, + "grad_norm": 0.287109375, + "learning_rate": 0.0002985526191594022, + "loss": 0.4807, + "step": 33670 + }, + { + "epoch": 89.81333333333333, + "grad_norm": 0.48828125, + "learning_rate": 0.000298551747704078, + "loss": 0.4661, + "step": 33680 + }, + { + "epoch": 89.84, + "grad_norm": 0.341796875, + "learning_rate": 0.0002985508759877576, + "loss": 0.4711, + "step": 33690 + }, + { + "epoch": 89.86666666666666, + "grad_norm": 0.3515625, + "learning_rate": 0.0002985500040104425, + "loss": 0.4707, + "step": 33700 + }, + { + "epoch": 89.89333333333333, + "grad_norm": 0.333984375, + "learning_rate": 0.0002985491317721343, + "loss": 0.4621, + "step": 33710 + }, + { + "epoch": 89.92, + "grad_norm": 0.3828125, + "learning_rate": 0.00029854825927283436, + "loss": 0.4728, + "step": 33720 + }, + { + "epoch": 89.94666666666667, + "grad_norm": 0.28515625, + "learning_rate": 0.0002985473865125444, + "loss": 0.4649, + "step": 33730 + }, + { + "epoch": 89.97333333333333, + "grad_norm": 0.302734375, + "learning_rate": 0.0002985465134912658, + "loss": 0.476, + "step": 33740 + }, + { + "epoch": 90.0, + "grad_norm": 0.357421875, + "learning_rate": 0.00029854564020900023, + "loss": 0.465, + "step": 33750 + }, + { + "epoch": 90.0, + "eval_loss": 0.47980237007141113, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.8873, + "eval_samples_per_second": 1.618, + "eval_steps_per_second": 0.101, + "step": 33750 + }, + { + "epoch": 90.02666666666667, + "grad_norm": 0.361328125, + "learning_rate": 0.0002985447666657491, + "loss": 0.485, + "step": 33760 + }, + { + "epoch": 90.05333333333333, + "grad_norm": 0.337890625, + "learning_rate": 0.00029854389286151407, + "loss": 0.4917, + "step": 33770 + }, + { + "epoch": 90.08, + "grad_norm": 0.345703125, + "learning_rate": 0.0002985430187962965, + "loss": 0.4785, + "step": 33780 + }, + { + "epoch": 90.10666666666667, + "grad_norm": 0.244140625, + "learning_rate": 0.00029854214447009816, + "loss": 0.4731, + "step": 33790 + }, + { + "epoch": 90.13333333333334, + "grad_norm": 0.306640625, + "learning_rate": 0.0002985412698829204, + "loss": 0.474, + "step": 33800 + }, + { + "epoch": 90.16, + "grad_norm": 0.376953125, + "learning_rate": 0.00029854039503476485, + "loss": 0.4788, + "step": 33810 + }, + { + "epoch": 90.18666666666667, + "grad_norm": 0.31640625, + "learning_rate": 0.000298539519925633, + "loss": 0.4712, + "step": 33820 + }, + { + "epoch": 90.21333333333334, + "grad_norm": 0.359375, + "learning_rate": 0.00029853864455552635, + "loss": 0.4662, + "step": 33830 + }, + { + "epoch": 90.24, + "grad_norm": 0.326171875, + "learning_rate": 0.00029853776892444655, + "loss": 0.4693, + "step": 33840 + }, + { + "epoch": 90.26666666666667, + "grad_norm": 0.33203125, + "learning_rate": 0.00029853689303239507, + "loss": 0.474, + "step": 33850 + }, + { + "epoch": 90.29333333333334, + "grad_norm": 0.2890625, + "learning_rate": 0.0002985360168793734, + "loss": 0.4683, + "step": 33860 + }, + { + "epoch": 90.32, + "grad_norm": 0.25390625, + "learning_rate": 0.00029853514046538325, + "loss": 0.472, + "step": 33870 + }, + { + "epoch": 90.34666666666666, + "grad_norm": 0.30078125, + "learning_rate": 0.00029853426379042596, + "loss": 0.4796, + "step": 33880 + }, + { + "epoch": 90.37333333333333, + "grad_norm": 0.29296875, + "learning_rate": 0.0002985333868545032, + "loss": 0.476, + "step": 33890 + }, + { + "epoch": 90.4, + "grad_norm": 0.220703125, + "learning_rate": 0.0002985325096576164, + "loss": 0.4725, + "step": 33900 + }, + { + "epoch": 90.42666666666666, + "grad_norm": 0.30078125, + "learning_rate": 0.0002985316321997672, + "loss": 0.4783, + "step": 33910 + }, + { + "epoch": 90.45333333333333, + "grad_norm": 0.35546875, + "learning_rate": 0.0002985307544809571, + "loss": 0.4805, + "step": 33920 + }, + { + "epoch": 90.48, + "grad_norm": 0.306640625, + "learning_rate": 0.0002985298765011877, + "loss": 0.4873, + "step": 33930 + }, + { + "epoch": 90.50666666666666, + "grad_norm": 0.21484375, + "learning_rate": 0.00029852899826046046, + "loss": 0.4763, + "step": 33940 + }, + { + "epoch": 90.53333333333333, + "grad_norm": 0.26953125, + "learning_rate": 0.000298528119758777, + "loss": 0.4701, + "step": 33950 + }, + { + "epoch": 90.56, + "grad_norm": 0.2578125, + "learning_rate": 0.00029852724099613877, + "loss": 0.4713, + "step": 33960 + }, + { + "epoch": 90.58666666666667, + "grad_norm": 0.5390625, + "learning_rate": 0.0002985263619725474, + "loss": 0.4675, + "step": 33970 + }, + { + "epoch": 90.61333333333333, + "grad_norm": 0.32421875, + "learning_rate": 0.0002985254826880044, + "loss": 0.4533, + "step": 33980 + }, + { + "epoch": 90.64, + "grad_norm": 0.279296875, + "learning_rate": 0.0002985246031425113, + "loss": 0.4584, + "step": 33990 + }, + { + "epoch": 90.66666666666667, + "grad_norm": 0.2734375, + "learning_rate": 0.00029852372333606967, + "loss": 0.4738, + "step": 34000 + }, + { + "epoch": 90.69333333333333, + "grad_norm": 0.25, + "learning_rate": 0.000298522843268681, + "loss": 0.4567, + "step": 34010 + }, + { + "epoch": 90.72, + "grad_norm": 0.2412109375, + "learning_rate": 0.0002985219629403469, + "loss": 0.4737, + "step": 34020 + }, + { + "epoch": 90.74666666666667, + "grad_norm": 0.2734375, + "learning_rate": 0.00029852108235106894, + "loss": 0.4777, + "step": 34030 + }, + { + "epoch": 90.77333333333333, + "grad_norm": 0.28515625, + "learning_rate": 0.0002985202015008486, + "loss": 0.4856, + "step": 34040 + }, + { + "epoch": 90.8, + "grad_norm": 0.314453125, + "learning_rate": 0.00029851932038968746, + "loss": 0.4718, + "step": 34050 + }, + { + "epoch": 90.82666666666667, + "grad_norm": 0.35546875, + "learning_rate": 0.0002985184390175871, + "loss": 0.4672, + "step": 34060 + }, + { + "epoch": 90.85333333333334, + "grad_norm": 0.474609375, + "learning_rate": 0.000298517557384549, + "loss": 0.4761, + "step": 34070 + }, + { + "epoch": 90.88, + "grad_norm": 0.375, + "learning_rate": 0.00029851667549057463, + "loss": 0.4638, + "step": 34080 + }, + { + "epoch": 90.90666666666667, + "grad_norm": 0.30078125, + "learning_rate": 0.0002985157933356658, + "loss": 0.4665, + "step": 34090 + }, + { + "epoch": 90.93333333333334, + "grad_norm": 0.318359375, + "learning_rate": 0.00029851491091982383, + "loss": 0.468, + "step": 34100 + }, + { + "epoch": 90.96, + "grad_norm": 0.341796875, + "learning_rate": 0.0002985140282430504, + "loss": 0.4657, + "step": 34110 + }, + { + "epoch": 90.98666666666666, + "grad_norm": 0.3515625, + "learning_rate": 0.00029851314530534694, + "loss": 0.48, + "step": 34120 + }, + { + "epoch": 91.0, + "eval_loss": 0.4798223376274109, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.5524, + "eval_samples_per_second": 1.516, + "eval_steps_per_second": 0.095, + "step": 34125 + }, + { + "epoch": 91.01333333333334, + "grad_norm": 0.34765625, + "learning_rate": 0.0002985122621067151, + "loss": 0.4693, + "step": 34130 + }, + { + "epoch": 91.04, + "grad_norm": 0.412109375, + "learning_rate": 0.00029851137864715644, + "loss": 0.4938, + "step": 34140 + }, + { + "epoch": 91.06666666666666, + "grad_norm": 0.42578125, + "learning_rate": 0.00029851049492667244, + "loss": 0.4816, + "step": 34150 + }, + { + "epoch": 91.09333333333333, + "grad_norm": 0.248046875, + "learning_rate": 0.0002985096109452647, + "loss": 0.4753, + "step": 34160 + }, + { + "epoch": 91.12, + "grad_norm": 0.298828125, + "learning_rate": 0.00029850872670293476, + "loss": 0.4715, + "step": 34170 + }, + { + "epoch": 91.14666666666666, + "grad_norm": 0.341796875, + "learning_rate": 0.0002985078421996841, + "loss": 0.4809, + "step": 34180 + }, + { + "epoch": 91.17333333333333, + "grad_norm": 0.271484375, + "learning_rate": 0.0002985069574355145, + "loss": 0.4713, + "step": 34190 + }, + { + "epoch": 91.2, + "grad_norm": 0.265625, + "learning_rate": 0.00029850607241042724, + "loss": 0.4694, + "step": 34200 + }, + { + "epoch": 91.22666666666667, + "grad_norm": 0.279296875, + "learning_rate": 0.00029850518712442404, + "loss": 0.4676, + "step": 34210 + }, + { + "epoch": 91.25333333333333, + "grad_norm": 0.220703125, + "learning_rate": 0.0002985043015775064, + "loss": 0.4666, + "step": 34220 + }, + { + "epoch": 91.28, + "grad_norm": 0.37890625, + "learning_rate": 0.0002985034157696759, + "loss": 0.4807, + "step": 34230 + }, + { + "epoch": 91.30666666666667, + "grad_norm": 0.376953125, + "learning_rate": 0.00029850252970093407, + "loss": 0.4618, + "step": 34240 + }, + { + "epoch": 91.33333333333333, + "grad_norm": 0.30859375, + "learning_rate": 0.00029850164337128247, + "loss": 0.4774, + "step": 34250 + }, + { + "epoch": 91.36, + "grad_norm": 0.3046875, + "learning_rate": 0.0002985007567807227, + "loss": 0.4795, + "step": 34260 + }, + { + "epoch": 91.38666666666667, + "grad_norm": 0.375, + "learning_rate": 0.0002984998699292563, + "loss": 0.4714, + "step": 34270 + }, + { + "epoch": 91.41333333333333, + "grad_norm": 0.5234375, + "learning_rate": 0.0002984989828168848, + "loss": 0.4753, + "step": 34280 + }, + { + "epoch": 91.44, + "grad_norm": 0.31640625, + "learning_rate": 0.00029849809544360974, + "loss": 0.4789, + "step": 34290 + }, + { + "epoch": 91.46666666666667, + "grad_norm": 0.271484375, + "learning_rate": 0.00029849720780943275, + "loss": 0.4875, + "step": 34300 + }, + { + "epoch": 91.49333333333334, + "grad_norm": 0.4140625, + "learning_rate": 0.0002984963199143553, + "loss": 0.4795, + "step": 34310 + }, + { + "epoch": 91.52, + "grad_norm": 0.2216796875, + "learning_rate": 0.00029849543175837907, + "loss": 0.4733, + "step": 34320 + }, + { + "epoch": 91.54666666666667, + "grad_norm": 0.26171875, + "learning_rate": 0.00029849454334150553, + "loss": 0.4702, + "step": 34330 + }, + { + "epoch": 91.57333333333334, + "grad_norm": 0.2099609375, + "learning_rate": 0.00029849365466373624, + "loss": 0.4698, + "step": 34340 + }, + { + "epoch": 91.6, + "grad_norm": 0.294921875, + "learning_rate": 0.00029849276572507284, + "loss": 0.4632, + "step": 34350 + }, + { + "epoch": 91.62666666666667, + "grad_norm": 0.23828125, + "learning_rate": 0.0002984918765255168, + "loss": 0.4502, + "step": 34360 + }, + { + "epoch": 91.65333333333334, + "grad_norm": 0.388671875, + "learning_rate": 0.0002984909870650697, + "loss": 0.4697, + "step": 34370 + }, + { + "epoch": 91.68, + "grad_norm": 0.271484375, + "learning_rate": 0.00029849009734373317, + "loss": 0.4613, + "step": 34380 + }, + { + "epoch": 91.70666666666666, + "grad_norm": 0.29296875, + "learning_rate": 0.00029848920736150864, + "loss": 0.462, + "step": 34390 + }, + { + "epoch": 91.73333333333333, + "grad_norm": 0.2265625, + "learning_rate": 0.0002984883171183978, + "loss": 0.4806, + "step": 34400 + }, + { + "epoch": 91.76, + "grad_norm": 0.458984375, + "learning_rate": 0.0002984874266144022, + "loss": 0.4822, + "step": 34410 + }, + { + "epoch": 91.78666666666666, + "grad_norm": 0.314453125, + "learning_rate": 0.0002984865358495233, + "loss": 0.4804, + "step": 34420 + }, + { + "epoch": 91.81333333333333, + "grad_norm": 0.2578125, + "learning_rate": 0.0002984856448237629, + "loss": 0.4656, + "step": 34430 + }, + { + "epoch": 91.84, + "grad_norm": 0.37890625, + "learning_rate": 0.00029848475353712225, + "loss": 0.4722, + "step": 34440 + }, + { + "epoch": 91.86666666666666, + "grad_norm": 0.34765625, + "learning_rate": 0.0002984838619896031, + "loss": 0.4713, + "step": 34450 + }, + { + "epoch": 91.89333333333333, + "grad_norm": 0.29296875, + "learning_rate": 0.00029848297018120705, + "loss": 0.4615, + "step": 34460 + }, + { + "epoch": 91.92, + "grad_norm": 0.28125, + "learning_rate": 0.00029848207811193557, + "loss": 0.4724, + "step": 34470 + }, + { + "epoch": 91.94666666666667, + "grad_norm": 0.388671875, + "learning_rate": 0.0002984811857817903, + "loss": 0.4649, + "step": 34480 + }, + { + "epoch": 91.97333333333333, + "grad_norm": 0.54296875, + "learning_rate": 0.0002984802931907727, + "loss": 0.4762, + "step": 34490 + }, + { + "epoch": 92.0, + "grad_norm": 0.33203125, + "learning_rate": 0.0002984794003388845, + "loss": 0.4657, + "step": 34500 + }, + { + "epoch": 92.0, + "eval_loss": 0.4802961051464081, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.1935, + "eval_samples_per_second": 1.57, + "eval_steps_per_second": 0.098, + "step": 34500 + }, + { + "epoch": 92.02666666666667, + "grad_norm": 0.275390625, + "learning_rate": 0.0002984785072261271, + "loss": 0.4849, + "step": 34510 + }, + { + "epoch": 92.05333333333333, + "grad_norm": 0.287109375, + "learning_rate": 0.00029847761385250215, + "loss": 0.4904, + "step": 34520 + }, + { + "epoch": 92.08, + "grad_norm": 0.27734375, + "learning_rate": 0.00029847672021801125, + "loss": 0.478, + "step": 34530 + }, + { + "epoch": 92.10666666666667, + "grad_norm": 0.2451171875, + "learning_rate": 0.00029847582632265595, + "loss": 0.4734, + "step": 34540 + }, + { + "epoch": 92.13333333333334, + "grad_norm": 0.322265625, + "learning_rate": 0.0002984749321664378, + "loss": 0.4742, + "step": 34550 + }, + { + "epoch": 92.16, + "grad_norm": 0.28515625, + "learning_rate": 0.00029847403774935834, + "loss": 0.4787, + "step": 34560 + }, + { + "epoch": 92.18666666666667, + "grad_norm": 0.2158203125, + "learning_rate": 0.0002984731430714192, + "loss": 0.4709, + "step": 34570 + }, + { + "epoch": 92.21333333333334, + "grad_norm": 0.275390625, + "learning_rate": 0.00029847224813262196, + "loss": 0.4652, + "step": 34580 + }, + { + "epoch": 92.24, + "grad_norm": 0.337890625, + "learning_rate": 0.00029847135293296814, + "loss": 0.4688, + "step": 34590 + }, + { + "epoch": 92.26666666666667, + "grad_norm": 0.3125, + "learning_rate": 0.00029847045747245934, + "loss": 0.4734, + "step": 34600 + }, + { + "epoch": 92.29333333333334, + "grad_norm": 0.28515625, + "learning_rate": 0.00029846956175109713, + "loss": 0.4675, + "step": 34610 + }, + { + "epoch": 92.32, + "grad_norm": 0.255859375, + "learning_rate": 0.0002984686657688831, + "loss": 0.4719, + "step": 34620 + }, + { + "epoch": 92.34666666666666, + "grad_norm": 0.373046875, + "learning_rate": 0.0002984677695258188, + "loss": 0.4791, + "step": 34630 + }, + { + "epoch": 92.37333333333333, + "grad_norm": 0.294921875, + "learning_rate": 0.0002984668730219058, + "loss": 0.4754, + "step": 34640 + }, + { + "epoch": 92.4, + "grad_norm": 0.275390625, + "learning_rate": 0.0002984659762571457, + "loss": 0.4725, + "step": 34650 + }, + { + "epoch": 92.42666666666666, + "grad_norm": 0.357421875, + "learning_rate": 0.00029846507923154004, + "loss": 0.4782, + "step": 34660 + }, + { + "epoch": 92.45333333333333, + "grad_norm": 0.32421875, + "learning_rate": 0.0002984641819450904, + "loss": 0.4804, + "step": 34670 + }, + { + "epoch": 92.48, + "grad_norm": 0.2470703125, + "learning_rate": 0.00029846328439779845, + "loss": 0.487, + "step": 34680 + }, + { + "epoch": 92.50666666666666, + "grad_norm": 0.3046875, + "learning_rate": 0.00029846238658966565, + "loss": 0.4764, + "step": 34690 + }, + { + "epoch": 92.53333333333333, + "grad_norm": 0.2236328125, + "learning_rate": 0.00029846148852069365, + "loss": 0.4704, + "step": 34700 + }, + { + "epoch": 92.56, + "grad_norm": 0.25390625, + "learning_rate": 0.00029846059019088397, + "loss": 0.4711, + "step": 34710 + }, + { + "epoch": 92.58666666666667, + "grad_norm": 0.375, + "learning_rate": 0.00029845969160023823, + "loss": 0.4668, + "step": 34720 + }, + { + "epoch": 92.61333333333333, + "grad_norm": 0.314453125, + "learning_rate": 0.00029845879274875795, + "loss": 0.4525, + "step": 34730 + }, + { + "epoch": 92.64, + "grad_norm": 0.328125, + "learning_rate": 0.0002984578936364448, + "loss": 0.4581, + "step": 34740 + }, + { + "epoch": 92.66666666666667, + "grad_norm": 0.298828125, + "learning_rate": 0.00029845699426330033, + "loss": 0.4735, + "step": 34750 + }, + { + "epoch": 92.69333333333333, + "grad_norm": 0.2265625, + "learning_rate": 0.0002984560946293261, + "loss": 0.4571, + "step": 34760 + }, + { + "epoch": 92.72, + "grad_norm": 0.25390625, + "learning_rate": 0.00029845519473452363, + "loss": 0.4734, + "step": 34770 + }, + { + "epoch": 92.74666666666667, + "grad_norm": 0.42578125, + "learning_rate": 0.00029845429457889467, + "loss": 0.478, + "step": 34780 + }, + { + "epoch": 92.77333333333333, + "grad_norm": 0.41796875, + "learning_rate": 0.0002984533941624406, + "loss": 0.4851, + "step": 34790 + }, + { + "epoch": 92.8, + "grad_norm": 0.400390625, + "learning_rate": 0.00029845249348516316, + "loss": 0.4726, + "step": 34800 + }, + { + "epoch": 92.82666666666667, + "grad_norm": 0.306640625, + "learning_rate": 0.00029845159254706386, + "loss": 0.4669, + "step": 34810 + }, + { + "epoch": 92.85333333333334, + "grad_norm": 0.337890625, + "learning_rate": 0.0002984506913481443, + "loss": 0.4756, + "step": 34820 + }, + { + "epoch": 92.88, + "grad_norm": 0.33203125, + "learning_rate": 0.00029844978988840604, + "loss": 0.4639, + "step": 34830 + }, + { + "epoch": 92.90666666666667, + "grad_norm": 0.23046875, + "learning_rate": 0.00029844888816785067, + "loss": 0.4665, + "step": 34840 + }, + { + "epoch": 92.93333333333334, + "grad_norm": 0.26171875, + "learning_rate": 0.0002984479861864798, + "loss": 0.4681, + "step": 34850 + }, + { + "epoch": 92.96, + "grad_norm": 0.216796875, + "learning_rate": 0.000298447083944295, + "loss": 0.4662, + "step": 34860 + }, + { + "epoch": 92.98666666666666, + "grad_norm": 0.328125, + "learning_rate": 0.0002984461814412978, + "loss": 0.4795, + "step": 34870 + }, + { + "epoch": 93.0, + "eval_loss": 0.48105791211128235, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.8036, + "eval_samples_per_second": 1.632, + "eval_steps_per_second": 0.102, + "step": 34875 + }, + { + "epoch": 93.01333333333334, + "grad_norm": 0.275390625, + "learning_rate": 0.00029844527867749, + "loss": 0.4688, + "step": 34880 + }, + { + "epoch": 93.04, + "grad_norm": 0.291015625, + "learning_rate": 0.00029844437565287293, + "loss": 0.4933, + "step": 34890 + }, + { + "epoch": 93.06666666666666, + "grad_norm": 0.51171875, + "learning_rate": 0.00029844347236744823, + "loss": 0.4807, + "step": 34900 + }, + { + "epoch": 93.09333333333333, + "grad_norm": 0.373046875, + "learning_rate": 0.0002984425688212176, + "loss": 0.4752, + "step": 34910 + }, + { + "epoch": 93.12, + "grad_norm": 0.271484375, + "learning_rate": 0.00029844166501418254, + "loss": 0.4723, + "step": 34920 + }, + { + "epoch": 93.14666666666666, + "grad_norm": 0.384765625, + "learning_rate": 0.00029844076094634464, + "loss": 0.4807, + "step": 34930 + }, + { + "epoch": 93.17333333333333, + "grad_norm": 0.291015625, + "learning_rate": 0.0002984398566177055, + "loss": 0.4715, + "step": 34940 + }, + { + "epoch": 93.2, + "grad_norm": 0.314453125, + "learning_rate": 0.00029843895202826676, + "loss": 0.4699, + "step": 34950 + }, + { + "epoch": 93.22666666666667, + "grad_norm": 0.306640625, + "learning_rate": 0.00029843804717803, + "loss": 0.4674, + "step": 34960 + }, + { + "epoch": 93.25333333333333, + "grad_norm": 0.345703125, + "learning_rate": 0.00029843714206699665, + "loss": 0.4666, + "step": 34970 + }, + { + "epoch": 93.28, + "grad_norm": 0.29296875, + "learning_rate": 0.00029843623669516847, + "loss": 0.4804, + "step": 34980 + }, + { + "epoch": 93.30666666666667, + "grad_norm": 0.337890625, + "learning_rate": 0.000298435331062547, + "loss": 0.462, + "step": 34990 + }, + { + "epoch": 93.33333333333333, + "grad_norm": 0.291015625, + "learning_rate": 0.0002984344251691339, + "loss": 0.4775, + "step": 35000 + }, + { + "epoch": 93.36, + "grad_norm": 0.251953125, + "learning_rate": 0.0002984335190149306, + "loss": 0.4793, + "step": 35010 + }, + { + "epoch": 93.38666666666667, + "grad_norm": 0.31640625, + "learning_rate": 0.0002984326125999389, + "loss": 0.4713, + "step": 35020 + }, + { + "epoch": 93.41333333333333, + "grad_norm": 0.244140625, + "learning_rate": 0.00029843170592416015, + "loss": 0.4749, + "step": 35030 + }, + { + "epoch": 93.44, + "grad_norm": 0.1982421875, + "learning_rate": 0.00029843079898759616, + "loss": 0.478, + "step": 35040 + }, + { + "epoch": 93.46666666666667, + "grad_norm": 0.248046875, + "learning_rate": 0.00029842989179024843, + "loss": 0.4874, + "step": 35050 + }, + { + "epoch": 93.49333333333334, + "grad_norm": 0.375, + "learning_rate": 0.0002984289843321185, + "loss": 0.4796, + "step": 35060 + }, + { + "epoch": 93.52, + "grad_norm": 0.26171875, + "learning_rate": 0.0002984280766132081, + "loss": 0.4733, + "step": 35070 + }, + { + "epoch": 93.54666666666667, + "grad_norm": 0.34765625, + "learning_rate": 0.00029842716863351875, + "loss": 0.4705, + "step": 35080 + }, + { + "epoch": 93.57333333333334, + "grad_norm": 0.310546875, + "learning_rate": 0.00029842626039305203, + "loss": 0.4698, + "step": 35090 + }, + { + "epoch": 93.6, + "grad_norm": 0.421875, + "learning_rate": 0.0002984253518918096, + "loss": 0.4627, + "step": 35100 + }, + { + "epoch": 93.62666666666667, + "grad_norm": 0.322265625, + "learning_rate": 0.00029842444312979294, + "loss": 0.4507, + "step": 35110 + }, + { + "epoch": 93.65333333333334, + "grad_norm": 0.33984375, + "learning_rate": 0.0002984235341070037, + "loss": 0.4702, + "step": 35120 + }, + { + "epoch": 93.68, + "grad_norm": 0.37109375, + "learning_rate": 0.00029842262482344354, + "loss": 0.461, + "step": 35130 + }, + { + "epoch": 93.70666666666666, + "grad_norm": 0.37890625, + "learning_rate": 0.00029842171527911404, + "loss": 0.4621, + "step": 35140 + }, + { + "epoch": 93.73333333333333, + "grad_norm": 0.3125, + "learning_rate": 0.0002984208054740167, + "loss": 0.4813, + "step": 35150 + }, + { + "epoch": 93.76, + "grad_norm": 0.3203125, + "learning_rate": 0.0002984198954081532, + "loss": 0.4824, + "step": 35160 + }, + { + "epoch": 93.78666666666666, + "grad_norm": 0.31640625, + "learning_rate": 0.00029841898508152514, + "loss": 0.4804, + "step": 35170 + }, + { + "epoch": 93.81333333333333, + "grad_norm": 0.35546875, + "learning_rate": 0.0002984180744941341, + "loss": 0.4657, + "step": 35180 + }, + { + "epoch": 93.84, + "grad_norm": 0.306640625, + "learning_rate": 0.0002984171636459817, + "loss": 0.4718, + "step": 35190 + }, + { + "epoch": 93.86666666666666, + "grad_norm": 0.3046875, + "learning_rate": 0.00029841625253706946, + "loss": 0.4705, + "step": 35200 + }, + { + "epoch": 93.89333333333333, + "grad_norm": 0.244140625, + "learning_rate": 0.00029841534116739914, + "loss": 0.4623, + "step": 35210 + }, + { + "epoch": 93.92, + "grad_norm": 0.291015625, + "learning_rate": 0.00029841442953697217, + "loss": 0.4716, + "step": 35220 + }, + { + "epoch": 93.94666666666667, + "grad_norm": 0.330078125, + "learning_rate": 0.00029841351764579025, + "loss": 0.4652, + "step": 35230 + }, + { + "epoch": 93.97333333333333, + "grad_norm": 0.3125, + "learning_rate": 0.00029841260549385494, + "loss": 0.4763, + "step": 35240 + }, + { + "epoch": 94.0, + "grad_norm": 0.361328125, + "learning_rate": 0.0002984116930811679, + "loss": 0.4654, + "step": 35250 + }, + { + "epoch": 94.0, + "eval_loss": 0.48085930943489075, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.2211, + "eval_samples_per_second": 1.565, + "eval_steps_per_second": 0.098, + "step": 35250 + }, + { + "epoch": 94.02666666666667, + "grad_norm": 0.31640625, + "learning_rate": 0.0002984107804077307, + "loss": 0.4845, + "step": 35260 + }, + { + "epoch": 94.05333333333333, + "grad_norm": 0.3984375, + "learning_rate": 0.00029840986747354495, + "loss": 0.4904, + "step": 35270 + }, + { + "epoch": 94.08, + "grad_norm": 0.2431640625, + "learning_rate": 0.0002984089542786122, + "loss": 0.4772, + "step": 35280 + }, + { + "epoch": 94.10666666666667, + "grad_norm": 0.2451171875, + "learning_rate": 0.0002984080408229341, + "loss": 0.4732, + "step": 35290 + }, + { + "epoch": 94.13333333333334, + "grad_norm": 0.22265625, + "learning_rate": 0.00029840712710651226, + "loss": 0.4748, + "step": 35300 + }, + { + "epoch": 94.16, + "grad_norm": 0.30078125, + "learning_rate": 0.0002984062131293483, + "loss": 0.4782, + "step": 35310 + }, + { + "epoch": 94.18666666666667, + "grad_norm": 0.259765625, + "learning_rate": 0.0002984052988914438, + "loss": 0.4708, + "step": 35320 + }, + { + "epoch": 94.21333333333334, + "grad_norm": 0.271484375, + "learning_rate": 0.00029840438439280036, + "loss": 0.4656, + "step": 35330 + }, + { + "epoch": 94.24, + "grad_norm": 0.27734375, + "learning_rate": 0.0002984034696334196, + "loss": 0.4698, + "step": 35340 + }, + { + "epoch": 94.26666666666667, + "grad_norm": 0.279296875, + "learning_rate": 0.0002984025546133031, + "loss": 0.4733, + "step": 35350 + }, + { + "epoch": 94.29333333333334, + "grad_norm": 0.32421875, + "learning_rate": 0.00029840163933245254, + "loss": 0.4673, + "step": 35360 + }, + { + "epoch": 94.32, + "grad_norm": 0.357421875, + "learning_rate": 0.00029840072379086946, + "loss": 0.4717, + "step": 35370 + }, + { + "epoch": 94.34666666666666, + "grad_norm": 0.28515625, + "learning_rate": 0.0002983998079885555, + "loss": 0.4795, + "step": 35380 + }, + { + "epoch": 94.37333333333333, + "grad_norm": 0.376953125, + "learning_rate": 0.0002983988919255122, + "loss": 0.4755, + "step": 35390 + }, + { + "epoch": 94.4, + "grad_norm": 0.255859375, + "learning_rate": 0.00029839797560174126, + "loss": 0.4723, + "step": 35400 + }, + { + "epoch": 94.42666666666666, + "grad_norm": 0.44921875, + "learning_rate": 0.00029839705901724427, + "loss": 0.4785, + "step": 35410 + }, + { + "epoch": 94.45333333333333, + "grad_norm": 0.353515625, + "learning_rate": 0.00029839614217202283, + "loss": 0.4802, + "step": 35420 + }, + { + "epoch": 94.48, + "grad_norm": 0.296875, + "learning_rate": 0.0002983952250660785, + "loss": 0.4866, + "step": 35430 + }, + { + "epoch": 94.50666666666666, + "grad_norm": 0.365234375, + "learning_rate": 0.000298394307699413, + "loss": 0.4765, + "step": 35440 + }, + { + "epoch": 94.53333333333333, + "grad_norm": 0.341796875, + "learning_rate": 0.00029839339007202783, + "loss": 0.471, + "step": 35450 + }, + { + "epoch": 94.56, + "grad_norm": 0.375, + "learning_rate": 0.00029839247218392464, + "loss": 0.4709, + "step": 35460 + }, + { + "epoch": 94.58666666666667, + "grad_norm": 0.400390625, + "learning_rate": 0.00029839155403510513, + "loss": 0.4668, + "step": 35470 + }, + { + "epoch": 94.61333333333333, + "grad_norm": 0.263671875, + "learning_rate": 0.0002983906356255708, + "loss": 0.4531, + "step": 35480 + }, + { + "epoch": 94.64, + "grad_norm": 0.2734375, + "learning_rate": 0.0002983897169553233, + "loss": 0.4575, + "step": 35490 + }, + { + "epoch": 94.66666666666667, + "grad_norm": 0.466796875, + "learning_rate": 0.00029838879802436427, + "loss": 0.473, + "step": 35500 + }, + { + "epoch": 94.69333333333333, + "grad_norm": 0.2275390625, + "learning_rate": 0.00029838787883269526, + "loss": 0.4567, + "step": 35510 + }, + { + "epoch": 94.72, + "grad_norm": 0.28125, + "learning_rate": 0.00029838695938031796, + "loss": 0.4732, + "step": 35520 + }, + { + "epoch": 94.74666666666667, + "grad_norm": 0.3359375, + "learning_rate": 0.00029838603966723395, + "loss": 0.4779, + "step": 35530 + }, + { + "epoch": 94.77333333333333, + "grad_norm": 0.2578125, + "learning_rate": 0.00029838511969344485, + "loss": 0.4856, + "step": 35540 + }, + { + "epoch": 94.8, + "grad_norm": 0.35546875, + "learning_rate": 0.0002983841994589523, + "loss": 0.4726, + "step": 35550 + }, + { + "epoch": 94.82666666666667, + "grad_norm": 0.2890625, + "learning_rate": 0.0002983832789637578, + "loss": 0.4663, + "step": 35560 + }, + { + "epoch": 94.85333333333334, + "grad_norm": 0.26171875, + "learning_rate": 0.0002983823582078631, + "loss": 0.4761, + "step": 35570 + }, + { + "epoch": 94.88, + "grad_norm": 0.310546875, + "learning_rate": 0.0002983814371912698, + "loss": 0.4641, + "step": 35580 + }, + { + "epoch": 94.90666666666667, + "grad_norm": 0.4453125, + "learning_rate": 0.0002983805159139795, + "loss": 0.4665, + "step": 35590 + }, + { + "epoch": 94.93333333333334, + "grad_norm": 0.330078125, + "learning_rate": 0.0002983795943759938, + "loss": 0.468, + "step": 35600 + }, + { + "epoch": 94.96, + "grad_norm": 0.259765625, + "learning_rate": 0.0002983786725773143, + "loss": 0.4663, + "step": 35610 + }, + { + "epoch": 94.98666666666666, + "grad_norm": 0.330078125, + "learning_rate": 0.00029837775051794267, + "loss": 0.4799, + "step": 35620 + }, + { + "epoch": 95.0, + "eval_loss": 0.4803951382637024, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.5518, + "eval_samples_per_second": 1.516, + "eval_steps_per_second": 0.095, + "step": 35625 + }, + { + "epoch": 95.01333333333334, + "grad_norm": 0.306640625, + "learning_rate": 0.0002983768281978805, + "loss": 0.4695, + "step": 35630 + }, + { + "epoch": 95.04, + "grad_norm": 0.314453125, + "learning_rate": 0.00029837590561712944, + "loss": 0.4935, + "step": 35640 + }, + { + "epoch": 95.06666666666666, + "grad_norm": 0.244140625, + "learning_rate": 0.0002983749827756911, + "loss": 0.4807, + "step": 35650 + }, + { + "epoch": 95.09333333333333, + "grad_norm": 0.349609375, + "learning_rate": 0.00029837405967356705, + "loss": 0.4756, + "step": 35660 + }, + { + "epoch": 95.12, + "grad_norm": 0.365234375, + "learning_rate": 0.000298373136310759, + "loss": 0.4726, + "step": 35670 + }, + { + "epoch": 95.14666666666666, + "grad_norm": 0.265625, + "learning_rate": 0.0002983722126872685, + "loss": 0.4815, + "step": 35680 + }, + { + "epoch": 95.17333333333333, + "grad_norm": 0.37890625, + "learning_rate": 0.00029837128880309723, + "loss": 0.471, + "step": 35690 + }, + { + "epoch": 95.2, + "grad_norm": 0.28515625, + "learning_rate": 0.00029837036465824675, + "loss": 0.4692, + "step": 35700 + }, + { + "epoch": 95.22666666666667, + "grad_norm": 0.267578125, + "learning_rate": 0.00029836944025271876, + "loss": 0.4664, + "step": 35710 + }, + { + "epoch": 95.25333333333333, + "grad_norm": 0.439453125, + "learning_rate": 0.0002983685155865148, + "loss": 0.4671, + "step": 35720 + }, + { + "epoch": 95.28, + "grad_norm": 0.3125, + "learning_rate": 0.00029836759065963656, + "loss": 0.4803, + "step": 35730 + }, + { + "epoch": 95.30666666666667, + "grad_norm": 0.2255859375, + "learning_rate": 0.00029836666547208564, + "loss": 0.4619, + "step": 35740 + }, + { + "epoch": 95.33333333333333, + "grad_norm": 0.380859375, + "learning_rate": 0.0002983657400238636, + "loss": 0.4775, + "step": 35750 + }, + { + "epoch": 95.36, + "grad_norm": 0.31640625, + "learning_rate": 0.00029836481431497224, + "loss": 0.4784, + "step": 35760 + }, + { + "epoch": 95.38666666666667, + "grad_norm": 0.3046875, + "learning_rate": 0.000298363888345413, + "loss": 0.4708, + "step": 35770 + }, + { + "epoch": 95.41333333333333, + "grad_norm": 0.294921875, + "learning_rate": 0.00029836296211518764, + "loss": 0.4755, + "step": 35780 + }, + { + "epoch": 95.44, + "grad_norm": 0.2451171875, + "learning_rate": 0.00029836203562429777, + "loss": 0.4788, + "step": 35790 + }, + { + "epoch": 95.46666666666667, + "grad_norm": 0.28515625, + "learning_rate": 0.0002983611088727449, + "loss": 0.4874, + "step": 35800 + }, + { + "epoch": 95.49333333333334, + "grad_norm": 0.390625, + "learning_rate": 0.0002983601818605307, + "loss": 0.4789, + "step": 35810 + }, + { + "epoch": 95.52, + "grad_norm": 0.251953125, + "learning_rate": 0.00029835925458765694, + "loss": 0.473, + "step": 35820 + }, + { + "epoch": 95.54666666666667, + "grad_norm": 0.302734375, + "learning_rate": 0.00029835832705412513, + "loss": 0.4703, + "step": 35830 + }, + { + "epoch": 95.57333333333334, + "grad_norm": 0.271484375, + "learning_rate": 0.00029835739925993687, + "loss": 0.4697, + "step": 35840 + }, + { + "epoch": 95.6, + "grad_norm": 0.318359375, + "learning_rate": 0.0002983564712050939, + "loss": 0.4631, + "step": 35850 + }, + { + "epoch": 95.62666666666667, + "grad_norm": 0.2734375, + "learning_rate": 0.0002983555428895977, + "loss": 0.4496, + "step": 35860 + }, + { + "epoch": 95.65333333333334, + "grad_norm": 0.314453125, + "learning_rate": 0.00029835461431345, + "loss": 0.4692, + "step": 35870 + }, + { + "epoch": 95.68, + "grad_norm": 0.353515625, + "learning_rate": 0.0002983536854766525, + "loss": 0.4613, + "step": 35880 + }, + { + "epoch": 95.70666666666666, + "grad_norm": 0.357421875, + "learning_rate": 0.0002983527563792067, + "loss": 0.4619, + "step": 35890 + }, + { + "epoch": 95.73333333333333, + "grad_norm": 0.28125, + "learning_rate": 0.0002983518270211143, + "loss": 0.4808, + "step": 35900 + }, + { + "epoch": 95.76, + "grad_norm": 0.32421875, + "learning_rate": 0.0002983508974023769, + "loss": 0.4816, + "step": 35910 + }, + { + "epoch": 95.78666666666666, + "grad_norm": 0.330078125, + "learning_rate": 0.0002983499675229961, + "loss": 0.48, + "step": 35920 + }, + { + "epoch": 95.81333333333333, + "grad_norm": 0.349609375, + "learning_rate": 0.00029834903738297367, + "loss": 0.4658, + "step": 35930 + }, + { + "epoch": 95.84, + "grad_norm": 0.271484375, + "learning_rate": 0.0002983481069823112, + "loss": 0.4714, + "step": 35940 + }, + { + "epoch": 95.86666666666666, + "grad_norm": 0.322265625, + "learning_rate": 0.00029834717632101017, + "loss": 0.4711, + "step": 35950 + }, + { + "epoch": 95.89333333333333, + "grad_norm": 0.255859375, + "learning_rate": 0.0002983462453990724, + "loss": 0.4621, + "step": 35960 + }, + { + "epoch": 95.92, + "grad_norm": 0.2890625, + "learning_rate": 0.0002983453142164994, + "loss": 0.4719, + "step": 35970 + }, + { + "epoch": 95.94666666666667, + "grad_norm": 0.26171875, + "learning_rate": 0.00029834438277329285, + "loss": 0.4654, + "step": 35980 + }, + { + "epoch": 95.97333333333333, + "grad_norm": 0.298828125, + "learning_rate": 0.0002983434510694544, + "loss": 0.4763, + "step": 35990 + }, + { + "epoch": 96.0, + "grad_norm": 0.337890625, + "learning_rate": 0.0002983425191049858, + "loss": 0.4651, + "step": 36000 + }, + { + "epoch": 96.0, + "eval_loss": 0.48041442036628723, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.5207, + "eval_samples_per_second": 1.521, + "eval_steps_per_second": 0.095, + "step": 36000 + }, + { + "epoch": 96.02666666666667, + "grad_norm": 0.337890625, + "learning_rate": 0.00029834158687988847, + "loss": 0.4847, + "step": 36010 + }, + { + "epoch": 96.05333333333333, + "grad_norm": 0.28125, + "learning_rate": 0.0002983406543941641, + "loss": 0.4905, + "step": 36020 + }, + { + "epoch": 96.08, + "grad_norm": 0.4140625, + "learning_rate": 0.0002983397216478145, + "loss": 0.4774, + "step": 36030 + }, + { + "epoch": 96.10666666666667, + "grad_norm": 0.322265625, + "learning_rate": 0.0002983387886408411, + "loss": 0.4722, + "step": 36040 + }, + { + "epoch": 96.13333333333334, + "grad_norm": 0.392578125, + "learning_rate": 0.0002983378553732456, + "loss": 0.4741, + "step": 36050 + }, + { + "epoch": 96.16, + "grad_norm": 0.40234375, + "learning_rate": 0.0002983369218450297, + "loss": 0.4787, + "step": 36060 + }, + { + "epoch": 96.18666666666667, + "grad_norm": 0.392578125, + "learning_rate": 0.00029833598805619507, + "loss": 0.4715, + "step": 36070 + }, + { + "epoch": 96.21333333333334, + "grad_norm": 0.40625, + "learning_rate": 0.0002983350540067432, + "loss": 0.4657, + "step": 36080 + }, + { + "epoch": 96.24, + "grad_norm": 0.3125, + "learning_rate": 0.00029833411969667584, + "loss": 0.4699, + "step": 36090 + }, + { + "epoch": 96.26666666666667, + "grad_norm": 0.2578125, + "learning_rate": 0.00029833318512599463, + "loss": 0.4739, + "step": 36100 + }, + { + "epoch": 96.29333333333334, + "grad_norm": 0.310546875, + "learning_rate": 0.00029833225029470115, + "loss": 0.4675, + "step": 36110 + }, + { + "epoch": 96.32, + "grad_norm": 0.33984375, + "learning_rate": 0.0002983313152027971, + "loss": 0.4717, + "step": 36120 + }, + { + "epoch": 96.34666666666666, + "grad_norm": 0.33203125, + "learning_rate": 0.0002983303798502841, + "loss": 0.4791, + "step": 36130 + }, + { + "epoch": 96.37333333333333, + "grad_norm": 0.310546875, + "learning_rate": 0.00029832944423716383, + "loss": 0.4754, + "step": 36140 + }, + { + "epoch": 96.4, + "grad_norm": 0.3046875, + "learning_rate": 0.0002983285083634379, + "loss": 0.4722, + "step": 36150 + }, + { + "epoch": 96.42666666666666, + "grad_norm": 0.287109375, + "learning_rate": 0.0002983275722291079, + "loss": 0.4782, + "step": 36160 + }, + { + "epoch": 96.45333333333333, + "grad_norm": 0.353515625, + "learning_rate": 0.0002983266358341756, + "loss": 0.4802, + "step": 36170 + }, + { + "epoch": 96.48, + "grad_norm": 0.30078125, + "learning_rate": 0.0002983256991786425, + "loss": 0.4868, + "step": 36180 + }, + { + "epoch": 96.50666666666666, + "grad_norm": 0.2392578125, + "learning_rate": 0.00029832476226251037, + "loss": 0.4763, + "step": 36190 + }, + { + "epoch": 96.53333333333333, + "grad_norm": 0.26171875, + "learning_rate": 0.0002983238250857808, + "loss": 0.4693, + "step": 36200 + }, + { + "epoch": 96.56, + "grad_norm": 0.275390625, + "learning_rate": 0.00029832288764845545, + "loss": 0.471, + "step": 36210 + }, + { + "epoch": 96.58666666666667, + "grad_norm": 0.34765625, + "learning_rate": 0.000298321949950536, + "loss": 0.467, + "step": 36220 + }, + { + "epoch": 96.61333333333333, + "grad_norm": 0.2490234375, + "learning_rate": 0.000298321011992024, + "loss": 0.4521, + "step": 36230 + }, + { + "epoch": 96.64, + "grad_norm": 0.3984375, + "learning_rate": 0.0002983200737729212, + "loss": 0.4576, + "step": 36240 + }, + { + "epoch": 96.66666666666667, + "grad_norm": 0.42578125, + "learning_rate": 0.00029831913529322916, + "loss": 0.4734, + "step": 36250 + }, + { + "epoch": 96.69333333333333, + "grad_norm": 0.244140625, + "learning_rate": 0.0002983181965529496, + "loss": 0.4563, + "step": 36260 + }, + { + "epoch": 96.72, + "grad_norm": 0.337890625, + "learning_rate": 0.0002983172575520841, + "loss": 0.4737, + "step": 36270 + }, + { + "epoch": 96.74666666666667, + "grad_norm": 0.302734375, + "learning_rate": 0.0002983163182906344, + "loss": 0.4773, + "step": 36280 + }, + { + "epoch": 96.77333333333333, + "grad_norm": 0.3046875, + "learning_rate": 0.0002983153787686021, + "loss": 0.4845, + "step": 36290 + }, + { + "epoch": 96.8, + "grad_norm": 0.314453125, + "learning_rate": 0.0002983144389859888, + "loss": 0.4719, + "step": 36300 + }, + { + "epoch": 96.82666666666667, + "grad_norm": 0.345703125, + "learning_rate": 0.0002983134989427963, + "loss": 0.4663, + "step": 36310 + }, + { + "epoch": 96.85333333333334, + "grad_norm": 0.302734375, + "learning_rate": 0.00029831255863902606, + "loss": 0.4755, + "step": 36320 + }, + { + "epoch": 96.88, + "grad_norm": 0.30078125, + "learning_rate": 0.0002983116180746799, + "loss": 0.4638, + "step": 36330 + }, + { + "epoch": 96.90666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.0002983106772497594, + "loss": 0.4668, + "step": 36340 + }, + { + "epoch": 96.93333333333334, + "grad_norm": 0.310546875, + "learning_rate": 0.0002983097361642662, + "loss": 0.4682, + "step": 36350 + }, + { + "epoch": 96.96, + "grad_norm": 0.255859375, + "learning_rate": 0.00029830879481820193, + "loss": 0.4659, + "step": 36360 + }, + { + "epoch": 96.98666666666666, + "grad_norm": 0.25, + "learning_rate": 0.00029830785321156833, + "loss": 0.4792, + "step": 36370 + }, + { + "epoch": 97.0, + "eval_loss": 0.4807257354259491, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.5628, + "eval_samples_per_second": 1.515, + "eval_steps_per_second": 0.095, + "step": 36375 + }, + { + "epoch": 97.01333333333334, + "grad_norm": 0.34375, + "learning_rate": 0.00029830691134436697, + "loss": 0.469, + "step": 36380 + }, + { + "epoch": 97.04, + "grad_norm": 0.330078125, + "learning_rate": 0.00029830596921659957, + "loss": 0.4937, + "step": 36390 + }, + { + "epoch": 97.06666666666666, + "grad_norm": 0.326171875, + "learning_rate": 0.00029830502682826775, + "loss": 0.4805, + "step": 36400 + }, + { + "epoch": 97.09333333333333, + "grad_norm": 0.318359375, + "learning_rate": 0.0002983040841793732, + "loss": 0.4752, + "step": 36410 + }, + { + "epoch": 97.12, + "grad_norm": 0.310546875, + "learning_rate": 0.00029830314126991746, + "loss": 0.4715, + "step": 36420 + }, + { + "epoch": 97.14666666666666, + "grad_norm": 0.3828125, + "learning_rate": 0.0002983021980999024, + "loss": 0.4797, + "step": 36430 + }, + { + "epoch": 97.17333333333333, + "grad_norm": 0.423828125, + "learning_rate": 0.00029830125466932946, + "loss": 0.4714, + "step": 36440 + }, + { + "epoch": 97.2, + "grad_norm": 0.4453125, + "learning_rate": 0.0002983003109782004, + "loss": 0.4694, + "step": 36450 + }, + { + "epoch": 97.22666666666667, + "grad_norm": 0.337890625, + "learning_rate": 0.00029829936702651684, + "loss": 0.4668, + "step": 36460 + }, + { + "epoch": 97.25333333333333, + "grad_norm": 0.37109375, + "learning_rate": 0.00029829842281428056, + "loss": 0.4673, + "step": 36470 + }, + { + "epoch": 97.28, + "grad_norm": 0.314453125, + "learning_rate": 0.00029829747834149304, + "loss": 0.4804, + "step": 36480 + }, + { + "epoch": 97.30666666666667, + "grad_norm": 0.263671875, + "learning_rate": 0.00029829653360815607, + "loss": 0.4615, + "step": 36490 + }, + { + "epoch": 97.33333333333333, + "grad_norm": 0.23828125, + "learning_rate": 0.00029829558861427127, + "loss": 0.4769, + "step": 36500 + }, + { + "epoch": 97.36, + "grad_norm": 0.392578125, + "learning_rate": 0.0002982946433598403, + "loss": 0.4796, + "step": 36510 + }, + { + "epoch": 97.38666666666667, + "grad_norm": 0.41796875, + "learning_rate": 0.0002982936978448647, + "loss": 0.4708, + "step": 36520 + }, + { + "epoch": 97.41333333333333, + "grad_norm": 0.3515625, + "learning_rate": 0.0002982927520693464, + "loss": 0.4753, + "step": 36530 + }, + { + "epoch": 97.44, + "grad_norm": 0.314453125, + "learning_rate": 0.00029829180603328684, + "loss": 0.4777, + "step": 36540 + }, + { + "epoch": 97.46666666666667, + "grad_norm": 0.33984375, + "learning_rate": 0.00029829085973668776, + "loss": 0.4882, + "step": 36550 + }, + { + "epoch": 97.49333333333334, + "grad_norm": 0.294921875, + "learning_rate": 0.0002982899131795508, + "loss": 0.4797, + "step": 36560 + }, + { + "epoch": 97.52, + "grad_norm": 0.25390625, + "learning_rate": 0.0002982889663618776, + "loss": 0.4733, + "step": 36570 + }, + { + "epoch": 97.54666666666667, + "grad_norm": 0.234375, + "learning_rate": 0.0002982880192836699, + "loss": 0.4705, + "step": 36580 + }, + { + "epoch": 97.57333333333334, + "grad_norm": 0.22265625, + "learning_rate": 0.00029828707194492934, + "loss": 0.4696, + "step": 36590 + }, + { + "epoch": 97.6, + "grad_norm": 0.375, + "learning_rate": 0.00029828612434565756, + "loss": 0.4635, + "step": 36600 + }, + { + "epoch": 97.62666666666667, + "grad_norm": 0.2392578125, + "learning_rate": 0.00029828517648585617, + "loss": 0.4503, + "step": 36610 + }, + { + "epoch": 97.65333333333334, + "grad_norm": 0.62890625, + "learning_rate": 0.00029828422836552696, + "loss": 0.47, + "step": 36620 + }, + { + "epoch": 97.68, + "grad_norm": 0.34765625, + "learning_rate": 0.00029828327998467156, + "loss": 0.4609, + "step": 36630 + }, + { + "epoch": 97.70666666666666, + "grad_norm": 0.451171875, + "learning_rate": 0.00029828233134329154, + "loss": 0.4614, + "step": 36640 + }, + { + "epoch": 97.73333333333333, + "grad_norm": 0.291015625, + "learning_rate": 0.0002982813824413887, + "loss": 0.4802, + "step": 36650 + }, + { + "epoch": 97.76, + "grad_norm": 0.404296875, + "learning_rate": 0.0002982804332789646, + "loss": 0.482, + "step": 36660 + }, + { + "epoch": 97.78666666666666, + "grad_norm": 0.388671875, + "learning_rate": 0.00029827948385602093, + "loss": 0.4809, + "step": 36670 + }, + { + "epoch": 97.81333333333333, + "grad_norm": 0.3828125, + "learning_rate": 0.00029827853417255945, + "loss": 0.4649, + "step": 36680 + }, + { + "epoch": 97.84, + "grad_norm": 0.3671875, + "learning_rate": 0.00029827758422858175, + "loss": 0.4717, + "step": 36690 + }, + { + "epoch": 97.86666666666666, + "grad_norm": 0.37109375, + "learning_rate": 0.00029827663402408946, + "loss": 0.4709, + "step": 36700 + }, + { + "epoch": 97.89333333333333, + "grad_norm": 0.4765625, + "learning_rate": 0.00029827568355908425, + "loss": 0.4617, + "step": 36710 + }, + { + "epoch": 97.92, + "grad_norm": 0.345703125, + "learning_rate": 0.00029827473283356793, + "loss": 0.4722, + "step": 36720 + }, + { + "epoch": 97.94666666666667, + "grad_norm": 0.28125, + "learning_rate": 0.00029827378184754205, + "loss": 0.4649, + "step": 36730 + }, + { + "epoch": 97.97333333333333, + "grad_norm": 0.396484375, + "learning_rate": 0.0002982728306010083, + "loss": 0.4762, + "step": 36740 + }, + { + "epoch": 98.0, + "grad_norm": 0.3046875, + "learning_rate": 0.0002982718790939684, + "loss": 0.4653, + "step": 36750 + }, + { + "epoch": 98.0, + "eval_loss": 0.4806678295135498, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.9011, + "eval_samples_per_second": 1.468, + "eval_steps_per_second": 0.092, + "step": 36750 + }, + { + "epoch": 98.02666666666667, + "grad_norm": 0.388671875, + "learning_rate": 0.00029827092732642393, + "loss": 0.4849, + "step": 36760 + }, + { + "epoch": 98.05333333333333, + "grad_norm": 0.3203125, + "learning_rate": 0.0002982699752983766, + "loss": 0.4905, + "step": 36770 + }, + { + "epoch": 98.08, + "grad_norm": 0.546875, + "learning_rate": 0.00029826902300982813, + "loss": 0.4775, + "step": 36780 + }, + { + "epoch": 98.10666666666667, + "grad_norm": 0.458984375, + "learning_rate": 0.00029826807046078014, + "loss": 0.4729, + "step": 36790 + }, + { + "epoch": 98.13333333333334, + "grad_norm": 0.267578125, + "learning_rate": 0.00029826711765123436, + "loss": 0.4738, + "step": 36800 + }, + { + "epoch": 98.16, + "grad_norm": 0.396484375, + "learning_rate": 0.00029826616458119236, + "loss": 0.4782, + "step": 36810 + }, + { + "epoch": 98.18666666666667, + "grad_norm": 0.330078125, + "learning_rate": 0.00029826521125065594, + "loss": 0.4706, + "step": 36820 + }, + { + "epoch": 98.21333333333334, + "grad_norm": 0.234375, + "learning_rate": 0.00029826425765962667, + "loss": 0.4655, + "step": 36830 + }, + { + "epoch": 98.24, + "grad_norm": 0.296875, + "learning_rate": 0.00029826330380810633, + "loss": 0.4698, + "step": 36840 + }, + { + "epoch": 98.26666666666667, + "grad_norm": 0.251953125, + "learning_rate": 0.00029826234969609645, + "loss": 0.4734, + "step": 36850 + }, + { + "epoch": 98.29333333333334, + "grad_norm": 0.361328125, + "learning_rate": 0.0002982613953235989, + "loss": 0.467, + "step": 36860 + }, + { + "epoch": 98.32, + "grad_norm": 0.298828125, + "learning_rate": 0.0002982604406906152, + "loss": 0.4711, + "step": 36870 + }, + { + "epoch": 98.34666666666666, + "grad_norm": 0.34375, + "learning_rate": 0.000298259485797147, + "loss": 0.4794, + "step": 36880 + }, + { + "epoch": 98.37333333333333, + "grad_norm": 0.322265625, + "learning_rate": 0.00029825853064319613, + "loss": 0.4754, + "step": 36890 + }, + { + "epoch": 98.4, + "grad_norm": 0.244140625, + "learning_rate": 0.0002982575752287642, + "loss": 0.4721, + "step": 36900 + }, + { + "epoch": 98.42666666666666, + "grad_norm": 0.265625, + "learning_rate": 0.0002982566195538529, + "loss": 0.4787, + "step": 36910 + }, + { + "epoch": 98.45333333333333, + "grad_norm": 0.359375, + "learning_rate": 0.0002982556636184638, + "loss": 0.48, + "step": 36920 + }, + { + "epoch": 98.48, + "grad_norm": 0.279296875, + "learning_rate": 0.00029825470742259877, + "loss": 0.487, + "step": 36930 + }, + { + "epoch": 98.50666666666666, + "grad_norm": 0.248046875, + "learning_rate": 0.00029825375096625934, + "loss": 0.4761, + "step": 36940 + }, + { + "epoch": 98.53333333333333, + "grad_norm": 0.248046875, + "learning_rate": 0.00029825279424944723, + "loss": 0.4703, + "step": 36950 + }, + { + "epoch": 98.56, + "grad_norm": 0.291015625, + "learning_rate": 0.00029825183727216417, + "loss": 0.4703, + "step": 36960 + }, + { + "epoch": 98.58666666666667, + "grad_norm": 0.23828125, + "learning_rate": 0.0002982508800344118, + "loss": 0.4668, + "step": 36970 + }, + { + "epoch": 98.61333333333333, + "grad_norm": 0.2021484375, + "learning_rate": 0.0002982499225361918, + "loss": 0.4524, + "step": 36980 + }, + { + "epoch": 98.64, + "grad_norm": 0.3046875, + "learning_rate": 0.00029824896477750586, + "loss": 0.4575, + "step": 36990 + }, + { + "epoch": 98.66666666666667, + "grad_norm": 0.34375, + "learning_rate": 0.00029824800675835563, + "loss": 0.4738, + "step": 37000 + }, + { + "epoch": 98.69333333333333, + "grad_norm": 0.34375, + "learning_rate": 0.00029824704847874285, + "loss": 0.4561, + "step": 37010 + }, + { + "epoch": 98.72, + "grad_norm": 0.349609375, + "learning_rate": 0.00029824608993866915, + "loss": 0.4733, + "step": 37020 + }, + { + "epoch": 98.74666666666667, + "grad_norm": 0.236328125, + "learning_rate": 0.0002982451311381362, + "loss": 0.4774, + "step": 37030 + }, + { + "epoch": 98.77333333333333, + "grad_norm": 0.396484375, + "learning_rate": 0.0002982441720771458, + "loss": 0.4845, + "step": 37040 + }, + { + "epoch": 98.8, + "grad_norm": 0.314453125, + "learning_rate": 0.00029824321275569957, + "loss": 0.4724, + "step": 37050 + }, + { + "epoch": 98.82666666666667, + "grad_norm": 0.306640625, + "learning_rate": 0.0002982422531737991, + "loss": 0.4665, + "step": 37060 + }, + { + "epoch": 98.85333333333334, + "grad_norm": 0.271484375, + "learning_rate": 0.00029824129333144624, + "loss": 0.476, + "step": 37070 + }, + { + "epoch": 98.88, + "grad_norm": 0.28125, + "learning_rate": 0.00029824033322864256, + "loss": 0.4641, + "step": 37080 + }, + { + "epoch": 98.90666666666667, + "grad_norm": 0.3046875, + "learning_rate": 0.00029823937286538977, + "loss": 0.4658, + "step": 37090 + }, + { + "epoch": 98.93333333333334, + "grad_norm": 0.302734375, + "learning_rate": 0.00029823841224168966, + "loss": 0.4684, + "step": 37100 + }, + { + "epoch": 98.96, + "grad_norm": 0.30078125, + "learning_rate": 0.00029823745135754376, + "loss": 0.4661, + "step": 37110 + }, + { + "epoch": 98.98666666666666, + "grad_norm": 0.345703125, + "learning_rate": 0.00029823649021295384, + "loss": 0.4795, + "step": 37120 + }, + { + "epoch": 99.0, + "eval_loss": 0.4802570939064026, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.9453, + "eval_samples_per_second": 1.462, + "eval_steps_per_second": 0.091, + "step": 37125 + }, + { + "epoch": 99.01333333333334, + "grad_norm": 0.359375, + "learning_rate": 0.00029823552880792154, + "loss": 0.4695, + "step": 37130 + }, + { + "epoch": 99.04, + "grad_norm": 0.259765625, + "learning_rate": 0.00029823456714244865, + "loss": 0.4936, + "step": 37140 + }, + { + "epoch": 99.06666666666666, + "grad_norm": 0.3046875, + "learning_rate": 0.00029823360521653673, + "loss": 0.4806, + "step": 37150 + }, + { + "epoch": 99.09333333333333, + "grad_norm": 0.279296875, + "learning_rate": 0.0002982326430301876, + "loss": 0.4756, + "step": 37160 + }, + { + "epoch": 99.12, + "grad_norm": 0.392578125, + "learning_rate": 0.0002982316805834028, + "loss": 0.4718, + "step": 37170 + }, + { + "epoch": 99.14666666666666, + "grad_norm": 0.41796875, + "learning_rate": 0.0002982307178761842, + "loss": 0.4809, + "step": 37180 + }, + { + "epoch": 99.17333333333333, + "grad_norm": 0.38671875, + "learning_rate": 0.00029822975490853337, + "loss": 0.4712, + "step": 37190 + }, + { + "epoch": 99.2, + "grad_norm": 0.306640625, + "learning_rate": 0.00029822879168045203, + "loss": 0.4701, + "step": 37200 + }, + { + "epoch": 99.22666666666667, + "grad_norm": 0.26171875, + "learning_rate": 0.00029822782819194187, + "loss": 0.4669, + "step": 37210 + }, + { + "epoch": 99.25333333333333, + "grad_norm": 0.265625, + "learning_rate": 0.0002982268644430045, + "loss": 0.467, + "step": 37220 + }, + { + "epoch": 99.28, + "grad_norm": 0.306640625, + "learning_rate": 0.00029822590043364176, + "loss": 0.4808, + "step": 37230 + }, + { + "epoch": 99.30666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.00029822493616385535, + "loss": 0.462, + "step": 37240 + }, + { + "epoch": 99.33333333333333, + "grad_norm": 0.388671875, + "learning_rate": 0.0002982239716336468, + "loss": 0.4776, + "step": 37250 + }, + { + "epoch": 99.36, + "grad_norm": 0.31640625, + "learning_rate": 0.000298223006843018, + "loss": 0.4789, + "step": 37260 + }, + { + "epoch": 99.38666666666667, + "grad_norm": 0.359375, + "learning_rate": 0.00029822204179197044, + "loss": 0.4706, + "step": 37270 + }, + { + "epoch": 99.41333333333333, + "grad_norm": 0.30859375, + "learning_rate": 0.000298221076480506, + "loss": 0.4755, + "step": 37280 + }, + { + "epoch": 99.44, + "grad_norm": 0.2490234375, + "learning_rate": 0.0002982201109086263, + "loss": 0.4781, + "step": 37290 + }, + { + "epoch": 99.46666666666667, + "grad_norm": 0.328125, + "learning_rate": 0.00029821914507633296, + "loss": 0.4876, + "step": 37300 + }, + { + "epoch": 99.49333333333334, + "grad_norm": 0.326171875, + "learning_rate": 0.00029821817898362783, + "loss": 0.4791, + "step": 37310 + }, + { + "epoch": 99.52, + "grad_norm": 0.353515625, + "learning_rate": 0.00029821721263051246, + "loss": 0.4731, + "step": 37320 + }, + { + "epoch": 99.54666666666667, + "grad_norm": 0.408203125, + "learning_rate": 0.00029821624601698865, + "loss": 0.4702, + "step": 37330 + }, + { + "epoch": 99.57333333333334, + "grad_norm": 0.44140625, + "learning_rate": 0.00029821527914305806, + "loss": 0.4691, + "step": 37340 + }, + { + "epoch": 99.6, + "grad_norm": 0.3125, + "learning_rate": 0.0002982143120087224, + "loss": 0.4626, + "step": 37350 + }, + { + "epoch": 99.62666666666667, + "grad_norm": 0.2197265625, + "learning_rate": 0.0002982133446139833, + "loss": 0.4501, + "step": 37360 + }, + { + "epoch": 99.65333333333334, + "grad_norm": 0.31640625, + "learning_rate": 0.0002982123769588426, + "loss": 0.4697, + "step": 37370 + }, + { + "epoch": 99.68, + "grad_norm": 0.384765625, + "learning_rate": 0.00029821140904330194, + "loss": 0.4614, + "step": 37380 + }, + { + "epoch": 99.70666666666666, + "grad_norm": 0.365234375, + "learning_rate": 0.00029821044086736294, + "loss": 0.4617, + "step": 37390 + }, + { + "epoch": 99.73333333333333, + "grad_norm": 0.423828125, + "learning_rate": 0.0002982094724310274, + "loss": 0.4804, + "step": 37400 + }, + { + "epoch": 99.76, + "grad_norm": 0.44140625, + "learning_rate": 0.00029820850373429695, + "loss": 0.4819, + "step": 37410 + }, + { + "epoch": 99.78666666666666, + "grad_norm": 0.265625, + "learning_rate": 0.0002982075347771734, + "loss": 0.4809, + "step": 37420 + }, + { + "epoch": 99.81333333333333, + "grad_norm": 0.419921875, + "learning_rate": 0.00029820656555965827, + "loss": 0.466, + "step": 37430 + }, + { + "epoch": 99.84, + "grad_norm": 0.33203125, + "learning_rate": 0.0002982055960817534, + "loss": 0.4708, + "step": 37440 + }, + { + "epoch": 99.86666666666666, + "grad_norm": 0.263671875, + "learning_rate": 0.00029820462634346054, + "loss": 0.4712, + "step": 37450 + }, + { + "epoch": 99.89333333333333, + "grad_norm": 0.2578125, + "learning_rate": 0.0002982036563447813, + "loss": 0.4615, + "step": 37460 + }, + { + "epoch": 99.92, + "grad_norm": 0.279296875, + "learning_rate": 0.00029820268608571733, + "loss": 0.472, + "step": 37470 + }, + { + "epoch": 99.94666666666667, + "grad_norm": 0.34765625, + "learning_rate": 0.00029820171556627046, + "loss": 0.4642, + "step": 37480 + }, + { + "epoch": 99.97333333333333, + "grad_norm": 0.2734375, + "learning_rate": 0.00029820074478644236, + "loss": 0.4754, + "step": 37490 + }, + { + "epoch": 100.0, + "grad_norm": 0.314453125, + "learning_rate": 0.0002981997737462347, + "loss": 0.4642, + "step": 37500 + }, + { + "epoch": 100.0, + "eval_loss": 0.480648934841156, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.0038, + "eval_samples_per_second": 1.599, + "eval_steps_per_second": 0.1, + "step": 37500 + }, + { + "epoch": 100.02666666666667, + "grad_norm": 0.28515625, + "learning_rate": 0.0002981988024456492, + "loss": 0.4849, + "step": 37510 + }, + { + "epoch": 100.05333333333333, + "grad_norm": 0.263671875, + "learning_rate": 0.0002981978308846876, + "loss": 0.4902, + "step": 37520 + }, + { + "epoch": 100.08, + "grad_norm": 0.31640625, + "learning_rate": 0.0002981968590633515, + "loss": 0.4771, + "step": 37530 + }, + { + "epoch": 100.10666666666667, + "grad_norm": 0.296875, + "learning_rate": 0.00029819588698164277, + "loss": 0.4719, + "step": 37540 + }, + { + "epoch": 100.13333333333334, + "grad_norm": 0.4296875, + "learning_rate": 0.00029819491463956303, + "loss": 0.4741, + "step": 37550 + }, + { + "epoch": 100.16, + "grad_norm": 0.3515625, + "learning_rate": 0.00029819394203711393, + "loss": 0.4785, + "step": 37560 + }, + { + "epoch": 100.18666666666667, + "grad_norm": 0.291015625, + "learning_rate": 0.00029819296917429726, + "loss": 0.4705, + "step": 37570 + }, + { + "epoch": 100.21333333333334, + "grad_norm": 0.298828125, + "learning_rate": 0.00029819199605111475, + "loss": 0.4656, + "step": 37580 + }, + { + "epoch": 100.24, + "grad_norm": 0.30859375, + "learning_rate": 0.000298191022667568, + "loss": 0.4696, + "step": 37590 + }, + { + "epoch": 100.26666666666667, + "grad_norm": 0.287109375, + "learning_rate": 0.0002981900490236589, + "loss": 0.4733, + "step": 37600 + }, + { + "epoch": 100.29333333333334, + "grad_norm": 0.400390625, + "learning_rate": 0.00029818907511938893, + "loss": 0.4675, + "step": 37610 + }, + { + "epoch": 100.32, + "grad_norm": 0.4296875, + "learning_rate": 0.00029818810095476, + "loss": 0.471, + "step": 37620 + }, + { + "epoch": 100.34666666666666, + "grad_norm": 0.3046875, + "learning_rate": 0.00029818712652977374, + "loss": 0.4788, + "step": 37630 + }, + { + "epoch": 100.37333333333333, + "grad_norm": 0.28515625, + "learning_rate": 0.00029818615184443187, + "loss": 0.4755, + "step": 37640 + }, + { + "epoch": 100.4, + "grad_norm": 0.251953125, + "learning_rate": 0.0002981851768987361, + "loss": 0.4713, + "step": 37650 + }, + { + "epoch": 100.42666666666666, + "grad_norm": 0.328125, + "learning_rate": 0.0002981842016926881, + "loss": 0.4781, + "step": 37660 + }, + { + "epoch": 100.45333333333333, + "grad_norm": 0.25390625, + "learning_rate": 0.00029818322622628964, + "loss": 0.4798, + "step": 37670 + }, + { + "epoch": 100.48, + "grad_norm": 0.390625, + "learning_rate": 0.00029818225049954236, + "loss": 0.4867, + "step": 37680 + }, + { + "epoch": 100.50666666666666, + "grad_norm": 0.50390625, + "learning_rate": 0.0002981812745124481, + "loss": 0.4764, + "step": 37690 + }, + { + "epoch": 100.53333333333333, + "grad_norm": 0.2734375, + "learning_rate": 0.00029818029826500855, + "loss": 0.4697, + "step": 37700 + }, + { + "epoch": 100.56, + "grad_norm": 0.291015625, + "learning_rate": 0.0002981793217572253, + "loss": 0.4707, + "step": 37710 + }, + { + "epoch": 100.58666666666667, + "grad_norm": 0.365234375, + "learning_rate": 0.0002981783449891002, + "loss": 0.4665, + "step": 37720 + }, + { + "epoch": 100.61333333333333, + "grad_norm": 0.275390625, + "learning_rate": 0.00029817736796063484, + "loss": 0.452, + "step": 37730 + }, + { + "epoch": 100.64, + "grad_norm": 0.2470703125, + "learning_rate": 0.0002981763906718311, + "loss": 0.4574, + "step": 37740 + }, + { + "epoch": 100.66666666666667, + "grad_norm": 0.2431640625, + "learning_rate": 0.00029817541312269054, + "loss": 0.4733, + "step": 37750 + }, + { + "epoch": 100.69333333333333, + "grad_norm": 0.291015625, + "learning_rate": 0.000298174435313215, + "loss": 0.4558, + "step": 37760 + }, + { + "epoch": 100.72, + "grad_norm": 0.251953125, + "learning_rate": 0.0002981734572434061, + "loss": 0.4734, + "step": 37770 + }, + { + "epoch": 100.74666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.00029817247891326563, + "loss": 0.4776, + "step": 37780 + }, + { + "epoch": 100.77333333333333, + "grad_norm": 0.306640625, + "learning_rate": 0.00029817150032279525, + "loss": 0.4846, + "step": 37790 + }, + { + "epoch": 100.8, + "grad_norm": 0.263671875, + "learning_rate": 0.00029817052147199677, + "loss": 0.4719, + "step": 37800 + }, + { + "epoch": 100.82666666666667, + "grad_norm": 0.26171875, + "learning_rate": 0.0002981695423608718, + "loss": 0.4658, + "step": 37810 + }, + { + "epoch": 100.85333333333334, + "grad_norm": 0.298828125, + "learning_rate": 0.0002981685629894221, + "loss": 0.4757, + "step": 37820 + }, + { + "epoch": 100.88, + "grad_norm": 0.2353515625, + "learning_rate": 0.0002981675833576494, + "loss": 0.4634, + "step": 37830 + }, + { + "epoch": 100.90666666666667, + "grad_norm": 0.2314453125, + "learning_rate": 0.00029816660346555546, + "loss": 0.4664, + "step": 37840 + }, + { + "epoch": 100.93333333333334, + "grad_norm": 0.2275390625, + "learning_rate": 0.00029816562331314196, + "loss": 0.4679, + "step": 37850 + }, + { + "epoch": 100.96, + "grad_norm": 0.30859375, + "learning_rate": 0.0002981646429004106, + "loss": 0.4662, + "step": 37860 + }, + { + "epoch": 100.98666666666666, + "grad_norm": 0.322265625, + "learning_rate": 0.00029816366222736317, + "loss": 0.4791, + "step": 37870 + }, + { + "epoch": 101.0, + "eval_loss": 0.4809539318084717, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.7941, + "eval_samples_per_second": 1.634, + "eval_steps_per_second": 0.102, + "step": 37875 + }, + { + "epoch": 101.01333333333334, + "grad_norm": 0.32421875, + "learning_rate": 0.0002981626812940013, + "loss": 0.4689, + "step": 37880 + }, + { + "epoch": 101.04, + "grad_norm": 0.224609375, + "learning_rate": 0.00029816170010032674, + "loss": 0.4927, + "step": 37890 + }, + { + "epoch": 101.06666666666666, + "grad_norm": 0.314453125, + "learning_rate": 0.00029816071864634133, + "loss": 0.481, + "step": 37900 + }, + { + "epoch": 101.09333333333333, + "grad_norm": 0.353515625, + "learning_rate": 0.0002981597369320466, + "loss": 0.4753, + "step": 37910 + }, + { + "epoch": 101.12, + "grad_norm": 0.333984375, + "learning_rate": 0.00029815875495744446, + "loss": 0.4713, + "step": 37920 + }, + { + "epoch": 101.14666666666666, + "grad_norm": 0.291015625, + "learning_rate": 0.0002981577727225365, + "loss": 0.48, + "step": 37930 + }, + { + "epoch": 101.17333333333333, + "grad_norm": 0.29296875, + "learning_rate": 0.00029815679022732454, + "loss": 0.4705, + "step": 37940 + }, + { + "epoch": 101.2, + "grad_norm": 0.25390625, + "learning_rate": 0.0002981558074718102, + "loss": 0.4693, + "step": 37950 + }, + { + "epoch": 101.22666666666667, + "grad_norm": 0.357421875, + "learning_rate": 0.00029815482445599535, + "loss": 0.4668, + "step": 37960 + }, + { + "epoch": 101.25333333333333, + "grad_norm": 0.322265625, + "learning_rate": 0.0002981538411798816, + "loss": 0.4668, + "step": 37970 + }, + { + "epoch": 101.28, + "grad_norm": 0.33984375, + "learning_rate": 0.0002981528576434707, + "loss": 0.4801, + "step": 37980 + }, + { + "epoch": 101.30666666666667, + "grad_norm": 0.373046875, + "learning_rate": 0.00029815187384676445, + "loss": 0.4613, + "step": 37990 + }, + { + "epoch": 101.33333333333333, + "grad_norm": 0.29296875, + "learning_rate": 0.0002981508897897645, + "loss": 0.4769, + "step": 38000 + }, + { + "epoch": 101.36, + "grad_norm": 0.283203125, + "learning_rate": 0.00029814990547247255, + "loss": 0.4786, + "step": 38010 + }, + { + "epoch": 101.38666666666667, + "grad_norm": 0.248046875, + "learning_rate": 0.00029814892089489043, + "loss": 0.4704, + "step": 38020 + }, + { + "epoch": 101.41333333333333, + "grad_norm": 0.447265625, + "learning_rate": 0.00029814793605701984, + "loss": 0.4746, + "step": 38030 + }, + { + "epoch": 101.44, + "grad_norm": 0.31640625, + "learning_rate": 0.00029814695095886244, + "loss": 0.4782, + "step": 38040 + }, + { + "epoch": 101.46666666666667, + "grad_norm": 0.26953125, + "learning_rate": 0.00029814596560042003, + "loss": 0.487, + "step": 38050 + }, + { + "epoch": 101.49333333333334, + "grad_norm": 0.37109375, + "learning_rate": 0.00029814497998169434, + "loss": 0.4788, + "step": 38060 + }, + { + "epoch": 101.52, + "grad_norm": 0.361328125, + "learning_rate": 0.00029814399410268706, + "loss": 0.4734, + "step": 38070 + }, + { + "epoch": 101.54666666666667, + "grad_norm": 0.279296875, + "learning_rate": 0.0002981430079633999, + "loss": 0.4702, + "step": 38080 + }, + { + "epoch": 101.57333333333334, + "grad_norm": 0.240234375, + "learning_rate": 0.0002981420215638347, + "loss": 0.4695, + "step": 38090 + }, + { + "epoch": 101.6, + "grad_norm": 0.32421875, + "learning_rate": 0.00029814103490399314, + "loss": 0.4633, + "step": 38100 + }, + { + "epoch": 101.62666666666667, + "grad_norm": 0.375, + "learning_rate": 0.0002981400479838769, + "loss": 0.4498, + "step": 38110 + }, + { + "epoch": 101.65333333333334, + "grad_norm": 0.255859375, + "learning_rate": 0.00029813906080348784, + "loss": 0.4692, + "step": 38120 + }, + { + "epoch": 101.68, + "grad_norm": 0.251953125, + "learning_rate": 0.00029813807336282757, + "loss": 0.4609, + "step": 38130 + }, + { + "epoch": 101.70666666666666, + "grad_norm": 0.2890625, + "learning_rate": 0.00029813708566189784, + "loss": 0.4614, + "step": 38140 + }, + { + "epoch": 101.73333333333333, + "grad_norm": 0.271484375, + "learning_rate": 0.0002981360977007004, + "loss": 0.4796, + "step": 38150 + }, + { + "epoch": 101.76, + "grad_norm": 0.34765625, + "learning_rate": 0.0002981351094792371, + "loss": 0.4813, + "step": 38160 + }, + { + "epoch": 101.78666666666666, + "grad_norm": 0.34765625, + "learning_rate": 0.00029813412099750946, + "loss": 0.4804, + "step": 38170 + }, + { + "epoch": 101.81333333333333, + "grad_norm": 0.36328125, + "learning_rate": 0.00029813313225551943, + "loss": 0.4651, + "step": 38180 + }, + { + "epoch": 101.84, + "grad_norm": 0.314453125, + "learning_rate": 0.00029813214325326857, + "loss": 0.4714, + "step": 38190 + }, + { + "epoch": 101.86666666666666, + "grad_norm": 0.337890625, + "learning_rate": 0.0002981311539907587, + "loss": 0.4709, + "step": 38200 + }, + { + "epoch": 101.89333333333333, + "grad_norm": 0.2275390625, + "learning_rate": 0.0002981301644679916, + "loss": 0.4609, + "step": 38210 + }, + { + "epoch": 101.92, + "grad_norm": 0.322265625, + "learning_rate": 0.000298129174684969, + "loss": 0.4719, + "step": 38220 + }, + { + "epoch": 101.94666666666667, + "grad_norm": 0.310546875, + "learning_rate": 0.00029812818464169255, + "loss": 0.4649, + "step": 38230 + }, + { + "epoch": 101.97333333333333, + "grad_norm": 0.36328125, + "learning_rate": 0.000298127194338164, + "loss": 0.4762, + "step": 38240 + }, + { + "epoch": 102.0, + "grad_norm": 0.41015625, + "learning_rate": 0.0002981262037743852, + "loss": 0.4645, + "step": 38250 + }, + { + "epoch": 102.0, + "eval_loss": 0.48175567388534546, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.3943, + "eval_samples_per_second": 1.539, + "eval_steps_per_second": 0.096, + "step": 38250 + }, + { + "epoch": 102.02666666666667, + "grad_norm": 0.296875, + "learning_rate": 0.0002981252129503578, + "loss": 0.484, + "step": 38260 + }, + { + "epoch": 102.05333333333333, + "grad_norm": 0.33203125, + "learning_rate": 0.0002981242218660836, + "loss": 0.4902, + "step": 38270 + }, + { + "epoch": 102.08, + "grad_norm": 0.462890625, + "learning_rate": 0.00029812323052156426, + "loss": 0.4776, + "step": 38280 + }, + { + "epoch": 102.10666666666667, + "grad_norm": 0.416015625, + "learning_rate": 0.00029812223891680155, + "loss": 0.4727, + "step": 38290 + }, + { + "epoch": 102.13333333333334, + "grad_norm": 0.373046875, + "learning_rate": 0.0002981212470517973, + "loss": 0.474, + "step": 38300 + }, + { + "epoch": 102.16, + "grad_norm": 0.33984375, + "learning_rate": 0.0002981202549265531, + "loss": 0.4785, + "step": 38310 + }, + { + "epoch": 102.18666666666667, + "grad_norm": 0.2021484375, + "learning_rate": 0.0002981192625410708, + "loss": 0.4705, + "step": 38320 + }, + { + "epoch": 102.21333333333334, + "grad_norm": 0.248046875, + "learning_rate": 0.00029811826989535216, + "loss": 0.4655, + "step": 38330 + }, + { + "epoch": 102.24, + "grad_norm": 0.275390625, + "learning_rate": 0.00029811727698939884, + "loss": 0.4695, + "step": 38340 + }, + { + "epoch": 102.26666666666667, + "grad_norm": 0.35546875, + "learning_rate": 0.00029811628382321267, + "loss": 0.4737, + "step": 38350 + }, + { + "epoch": 102.29333333333334, + "grad_norm": 0.43359375, + "learning_rate": 0.0002981152903967953, + "loss": 0.4678, + "step": 38360 + }, + { + "epoch": 102.32, + "grad_norm": 0.435546875, + "learning_rate": 0.00029811429671014857, + "loss": 0.4713, + "step": 38370 + }, + { + "epoch": 102.34666666666666, + "grad_norm": 0.369140625, + "learning_rate": 0.00029811330276327416, + "loss": 0.479, + "step": 38380 + }, + { + "epoch": 102.37333333333333, + "grad_norm": 0.44140625, + "learning_rate": 0.0002981123085561738, + "loss": 0.4751, + "step": 38390 + }, + { + "epoch": 102.4, + "grad_norm": 0.3359375, + "learning_rate": 0.0002981113140888494, + "loss": 0.4718, + "step": 38400 + }, + { + "epoch": 102.42666666666666, + "grad_norm": 0.3125, + "learning_rate": 0.00029811031936130246, + "loss": 0.4786, + "step": 38410 + }, + { + "epoch": 102.45333333333333, + "grad_norm": 0.306640625, + "learning_rate": 0.0002981093243735349, + "loss": 0.4801, + "step": 38420 + }, + { + "epoch": 102.48, + "grad_norm": 0.3359375, + "learning_rate": 0.0002981083291255484, + "loss": 0.4866, + "step": 38430 + }, + { + "epoch": 102.50666666666666, + "grad_norm": 0.3046875, + "learning_rate": 0.0002981073336173447, + "loss": 0.4758, + "step": 38440 + }, + { + "epoch": 102.53333333333333, + "grad_norm": 0.25390625, + "learning_rate": 0.00029810633784892567, + "loss": 0.4702, + "step": 38450 + }, + { + "epoch": 102.56, + "grad_norm": 0.33203125, + "learning_rate": 0.0002981053418202929, + "loss": 0.4708, + "step": 38460 + }, + { + "epoch": 102.58666666666667, + "grad_norm": 0.33984375, + "learning_rate": 0.00029810434553144817, + "loss": 0.4667, + "step": 38470 + }, + { + "epoch": 102.61333333333333, + "grad_norm": 0.28125, + "learning_rate": 0.0002981033489823933, + "loss": 0.4526, + "step": 38480 + }, + { + "epoch": 102.64, + "grad_norm": 0.2119140625, + "learning_rate": 0.0002981023521731301, + "loss": 0.4573, + "step": 38490 + }, + { + "epoch": 102.66666666666667, + "grad_norm": 0.310546875, + "learning_rate": 0.0002981013551036601, + "loss": 0.4731, + "step": 38500 + }, + { + "epoch": 102.69333333333333, + "grad_norm": 0.279296875, + "learning_rate": 0.0002981003577739852, + "loss": 0.4562, + "step": 38510 + }, + { + "epoch": 102.72, + "grad_norm": 0.333984375, + "learning_rate": 0.00029809936018410717, + "loss": 0.4738, + "step": 38520 + }, + { + "epoch": 102.74666666666667, + "grad_norm": 0.365234375, + "learning_rate": 0.00029809836233402775, + "loss": 0.4775, + "step": 38530 + }, + { + "epoch": 102.77333333333333, + "grad_norm": 0.375, + "learning_rate": 0.00029809736422374864, + "loss": 0.4845, + "step": 38540 + }, + { + "epoch": 102.8, + "grad_norm": 0.328125, + "learning_rate": 0.00029809636585327164, + "loss": 0.472, + "step": 38550 + }, + { + "epoch": 102.82666666666667, + "grad_norm": 0.267578125, + "learning_rate": 0.0002980953672225984, + "loss": 0.4657, + "step": 38560 + }, + { + "epoch": 102.85333333333334, + "grad_norm": 0.412109375, + "learning_rate": 0.00029809436833173083, + "loss": 0.4747, + "step": 38570 + }, + { + "epoch": 102.88, + "grad_norm": 0.330078125, + "learning_rate": 0.00029809336918067066, + "loss": 0.4635, + "step": 38580 + }, + { + "epoch": 102.90666666666667, + "grad_norm": 0.33203125, + "learning_rate": 0.00029809236976941953, + "loss": 0.4657, + "step": 38590 + }, + { + "epoch": 102.93333333333334, + "grad_norm": 0.294921875, + "learning_rate": 0.00029809137009797934, + "loss": 0.4685, + "step": 38600 + }, + { + "epoch": 102.96, + "grad_norm": 0.3203125, + "learning_rate": 0.0002980903701663517, + "loss": 0.4663, + "step": 38610 + }, + { + "epoch": 102.98666666666666, + "grad_norm": 0.302734375, + "learning_rate": 0.00029808936997453844, + "loss": 0.4792, + "step": 38620 + }, + { + "epoch": 103.0, + "eval_loss": 0.47996532917022705, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.0526, + "eval_samples_per_second": 1.592, + "eval_steps_per_second": 0.099, + "step": 38625 + }, + { + "epoch": 103.01333333333334, + "grad_norm": 0.30859375, + "learning_rate": 0.0002980883695225413, + "loss": 0.4684, + "step": 38630 + }, + { + "epoch": 103.04, + "grad_norm": 0.3515625, + "learning_rate": 0.0002980873688103621, + "loss": 0.4925, + "step": 38640 + }, + { + "epoch": 103.06666666666666, + "grad_norm": 0.275390625, + "learning_rate": 0.0002980863678380026, + "loss": 0.4806, + "step": 38650 + }, + { + "epoch": 103.09333333333333, + "grad_norm": 0.318359375, + "learning_rate": 0.0002980853666054645, + "loss": 0.4748, + "step": 38660 + }, + { + "epoch": 103.12, + "grad_norm": 0.26953125, + "learning_rate": 0.0002980843651127495, + "loss": 0.472, + "step": 38670 + }, + { + "epoch": 103.14666666666666, + "grad_norm": 0.29296875, + "learning_rate": 0.0002980833633598595, + "loss": 0.4801, + "step": 38680 + }, + { + "epoch": 103.17333333333333, + "grad_norm": 0.3671875, + "learning_rate": 0.0002980823613467961, + "loss": 0.4712, + "step": 38690 + }, + { + "epoch": 103.2, + "grad_norm": 0.337890625, + "learning_rate": 0.0002980813590735612, + "loss": 0.469, + "step": 38700 + }, + { + "epoch": 103.22666666666667, + "grad_norm": 0.306640625, + "learning_rate": 0.0002980803565401565, + "loss": 0.4664, + "step": 38710 + }, + { + "epoch": 103.25333333333333, + "grad_norm": 0.291015625, + "learning_rate": 0.0002980793537465838, + "loss": 0.4663, + "step": 38720 + }, + { + "epoch": 103.28, + "grad_norm": 0.2890625, + "learning_rate": 0.0002980783506928449, + "loss": 0.4806, + "step": 38730 + }, + { + "epoch": 103.30666666666667, + "grad_norm": 0.232421875, + "learning_rate": 0.00029807734737894137, + "loss": 0.4613, + "step": 38740 + }, + { + "epoch": 103.33333333333333, + "grad_norm": 0.234375, + "learning_rate": 0.0002980763438048752, + "loss": 0.477, + "step": 38750 + }, + { + "epoch": 103.36, + "grad_norm": 0.33984375, + "learning_rate": 0.000298075339970648, + "loss": 0.4788, + "step": 38760 + }, + { + "epoch": 103.38666666666667, + "grad_norm": 0.30859375, + "learning_rate": 0.00029807433587626154, + "loss": 0.4707, + "step": 38770 + }, + { + "epoch": 103.41333333333333, + "grad_norm": 0.4140625, + "learning_rate": 0.00029807333152171773, + "loss": 0.4753, + "step": 38780 + }, + { + "epoch": 103.44, + "grad_norm": 0.341796875, + "learning_rate": 0.0002980723269070182, + "loss": 0.4777, + "step": 38790 + }, + { + "epoch": 103.46666666666667, + "grad_norm": 0.337890625, + "learning_rate": 0.00029807132203216473, + "loss": 0.4874, + "step": 38800 + }, + { + "epoch": 103.49333333333334, + "grad_norm": 0.34765625, + "learning_rate": 0.0002980703168971591, + "loss": 0.479, + "step": 38810 + }, + { + "epoch": 103.52, + "grad_norm": 0.298828125, + "learning_rate": 0.00029806931150200316, + "loss": 0.4723, + "step": 38820 + }, + { + "epoch": 103.54666666666667, + "grad_norm": 0.341796875, + "learning_rate": 0.0002980683058466985, + "loss": 0.4698, + "step": 38830 + }, + { + "epoch": 103.57333333333334, + "grad_norm": 0.3203125, + "learning_rate": 0.00029806729993124705, + "loss": 0.4691, + "step": 38840 + }, + { + "epoch": 103.6, + "grad_norm": 0.390625, + "learning_rate": 0.0002980662937556505, + "loss": 0.4632, + "step": 38850 + }, + { + "epoch": 103.62666666666667, + "grad_norm": 0.27734375, + "learning_rate": 0.0002980652873199106, + "loss": 0.4501, + "step": 38860 + }, + { + "epoch": 103.65333333333334, + "grad_norm": 0.2890625, + "learning_rate": 0.0002980642806240292, + "loss": 0.4692, + "step": 38870 + }, + { + "epoch": 103.68, + "grad_norm": 0.32421875, + "learning_rate": 0.000298063273668008, + "loss": 0.4604, + "step": 38880 + }, + { + "epoch": 103.70666666666666, + "grad_norm": 0.333984375, + "learning_rate": 0.0002980622664518488, + "loss": 0.4616, + "step": 38890 + }, + { + "epoch": 103.73333333333333, + "grad_norm": 0.263671875, + "learning_rate": 0.0002980612589755533, + "loss": 0.4807, + "step": 38900 + }, + { + "epoch": 103.76, + "grad_norm": 0.330078125, + "learning_rate": 0.00029806025123912337, + "loss": 0.4809, + "step": 38910 + }, + { + "epoch": 103.78666666666666, + "grad_norm": 0.310546875, + "learning_rate": 0.00029805924324256074, + "loss": 0.4796, + "step": 38920 + }, + { + "epoch": 103.81333333333333, + "grad_norm": 0.30859375, + "learning_rate": 0.00029805823498586716, + "loss": 0.4656, + "step": 38930 + }, + { + "epoch": 103.84, + "grad_norm": 0.361328125, + "learning_rate": 0.00029805722646904443, + "loss": 0.471, + "step": 38940 + }, + { + "epoch": 103.86666666666666, + "grad_norm": 0.251953125, + "learning_rate": 0.0002980562176920943, + "loss": 0.4702, + "step": 38950 + }, + { + "epoch": 103.89333333333333, + "grad_norm": 0.34375, + "learning_rate": 0.00029805520865501853, + "loss": 0.462, + "step": 38960 + }, + { + "epoch": 103.92, + "grad_norm": 0.330078125, + "learning_rate": 0.000298054199357819, + "loss": 0.472, + "step": 38970 + }, + { + "epoch": 103.94666666666667, + "grad_norm": 0.255859375, + "learning_rate": 0.0002980531898004973, + "loss": 0.4643, + "step": 38980 + }, + { + "epoch": 103.97333333333333, + "grad_norm": 0.318359375, + "learning_rate": 0.0002980521799830554, + "loss": 0.4761, + "step": 38990 + }, + { + "epoch": 104.0, + "grad_norm": 0.337890625, + "learning_rate": 0.0002980511699054949, + "loss": 0.4645, + "step": 39000 + }, + { + "epoch": 104.0, + "eval_loss": 0.4795394241809845, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.7369, + "eval_samples_per_second": 1.49, + "eval_steps_per_second": 0.093, + "step": 39000 + }, + { + "epoch": 104.02666666666667, + "grad_norm": 0.3515625, + "learning_rate": 0.00029805015956781773, + "loss": 0.4843, + "step": 39010 + }, + { + "epoch": 104.05333333333333, + "grad_norm": 0.259765625, + "learning_rate": 0.00029804914897002554, + "loss": 0.4906, + "step": 39020 + }, + { + "epoch": 104.08, + "grad_norm": 0.38671875, + "learning_rate": 0.0002980481381121202, + "loss": 0.4774, + "step": 39030 + }, + { + "epoch": 104.10666666666667, + "grad_norm": 0.333984375, + "learning_rate": 0.00029804712699410334, + "loss": 0.4723, + "step": 39040 + }, + { + "epoch": 104.13333333333334, + "grad_norm": 0.349609375, + "learning_rate": 0.0002980461156159769, + "loss": 0.4736, + "step": 39050 + }, + { + "epoch": 104.16, + "grad_norm": 0.3359375, + "learning_rate": 0.00029804510397774263, + "loss": 0.4792, + "step": 39060 + }, + { + "epoch": 104.18666666666667, + "grad_norm": 0.36328125, + "learning_rate": 0.0002980440920794022, + "loss": 0.4707, + "step": 39070 + }, + { + "epoch": 104.21333333333334, + "grad_norm": 0.42578125, + "learning_rate": 0.00029804307992095744, + "loss": 0.465, + "step": 39080 + }, + { + "epoch": 104.24, + "grad_norm": 0.310546875, + "learning_rate": 0.0002980420675024102, + "loss": 0.4689, + "step": 39090 + }, + { + "epoch": 104.26666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.0002980410548237622, + "loss": 0.4735, + "step": 39100 + }, + { + "epoch": 104.29333333333334, + "grad_norm": 0.376953125, + "learning_rate": 0.00029804004188501527, + "loss": 0.4675, + "step": 39110 + }, + { + "epoch": 104.32, + "grad_norm": 0.3046875, + "learning_rate": 0.0002980390286861711, + "loss": 0.4709, + "step": 39120 + }, + { + "epoch": 104.34666666666666, + "grad_norm": 0.31640625, + "learning_rate": 0.0002980380152272315, + "loss": 0.4788, + "step": 39130 + }, + { + "epoch": 104.37333333333333, + "grad_norm": 0.35546875, + "learning_rate": 0.00029803700150819826, + "loss": 0.4754, + "step": 39140 + }, + { + "epoch": 104.4, + "grad_norm": 0.357421875, + "learning_rate": 0.0002980359875290732, + "loss": 0.4713, + "step": 39150 + }, + { + "epoch": 104.42666666666666, + "grad_norm": 0.427734375, + "learning_rate": 0.000298034973289858, + "loss": 0.4783, + "step": 39160 + }, + { + "epoch": 104.45333333333333, + "grad_norm": 0.322265625, + "learning_rate": 0.00029803395879055456, + "loss": 0.4797, + "step": 39170 + }, + { + "epoch": 104.48, + "grad_norm": 0.33203125, + "learning_rate": 0.00029803294403116465, + "loss": 0.4865, + "step": 39180 + }, + { + "epoch": 104.50666666666666, + "grad_norm": 0.2578125, + "learning_rate": 0.00029803192901169, + "loss": 0.4755, + "step": 39190 + }, + { + "epoch": 104.53333333333333, + "grad_norm": 0.353515625, + "learning_rate": 0.00029803091373213235, + "loss": 0.4699, + "step": 39200 + }, + { + "epoch": 104.56, + "grad_norm": 0.26953125, + "learning_rate": 0.0002980298981924936, + "loss": 0.4708, + "step": 39210 + }, + { + "epoch": 104.58666666666667, + "grad_norm": 0.267578125, + "learning_rate": 0.0002980288823927754, + "loss": 0.4661, + "step": 39220 + }, + { + "epoch": 104.61333333333333, + "grad_norm": 0.1982421875, + "learning_rate": 0.00029802786633297966, + "loss": 0.4527, + "step": 39230 + }, + { + "epoch": 104.64, + "grad_norm": 0.306640625, + "learning_rate": 0.00029802685001310814, + "loss": 0.4575, + "step": 39240 + }, + { + "epoch": 104.66666666666667, + "grad_norm": 0.3046875, + "learning_rate": 0.00029802583343316254, + "loss": 0.4732, + "step": 39250 + }, + { + "epoch": 104.69333333333333, + "grad_norm": 0.322265625, + "learning_rate": 0.00029802481659314475, + "loss": 0.4562, + "step": 39260 + }, + { + "epoch": 104.72, + "grad_norm": 0.2890625, + "learning_rate": 0.0002980237994930565, + "loss": 0.4731, + "step": 39270 + }, + { + "epoch": 104.74666666666667, + "grad_norm": 0.36328125, + "learning_rate": 0.00029802278213289957, + "loss": 0.4775, + "step": 39280 + }, + { + "epoch": 104.77333333333333, + "grad_norm": 0.353515625, + "learning_rate": 0.0002980217645126758, + "loss": 0.4846, + "step": 39290 + }, + { + "epoch": 104.8, + "grad_norm": 0.28515625, + "learning_rate": 0.00029802074663238696, + "loss": 0.4713, + "step": 39300 + }, + { + "epoch": 104.82666666666667, + "grad_norm": 0.26171875, + "learning_rate": 0.0002980197284920348, + "loss": 0.4662, + "step": 39310 + }, + { + "epoch": 104.85333333333334, + "grad_norm": 0.369140625, + "learning_rate": 0.00029801871009162113, + "loss": 0.4752, + "step": 39320 + }, + { + "epoch": 104.88, + "grad_norm": 0.263671875, + "learning_rate": 0.00029801769143114777, + "loss": 0.4635, + "step": 39330 + }, + { + "epoch": 104.90666666666667, + "grad_norm": 0.275390625, + "learning_rate": 0.0002980166725106165, + "loss": 0.4655, + "step": 39340 + }, + { + "epoch": 104.93333333333334, + "grad_norm": 0.333984375, + "learning_rate": 0.000298015653330029, + "loss": 0.4679, + "step": 39350 + }, + { + "epoch": 104.96, + "grad_norm": 0.298828125, + "learning_rate": 0.00029801463388938725, + "loss": 0.4651, + "step": 39360 + }, + { + "epoch": 104.98666666666666, + "grad_norm": 0.390625, + "learning_rate": 0.00029801361418869293, + "loss": 0.4797, + "step": 39370 + }, + { + "epoch": 105.0, + "eval_loss": 0.4803178310394287, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.7476, + "eval_samples_per_second": 1.641, + "eval_steps_per_second": 0.103, + "step": 39375 + }, + { + "epoch": 105.01333333333334, + "grad_norm": 0.4296875, + "learning_rate": 0.0002980125942279478, + "loss": 0.4686, + "step": 39380 + }, + { + "epoch": 105.04, + "grad_norm": 0.408203125, + "learning_rate": 0.0002980115740071537, + "loss": 0.4933, + "step": 39390 + }, + { + "epoch": 105.06666666666666, + "grad_norm": 0.333984375, + "learning_rate": 0.00029801055352631243, + "loss": 0.48, + "step": 39400 + }, + { + "epoch": 105.09333333333333, + "grad_norm": 0.2890625, + "learning_rate": 0.0002980095327854258, + "loss": 0.4745, + "step": 39410 + }, + { + "epoch": 105.12, + "grad_norm": 0.310546875, + "learning_rate": 0.0002980085117844956, + "loss": 0.4716, + "step": 39420 + }, + { + "epoch": 105.14666666666666, + "grad_norm": 0.28125, + "learning_rate": 0.00029800749052352353, + "loss": 0.4807, + "step": 39430 + }, + { + "epoch": 105.17333333333333, + "grad_norm": 0.333984375, + "learning_rate": 0.00029800646900251143, + "loss": 0.4713, + "step": 39440 + }, + { + "epoch": 105.2, + "grad_norm": 0.384765625, + "learning_rate": 0.0002980054472214612, + "loss": 0.469, + "step": 39450 + }, + { + "epoch": 105.22666666666667, + "grad_norm": 0.365234375, + "learning_rate": 0.0002980044251803745, + "loss": 0.4664, + "step": 39460 + }, + { + "epoch": 105.25333333333333, + "grad_norm": 0.25, + "learning_rate": 0.00029800340287925326, + "loss": 0.4668, + "step": 39470 + }, + { + "epoch": 105.28, + "grad_norm": 0.376953125, + "learning_rate": 0.00029800238031809913, + "loss": 0.4803, + "step": 39480 + }, + { + "epoch": 105.30666666666667, + "grad_norm": 0.28125, + "learning_rate": 0.000298001357496914, + "loss": 0.4608, + "step": 39490 + }, + { + "epoch": 105.33333333333333, + "grad_norm": 0.287109375, + "learning_rate": 0.00029800033441569965, + "loss": 0.4766, + "step": 39500 + }, + { + "epoch": 105.36, + "grad_norm": 0.30859375, + "learning_rate": 0.0002979993110744578, + "loss": 0.4783, + "step": 39510 + }, + { + "epoch": 105.38666666666667, + "grad_norm": 0.3828125, + "learning_rate": 0.0002979982874731904, + "loss": 0.4706, + "step": 39520 + }, + { + "epoch": 105.41333333333333, + "grad_norm": 0.341796875, + "learning_rate": 0.00029799726361189906, + "loss": 0.4752, + "step": 39530 + }, + { + "epoch": 105.44, + "grad_norm": 0.310546875, + "learning_rate": 0.0002979962394905858, + "loss": 0.4779, + "step": 39540 + }, + { + "epoch": 105.46666666666667, + "grad_norm": 0.376953125, + "learning_rate": 0.00029799521510925225, + "loss": 0.4871, + "step": 39550 + }, + { + "epoch": 105.49333333333334, + "grad_norm": 0.44140625, + "learning_rate": 0.0002979941904679003, + "loss": 0.4789, + "step": 39560 + }, + { + "epoch": 105.52, + "grad_norm": 0.3203125, + "learning_rate": 0.00029799316556653165, + "loss": 0.4727, + "step": 39570 + }, + { + "epoch": 105.54666666666667, + "grad_norm": 0.361328125, + "learning_rate": 0.0002979921404051482, + "loss": 0.47, + "step": 39580 + }, + { + "epoch": 105.57333333333334, + "grad_norm": 0.36328125, + "learning_rate": 0.00029799111498375163, + "loss": 0.4687, + "step": 39590 + }, + { + "epoch": 105.6, + "grad_norm": 0.306640625, + "learning_rate": 0.00029799008930234393, + "loss": 0.4626, + "step": 39600 + }, + { + "epoch": 105.62666666666667, + "grad_norm": 0.3359375, + "learning_rate": 0.00029798906336092677, + "loss": 0.45, + "step": 39610 + }, + { + "epoch": 105.65333333333334, + "grad_norm": 0.291015625, + "learning_rate": 0.000297988037159502, + "loss": 0.4699, + "step": 39620 + }, + { + "epoch": 105.68, + "grad_norm": 0.30078125, + "learning_rate": 0.0002979870106980713, + "loss": 0.4608, + "step": 39630 + }, + { + "epoch": 105.70666666666666, + "grad_norm": 0.337890625, + "learning_rate": 0.0002979859839766367, + "loss": 0.4608, + "step": 39640 + }, + { + "epoch": 105.73333333333333, + "grad_norm": 0.361328125, + "learning_rate": 0.0002979849569951998, + "loss": 0.4803, + "step": 39650 + }, + { + "epoch": 105.76, + "grad_norm": 0.384765625, + "learning_rate": 0.0002979839297537625, + "loss": 0.4818, + "step": 39660 + }, + { + "epoch": 105.78666666666666, + "grad_norm": 0.365234375, + "learning_rate": 0.00029798290225232664, + "loss": 0.4803, + "step": 39670 + }, + { + "epoch": 105.81333333333333, + "grad_norm": 0.384765625, + "learning_rate": 0.000297981874490894, + "loss": 0.4658, + "step": 39680 + }, + { + "epoch": 105.84, + "grad_norm": 0.330078125, + "learning_rate": 0.00029798084646946623, + "loss": 0.4714, + "step": 39690 + }, + { + "epoch": 105.86666666666666, + "grad_norm": 0.31640625, + "learning_rate": 0.0002979798181880454, + "loss": 0.47, + "step": 39700 + }, + { + "epoch": 105.89333333333333, + "grad_norm": 0.298828125, + "learning_rate": 0.0002979787896466331, + "loss": 0.4613, + "step": 39710 + }, + { + "epoch": 105.92, + "grad_norm": 0.42578125, + "learning_rate": 0.00029797776084523127, + "loss": 0.4722, + "step": 39720 + }, + { + "epoch": 105.94666666666667, + "grad_norm": 0.318359375, + "learning_rate": 0.0002979767317838416, + "loss": 0.464, + "step": 39730 + }, + { + "epoch": 105.97333333333333, + "grad_norm": 0.27734375, + "learning_rate": 0.00029797570246246604, + "loss": 0.4754, + "step": 39740 + }, + { + "epoch": 106.0, + "grad_norm": 0.310546875, + "learning_rate": 0.00029797467288110625, + "loss": 0.4648, + "step": 39750 + }, + { + "epoch": 106.0, + "eval_loss": 0.47966986894607544, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.7977, + "eval_samples_per_second": 1.482, + "eval_steps_per_second": 0.093, + "step": 39750 + }, + { + "epoch": 106.02666666666667, + "grad_norm": 0.26171875, + "learning_rate": 0.00029797364303976417, + "loss": 0.4845, + "step": 39760 + }, + { + "epoch": 106.05333333333333, + "grad_norm": 0.291015625, + "learning_rate": 0.00029797261293844156, + "loss": 0.4906, + "step": 39770 + }, + { + "epoch": 106.08, + "grad_norm": 0.34765625, + "learning_rate": 0.0002979715825771402, + "loss": 0.4774, + "step": 39780 + }, + { + "epoch": 106.10666666666667, + "grad_norm": 0.294921875, + "learning_rate": 0.0002979705519558619, + "loss": 0.4722, + "step": 39790 + }, + { + "epoch": 106.13333333333334, + "grad_norm": 0.3125, + "learning_rate": 0.0002979695210746085, + "loss": 0.4735, + "step": 39800 + }, + { + "epoch": 106.16, + "grad_norm": 0.37109375, + "learning_rate": 0.00029796848993338186, + "loss": 0.4786, + "step": 39810 + }, + { + "epoch": 106.18666666666667, + "grad_norm": 0.345703125, + "learning_rate": 0.0002979674585321837, + "loss": 0.4703, + "step": 39820 + }, + { + "epoch": 106.21333333333334, + "grad_norm": 0.26953125, + "learning_rate": 0.00029796642687101584, + "loss": 0.4649, + "step": 39830 + }, + { + "epoch": 106.24, + "grad_norm": 0.3515625, + "learning_rate": 0.00029796539494988017, + "loss": 0.4683, + "step": 39840 + }, + { + "epoch": 106.26666666666667, + "grad_norm": 0.3046875, + "learning_rate": 0.00029796436276877846, + "loss": 0.4738, + "step": 39850 + }, + { + "epoch": 106.29333333333334, + "grad_norm": 0.392578125, + "learning_rate": 0.00029796333032771244, + "loss": 0.4677, + "step": 39860 + }, + { + "epoch": 106.32, + "grad_norm": 0.318359375, + "learning_rate": 0.00029796229762668407, + "loss": 0.4702, + "step": 39870 + }, + { + "epoch": 106.34666666666666, + "grad_norm": 0.455078125, + "learning_rate": 0.0002979612646656951, + "loss": 0.4795, + "step": 39880 + }, + { + "epoch": 106.37333333333333, + "grad_norm": 0.361328125, + "learning_rate": 0.0002979602314447473, + "loss": 0.4748, + "step": 39890 + }, + { + "epoch": 106.4, + "grad_norm": 0.259765625, + "learning_rate": 0.00029795919796384257, + "loss": 0.4716, + "step": 39900 + }, + { + "epoch": 106.42666666666666, + "grad_norm": 0.2890625, + "learning_rate": 0.0002979581642229826, + "loss": 0.4779, + "step": 39910 + }, + { + "epoch": 106.45333333333333, + "grad_norm": 0.28125, + "learning_rate": 0.00029795713022216937, + "loss": 0.4798, + "step": 39920 + }, + { + "epoch": 106.48, + "grad_norm": 0.279296875, + "learning_rate": 0.0002979560959614046, + "loss": 0.4864, + "step": 39930 + }, + { + "epoch": 106.50666666666666, + "grad_norm": 0.310546875, + "learning_rate": 0.0002979550614406901, + "loss": 0.4762, + "step": 39940 + }, + { + "epoch": 106.53333333333333, + "grad_norm": 0.2373046875, + "learning_rate": 0.0002979540266600277, + "loss": 0.4695, + "step": 39950 + }, + { + "epoch": 106.56, + "grad_norm": 0.34375, + "learning_rate": 0.00029795299161941926, + "loss": 0.4705, + "step": 39960 + }, + { + "epoch": 106.58666666666667, + "grad_norm": 0.380859375, + "learning_rate": 0.00029795195631886657, + "loss": 0.4662, + "step": 39970 + }, + { + "epoch": 106.61333333333333, + "grad_norm": 0.322265625, + "learning_rate": 0.0002979509207583714, + "loss": 0.4529, + "step": 39980 + }, + { + "epoch": 106.64, + "grad_norm": 0.279296875, + "learning_rate": 0.00029794988493793564, + "loss": 0.4574, + "step": 39990 + }, + { + "epoch": 106.66666666666667, + "grad_norm": 0.357421875, + "learning_rate": 0.0002979488488575611, + "loss": 0.4732, + "step": 40000 + }, + { + "epoch": 106.69333333333333, + "grad_norm": 0.26953125, + "learning_rate": 0.00029794781251724957, + "loss": 0.4556, + "step": 40010 + }, + { + "epoch": 106.72, + "grad_norm": 0.267578125, + "learning_rate": 0.0002979467759170029, + "loss": 0.4732, + "step": 40020 + }, + { + "epoch": 106.74666666666667, + "grad_norm": 0.259765625, + "learning_rate": 0.00029794573905682283, + "loss": 0.4771, + "step": 40030 + }, + { + "epoch": 106.77333333333333, + "grad_norm": 0.435546875, + "learning_rate": 0.0002979447019367113, + "loss": 0.485, + "step": 40040 + }, + { + "epoch": 106.8, + "grad_norm": 0.25, + "learning_rate": 0.0002979436645566701, + "loss": 0.4724, + "step": 40050 + }, + { + "epoch": 106.82666666666667, + "grad_norm": 0.259765625, + "learning_rate": 0.00029794262691670105, + "loss": 0.4667, + "step": 40060 + }, + { + "epoch": 106.85333333333334, + "grad_norm": 0.36328125, + "learning_rate": 0.0002979415890168059, + "loss": 0.4752, + "step": 40070 + }, + { + "epoch": 106.88, + "grad_norm": 0.435546875, + "learning_rate": 0.00029794055085698655, + "loss": 0.4635, + "step": 40080 + }, + { + "epoch": 106.90666666666667, + "grad_norm": 0.369140625, + "learning_rate": 0.0002979395124372448, + "loss": 0.466, + "step": 40090 + }, + { + "epoch": 106.93333333333334, + "grad_norm": 0.33203125, + "learning_rate": 0.00029793847375758246, + "loss": 0.4676, + "step": 40100 + }, + { + "epoch": 106.96, + "grad_norm": 0.287109375, + "learning_rate": 0.00029793743481800145, + "loss": 0.466, + "step": 40110 + }, + { + "epoch": 106.98666666666666, + "grad_norm": 0.30078125, + "learning_rate": 0.00029793639561850345, + "loss": 0.479, + "step": 40120 + }, + { + "epoch": 107.0, + "eval_loss": 0.48041215538978577, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.0882, + "eval_samples_per_second": 1.586, + "eval_steps_per_second": 0.099, + "step": 40125 + }, + { + "epoch": 107.01333333333334, + "grad_norm": 0.34375, + "learning_rate": 0.0002979353561590904, + "loss": 0.4689, + "step": 40130 + }, + { + "epoch": 107.04, + "grad_norm": 0.302734375, + "learning_rate": 0.000297934316439764, + "loss": 0.4929, + "step": 40140 + }, + { + "epoch": 107.06666666666666, + "grad_norm": 0.376953125, + "learning_rate": 0.0002979332764605262, + "loss": 0.4798, + "step": 40150 + }, + { + "epoch": 107.09333333333333, + "grad_norm": 0.41015625, + "learning_rate": 0.0002979322362213788, + "loss": 0.4746, + "step": 40160 + }, + { + "epoch": 107.12, + "grad_norm": 0.443359375, + "learning_rate": 0.0002979311957223236, + "loss": 0.4713, + "step": 40170 + }, + { + "epoch": 107.14666666666666, + "grad_norm": 0.3125, + "learning_rate": 0.0002979301549633624, + "loss": 0.48, + "step": 40180 + }, + { + "epoch": 107.17333333333333, + "grad_norm": 0.353515625, + "learning_rate": 0.0002979291139444971, + "loss": 0.4706, + "step": 40190 + }, + { + "epoch": 107.2, + "grad_norm": 0.287109375, + "learning_rate": 0.00029792807266572954, + "loss": 0.469, + "step": 40200 + }, + { + "epoch": 107.22666666666667, + "grad_norm": 0.27734375, + "learning_rate": 0.00029792703112706145, + "loss": 0.4658, + "step": 40210 + }, + { + "epoch": 107.25333333333333, + "grad_norm": 0.28125, + "learning_rate": 0.00029792598932849477, + "loss": 0.467, + "step": 40220 + }, + { + "epoch": 107.28, + "grad_norm": 0.392578125, + "learning_rate": 0.00029792494727003127, + "loss": 0.4804, + "step": 40230 + }, + { + "epoch": 107.30666666666667, + "grad_norm": 0.33203125, + "learning_rate": 0.00029792390495167275, + "loss": 0.4612, + "step": 40240 + }, + { + "epoch": 107.33333333333333, + "grad_norm": 0.32421875, + "learning_rate": 0.0002979228623734211, + "loss": 0.4765, + "step": 40250 + }, + { + "epoch": 107.36, + "grad_norm": 0.375, + "learning_rate": 0.0002979218195352781, + "loss": 0.4787, + "step": 40260 + }, + { + "epoch": 107.38666666666667, + "grad_norm": 0.306640625, + "learning_rate": 0.00029792077643724563, + "loss": 0.4702, + "step": 40270 + }, + { + "epoch": 107.41333333333333, + "grad_norm": 0.34375, + "learning_rate": 0.00029791973307932555, + "loss": 0.4752, + "step": 40280 + }, + { + "epoch": 107.44, + "grad_norm": 0.21484375, + "learning_rate": 0.0002979186894615196, + "loss": 0.4782, + "step": 40290 + }, + { + "epoch": 107.46666666666667, + "grad_norm": 0.255859375, + "learning_rate": 0.0002979176455838297, + "loss": 0.4866, + "step": 40300 + }, + { + "epoch": 107.49333333333334, + "grad_norm": 0.390625, + "learning_rate": 0.0002979166014462576, + "loss": 0.4777, + "step": 40310 + }, + { + "epoch": 107.52, + "grad_norm": 0.49609375, + "learning_rate": 0.0002979155570488052, + "loss": 0.4726, + "step": 40320 + }, + { + "epoch": 107.54666666666667, + "grad_norm": 0.357421875, + "learning_rate": 0.00029791451239147434, + "loss": 0.4697, + "step": 40330 + }, + { + "epoch": 107.57333333333334, + "grad_norm": 0.310546875, + "learning_rate": 0.0002979134674742668, + "loss": 0.4693, + "step": 40340 + }, + { + "epoch": 107.6, + "grad_norm": 0.392578125, + "learning_rate": 0.0002979124222971844, + "loss": 0.4629, + "step": 40350 + }, + { + "epoch": 107.62666666666667, + "grad_norm": 0.40234375, + "learning_rate": 0.00029791137686022915, + "loss": 0.4501, + "step": 40360 + }, + { + "epoch": 107.65333333333334, + "grad_norm": 0.314453125, + "learning_rate": 0.0002979103311634027, + "loss": 0.4696, + "step": 40370 + }, + { + "epoch": 107.68, + "grad_norm": 0.26953125, + "learning_rate": 0.0002979092852067069, + "loss": 0.461, + "step": 40380 + }, + { + "epoch": 107.70666666666666, + "grad_norm": 0.37890625, + "learning_rate": 0.00029790823899014375, + "loss": 0.4607, + "step": 40390 + }, + { + "epoch": 107.73333333333333, + "grad_norm": 0.3125, + "learning_rate": 0.00029790719251371485, + "loss": 0.4806, + "step": 40400 + }, + { + "epoch": 107.76, + "grad_norm": 0.384765625, + "learning_rate": 0.00029790614577742227, + "loss": 0.4815, + "step": 40410 + }, + { + "epoch": 107.78666666666666, + "grad_norm": 0.373046875, + "learning_rate": 0.0002979050987812676, + "loss": 0.4802, + "step": 40420 + }, + { + "epoch": 107.81333333333333, + "grad_norm": 0.482421875, + "learning_rate": 0.00029790405152525296, + "loss": 0.4652, + "step": 40430 + }, + { + "epoch": 107.84, + "grad_norm": 0.3359375, + "learning_rate": 0.00029790300400938, + "loss": 0.471, + "step": 40440 + }, + { + "epoch": 107.86666666666666, + "grad_norm": 0.5, + "learning_rate": 0.00029790195623365063, + "loss": 0.4706, + "step": 40450 + }, + { + "epoch": 107.89333333333333, + "grad_norm": 0.373046875, + "learning_rate": 0.00029790090819806664, + "loss": 0.4613, + "step": 40460 + }, + { + "epoch": 107.92, + "grad_norm": 0.294921875, + "learning_rate": 0.0002978998599026299, + "loss": 0.4717, + "step": 40470 + }, + { + "epoch": 107.94666666666667, + "grad_norm": 0.287109375, + "learning_rate": 0.00029789881134734223, + "loss": 0.464, + "step": 40480 + }, + { + "epoch": 107.97333333333333, + "grad_norm": 0.375, + "learning_rate": 0.00029789776253220555, + "loss": 0.476, + "step": 40490 + }, + { + "epoch": 108.0, + "grad_norm": 0.337890625, + "learning_rate": 0.0002978967134572216, + "loss": 0.4653, + "step": 40500 + }, + { + "epoch": 108.0, + "eval_loss": 0.4787892997264862, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.2779, + "eval_samples_per_second": 1.557, + "eval_steps_per_second": 0.097, + "step": 40500 + }, + { + "epoch": 108.02666666666667, + "grad_norm": 0.28125, + "learning_rate": 0.00029789566412239234, + "loss": 0.4844, + "step": 40510 + }, + { + "epoch": 108.05333333333333, + "grad_norm": 0.306640625, + "learning_rate": 0.0002978946145277195, + "loss": 0.4897, + "step": 40520 + }, + { + "epoch": 108.08, + "grad_norm": 0.357421875, + "learning_rate": 0.00029789356467320503, + "loss": 0.4772, + "step": 40530 + }, + { + "epoch": 108.10666666666667, + "grad_norm": 0.31640625, + "learning_rate": 0.0002978925145588507, + "loss": 0.4727, + "step": 40540 + }, + { + "epoch": 108.13333333333334, + "grad_norm": 0.283203125, + "learning_rate": 0.00029789146418465827, + "loss": 0.4737, + "step": 40550 + }, + { + "epoch": 108.16, + "grad_norm": 0.310546875, + "learning_rate": 0.00029789041355062976, + "loss": 0.478, + "step": 40560 + }, + { + "epoch": 108.18666666666667, + "grad_norm": 0.2138671875, + "learning_rate": 0.00029788936265676694, + "loss": 0.4702, + "step": 40570 + }, + { + "epoch": 108.21333333333334, + "grad_norm": 0.2890625, + "learning_rate": 0.00029788831150307166, + "loss": 0.4647, + "step": 40580 + }, + { + "epoch": 108.24, + "grad_norm": 0.458984375, + "learning_rate": 0.00029788726008954576, + "loss": 0.469, + "step": 40590 + }, + { + "epoch": 108.26666666666667, + "grad_norm": 0.3515625, + "learning_rate": 0.00029788620841619107, + "loss": 0.4732, + "step": 40600 + }, + { + "epoch": 108.29333333333334, + "grad_norm": 0.361328125, + "learning_rate": 0.0002978851564830095, + "loss": 0.4676, + "step": 40610 + }, + { + "epoch": 108.32, + "grad_norm": 0.330078125, + "learning_rate": 0.00029788410429000284, + "loss": 0.4709, + "step": 40620 + }, + { + "epoch": 108.34666666666666, + "grad_norm": 0.412109375, + "learning_rate": 0.000297883051837173, + "loss": 0.4781, + "step": 40630 + }, + { + "epoch": 108.37333333333333, + "grad_norm": 0.34765625, + "learning_rate": 0.0002978819991245217, + "loss": 0.4749, + "step": 40640 + }, + { + "epoch": 108.4, + "grad_norm": 0.341796875, + "learning_rate": 0.00029788094615205095, + "loss": 0.4721, + "step": 40650 + }, + { + "epoch": 108.42666666666666, + "grad_norm": 0.34765625, + "learning_rate": 0.0002978798929197625, + "loss": 0.4772, + "step": 40660 + }, + { + "epoch": 108.45333333333333, + "grad_norm": 0.4296875, + "learning_rate": 0.0002978788394276582, + "loss": 0.4805, + "step": 40670 + }, + { + "epoch": 108.48, + "grad_norm": 0.443359375, + "learning_rate": 0.00029787778567573996, + "loss": 0.4864, + "step": 40680 + }, + { + "epoch": 108.50666666666666, + "grad_norm": 0.400390625, + "learning_rate": 0.0002978767316640096, + "loss": 0.4762, + "step": 40690 + }, + { + "epoch": 108.53333333333333, + "grad_norm": 0.234375, + "learning_rate": 0.00029787567739246896, + "loss": 0.47, + "step": 40700 + }, + { + "epoch": 108.56, + "grad_norm": 0.26171875, + "learning_rate": 0.0002978746228611199, + "loss": 0.4702, + "step": 40710 + }, + { + "epoch": 108.58666666666667, + "grad_norm": 0.234375, + "learning_rate": 0.00029787356806996426, + "loss": 0.4666, + "step": 40720 + }, + { + "epoch": 108.61333333333333, + "grad_norm": 0.2119140625, + "learning_rate": 0.0002978725130190039, + "loss": 0.4525, + "step": 40730 + }, + { + "epoch": 108.64, + "grad_norm": 0.298828125, + "learning_rate": 0.00029787145770824073, + "loss": 0.4577, + "step": 40740 + }, + { + "epoch": 108.66666666666667, + "grad_norm": 0.298828125, + "learning_rate": 0.0002978704021376765, + "loss": 0.4728, + "step": 40750 + }, + { + "epoch": 108.69333333333333, + "grad_norm": 0.34375, + "learning_rate": 0.00029786934630731315, + "loss": 0.4557, + "step": 40760 + }, + { + "epoch": 108.72, + "grad_norm": 0.328125, + "learning_rate": 0.0002978682902171525, + "loss": 0.4726, + "step": 40770 + }, + { + "epoch": 108.74666666666667, + "grad_norm": 0.310546875, + "learning_rate": 0.00029786723386719644, + "loss": 0.4775, + "step": 40780 + }, + { + "epoch": 108.77333333333333, + "grad_norm": 0.32421875, + "learning_rate": 0.00029786617725744677, + "loss": 0.4851, + "step": 40790 + }, + { + "epoch": 108.8, + "grad_norm": 0.3515625, + "learning_rate": 0.0002978651203879054, + "loss": 0.4717, + "step": 40800 + }, + { + "epoch": 108.82666666666667, + "grad_norm": 0.306640625, + "learning_rate": 0.0002978640632585741, + "loss": 0.4666, + "step": 40810 + }, + { + "epoch": 108.85333333333334, + "grad_norm": 0.337890625, + "learning_rate": 0.00029786300586945487, + "loss": 0.4755, + "step": 40820 + }, + { + "epoch": 108.88, + "grad_norm": 0.296875, + "learning_rate": 0.00029786194822054946, + "loss": 0.4639, + "step": 40830 + }, + { + "epoch": 108.90666666666667, + "grad_norm": 0.271484375, + "learning_rate": 0.0002978608903118597, + "loss": 0.4662, + "step": 40840 + }, + { + "epoch": 108.93333333333334, + "grad_norm": 0.2314453125, + "learning_rate": 0.00029785983214338754, + "loss": 0.4676, + "step": 40850 + }, + { + "epoch": 108.96, + "grad_norm": 0.375, + "learning_rate": 0.0002978587737151348, + "loss": 0.4663, + "step": 40860 + }, + { + "epoch": 108.98666666666666, + "grad_norm": 0.26171875, + "learning_rate": 0.00029785771502710334, + "loss": 0.4794, + "step": 40870 + }, + { + "epoch": 109.0, + "eval_loss": 0.47901442646980286, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.8116, + "eval_samples_per_second": 1.631, + "eval_steps_per_second": 0.102, + "step": 40875 + }, + { + "epoch": 109.01333333333334, + "grad_norm": 0.3359375, + "learning_rate": 0.000297856656079295, + "loss": 0.4682, + "step": 40880 + }, + { + "epoch": 109.04, + "grad_norm": 0.35546875, + "learning_rate": 0.0002978555968717117, + "loss": 0.493, + "step": 40890 + }, + { + "epoch": 109.06666666666666, + "grad_norm": 0.4296875, + "learning_rate": 0.00029785453740435524, + "loss": 0.4806, + "step": 40900 + }, + { + "epoch": 109.09333333333333, + "grad_norm": 0.279296875, + "learning_rate": 0.00029785347767722747, + "loss": 0.4747, + "step": 40910 + }, + { + "epoch": 109.12, + "grad_norm": 0.30859375, + "learning_rate": 0.00029785241769033033, + "loss": 0.4716, + "step": 40920 + }, + { + "epoch": 109.14666666666666, + "grad_norm": 0.5078125, + "learning_rate": 0.00029785135744366567, + "loss": 0.48, + "step": 40930 + }, + { + "epoch": 109.17333333333333, + "grad_norm": 0.365234375, + "learning_rate": 0.0002978502969372353, + "loss": 0.4701, + "step": 40940 + }, + { + "epoch": 109.2, + "grad_norm": 0.25390625, + "learning_rate": 0.00029784923617104104, + "loss": 0.4691, + "step": 40950 + }, + { + "epoch": 109.22666666666667, + "grad_norm": 0.302734375, + "learning_rate": 0.0002978481751450849, + "loss": 0.4664, + "step": 40960 + }, + { + "epoch": 109.25333333333333, + "grad_norm": 0.298828125, + "learning_rate": 0.0002978471138593686, + "loss": 0.4665, + "step": 40970 + }, + { + "epoch": 109.28, + "grad_norm": 0.3984375, + "learning_rate": 0.00029784605231389404, + "loss": 0.4802, + "step": 40980 + }, + { + "epoch": 109.30666666666667, + "grad_norm": 0.40625, + "learning_rate": 0.00029784499050866317, + "loss": 0.4616, + "step": 40990 + }, + { + "epoch": 109.33333333333333, + "grad_norm": 0.328125, + "learning_rate": 0.00029784392844367784, + "loss": 0.4772, + "step": 41000 + }, + { + "epoch": 109.36, + "grad_norm": 0.333984375, + "learning_rate": 0.00029784286611893985, + "loss": 0.4785, + "step": 41010 + }, + { + "epoch": 109.38666666666667, + "grad_norm": 0.373046875, + "learning_rate": 0.000297841803534451, + "loss": 0.4702, + "step": 41020 + }, + { + "epoch": 109.41333333333333, + "grad_norm": 0.396484375, + "learning_rate": 0.00029784074069021333, + "loss": 0.4754, + "step": 41030 + }, + { + "epoch": 109.44, + "grad_norm": 0.25390625, + "learning_rate": 0.00029783967758622865, + "loss": 0.478, + "step": 41040 + }, + { + "epoch": 109.46666666666667, + "grad_norm": 0.296875, + "learning_rate": 0.00029783861422249874, + "loss": 0.4874, + "step": 41050 + }, + { + "epoch": 109.49333333333334, + "grad_norm": 0.39453125, + "learning_rate": 0.00029783755059902553, + "loss": 0.4787, + "step": 41060 + }, + { + "epoch": 109.52, + "grad_norm": 0.2734375, + "learning_rate": 0.0002978364867158109, + "loss": 0.4719, + "step": 41070 + }, + { + "epoch": 109.54666666666667, + "grad_norm": 0.294921875, + "learning_rate": 0.00029783542257285674, + "loss": 0.4698, + "step": 41080 + }, + { + "epoch": 109.57333333333334, + "grad_norm": 0.248046875, + "learning_rate": 0.00029783435817016483, + "loss": 0.4685, + "step": 41090 + }, + { + "epoch": 109.6, + "grad_norm": 0.337890625, + "learning_rate": 0.00029783329350773716, + "loss": 0.4626, + "step": 41100 + }, + { + "epoch": 109.62666666666667, + "grad_norm": 0.376953125, + "learning_rate": 0.0002978322285855755, + "loss": 0.4493, + "step": 41110 + }, + { + "epoch": 109.65333333333334, + "grad_norm": 0.40234375, + "learning_rate": 0.00029783116340368173, + "loss": 0.4691, + "step": 41120 + }, + { + "epoch": 109.68, + "grad_norm": 0.396484375, + "learning_rate": 0.0002978300979620578, + "loss": 0.4601, + "step": 41130 + }, + { + "epoch": 109.70666666666666, + "grad_norm": 0.353515625, + "learning_rate": 0.0002978290322607055, + "loss": 0.4612, + "step": 41140 + }, + { + "epoch": 109.73333333333333, + "grad_norm": 0.328125, + "learning_rate": 0.00029782796629962676, + "loss": 0.4806, + "step": 41150 + }, + { + "epoch": 109.76, + "grad_norm": 0.404296875, + "learning_rate": 0.00029782690007882344, + "loss": 0.4818, + "step": 41160 + }, + { + "epoch": 109.78666666666666, + "grad_norm": 0.33984375, + "learning_rate": 0.00029782583359829737, + "loss": 0.4797, + "step": 41170 + }, + { + "epoch": 109.81333333333333, + "grad_norm": 0.3671875, + "learning_rate": 0.0002978247668580505, + "loss": 0.4654, + "step": 41180 + }, + { + "epoch": 109.84, + "grad_norm": 0.3203125, + "learning_rate": 0.0002978236998580846, + "loss": 0.471, + "step": 41190 + }, + { + "epoch": 109.86666666666666, + "grad_norm": 0.326171875, + "learning_rate": 0.0002978226325984016, + "loss": 0.4706, + "step": 41200 + }, + { + "epoch": 109.89333333333333, + "grad_norm": 0.306640625, + "learning_rate": 0.0002978215650790034, + "loss": 0.4612, + "step": 41210 + }, + { + "epoch": 109.92, + "grad_norm": 0.26953125, + "learning_rate": 0.00029782049729989193, + "loss": 0.472, + "step": 41220 + }, + { + "epoch": 109.94666666666667, + "grad_norm": 0.345703125, + "learning_rate": 0.0002978194292610689, + "loss": 0.4642, + "step": 41230 + }, + { + "epoch": 109.97333333333333, + "grad_norm": 0.26171875, + "learning_rate": 0.00029781836096253627, + "loss": 0.4754, + "step": 41240 + }, + { + "epoch": 110.0, + "grad_norm": 0.2431640625, + "learning_rate": 0.00029781729240429595, + "loss": 0.4642, + "step": 41250 + }, + { + "epoch": 110.0, + "eval_loss": 0.47956129908561707, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 11.0804, + "eval_samples_per_second": 1.444, + "eval_steps_per_second": 0.09, + "step": 41250 + }, + { + "epoch": 110.02666666666667, + "grad_norm": 0.42578125, + "learning_rate": 0.0002978162235863498, + "loss": 0.4841, + "step": 41260 + }, + { + "epoch": 110.05333333333333, + "grad_norm": 0.33984375, + "learning_rate": 0.0002978151545086997, + "loss": 0.4894, + "step": 41270 + }, + { + "epoch": 110.08, + "grad_norm": 0.259765625, + "learning_rate": 0.0002978140851713475, + "loss": 0.4773, + "step": 41280 + }, + { + "epoch": 110.10666666666667, + "grad_norm": 0.28515625, + "learning_rate": 0.00029781301557429507, + "loss": 0.4721, + "step": 41290 + }, + { + "epoch": 110.13333333333334, + "grad_norm": 0.341796875, + "learning_rate": 0.00029781194571754435, + "loss": 0.4734, + "step": 41300 + }, + { + "epoch": 110.16, + "grad_norm": 0.369140625, + "learning_rate": 0.0002978108756010972, + "loss": 0.4783, + "step": 41310 + }, + { + "epoch": 110.18666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.00029780980522495546, + "loss": 0.4705, + "step": 41320 + }, + { + "epoch": 110.21333333333334, + "grad_norm": 0.330078125, + "learning_rate": 0.000297808734589121, + "loss": 0.4647, + "step": 41330 + }, + { + "epoch": 110.24, + "grad_norm": 0.31640625, + "learning_rate": 0.0002978076636935958, + "loss": 0.4684, + "step": 41340 + }, + { + "epoch": 110.26666666666667, + "grad_norm": 0.234375, + "learning_rate": 0.00029780659253838166, + "loss": 0.473, + "step": 41350 + }, + { + "epoch": 110.29333333333334, + "grad_norm": 0.26953125, + "learning_rate": 0.00029780552112348047, + "loss": 0.4672, + "step": 41360 + }, + { + "epoch": 110.32, + "grad_norm": 0.283203125, + "learning_rate": 0.00029780444944889416, + "loss": 0.4712, + "step": 41370 + }, + { + "epoch": 110.34666666666666, + "grad_norm": 0.3125, + "learning_rate": 0.0002978033775146245, + "loss": 0.4787, + "step": 41380 + }, + { + "epoch": 110.37333333333333, + "grad_norm": 0.28515625, + "learning_rate": 0.0002978023053206735, + "loss": 0.4751, + "step": 41390 + }, + { + "epoch": 110.4, + "grad_norm": 0.306640625, + "learning_rate": 0.00029780123286704297, + "loss": 0.4714, + "step": 41400 + }, + { + "epoch": 110.42666666666666, + "grad_norm": 0.2412109375, + "learning_rate": 0.0002978001601537348, + "loss": 0.4778, + "step": 41410 + }, + { + "epoch": 110.45333333333333, + "grad_norm": 0.453125, + "learning_rate": 0.00029779908718075097, + "loss": 0.4793, + "step": 41420 + }, + { + "epoch": 110.48, + "grad_norm": 0.45703125, + "learning_rate": 0.0002977980139480932, + "loss": 0.4864, + "step": 41430 + }, + { + "epoch": 110.50666666666666, + "grad_norm": 0.298828125, + "learning_rate": 0.0002977969404557635, + "loss": 0.4767, + "step": 41440 + }, + { + "epoch": 110.53333333333333, + "grad_norm": 0.349609375, + "learning_rate": 0.0002977958667037637, + "loss": 0.4697, + "step": 41450 + }, + { + "epoch": 110.56, + "grad_norm": 0.2373046875, + "learning_rate": 0.00029779479269209576, + "loss": 0.4709, + "step": 41460 + }, + { + "epoch": 110.58666666666667, + "grad_norm": 0.328125, + "learning_rate": 0.00029779371842076144, + "loss": 0.4664, + "step": 41470 + }, + { + "epoch": 110.61333333333333, + "grad_norm": 0.3046875, + "learning_rate": 0.00029779264388976275, + "loss": 0.452, + "step": 41480 + }, + { + "epoch": 110.64, + "grad_norm": 0.240234375, + "learning_rate": 0.00029779156909910155, + "loss": 0.4574, + "step": 41490 + }, + { + "epoch": 110.66666666666667, + "grad_norm": 0.244140625, + "learning_rate": 0.0002977904940487796, + "loss": 0.4732, + "step": 41500 + }, + { + "epoch": 110.69333333333333, + "grad_norm": 0.25390625, + "learning_rate": 0.00029778941873879897, + "loss": 0.4559, + "step": 41510 + }, + { + "epoch": 110.72, + "grad_norm": 0.306640625, + "learning_rate": 0.0002977883431691615, + "loss": 0.4738, + "step": 41520 + }, + { + "epoch": 110.74666666666667, + "grad_norm": 0.4453125, + "learning_rate": 0.000297787267339869, + "loss": 0.4776, + "step": 41530 + }, + { + "epoch": 110.77333333333333, + "grad_norm": 0.267578125, + "learning_rate": 0.00029778619125092343, + "loss": 0.4847, + "step": 41540 + }, + { + "epoch": 110.8, + "grad_norm": 0.30859375, + "learning_rate": 0.00029778511490232665, + "loss": 0.472, + "step": 41550 + }, + { + "epoch": 110.82666666666667, + "grad_norm": 0.453125, + "learning_rate": 0.0002977840382940806, + "loss": 0.4653, + "step": 41560 + }, + { + "epoch": 110.85333333333334, + "grad_norm": 0.306640625, + "learning_rate": 0.0002977829614261871, + "loss": 0.4749, + "step": 41570 + }, + { + "epoch": 110.88, + "grad_norm": 0.291015625, + "learning_rate": 0.0002977818842986481, + "loss": 0.4636, + "step": 41580 + }, + { + "epoch": 110.90666666666667, + "grad_norm": 0.357421875, + "learning_rate": 0.0002977808069114654, + "loss": 0.466, + "step": 41590 + }, + { + "epoch": 110.93333333333334, + "grad_norm": 0.267578125, + "learning_rate": 0.00029777972926464105, + "loss": 0.4678, + "step": 41600 + }, + { + "epoch": 110.96, + "grad_norm": 0.25390625, + "learning_rate": 0.0002977786513581769, + "loss": 0.4655, + "step": 41610 + }, + { + "epoch": 110.98666666666666, + "grad_norm": 0.357421875, + "learning_rate": 0.0002977775731920747, + "loss": 0.4793, + "step": 41620 + }, + { + "epoch": 111.0, + "eval_loss": 0.47923967242240906, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.9483, + "eval_samples_per_second": 1.608, + "eval_steps_per_second": 0.101, + "step": 41625 + }, + { + "epoch": 111.01333333333334, + "grad_norm": 0.30078125, + "learning_rate": 0.00029777649476633644, + "loss": 0.4685, + "step": 41630 + }, + { + "epoch": 111.04, + "grad_norm": 0.232421875, + "learning_rate": 0.0002977754160809641, + "loss": 0.4923, + "step": 41640 + }, + { + "epoch": 111.06666666666666, + "grad_norm": 0.294921875, + "learning_rate": 0.00029777433713595945, + "loss": 0.4804, + "step": 41650 + }, + { + "epoch": 111.09333333333333, + "grad_norm": 0.3046875, + "learning_rate": 0.0002977732579313244, + "loss": 0.475, + "step": 41660 + }, + { + "epoch": 111.12, + "grad_norm": 0.2578125, + "learning_rate": 0.0002977721784670609, + "loss": 0.4712, + "step": 41670 + }, + { + "epoch": 111.14666666666666, + "grad_norm": 0.443359375, + "learning_rate": 0.00029777109874317087, + "loss": 0.4799, + "step": 41680 + }, + { + "epoch": 111.17333333333333, + "grad_norm": 0.396484375, + "learning_rate": 0.0002977700187596561, + "loss": 0.4701, + "step": 41690 + }, + { + "epoch": 111.2, + "grad_norm": 0.380859375, + "learning_rate": 0.0002977689385165186, + "loss": 0.4689, + "step": 41700 + }, + { + "epoch": 111.22666666666667, + "grad_norm": 0.326171875, + "learning_rate": 0.0002977678580137602, + "loss": 0.4666, + "step": 41710 + }, + { + "epoch": 111.25333333333333, + "grad_norm": 0.423828125, + "learning_rate": 0.00029776677725138276, + "loss": 0.4664, + "step": 41720 + }, + { + "epoch": 111.28, + "grad_norm": 0.3671875, + "learning_rate": 0.0002977656962293883, + "loss": 0.4792, + "step": 41730 + }, + { + "epoch": 111.30666666666667, + "grad_norm": 0.341796875, + "learning_rate": 0.00029776461494777863, + "loss": 0.4605, + "step": 41740 + }, + { + "epoch": 111.33333333333333, + "grad_norm": 0.349609375, + "learning_rate": 0.0002977635334065557, + "loss": 0.4765, + "step": 41750 + }, + { + "epoch": 111.36, + "grad_norm": 0.396484375, + "learning_rate": 0.0002977624516057213, + "loss": 0.4786, + "step": 41760 + }, + { + "epoch": 111.38666666666667, + "grad_norm": 0.455078125, + "learning_rate": 0.0002977613695452775, + "loss": 0.4706, + "step": 41770 + }, + { + "epoch": 111.41333333333333, + "grad_norm": 0.29296875, + "learning_rate": 0.0002977602872252261, + "loss": 0.4748, + "step": 41780 + }, + { + "epoch": 111.44, + "grad_norm": 0.267578125, + "learning_rate": 0.00029775920464556897, + "loss": 0.478, + "step": 41790 + }, + { + "epoch": 111.46666666666667, + "grad_norm": 0.296875, + "learning_rate": 0.00029775812180630806, + "loss": 0.4873, + "step": 41800 + }, + { + "epoch": 111.49333333333334, + "grad_norm": 0.38671875, + "learning_rate": 0.0002977570387074453, + "loss": 0.4784, + "step": 41810 + }, + { + "epoch": 111.52, + "grad_norm": 0.3984375, + "learning_rate": 0.00029775595534898257, + "loss": 0.4735, + "step": 41820 + }, + { + "epoch": 111.54666666666667, + "grad_norm": 0.2373046875, + "learning_rate": 0.0002977548717309218, + "loss": 0.4691, + "step": 41830 + }, + { + "epoch": 111.57333333333334, + "grad_norm": 0.345703125, + "learning_rate": 0.00029775378785326477, + "loss": 0.4689, + "step": 41840 + }, + { + "epoch": 111.6, + "grad_norm": 0.40625, + "learning_rate": 0.0002977527037160135, + "loss": 0.4623, + "step": 41850 + }, + { + "epoch": 111.62666666666667, + "grad_norm": 0.271484375, + "learning_rate": 0.0002977516193191699, + "loss": 0.4491, + "step": 41860 + }, + { + "epoch": 111.65333333333334, + "grad_norm": 0.3125, + "learning_rate": 0.00029775053466273585, + "loss": 0.4691, + "step": 41870 + }, + { + "epoch": 111.68, + "grad_norm": 0.265625, + "learning_rate": 0.0002977494497467132, + "loss": 0.4605, + "step": 41880 + }, + { + "epoch": 111.70666666666666, + "grad_norm": 0.380859375, + "learning_rate": 0.00029774836457110396, + "loss": 0.4614, + "step": 41890 + }, + { + "epoch": 111.73333333333333, + "grad_norm": 0.345703125, + "learning_rate": 0.00029774727913591, + "loss": 0.4806, + "step": 41900 + }, + { + "epoch": 111.76, + "grad_norm": 0.271484375, + "learning_rate": 0.00029774619344113317, + "loss": 0.4818, + "step": 41910 + }, + { + "epoch": 111.78666666666666, + "grad_norm": 0.2890625, + "learning_rate": 0.0002977451074867754, + "loss": 0.4805, + "step": 41920 + }, + { + "epoch": 111.81333333333333, + "grad_norm": 0.369140625, + "learning_rate": 0.0002977440212728386, + "loss": 0.4646, + "step": 41930 + }, + { + "epoch": 111.84, + "grad_norm": 0.3828125, + "learning_rate": 0.00029774293479932474, + "loss": 0.4709, + "step": 41940 + }, + { + "epoch": 111.86666666666666, + "grad_norm": 0.306640625, + "learning_rate": 0.0002977418480662357, + "loss": 0.4701, + "step": 41950 + }, + { + "epoch": 111.89333333333333, + "grad_norm": 0.302734375, + "learning_rate": 0.0002977407610735733, + "loss": 0.4612, + "step": 41960 + }, + { + "epoch": 111.92, + "grad_norm": 0.294921875, + "learning_rate": 0.0002977396738213396, + "loss": 0.4714, + "step": 41970 + }, + { + "epoch": 111.94666666666667, + "grad_norm": 0.35546875, + "learning_rate": 0.0002977385863095364, + "loss": 0.4636, + "step": 41980 + }, + { + "epoch": 111.97333333333333, + "grad_norm": 0.30859375, + "learning_rate": 0.0002977374985381656, + "loss": 0.4752, + "step": 41990 + }, + { + "epoch": 112.0, + "grad_norm": 0.392578125, + "learning_rate": 0.0002977364105072292, + "loss": 0.465, + "step": 42000 + }, + { + "epoch": 112.0, + "eval_loss": 0.4801514148712158, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.2003, + "eval_samples_per_second": 1.569, + "eval_steps_per_second": 0.098, + "step": 42000 + }, + { + "epoch": 112.02666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.0002977353222167291, + "loss": 0.4844, + "step": 42010 + }, + { + "epoch": 112.05333333333333, + "grad_norm": 0.28125, + "learning_rate": 0.00029773423366666714, + "loss": 0.4898, + "step": 42020 + }, + { + "epoch": 112.08, + "grad_norm": 0.404296875, + "learning_rate": 0.00029773314485704525, + "loss": 0.4769, + "step": 42030 + }, + { + "epoch": 112.10666666666667, + "grad_norm": 0.28515625, + "learning_rate": 0.0002977320557878654, + "loss": 0.472, + "step": 42040 + }, + { + "epoch": 112.13333333333334, + "grad_norm": 0.44140625, + "learning_rate": 0.0002977309664591294, + "loss": 0.4743, + "step": 42050 + }, + { + "epoch": 112.16, + "grad_norm": 0.37890625, + "learning_rate": 0.00029772987687083933, + "loss": 0.4785, + "step": 42060 + }, + { + "epoch": 112.18666666666667, + "grad_norm": 0.3046875, + "learning_rate": 0.00029772878702299694, + "loss": 0.4702, + "step": 42070 + }, + { + "epoch": 112.21333333333334, + "grad_norm": 0.361328125, + "learning_rate": 0.00029772769691560424, + "loss": 0.465, + "step": 42080 + }, + { + "epoch": 112.24, + "grad_norm": 0.3515625, + "learning_rate": 0.0002977266065486631, + "loss": 0.4689, + "step": 42090 + }, + { + "epoch": 112.26666666666667, + "grad_norm": 0.2578125, + "learning_rate": 0.00029772551592217546, + "loss": 0.473, + "step": 42100 + }, + { + "epoch": 112.29333333333334, + "grad_norm": 0.365234375, + "learning_rate": 0.0002977244250361432, + "loss": 0.4669, + "step": 42110 + }, + { + "epoch": 112.32, + "grad_norm": 0.29296875, + "learning_rate": 0.00029772333389056825, + "loss": 0.4701, + "step": 42120 + }, + { + "epoch": 112.34666666666666, + "grad_norm": 0.25, + "learning_rate": 0.00029772224248545255, + "loss": 0.4787, + "step": 42130 + }, + { + "epoch": 112.37333333333333, + "grad_norm": 0.32421875, + "learning_rate": 0.00029772115082079805, + "loss": 0.4751, + "step": 42140 + }, + { + "epoch": 112.4, + "grad_norm": 0.4609375, + "learning_rate": 0.00029772005889660663, + "loss": 0.4709, + "step": 42150 + }, + { + "epoch": 112.42666666666666, + "grad_norm": 0.318359375, + "learning_rate": 0.00029771896671288014, + "loss": 0.4776, + "step": 42160 + }, + { + "epoch": 112.45333333333333, + "grad_norm": 0.32421875, + "learning_rate": 0.00029771787426962064, + "loss": 0.48, + "step": 42170 + }, + { + "epoch": 112.48, + "grad_norm": 0.283203125, + "learning_rate": 0.0002977167815668299, + "loss": 0.486, + "step": 42180 + }, + { + "epoch": 112.50666666666666, + "grad_norm": 0.365234375, + "learning_rate": 0.00029771568860450994, + "loss": 0.4755, + "step": 42190 + }, + { + "epoch": 112.53333333333333, + "grad_norm": 0.24609375, + "learning_rate": 0.0002977145953826627, + "loss": 0.4687, + "step": 42200 + }, + { + "epoch": 112.56, + "grad_norm": 0.318359375, + "learning_rate": 0.00029771350190128997, + "loss": 0.4704, + "step": 42210 + }, + { + "epoch": 112.58666666666667, + "grad_norm": 0.38671875, + "learning_rate": 0.0002977124081603938, + "loss": 0.4669, + "step": 42220 + }, + { + "epoch": 112.61333333333333, + "grad_norm": 0.3828125, + "learning_rate": 0.00029771131415997607, + "loss": 0.4526, + "step": 42230 + }, + { + "epoch": 112.64, + "grad_norm": 0.296875, + "learning_rate": 0.0002977102199000387, + "loss": 0.4574, + "step": 42240 + }, + { + "epoch": 112.66666666666667, + "grad_norm": 0.330078125, + "learning_rate": 0.0002977091253805836, + "loss": 0.4725, + "step": 42250 + }, + { + "epoch": 112.69333333333333, + "grad_norm": 0.328125, + "learning_rate": 0.0002977080306016127, + "loss": 0.4557, + "step": 42260 + }, + { + "epoch": 112.72, + "grad_norm": 0.328125, + "learning_rate": 0.0002977069355631279, + "loss": 0.4731, + "step": 42270 + }, + { + "epoch": 112.74666666666667, + "grad_norm": 0.470703125, + "learning_rate": 0.0002977058402651312, + "loss": 0.4772, + "step": 42280 + }, + { + "epoch": 112.77333333333333, + "grad_norm": 0.478515625, + "learning_rate": 0.0002977047447076245, + "loss": 0.4848, + "step": 42290 + }, + { + "epoch": 112.8, + "grad_norm": 0.30078125, + "learning_rate": 0.0002977036488906096, + "loss": 0.4706, + "step": 42300 + }, + { + "epoch": 112.82666666666667, + "grad_norm": 0.3046875, + "learning_rate": 0.0002977025528140886, + "loss": 0.4664, + "step": 42310 + }, + { + "epoch": 112.85333333333334, + "grad_norm": 0.373046875, + "learning_rate": 0.00029770145647806334, + "loss": 0.4748, + "step": 42320 + }, + { + "epoch": 112.88, + "grad_norm": 0.361328125, + "learning_rate": 0.00029770035988253574, + "loss": 0.4634, + "step": 42330 + }, + { + "epoch": 112.90666666666667, + "grad_norm": 0.31640625, + "learning_rate": 0.00029769926302750777, + "loss": 0.4654, + "step": 42340 + }, + { + "epoch": 112.93333333333334, + "grad_norm": 0.2236328125, + "learning_rate": 0.0002976981659129813, + "loss": 0.4668, + "step": 42350 + }, + { + "epoch": 112.96, + "grad_norm": 0.244140625, + "learning_rate": 0.00029769706853895834, + "loss": 0.4655, + "step": 42360 + }, + { + "epoch": 112.98666666666666, + "grad_norm": 0.326171875, + "learning_rate": 0.0002976959709054407, + "loss": 0.4789, + "step": 42370 + }, + { + "epoch": 113.0, + "eval_loss": 0.4794241786003113, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.5463, + "eval_samples_per_second": 1.517, + "eval_steps_per_second": 0.095, + "step": 42375 + }, + { + "epoch": 113.01333333333334, + "grad_norm": 0.26953125, + "learning_rate": 0.00029769487301243045, + "loss": 0.4678, + "step": 42380 + }, + { + "epoch": 113.04, + "grad_norm": 0.2734375, + "learning_rate": 0.0002976937748599294, + "loss": 0.4923, + "step": 42390 + }, + { + "epoch": 113.06666666666666, + "grad_norm": 0.4296875, + "learning_rate": 0.0002976926764479395, + "loss": 0.4798, + "step": 42400 + }, + { + "epoch": 113.09333333333333, + "grad_norm": 0.26953125, + "learning_rate": 0.0002976915777764628, + "loss": 0.4748, + "step": 42410 + }, + { + "epoch": 113.12, + "grad_norm": 0.373046875, + "learning_rate": 0.000297690478845501, + "loss": 0.4715, + "step": 42420 + }, + { + "epoch": 113.14666666666666, + "grad_norm": 0.25390625, + "learning_rate": 0.00029768937965505627, + "loss": 0.48, + "step": 42430 + }, + { + "epoch": 113.17333333333333, + "grad_norm": 0.3046875, + "learning_rate": 0.00029768828020513037, + "loss": 0.4706, + "step": 42440 + }, + { + "epoch": 113.2, + "grad_norm": 0.33203125, + "learning_rate": 0.00029768718049572534, + "loss": 0.4686, + "step": 42450 + }, + { + "epoch": 113.22666666666667, + "grad_norm": 0.26171875, + "learning_rate": 0.0002976860805268431, + "loss": 0.4668, + "step": 42460 + }, + { + "epoch": 113.25333333333333, + "grad_norm": 0.296875, + "learning_rate": 0.00029768498029848544, + "loss": 0.4664, + "step": 42470 + }, + { + "epoch": 113.28, + "grad_norm": 0.36328125, + "learning_rate": 0.0002976838798106545, + "loss": 0.4798, + "step": 42480 + }, + { + "epoch": 113.30666666666667, + "grad_norm": 0.357421875, + "learning_rate": 0.0002976827790633521, + "loss": 0.4604, + "step": 42490 + }, + { + "epoch": 113.33333333333333, + "grad_norm": 0.2490234375, + "learning_rate": 0.0002976816780565802, + "loss": 0.477, + "step": 42500 + }, + { + "epoch": 113.36, + "grad_norm": 0.291015625, + "learning_rate": 0.0002976805767903407, + "loss": 0.4788, + "step": 42510 + }, + { + "epoch": 113.38666666666667, + "grad_norm": 0.36328125, + "learning_rate": 0.00029767947526463556, + "loss": 0.4705, + "step": 42520 + }, + { + "epoch": 113.41333333333333, + "grad_norm": 0.2734375, + "learning_rate": 0.0002976783734794667, + "loss": 0.4746, + "step": 42530 + }, + { + "epoch": 113.44, + "grad_norm": 0.353515625, + "learning_rate": 0.00029767727143483613, + "loss": 0.4773, + "step": 42540 + }, + { + "epoch": 113.46666666666667, + "grad_norm": 0.5390625, + "learning_rate": 0.0002976761691307457, + "loss": 0.4871, + "step": 42550 + }, + { + "epoch": 113.49333333333334, + "grad_norm": 0.330078125, + "learning_rate": 0.00029767506656719735, + "loss": 0.4782, + "step": 42560 + }, + { + "epoch": 113.52, + "grad_norm": 0.251953125, + "learning_rate": 0.0002976739637441931, + "loss": 0.4726, + "step": 42570 + }, + { + "epoch": 113.54666666666667, + "grad_norm": 0.3203125, + "learning_rate": 0.00029767286066173477, + "loss": 0.4699, + "step": 42580 + }, + { + "epoch": 113.57333333333334, + "grad_norm": 0.27734375, + "learning_rate": 0.0002976717573198244, + "loss": 0.469, + "step": 42590 + }, + { + "epoch": 113.6, + "grad_norm": 0.318359375, + "learning_rate": 0.00029767065371846384, + "loss": 0.4624, + "step": 42600 + }, + { + "epoch": 113.62666666666667, + "grad_norm": 0.251953125, + "learning_rate": 0.00029766954985765515, + "loss": 0.449, + "step": 42610 + }, + { + "epoch": 113.65333333333334, + "grad_norm": 0.251953125, + "learning_rate": 0.0002976684457374001, + "loss": 0.4687, + "step": 42620 + }, + { + "epoch": 113.68, + "grad_norm": 0.349609375, + "learning_rate": 0.00029766734135770084, + "loss": 0.4605, + "step": 42630 + }, + { + "epoch": 113.70666666666666, + "grad_norm": 0.421875, + "learning_rate": 0.0002976662367185592, + "loss": 0.4611, + "step": 42640 + }, + { + "epoch": 113.73333333333333, + "grad_norm": 0.275390625, + "learning_rate": 0.000297665131819977, + "loss": 0.4801, + "step": 42650 + }, + { + "epoch": 113.76, + "grad_norm": 0.275390625, + "learning_rate": 0.0002976640266619564, + "loss": 0.4816, + "step": 42660 + }, + { + "epoch": 113.78666666666666, + "grad_norm": 0.302734375, + "learning_rate": 0.0002976629212444991, + "loss": 0.4797, + "step": 42670 + }, + { + "epoch": 113.81333333333333, + "grad_norm": 0.365234375, + "learning_rate": 0.0002976618155676073, + "loss": 0.4657, + "step": 42680 + }, + { + "epoch": 113.84, + "grad_norm": 0.3828125, + "learning_rate": 0.0002976607096312828, + "loss": 0.4704, + "step": 42690 + }, + { + "epoch": 113.86666666666666, + "grad_norm": 0.279296875, + "learning_rate": 0.0002976596034355276, + "loss": 0.4706, + "step": 42700 + }, + { + "epoch": 113.89333333333333, + "grad_norm": 0.314453125, + "learning_rate": 0.00029765849698034356, + "loss": 0.4607, + "step": 42710 + }, + { + "epoch": 113.92, + "grad_norm": 0.314453125, + "learning_rate": 0.0002976573902657327, + "loss": 0.4721, + "step": 42720 + }, + { + "epoch": 113.94666666666667, + "grad_norm": 0.32421875, + "learning_rate": 0.00029765628329169694, + "loss": 0.4637, + "step": 42730 + }, + { + "epoch": 113.97333333333333, + "grad_norm": 0.3046875, + "learning_rate": 0.0002976551760582382, + "loss": 0.4752, + "step": 42740 + }, + { + "epoch": 114.0, + "grad_norm": 0.28515625, + "learning_rate": 0.0002976540685653585, + "loss": 0.4651, + "step": 42750 + }, + { + "epoch": 114.0, + "eval_loss": 0.4796581268310547, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.6668, + "eval_samples_per_second": 1.5, + "eval_steps_per_second": 0.094, + "step": 42750 + }, + { + "epoch": 114.02666666666667, + "grad_norm": 0.3515625, + "learning_rate": 0.0002976529608130597, + "loss": 0.4842, + "step": 42760 + }, + { + "epoch": 114.05333333333333, + "grad_norm": 0.40625, + "learning_rate": 0.00029765185280134377, + "loss": 0.4899, + "step": 42770 + }, + { + "epoch": 114.08, + "grad_norm": 0.42578125, + "learning_rate": 0.0002976507445302127, + "loss": 0.4774, + "step": 42780 + }, + { + "epoch": 114.10666666666667, + "grad_norm": 0.37109375, + "learning_rate": 0.00029764963599966833, + "loss": 0.4719, + "step": 42790 + }, + { + "epoch": 114.13333333333334, + "grad_norm": 0.494140625, + "learning_rate": 0.00029764852720971276, + "loss": 0.4739, + "step": 42800 + }, + { + "epoch": 114.16, + "grad_norm": 0.404296875, + "learning_rate": 0.0002976474181603478, + "loss": 0.4781, + "step": 42810 + }, + { + "epoch": 114.18666666666667, + "grad_norm": 0.201171875, + "learning_rate": 0.00029764630885157554, + "loss": 0.4698, + "step": 42820 + }, + { + "epoch": 114.21333333333334, + "grad_norm": 0.298828125, + "learning_rate": 0.0002976451992833978, + "loss": 0.4648, + "step": 42830 + }, + { + "epoch": 114.24, + "grad_norm": 0.361328125, + "learning_rate": 0.0002976440894558166, + "loss": 0.4698, + "step": 42840 + }, + { + "epoch": 114.26666666666667, + "grad_norm": 0.2431640625, + "learning_rate": 0.0002976429793688339, + "loss": 0.4731, + "step": 42850 + }, + { + "epoch": 114.29333333333334, + "grad_norm": 0.2490234375, + "learning_rate": 0.0002976418690224515, + "loss": 0.467, + "step": 42860 + }, + { + "epoch": 114.32, + "grad_norm": 0.31640625, + "learning_rate": 0.0002976407584166716, + "loss": 0.4703, + "step": 42870 + }, + { + "epoch": 114.34666666666666, + "grad_norm": 0.26953125, + "learning_rate": 0.0002976396475514959, + "loss": 0.4788, + "step": 42880 + }, + { + "epoch": 114.37333333333333, + "grad_norm": 0.283203125, + "learning_rate": 0.00029763853642692656, + "loss": 0.4743, + "step": 42890 + }, + { + "epoch": 114.4, + "grad_norm": 0.33984375, + "learning_rate": 0.00029763742504296546, + "loss": 0.4711, + "step": 42900 + }, + { + "epoch": 114.42666666666666, + "grad_norm": 0.478515625, + "learning_rate": 0.00029763631339961447, + "loss": 0.4771, + "step": 42910 + }, + { + "epoch": 114.45333333333333, + "grad_norm": 0.390625, + "learning_rate": 0.00029763520149687564, + "loss": 0.4793, + "step": 42920 + }, + { + "epoch": 114.48, + "grad_norm": 0.474609375, + "learning_rate": 0.0002976340893347509, + "loss": 0.4862, + "step": 42930 + }, + { + "epoch": 114.50666666666666, + "grad_norm": 0.376953125, + "learning_rate": 0.0002976329769132421, + "loss": 0.4753, + "step": 42940 + }, + { + "epoch": 114.53333333333333, + "grad_norm": 0.48828125, + "learning_rate": 0.00029763186423235145, + "loss": 0.4691, + "step": 42950 + }, + { + "epoch": 114.56, + "grad_norm": 0.380859375, + "learning_rate": 0.00029763075129208064, + "loss": 0.4707, + "step": 42960 + }, + { + "epoch": 114.58666666666667, + "grad_norm": 0.41015625, + "learning_rate": 0.0002976296380924318, + "loss": 0.4663, + "step": 42970 + }, + { + "epoch": 114.61333333333333, + "grad_norm": 0.251953125, + "learning_rate": 0.0002976285246334068, + "loss": 0.4525, + "step": 42980 + }, + { + "epoch": 114.64, + "grad_norm": 0.265625, + "learning_rate": 0.00029762741091500755, + "loss": 0.4572, + "step": 42990 + }, + { + "epoch": 114.66666666666667, + "grad_norm": 0.27734375, + "learning_rate": 0.00029762629693723614, + "loss": 0.4724, + "step": 43000 + }, + { + "epoch": 114.69333333333333, + "grad_norm": 0.3203125, + "learning_rate": 0.00029762518270009446, + "loss": 0.4558, + "step": 43010 + }, + { + "epoch": 114.72, + "grad_norm": 0.30078125, + "learning_rate": 0.00029762406820358446, + "loss": 0.473, + "step": 43020 + }, + { + "epoch": 114.74666666666667, + "grad_norm": 0.375, + "learning_rate": 0.0002976229534477081, + "loss": 0.4767, + "step": 43030 + }, + { + "epoch": 114.77333333333333, + "grad_norm": 0.302734375, + "learning_rate": 0.0002976218384324673, + "loss": 0.4848, + "step": 43040 + }, + { + "epoch": 114.8, + "grad_norm": 0.353515625, + "learning_rate": 0.0002976207231578641, + "loss": 0.4718, + "step": 43050 + }, + { + "epoch": 114.82666666666667, + "grad_norm": 0.408203125, + "learning_rate": 0.0002976196076239004, + "loss": 0.4654, + "step": 43060 + }, + { + "epoch": 114.85333333333334, + "grad_norm": 0.30078125, + "learning_rate": 0.0002976184918305782, + "loss": 0.4749, + "step": 43070 + }, + { + "epoch": 114.88, + "grad_norm": 0.3515625, + "learning_rate": 0.00029761737577789943, + "loss": 0.463, + "step": 43080 + }, + { + "epoch": 114.90666666666667, + "grad_norm": 0.28515625, + "learning_rate": 0.00029761625946586606, + "loss": 0.4658, + "step": 43090 + }, + { + "epoch": 114.93333333333334, + "grad_norm": 0.21484375, + "learning_rate": 0.00029761514289448004, + "loss": 0.4678, + "step": 43100 + }, + { + "epoch": 114.96, + "grad_norm": 0.3515625, + "learning_rate": 0.0002976140260637434, + "loss": 0.4658, + "step": 43110 + }, + { + "epoch": 114.98666666666666, + "grad_norm": 0.3671875, + "learning_rate": 0.000297612908973658, + "loss": 0.4793, + "step": 43120 + }, + { + "epoch": 115.0, + "eval_loss": 0.4808712601661682, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.2067, + "eval_samples_per_second": 1.568, + "eval_steps_per_second": 0.098, + "step": 43125 + }, + { + "epoch": 115.01333333333334, + "grad_norm": 0.341796875, + "learning_rate": 0.0002976117916242259, + "loss": 0.4681, + "step": 43130 + }, + { + "epoch": 115.04, + "grad_norm": 0.310546875, + "learning_rate": 0.00029761067401544894, + "loss": 0.4929, + "step": 43140 + }, + { + "epoch": 115.06666666666666, + "grad_norm": 0.36328125, + "learning_rate": 0.0002976095561473292, + "loss": 0.48, + "step": 43150 + }, + { + "epoch": 115.09333333333333, + "grad_norm": 0.271484375, + "learning_rate": 0.0002976084380198686, + "loss": 0.4749, + "step": 43160 + }, + { + "epoch": 115.12, + "grad_norm": 0.2578125, + "learning_rate": 0.0002976073196330691, + "loss": 0.4716, + "step": 43170 + }, + { + "epoch": 115.14666666666666, + "grad_norm": 0.3046875, + "learning_rate": 0.00029760620098693273, + "loss": 0.48, + "step": 43180 + }, + { + "epoch": 115.17333333333333, + "grad_norm": 0.255859375, + "learning_rate": 0.0002976050820814613, + "loss": 0.4709, + "step": 43190 + }, + { + "epoch": 115.2, + "grad_norm": 0.2890625, + "learning_rate": 0.0002976039629166569, + "loss": 0.469, + "step": 43200 + }, + { + "epoch": 115.22666666666667, + "grad_norm": 0.26953125, + "learning_rate": 0.0002976028434925215, + "loss": 0.4668, + "step": 43210 + }, + { + "epoch": 115.25333333333333, + "grad_norm": 0.3125, + "learning_rate": 0.000297601723809057, + "loss": 0.4669, + "step": 43220 + }, + { + "epoch": 115.28, + "grad_norm": 0.3671875, + "learning_rate": 0.00029760060386626545, + "loss": 0.4802, + "step": 43230 + }, + { + "epoch": 115.30666666666667, + "grad_norm": 0.306640625, + "learning_rate": 0.00029759948366414867, + "loss": 0.461, + "step": 43240 + }, + { + "epoch": 115.33333333333333, + "grad_norm": 0.314453125, + "learning_rate": 0.0002975983632027088, + "loss": 0.4762, + "step": 43250 + }, + { + "epoch": 115.36, + "grad_norm": 0.314453125, + "learning_rate": 0.00029759724248194775, + "loss": 0.4794, + "step": 43260 + }, + { + "epoch": 115.38666666666667, + "grad_norm": 0.412109375, + "learning_rate": 0.00029759612150186745, + "loss": 0.4701, + "step": 43270 + }, + { + "epoch": 115.41333333333333, + "grad_norm": 0.4453125, + "learning_rate": 0.0002975950002624699, + "loss": 0.4749, + "step": 43280 + }, + { + "epoch": 115.44, + "grad_norm": 0.255859375, + "learning_rate": 0.00029759387876375704, + "loss": 0.478, + "step": 43290 + }, + { + "epoch": 115.46666666666667, + "grad_norm": 0.33984375, + "learning_rate": 0.0002975927570057309, + "loss": 0.488, + "step": 43300 + }, + { + "epoch": 115.49333333333334, + "grad_norm": 0.359375, + "learning_rate": 0.0002975916349883934, + "loss": 0.4784, + "step": 43310 + }, + { + "epoch": 115.52, + "grad_norm": 0.29296875, + "learning_rate": 0.0002975905127117465, + "loss": 0.4729, + "step": 43320 + }, + { + "epoch": 115.54666666666667, + "grad_norm": 0.333984375, + "learning_rate": 0.00029758939017579224, + "loss": 0.4695, + "step": 43330 + }, + { + "epoch": 115.57333333333334, + "grad_norm": 0.298828125, + "learning_rate": 0.00029758826738053253, + "loss": 0.4689, + "step": 43340 + }, + { + "epoch": 115.6, + "grad_norm": 0.353515625, + "learning_rate": 0.0002975871443259694, + "loss": 0.4629, + "step": 43350 + }, + { + "epoch": 115.62666666666667, + "grad_norm": 0.275390625, + "learning_rate": 0.00029758602101210473, + "loss": 0.4496, + "step": 43360 + }, + { + "epoch": 115.65333333333334, + "grad_norm": 0.306640625, + "learning_rate": 0.0002975848974389406, + "loss": 0.4695, + "step": 43370 + }, + { + "epoch": 115.68, + "grad_norm": 0.2421875, + "learning_rate": 0.0002975837736064789, + "loss": 0.4606, + "step": 43380 + }, + { + "epoch": 115.70666666666666, + "grad_norm": 0.35546875, + "learning_rate": 0.00029758264951472164, + "loss": 0.4603, + "step": 43390 + }, + { + "epoch": 115.73333333333333, + "grad_norm": 0.46484375, + "learning_rate": 0.00029758152516367085, + "loss": 0.4803, + "step": 43400 + }, + { + "epoch": 115.76, + "grad_norm": 0.3671875, + "learning_rate": 0.0002975804005533284, + "loss": 0.4816, + "step": 43410 + }, + { + "epoch": 115.78666666666666, + "grad_norm": 0.271484375, + "learning_rate": 0.0002975792756836963, + "loss": 0.48, + "step": 43420 + }, + { + "epoch": 115.81333333333333, + "grad_norm": 0.447265625, + "learning_rate": 0.0002975781505547766, + "loss": 0.4653, + "step": 43430 + }, + { + "epoch": 115.84, + "grad_norm": 0.388671875, + "learning_rate": 0.0002975770251665712, + "loss": 0.4708, + "step": 43440 + }, + { + "epoch": 115.86666666666666, + "grad_norm": 0.279296875, + "learning_rate": 0.000297575899519082, + "loss": 0.4703, + "step": 43450 + }, + { + "epoch": 115.89333333333333, + "grad_norm": 0.361328125, + "learning_rate": 0.0002975747736123112, + "loss": 0.4607, + "step": 43460 + }, + { + "epoch": 115.92, + "grad_norm": 0.33203125, + "learning_rate": 0.0002975736474462606, + "loss": 0.4714, + "step": 43470 + }, + { + "epoch": 115.94666666666667, + "grad_norm": 0.3203125, + "learning_rate": 0.00029757252102093225, + "loss": 0.4646, + "step": 43480 + }, + { + "epoch": 115.97333333333333, + "grad_norm": 0.279296875, + "learning_rate": 0.0002975713943363281, + "loss": 0.4753, + "step": 43490 + }, + { + "epoch": 116.0, + "grad_norm": 0.322265625, + "learning_rate": 0.00029757026739245007, + "loss": 0.4636, + "step": 43500 + }, + { + "epoch": 116.0, + "eval_loss": 0.4808787405490875, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.7649, + "eval_samples_per_second": 1.639, + "eval_steps_per_second": 0.102, + "step": 43500 + }, + { + "epoch": 116.02666666666667, + "grad_norm": 0.28125, + "learning_rate": 0.0002975691401893003, + "loss": 0.4842, + "step": 43510 + }, + { + "epoch": 116.05333333333333, + "grad_norm": 0.33203125, + "learning_rate": 0.00029756801272688065, + "loss": 0.4897, + "step": 43520 + }, + { + "epoch": 116.08, + "grad_norm": 0.3125, + "learning_rate": 0.00029756688500519313, + "loss": 0.4768, + "step": 43530 + }, + { + "epoch": 116.10666666666667, + "grad_norm": 0.22265625, + "learning_rate": 0.00029756575702423975, + "loss": 0.4726, + "step": 43540 + }, + { + "epoch": 116.13333333333334, + "grad_norm": 0.271484375, + "learning_rate": 0.0002975646287840224, + "loss": 0.4738, + "step": 43550 + }, + { + "epoch": 116.16, + "grad_norm": 0.287109375, + "learning_rate": 0.0002975635002845432, + "loss": 0.478, + "step": 43560 + }, + { + "epoch": 116.18666666666667, + "grad_norm": 0.28515625, + "learning_rate": 0.00029756237152580396, + "loss": 0.47, + "step": 43570 + }, + { + "epoch": 116.21333333333334, + "grad_norm": 0.392578125, + "learning_rate": 0.00029756124250780686, + "loss": 0.4647, + "step": 43580 + }, + { + "epoch": 116.24, + "grad_norm": 0.390625, + "learning_rate": 0.0002975601132305537, + "loss": 0.468, + "step": 43590 + }, + { + "epoch": 116.26666666666667, + "grad_norm": 0.28125, + "learning_rate": 0.00029755898369404664, + "loss": 0.4731, + "step": 43600 + }, + { + "epoch": 116.29333333333334, + "grad_norm": 0.2373046875, + "learning_rate": 0.0002975578538982875, + "loss": 0.4676, + "step": 43610 + }, + { + "epoch": 116.32, + "grad_norm": 0.3046875, + "learning_rate": 0.0002975567238432784, + "loss": 0.4704, + "step": 43620 + }, + { + "epoch": 116.34666666666666, + "grad_norm": 0.310546875, + "learning_rate": 0.0002975555935290212, + "loss": 0.4787, + "step": 43630 + }, + { + "epoch": 116.37333333333333, + "grad_norm": 0.30859375, + "learning_rate": 0.000297554462955518, + "loss": 0.4744, + "step": 43640 + }, + { + "epoch": 116.4, + "grad_norm": 0.349609375, + "learning_rate": 0.00029755333212277073, + "loss": 0.4714, + "step": 43650 + }, + { + "epoch": 116.42666666666666, + "grad_norm": 0.326171875, + "learning_rate": 0.00029755220103078135, + "loss": 0.4774, + "step": 43660 + }, + { + "epoch": 116.45333333333333, + "grad_norm": 0.28125, + "learning_rate": 0.0002975510696795519, + "loss": 0.48, + "step": 43670 + }, + { + "epoch": 116.48, + "grad_norm": 0.32421875, + "learning_rate": 0.00029754993806908436, + "loss": 0.4857, + "step": 43680 + }, + { + "epoch": 116.50666666666666, + "grad_norm": 0.322265625, + "learning_rate": 0.0002975488061993807, + "loss": 0.4761, + "step": 43690 + }, + { + "epoch": 116.53333333333333, + "grad_norm": 0.3359375, + "learning_rate": 0.0002975476740704429, + "loss": 0.4692, + "step": 43700 + }, + { + "epoch": 116.56, + "grad_norm": 0.3125, + "learning_rate": 0.00029754654168227297, + "loss": 0.4703, + "step": 43710 + }, + { + "epoch": 116.58666666666667, + "grad_norm": 0.345703125, + "learning_rate": 0.0002975454090348729, + "loss": 0.4665, + "step": 43720 + }, + { + "epoch": 116.61333333333333, + "grad_norm": 0.34375, + "learning_rate": 0.00029754427612824463, + "loss": 0.4525, + "step": 43730 + }, + { + "epoch": 116.64, + "grad_norm": 0.328125, + "learning_rate": 0.00029754314296239024, + "loss": 0.4574, + "step": 43740 + }, + { + "epoch": 116.66666666666667, + "grad_norm": 0.37109375, + "learning_rate": 0.0002975420095373117, + "loss": 0.4729, + "step": 43750 + }, + { + "epoch": 116.69333333333333, + "grad_norm": 0.26953125, + "learning_rate": 0.0002975408758530109, + "loss": 0.4562, + "step": 43760 + }, + { + "epoch": 116.72, + "grad_norm": 0.37890625, + "learning_rate": 0.00029753974190948994, + "loss": 0.4727, + "step": 43770 + }, + { + "epoch": 116.74666666666667, + "grad_norm": 0.4609375, + "learning_rate": 0.00029753860770675083, + "loss": 0.4767, + "step": 43780 + }, + { + "epoch": 116.77333333333333, + "grad_norm": 0.380859375, + "learning_rate": 0.00029753747324479546, + "loss": 0.485, + "step": 43790 + }, + { + "epoch": 116.8, + "grad_norm": 0.326171875, + "learning_rate": 0.0002975363385236259, + "loss": 0.4714, + "step": 43800 + }, + { + "epoch": 116.82666666666667, + "grad_norm": 0.341796875, + "learning_rate": 0.0002975352035432441, + "loss": 0.4661, + "step": 43810 + }, + { + "epoch": 116.85333333333334, + "grad_norm": 0.318359375, + "learning_rate": 0.0002975340683036521, + "loss": 0.4746, + "step": 43820 + }, + { + "epoch": 116.88, + "grad_norm": 0.298828125, + "learning_rate": 0.00029753293280485184, + "loss": 0.4624, + "step": 43830 + }, + { + "epoch": 116.90666666666667, + "grad_norm": 0.26171875, + "learning_rate": 0.0002975317970468453, + "loss": 0.4657, + "step": 43840 + }, + { + "epoch": 116.93333333333334, + "grad_norm": 0.3359375, + "learning_rate": 0.00029753066102963463, + "loss": 0.4672, + "step": 43850 + }, + { + "epoch": 116.96, + "grad_norm": 0.38671875, + "learning_rate": 0.00029752952475322166, + "loss": 0.466, + "step": 43860 + }, + { + "epoch": 116.98666666666666, + "grad_norm": 0.314453125, + "learning_rate": 0.0002975283882176084, + "loss": 0.4789, + "step": 43870 + }, + { + "epoch": 117.0, + "eval_loss": 0.4790605902671814, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.8144, + "eval_samples_per_second": 1.63, + "eval_steps_per_second": 0.102, + "step": 43875 + }, + { + "epoch": 117.01333333333334, + "grad_norm": 0.359375, + "learning_rate": 0.00029752725142279693, + "loss": 0.4681, + "step": 43880 + }, + { + "epoch": 117.04, + "grad_norm": 0.275390625, + "learning_rate": 0.00029752611436878923, + "loss": 0.4925, + "step": 43890 + }, + { + "epoch": 117.06666666666666, + "grad_norm": 0.482421875, + "learning_rate": 0.0002975249770555872, + "loss": 0.4798, + "step": 43900 + }, + { + "epoch": 117.09333333333333, + "grad_norm": 0.28125, + "learning_rate": 0.000297523839483193, + "loss": 0.4755, + "step": 43910 + }, + { + "epoch": 117.12, + "grad_norm": 0.306640625, + "learning_rate": 0.0002975227016516085, + "loss": 0.471, + "step": 43920 + }, + { + "epoch": 117.14666666666666, + "grad_norm": 0.251953125, + "learning_rate": 0.0002975215635608357, + "loss": 0.4792, + "step": 43930 + }, + { + "epoch": 117.17333333333333, + "grad_norm": 0.328125, + "learning_rate": 0.00029752042521087667, + "loss": 0.4708, + "step": 43940 + }, + { + "epoch": 117.2, + "grad_norm": 0.28515625, + "learning_rate": 0.0002975192866017334, + "loss": 0.4687, + "step": 43950 + }, + { + "epoch": 117.22666666666667, + "grad_norm": 0.267578125, + "learning_rate": 0.0002975181477334079, + "loss": 0.4661, + "step": 43960 + }, + { + "epoch": 117.25333333333333, + "grad_norm": 0.376953125, + "learning_rate": 0.00029751700860590203, + "loss": 0.4662, + "step": 43970 + }, + { + "epoch": 117.28, + "grad_norm": 0.3515625, + "learning_rate": 0.00029751586921921797, + "loss": 0.4794, + "step": 43980 + }, + { + "epoch": 117.30666666666667, + "grad_norm": 0.30859375, + "learning_rate": 0.00029751472957335764, + "loss": 0.4615, + "step": 43990 + }, + { + "epoch": 117.33333333333333, + "grad_norm": 0.333984375, + "learning_rate": 0.0002975135896683231, + "loss": 0.477, + "step": 44000 + }, + { + "epoch": 117.36, + "grad_norm": 0.32421875, + "learning_rate": 0.00029751244950411627, + "loss": 0.4783, + "step": 44010 + }, + { + "epoch": 117.38666666666667, + "grad_norm": 0.388671875, + "learning_rate": 0.00029751130908073917, + "loss": 0.4705, + "step": 44020 + }, + { + "epoch": 117.41333333333333, + "grad_norm": 0.38671875, + "learning_rate": 0.00029751016839819384, + "loss": 0.4746, + "step": 44030 + }, + { + "epoch": 117.44, + "grad_norm": 0.3671875, + "learning_rate": 0.00029750902745648224, + "loss": 0.4778, + "step": 44040 + }, + { + "epoch": 117.46666666666667, + "grad_norm": 0.404296875, + "learning_rate": 0.00029750788625560647, + "loss": 0.4873, + "step": 44050 + }, + { + "epoch": 117.49333333333334, + "grad_norm": 0.353515625, + "learning_rate": 0.00029750674479556843, + "loss": 0.4787, + "step": 44060 + }, + { + "epoch": 117.52, + "grad_norm": 0.29296875, + "learning_rate": 0.00029750560307637014, + "loss": 0.4729, + "step": 44070 + }, + { + "epoch": 117.54666666666667, + "grad_norm": 0.306640625, + "learning_rate": 0.00029750446109801364, + "loss": 0.4697, + "step": 44080 + }, + { + "epoch": 117.57333333333334, + "grad_norm": 0.27734375, + "learning_rate": 0.00029750331886050095, + "loss": 0.4696, + "step": 44090 + }, + { + "epoch": 117.6, + "grad_norm": 0.345703125, + "learning_rate": 0.00029750217636383407, + "loss": 0.4623, + "step": 44100 + }, + { + "epoch": 117.62666666666667, + "grad_norm": 0.275390625, + "learning_rate": 0.00029750103360801495, + "loss": 0.4496, + "step": 44110 + }, + { + "epoch": 117.65333333333334, + "grad_norm": 0.326171875, + "learning_rate": 0.0002974998905930457, + "loss": 0.4692, + "step": 44120 + }, + { + "epoch": 117.68, + "grad_norm": 0.353515625, + "learning_rate": 0.0002974987473189282, + "loss": 0.4602, + "step": 44130 + }, + { + "epoch": 117.70666666666666, + "grad_norm": 0.435546875, + "learning_rate": 0.00029749760378566456, + "loss": 0.4603, + "step": 44140 + }, + { + "epoch": 117.73333333333333, + "grad_norm": 0.3203125, + "learning_rate": 0.0002974964599932567, + "loss": 0.4803, + "step": 44150 + }, + { + "epoch": 117.76, + "grad_norm": 0.484375, + "learning_rate": 0.00029749531594170677, + "loss": 0.4807, + "step": 44160 + }, + { + "epoch": 117.78666666666666, + "grad_norm": 0.376953125, + "learning_rate": 0.0002974941716310166, + "loss": 0.4799, + "step": 44170 + }, + { + "epoch": 117.81333333333333, + "grad_norm": 0.4453125, + "learning_rate": 0.0002974930270611884, + "loss": 0.4655, + "step": 44180 + }, + { + "epoch": 117.84, + "grad_norm": 0.298828125, + "learning_rate": 0.000297491882232224, + "loss": 0.4709, + "step": 44190 + }, + { + "epoch": 117.86666666666666, + "grad_norm": 0.375, + "learning_rate": 0.0002974907371441255, + "loss": 0.47, + "step": 44200 + }, + { + "epoch": 117.89333333333333, + "grad_norm": 0.359375, + "learning_rate": 0.0002974895917968949, + "loss": 0.4611, + "step": 44210 + }, + { + "epoch": 117.92, + "grad_norm": 0.2255859375, + "learning_rate": 0.0002974884461905342, + "loss": 0.4718, + "step": 44220 + }, + { + "epoch": 117.94666666666667, + "grad_norm": 0.279296875, + "learning_rate": 0.00029748730032504547, + "loss": 0.4637, + "step": 44230 + }, + { + "epoch": 117.97333333333333, + "grad_norm": 0.291015625, + "learning_rate": 0.00029748615420043065, + "loss": 0.4752, + "step": 44240 + }, + { + "epoch": 118.0, + "grad_norm": 0.345703125, + "learning_rate": 0.00029748500781669174, + "loss": 0.4638, + "step": 44250 + }, + { + "epoch": 118.0, + "eval_loss": 0.4791935682296753, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.4583, + "eval_samples_per_second": 1.53, + "eval_steps_per_second": 0.096, + "step": 44250 + }, + { + "epoch": 118.02666666666667, + "grad_norm": 0.26953125, + "learning_rate": 0.00029748386117383084, + "loss": 0.4837, + "step": 44260 + }, + { + "epoch": 118.05333333333333, + "grad_norm": 0.3984375, + "learning_rate": 0.00029748271427184995, + "loss": 0.4899, + "step": 44270 + }, + { + "epoch": 118.08, + "grad_norm": 0.333984375, + "learning_rate": 0.00029748156711075093, + "loss": 0.4766, + "step": 44280 + }, + { + "epoch": 118.10666666666667, + "grad_norm": 0.271484375, + "learning_rate": 0.00029748041969053605, + "loss": 0.472, + "step": 44290 + }, + { + "epoch": 118.13333333333334, + "grad_norm": 0.3203125, + "learning_rate": 0.00029747927201120714, + "loss": 0.4732, + "step": 44300 + }, + { + "epoch": 118.16, + "grad_norm": 0.32421875, + "learning_rate": 0.0002974781240727663, + "loss": 0.4783, + "step": 44310 + }, + { + "epoch": 118.18666666666667, + "grad_norm": 0.28125, + "learning_rate": 0.00029747697587521546, + "loss": 0.4708, + "step": 44320 + }, + { + "epoch": 118.21333333333334, + "grad_norm": 0.333984375, + "learning_rate": 0.00029747582741855675, + "loss": 0.4646, + "step": 44330 + }, + { + "epoch": 118.24, + "grad_norm": 0.384765625, + "learning_rate": 0.0002974746787027921, + "loss": 0.4689, + "step": 44340 + }, + { + "epoch": 118.26666666666667, + "grad_norm": 0.2373046875, + "learning_rate": 0.0002974735297279236, + "loss": 0.4728, + "step": 44350 + }, + { + "epoch": 118.29333333333334, + "grad_norm": 0.291015625, + "learning_rate": 0.0002974723804939532, + "loss": 0.4664, + "step": 44360 + }, + { + "epoch": 118.32, + "grad_norm": 0.24609375, + "learning_rate": 0.00029747123100088297, + "loss": 0.4707, + "step": 44370 + }, + { + "epoch": 118.34666666666666, + "grad_norm": 0.384765625, + "learning_rate": 0.00029747008124871493, + "loss": 0.4788, + "step": 44380 + }, + { + "epoch": 118.37333333333333, + "grad_norm": 0.357421875, + "learning_rate": 0.00029746893123745104, + "loss": 0.474, + "step": 44390 + }, + { + "epoch": 118.4, + "grad_norm": 0.322265625, + "learning_rate": 0.00029746778096709334, + "loss": 0.4713, + "step": 44400 + }, + { + "epoch": 118.42666666666666, + "grad_norm": 0.23046875, + "learning_rate": 0.0002974666304376439, + "loss": 0.4774, + "step": 44410 + }, + { + "epoch": 118.45333333333333, + "grad_norm": 0.2734375, + "learning_rate": 0.00029746547964910473, + "loss": 0.4794, + "step": 44420 + }, + { + "epoch": 118.48, + "grad_norm": 0.30078125, + "learning_rate": 0.00029746432860147784, + "loss": 0.4853, + "step": 44430 + }, + { + "epoch": 118.50666666666666, + "grad_norm": 0.26953125, + "learning_rate": 0.0002974631772947652, + "loss": 0.4755, + "step": 44440 + }, + { + "epoch": 118.53333333333333, + "grad_norm": 0.3203125, + "learning_rate": 0.00029746202572896894, + "loss": 0.4693, + "step": 44450 + }, + { + "epoch": 118.56, + "grad_norm": 0.27734375, + "learning_rate": 0.00029746087390409095, + "loss": 0.4702, + "step": 44460 + }, + { + "epoch": 118.58666666666667, + "grad_norm": 0.294921875, + "learning_rate": 0.00029745972182013337, + "loss": 0.4665, + "step": 44470 + }, + { + "epoch": 118.61333333333333, + "grad_norm": 0.31640625, + "learning_rate": 0.0002974585694770982, + "loss": 0.4527, + "step": 44480 + }, + { + "epoch": 118.64, + "grad_norm": 0.23046875, + "learning_rate": 0.0002974574168749874, + "loss": 0.4576, + "step": 44490 + }, + { + "epoch": 118.66666666666667, + "grad_norm": 0.41015625, + "learning_rate": 0.00029745626401380304, + "loss": 0.4724, + "step": 44500 + }, + { + "epoch": 118.69333333333333, + "grad_norm": 0.25390625, + "learning_rate": 0.0002974551108935472, + "loss": 0.455, + "step": 44510 + }, + { + "epoch": 118.72, + "grad_norm": 0.392578125, + "learning_rate": 0.00029745395751422176, + "loss": 0.4728, + "step": 44520 + }, + { + "epoch": 118.74666666666667, + "grad_norm": 0.322265625, + "learning_rate": 0.00029745280387582894, + "loss": 0.4765, + "step": 44530 + }, + { + "epoch": 118.77333333333333, + "grad_norm": 0.37109375, + "learning_rate": 0.0002974516499783706, + "loss": 0.4842, + "step": 44540 + }, + { + "epoch": 118.8, + "grad_norm": 0.37890625, + "learning_rate": 0.00029745049582184885, + "loss": 0.4714, + "step": 44550 + }, + { + "epoch": 118.82666666666667, + "grad_norm": 0.337890625, + "learning_rate": 0.0002974493414062657, + "loss": 0.466, + "step": 44560 + }, + { + "epoch": 118.85333333333334, + "grad_norm": 0.412109375, + "learning_rate": 0.0002974481867316232, + "loss": 0.4749, + "step": 44570 + }, + { + "epoch": 118.88, + "grad_norm": 0.33203125, + "learning_rate": 0.00029744703179792334, + "loss": 0.4631, + "step": 44580 + }, + { + "epoch": 118.90666666666667, + "grad_norm": 0.328125, + "learning_rate": 0.00029744587660516814, + "loss": 0.4656, + "step": 44590 + }, + { + "epoch": 118.93333333333334, + "grad_norm": 0.287109375, + "learning_rate": 0.0002974447211533597, + "loss": 0.467, + "step": 44600 + }, + { + "epoch": 118.96, + "grad_norm": 0.314453125, + "learning_rate": 0.00029744356544249994, + "loss": 0.4655, + "step": 44610 + }, + { + "epoch": 118.98666666666666, + "grad_norm": 0.3359375, + "learning_rate": 0.00029744240947259106, + "loss": 0.4791, + "step": 44620 + }, + { + "epoch": 119.0, + "eval_loss": 0.47937506437301636, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.9759, + "eval_samples_per_second": 1.604, + "eval_steps_per_second": 0.1, + "step": 44625 + }, + { + "epoch": 119.01333333333334, + "grad_norm": 0.3046875, + "learning_rate": 0.0002974412532436349, + "loss": 0.4683, + "step": 44630 + }, + { + "epoch": 119.04, + "grad_norm": 0.435546875, + "learning_rate": 0.0002974400967556336, + "loss": 0.4924, + "step": 44640 + }, + { + "epoch": 119.06666666666666, + "grad_norm": 0.42578125, + "learning_rate": 0.0002974389400085892, + "loss": 0.4798, + "step": 44650 + }, + { + "epoch": 119.09333333333333, + "grad_norm": 0.396484375, + "learning_rate": 0.00029743778300250366, + "loss": 0.4742, + "step": 44660 + }, + { + "epoch": 119.12, + "grad_norm": 0.29296875, + "learning_rate": 0.00029743662573737906, + "loss": 0.4712, + "step": 44670 + }, + { + "epoch": 119.14666666666666, + "grad_norm": 0.263671875, + "learning_rate": 0.00029743546821321747, + "loss": 0.4796, + "step": 44680 + }, + { + "epoch": 119.17333333333333, + "grad_norm": 0.365234375, + "learning_rate": 0.00029743431043002084, + "loss": 0.4706, + "step": 44690 + }, + { + "epoch": 119.2, + "grad_norm": 0.283203125, + "learning_rate": 0.00029743315238779124, + "loss": 0.4691, + "step": 44700 + }, + { + "epoch": 119.22666666666667, + "grad_norm": 0.263671875, + "learning_rate": 0.0002974319940865308, + "loss": 0.4663, + "step": 44710 + }, + { + "epoch": 119.25333333333333, + "grad_norm": 0.28515625, + "learning_rate": 0.0002974308355262414, + "loss": 0.4663, + "step": 44720 + }, + { + "epoch": 119.28, + "grad_norm": 0.330078125, + "learning_rate": 0.00029742967670692513, + "loss": 0.4796, + "step": 44730 + }, + { + "epoch": 119.30666666666667, + "grad_norm": 0.267578125, + "learning_rate": 0.00029742851762858406, + "loss": 0.4615, + "step": 44740 + }, + { + "epoch": 119.33333333333333, + "grad_norm": 0.3515625, + "learning_rate": 0.0002974273582912202, + "loss": 0.4771, + "step": 44750 + }, + { + "epoch": 119.36, + "grad_norm": 0.345703125, + "learning_rate": 0.00029742619869483554, + "loss": 0.478, + "step": 44760 + }, + { + "epoch": 119.38666666666667, + "grad_norm": 0.41015625, + "learning_rate": 0.00029742503883943225, + "loss": 0.4705, + "step": 44770 + }, + { + "epoch": 119.41333333333333, + "grad_norm": 0.41015625, + "learning_rate": 0.00029742387872501224, + "loss": 0.475, + "step": 44780 + }, + { + "epoch": 119.44, + "grad_norm": 0.32421875, + "learning_rate": 0.00029742271835157764, + "loss": 0.4775, + "step": 44790 + }, + { + "epoch": 119.46666666666667, + "grad_norm": 0.380859375, + "learning_rate": 0.0002974215577191304, + "loss": 0.4862, + "step": 44800 + }, + { + "epoch": 119.49333333333334, + "grad_norm": 0.3515625, + "learning_rate": 0.00029742039682767256, + "loss": 0.4782, + "step": 44810 + }, + { + "epoch": 119.52, + "grad_norm": 0.2451171875, + "learning_rate": 0.00029741923567720626, + "loss": 0.4724, + "step": 44820 + }, + { + "epoch": 119.54666666666667, + "grad_norm": 0.322265625, + "learning_rate": 0.0002974180742677335, + "loss": 0.4687, + "step": 44830 + }, + { + "epoch": 119.57333333333334, + "grad_norm": 0.37109375, + "learning_rate": 0.00029741691259925626, + "loss": 0.4681, + "step": 44840 + }, + { + "epoch": 119.6, + "grad_norm": 0.400390625, + "learning_rate": 0.0002974157506717767, + "loss": 0.4623, + "step": 44850 + }, + { + "epoch": 119.62666666666667, + "grad_norm": 0.37890625, + "learning_rate": 0.0002974145884852967, + "loss": 0.4492, + "step": 44860 + }, + { + "epoch": 119.65333333333334, + "grad_norm": 0.3046875, + "learning_rate": 0.0002974134260398184, + "loss": 0.4691, + "step": 44870 + }, + { + "epoch": 119.68, + "grad_norm": 0.3359375, + "learning_rate": 0.0002974122633353438, + "loss": 0.4607, + "step": 44880 + }, + { + "epoch": 119.70666666666666, + "grad_norm": 0.388671875, + "learning_rate": 0.00029741110037187507, + "loss": 0.4608, + "step": 44890 + }, + { + "epoch": 119.73333333333333, + "grad_norm": 0.34375, + "learning_rate": 0.0002974099371494141, + "loss": 0.4801, + "step": 44900 + }, + { + "epoch": 119.76, + "grad_norm": 0.388671875, + "learning_rate": 0.00029740877366796296, + "loss": 0.4814, + "step": 44910 + }, + { + "epoch": 119.78666666666666, + "grad_norm": 0.2578125, + "learning_rate": 0.0002974076099275238, + "loss": 0.4795, + "step": 44920 + }, + { + "epoch": 119.81333333333333, + "grad_norm": 0.337890625, + "learning_rate": 0.0002974064459280985, + "loss": 0.4651, + "step": 44930 + }, + { + "epoch": 119.84, + "grad_norm": 0.3671875, + "learning_rate": 0.00029740528166968924, + "loss": 0.4708, + "step": 44940 + }, + { + "epoch": 119.86666666666666, + "grad_norm": 0.3515625, + "learning_rate": 0.00029740411715229804, + "loss": 0.4697, + "step": 44950 + }, + { + "epoch": 119.89333333333333, + "grad_norm": 0.33984375, + "learning_rate": 0.00029740295237592687, + "loss": 0.4613, + "step": 44960 + }, + { + "epoch": 119.92, + "grad_norm": 0.29296875, + "learning_rate": 0.00029740178734057786, + "loss": 0.4714, + "step": 44970 + }, + { + "epoch": 119.94666666666667, + "grad_norm": 0.294921875, + "learning_rate": 0.000297400622046253, + "loss": 0.4638, + "step": 44980 + }, + { + "epoch": 119.97333333333333, + "grad_norm": 0.33203125, + "learning_rate": 0.00029739945649295444, + "loss": 0.4755, + "step": 44990 + }, + { + "epoch": 120.0, + "grad_norm": 0.3515625, + "learning_rate": 0.0002973982906806841, + "loss": 0.4641, + "step": 45000 + }, + { + "epoch": 120.0, + "eval_loss": 0.4796341061592102, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 11.2339, + "eval_samples_per_second": 1.424, + "eval_steps_per_second": 0.089, + "step": 45000 + }, + { + "epoch": 120.02666666666667, + "grad_norm": 0.48046875, + "learning_rate": 0.00029739712460944405, + "loss": 0.4851, + "step": 45010 + }, + { + "epoch": 120.05333333333333, + "grad_norm": 0.359375, + "learning_rate": 0.00029739595827923645, + "loss": 0.4904, + "step": 45020 + }, + { + "epoch": 120.08, + "grad_norm": 0.28125, + "learning_rate": 0.0002973947916900632, + "loss": 0.4766, + "step": 45030 + }, + { + "epoch": 120.10666666666667, + "grad_norm": 0.2890625, + "learning_rate": 0.0002973936248419264, + "loss": 0.4719, + "step": 45040 + }, + { + "epoch": 120.13333333333334, + "grad_norm": 0.259765625, + "learning_rate": 0.0002973924577348282, + "loss": 0.4733, + "step": 45050 + }, + { + "epoch": 120.16, + "grad_norm": 0.3515625, + "learning_rate": 0.0002973912903687705, + "loss": 0.4774, + "step": 45060 + }, + { + "epoch": 120.18666666666667, + "grad_norm": 0.2734375, + "learning_rate": 0.0002973901227437555, + "loss": 0.4702, + "step": 45070 + }, + { + "epoch": 120.21333333333334, + "grad_norm": 0.275390625, + "learning_rate": 0.0002973889548597851, + "loss": 0.4644, + "step": 45080 + }, + { + "epoch": 120.24, + "grad_norm": 0.400390625, + "learning_rate": 0.00029738778671686145, + "loss": 0.4692, + "step": 45090 + }, + { + "epoch": 120.26666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.0002973866183149866, + "loss": 0.4728, + "step": 45100 + }, + { + "epoch": 120.29333333333334, + "grad_norm": 0.337890625, + "learning_rate": 0.00029738544965416254, + "loss": 0.4675, + "step": 45110 + }, + { + "epoch": 120.32, + "grad_norm": 0.2236328125, + "learning_rate": 0.00029738428073439134, + "loss": 0.4706, + "step": 45120 + }, + { + "epoch": 120.34666666666666, + "grad_norm": 0.359375, + "learning_rate": 0.0002973831115556751, + "loss": 0.4782, + "step": 45130 + }, + { + "epoch": 120.37333333333333, + "grad_norm": 0.390625, + "learning_rate": 0.00029738194211801586, + "loss": 0.4746, + "step": 45140 + }, + { + "epoch": 120.4, + "grad_norm": 0.318359375, + "learning_rate": 0.0002973807724214157, + "loss": 0.4714, + "step": 45150 + }, + { + "epoch": 120.42666666666666, + "grad_norm": 0.46875, + "learning_rate": 0.00029737960246587657, + "loss": 0.4782, + "step": 45160 + }, + { + "epoch": 120.45333333333333, + "grad_norm": 0.31640625, + "learning_rate": 0.00029737843225140063, + "loss": 0.4793, + "step": 45170 + }, + { + "epoch": 120.48, + "grad_norm": 0.283203125, + "learning_rate": 0.00029737726177798995, + "loss": 0.4853, + "step": 45180 + }, + { + "epoch": 120.50666666666666, + "grad_norm": 0.298828125, + "learning_rate": 0.00029737609104564647, + "loss": 0.4748, + "step": 45190 + }, + { + "epoch": 120.53333333333333, + "grad_norm": 0.30859375, + "learning_rate": 0.0002973749200543723, + "loss": 0.4686, + "step": 45200 + }, + { + "epoch": 120.56, + "grad_norm": 0.291015625, + "learning_rate": 0.0002973737488041696, + "loss": 0.4704, + "step": 45210 + }, + { + "epoch": 120.58666666666667, + "grad_norm": 0.318359375, + "learning_rate": 0.00029737257729504023, + "loss": 0.466, + "step": 45220 + }, + { + "epoch": 120.61333333333333, + "grad_norm": 0.34375, + "learning_rate": 0.0002973714055269864, + "loss": 0.4523, + "step": 45230 + }, + { + "epoch": 120.64, + "grad_norm": 0.31640625, + "learning_rate": 0.00029737023350001016, + "loss": 0.4571, + "step": 45240 + }, + { + "epoch": 120.66666666666667, + "grad_norm": 0.306640625, + "learning_rate": 0.0002973690612141135, + "loss": 0.4724, + "step": 45250 + }, + { + "epoch": 120.69333333333333, + "grad_norm": 0.326171875, + "learning_rate": 0.0002973678886692985, + "loss": 0.4564, + "step": 45260 + }, + { + "epoch": 120.72, + "grad_norm": 0.240234375, + "learning_rate": 0.0002973667158655673, + "loss": 0.4723, + "step": 45270 + }, + { + "epoch": 120.74666666666667, + "grad_norm": 0.228515625, + "learning_rate": 0.0002973655428029218, + "loss": 0.4769, + "step": 45280 + }, + { + "epoch": 120.77333333333333, + "grad_norm": 0.287109375, + "learning_rate": 0.0002973643694813643, + "loss": 0.4835, + "step": 45290 + }, + { + "epoch": 120.8, + "grad_norm": 0.39453125, + "learning_rate": 0.0002973631959008966, + "loss": 0.4716, + "step": 45300 + }, + { + "epoch": 120.82666666666667, + "grad_norm": 0.3671875, + "learning_rate": 0.000297362022061521, + "loss": 0.4661, + "step": 45310 + }, + { + "epoch": 120.85333333333334, + "grad_norm": 0.34765625, + "learning_rate": 0.00029736084796323927, + "loss": 0.4749, + "step": 45320 + }, + { + "epoch": 120.88, + "grad_norm": 0.291015625, + "learning_rate": 0.00029735967360605377, + "loss": 0.4629, + "step": 45330 + }, + { + "epoch": 120.90666666666667, + "grad_norm": 0.32421875, + "learning_rate": 0.0002973584989899664, + "loss": 0.4658, + "step": 45340 + }, + { + "epoch": 120.93333333333334, + "grad_norm": 0.244140625, + "learning_rate": 0.00029735732411497926, + "loss": 0.4665, + "step": 45350 + }, + { + "epoch": 120.96, + "grad_norm": 0.359375, + "learning_rate": 0.0002973561489810944, + "loss": 0.4652, + "step": 45360 + }, + { + "epoch": 120.98666666666666, + "grad_norm": 0.474609375, + "learning_rate": 0.0002973549735883139, + "loss": 0.4785, + "step": 45370 + }, + { + "epoch": 121.0, + "eval_loss": 0.4802832305431366, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.0946, + "eval_samples_per_second": 1.585, + "eval_steps_per_second": 0.099, + "step": 45375 + }, + { + "epoch": 121.01333333333334, + "grad_norm": 0.318359375, + "learning_rate": 0.0002973537979366399, + "loss": 0.4687, + "step": 45380 + }, + { + "epoch": 121.04, + "grad_norm": 0.240234375, + "learning_rate": 0.00029735262202607433, + "loss": 0.4921, + "step": 45390 + }, + { + "epoch": 121.06666666666666, + "grad_norm": 0.34765625, + "learning_rate": 0.00029735144585661937, + "loss": 0.4797, + "step": 45400 + }, + { + "epoch": 121.09333333333333, + "grad_norm": 0.39453125, + "learning_rate": 0.00029735026942827693, + "loss": 0.4746, + "step": 45410 + }, + { + "epoch": 121.12, + "grad_norm": 0.318359375, + "learning_rate": 0.0002973490927410493, + "loss": 0.4712, + "step": 45420 + }, + { + "epoch": 121.14666666666666, + "grad_norm": 0.3125, + "learning_rate": 0.0002973479157949384, + "loss": 0.4799, + "step": 45430 + }, + { + "epoch": 121.17333333333333, + "grad_norm": 0.384765625, + "learning_rate": 0.0002973467385899463, + "loss": 0.4701, + "step": 45440 + }, + { + "epoch": 121.2, + "grad_norm": 0.26953125, + "learning_rate": 0.0002973455611260751, + "loss": 0.468, + "step": 45450 + }, + { + "epoch": 121.22666666666667, + "grad_norm": 0.328125, + "learning_rate": 0.00029734438340332683, + "loss": 0.4665, + "step": 45460 + }, + { + "epoch": 121.25333333333333, + "grad_norm": 0.31640625, + "learning_rate": 0.0002973432054217036, + "loss": 0.4663, + "step": 45470 + }, + { + "epoch": 121.28, + "grad_norm": 0.37890625, + "learning_rate": 0.0002973420271812075, + "loss": 0.4798, + "step": 45480 + }, + { + "epoch": 121.30666666666667, + "grad_norm": 0.298828125, + "learning_rate": 0.0002973408486818406, + "loss": 0.461, + "step": 45490 + }, + { + "epoch": 121.33333333333333, + "grad_norm": 0.298828125, + "learning_rate": 0.0002973396699236049, + "loss": 0.4765, + "step": 45500 + }, + { + "epoch": 121.36, + "grad_norm": 0.296875, + "learning_rate": 0.0002973384909065026, + "loss": 0.4781, + "step": 45510 + }, + { + "epoch": 121.38666666666667, + "grad_norm": 0.37109375, + "learning_rate": 0.00029733731163053556, + "loss": 0.4701, + "step": 45520 + }, + { + "epoch": 121.41333333333333, + "grad_norm": 0.3359375, + "learning_rate": 0.00029733613209570605, + "loss": 0.4742, + "step": 45530 + }, + { + "epoch": 121.44, + "grad_norm": 0.267578125, + "learning_rate": 0.00029733495230201606, + "loss": 0.4778, + "step": 45540 + }, + { + "epoch": 121.46666666666667, + "grad_norm": 0.291015625, + "learning_rate": 0.00029733377224946765, + "loss": 0.4865, + "step": 45550 + }, + { + "epoch": 121.49333333333334, + "grad_norm": 0.310546875, + "learning_rate": 0.0002973325919380629, + "loss": 0.4776, + "step": 45560 + }, + { + "epoch": 121.52, + "grad_norm": 0.330078125, + "learning_rate": 0.000297331411367804, + "loss": 0.4727, + "step": 45570 + }, + { + "epoch": 121.54666666666667, + "grad_norm": 0.392578125, + "learning_rate": 0.0002973302305386928, + "loss": 0.4689, + "step": 45580 + }, + { + "epoch": 121.57333333333334, + "grad_norm": 0.33984375, + "learning_rate": 0.0002973290494507316, + "loss": 0.4684, + "step": 45590 + }, + { + "epoch": 121.6, + "grad_norm": 0.3046875, + "learning_rate": 0.0002973278681039223, + "loss": 0.4624, + "step": 45600 + }, + { + "epoch": 121.62666666666667, + "grad_norm": 0.267578125, + "learning_rate": 0.0002973266864982671, + "loss": 0.4492, + "step": 45610 + }, + { + "epoch": 121.65333333333334, + "grad_norm": 0.23046875, + "learning_rate": 0.00029732550463376796, + "loss": 0.4688, + "step": 45620 + }, + { + "epoch": 121.68, + "grad_norm": 0.35546875, + "learning_rate": 0.00029732432251042707, + "loss": 0.4599, + "step": 45630 + }, + { + "epoch": 121.70666666666666, + "grad_norm": 0.46875, + "learning_rate": 0.00029732314012824646, + "loss": 0.4605, + "step": 45640 + }, + { + "epoch": 121.73333333333333, + "grad_norm": 0.30859375, + "learning_rate": 0.0002973219574872282, + "loss": 0.4801, + "step": 45650 + }, + { + "epoch": 121.76, + "grad_norm": 0.435546875, + "learning_rate": 0.0002973207745873744, + "loss": 0.4807, + "step": 45660 + }, + { + "epoch": 121.78666666666666, + "grad_norm": 0.349609375, + "learning_rate": 0.00029731959142868705, + "loss": 0.4798, + "step": 45670 + }, + { + "epoch": 121.81333333333333, + "grad_norm": 0.4296875, + "learning_rate": 0.00029731840801116834, + "loss": 0.4652, + "step": 45680 + }, + { + "epoch": 121.84, + "grad_norm": 0.419921875, + "learning_rate": 0.0002973172243348203, + "loss": 0.4706, + "step": 45690 + }, + { + "epoch": 121.86666666666666, + "grad_norm": 0.443359375, + "learning_rate": 0.000297316040399645, + "loss": 0.4699, + "step": 45700 + }, + { + "epoch": 121.89333333333333, + "grad_norm": 0.328125, + "learning_rate": 0.0002973148562056445, + "loss": 0.4611, + "step": 45710 + }, + { + "epoch": 121.92, + "grad_norm": 0.275390625, + "learning_rate": 0.0002973136717528209, + "loss": 0.471, + "step": 45720 + }, + { + "epoch": 121.94666666666667, + "grad_norm": 0.4140625, + "learning_rate": 0.00029731248704117637, + "loss": 0.464, + "step": 45730 + }, + { + "epoch": 121.97333333333333, + "grad_norm": 0.41015625, + "learning_rate": 0.00029731130207071287, + "loss": 0.4748, + "step": 45740 + }, + { + "epoch": 122.0, + "grad_norm": 0.33203125, + "learning_rate": 0.00029731011684143254, + "loss": 0.4637, + "step": 45750 + }, + { + "epoch": 122.0, + "eval_loss": 0.48008567094802856, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.8847, + "eval_samples_per_second": 1.47, + "eval_steps_per_second": 0.092, + "step": 45750 + }, + { + "epoch": 122.02666666666667, + "grad_norm": 0.353515625, + "learning_rate": 0.0002973089313533374, + "loss": 0.4841, + "step": 45760 + }, + { + "epoch": 122.05333333333333, + "grad_norm": 0.28125, + "learning_rate": 0.0002973077456064296, + "loss": 0.4894, + "step": 45770 + }, + { + "epoch": 122.08, + "grad_norm": 0.412109375, + "learning_rate": 0.0002973065596007112, + "loss": 0.477, + "step": 45780 + }, + { + "epoch": 122.10666666666667, + "grad_norm": 0.2578125, + "learning_rate": 0.00029730537333618433, + "loss": 0.4715, + "step": 45790 + }, + { + "epoch": 122.13333333333334, + "grad_norm": 0.330078125, + "learning_rate": 0.000297304186812851, + "loss": 0.473, + "step": 45800 + }, + { + "epoch": 122.16, + "grad_norm": 0.357421875, + "learning_rate": 0.00029730300003071334, + "loss": 0.4781, + "step": 45810 + }, + { + "epoch": 122.18666666666667, + "grad_norm": 0.28125, + "learning_rate": 0.0002973018129897734, + "loss": 0.47, + "step": 45820 + }, + { + "epoch": 122.21333333333334, + "grad_norm": 0.408203125, + "learning_rate": 0.00029730062569003333, + "loss": 0.4648, + "step": 45830 + }, + { + "epoch": 122.24, + "grad_norm": 0.2578125, + "learning_rate": 0.0002972994381314951, + "loss": 0.4683, + "step": 45840 + }, + { + "epoch": 122.26666666666667, + "grad_norm": 0.259765625, + "learning_rate": 0.00029729825031416093, + "loss": 0.4729, + "step": 45850 + }, + { + "epoch": 122.29333333333334, + "grad_norm": 0.34765625, + "learning_rate": 0.00029729706223803284, + "loss": 0.4668, + "step": 45860 + }, + { + "epoch": 122.32, + "grad_norm": 0.33203125, + "learning_rate": 0.0002972958739031129, + "loss": 0.4707, + "step": 45870 + }, + { + "epoch": 122.34666666666666, + "grad_norm": 0.3125, + "learning_rate": 0.0002972946853094032, + "loss": 0.4779, + "step": 45880 + }, + { + "epoch": 122.37333333333333, + "grad_norm": 0.38671875, + "learning_rate": 0.0002972934964569059, + "loss": 0.4743, + "step": 45890 + }, + { + "epoch": 122.4, + "grad_norm": 0.3828125, + "learning_rate": 0.000297292307345623, + "loss": 0.4713, + "step": 45900 + }, + { + "epoch": 122.42666666666666, + "grad_norm": 0.443359375, + "learning_rate": 0.00029729111797555666, + "loss": 0.4775, + "step": 45910 + }, + { + "epoch": 122.45333333333333, + "grad_norm": 0.3046875, + "learning_rate": 0.0002972899283467089, + "loss": 0.4787, + "step": 45920 + }, + { + "epoch": 122.48, + "grad_norm": 0.310546875, + "learning_rate": 0.00029728873845908185, + "loss": 0.4861, + "step": 45930 + }, + { + "epoch": 122.50666666666666, + "grad_norm": 0.26953125, + "learning_rate": 0.0002972875483126776, + "loss": 0.4742, + "step": 45940 + }, + { + "epoch": 122.53333333333333, + "grad_norm": 0.22265625, + "learning_rate": 0.0002972863579074983, + "loss": 0.4687, + "step": 45950 + }, + { + "epoch": 122.56, + "grad_norm": 0.328125, + "learning_rate": 0.00029728516724354594, + "loss": 0.4706, + "step": 45960 + }, + { + "epoch": 122.58666666666667, + "grad_norm": 0.271484375, + "learning_rate": 0.0002972839763208226, + "loss": 0.4655, + "step": 45970 + }, + { + "epoch": 122.61333333333333, + "grad_norm": 0.2353515625, + "learning_rate": 0.0002972827851393305, + "loss": 0.4526, + "step": 45980 + }, + { + "epoch": 122.64, + "grad_norm": 0.27734375, + "learning_rate": 0.00029728159369907166, + "loss": 0.4568, + "step": 45990 + }, + { + "epoch": 122.66666666666667, + "grad_norm": 0.396484375, + "learning_rate": 0.00029728040200004813, + "loss": 0.4731, + "step": 46000 + }, + { + "epoch": 122.69333333333333, + "grad_norm": 0.31640625, + "learning_rate": 0.0002972792100422621, + "loss": 0.4549, + "step": 46010 + }, + { + "epoch": 122.72, + "grad_norm": 0.32421875, + "learning_rate": 0.0002972780178257155, + "loss": 0.4724, + "step": 46020 + }, + { + "epoch": 122.74666666666667, + "grad_norm": 0.33984375, + "learning_rate": 0.0002972768253504106, + "loss": 0.4772, + "step": 46030 + }, + { + "epoch": 122.77333333333333, + "grad_norm": 0.376953125, + "learning_rate": 0.0002972756326163494, + "loss": 0.484, + "step": 46040 + }, + { + "epoch": 122.8, + "grad_norm": 0.341796875, + "learning_rate": 0.00029727443962353407, + "loss": 0.4716, + "step": 46050 + }, + { + "epoch": 122.82666666666667, + "grad_norm": 0.2431640625, + "learning_rate": 0.00029727324637196664, + "loss": 0.4653, + "step": 46060 + }, + { + "epoch": 122.85333333333334, + "grad_norm": 0.330078125, + "learning_rate": 0.0002972720528616492, + "loss": 0.4748, + "step": 46070 + }, + { + "epoch": 122.88, + "grad_norm": 0.302734375, + "learning_rate": 0.0002972708590925839, + "loss": 0.4626, + "step": 46080 + }, + { + "epoch": 122.90666666666667, + "grad_norm": 0.263671875, + "learning_rate": 0.0002972696650647728, + "loss": 0.4653, + "step": 46090 + }, + { + "epoch": 122.93333333333334, + "grad_norm": 0.41015625, + "learning_rate": 0.000297268470778218, + "loss": 0.4676, + "step": 46100 + }, + { + "epoch": 122.96, + "grad_norm": 0.29296875, + "learning_rate": 0.00029726727623292167, + "loss": 0.4654, + "step": 46110 + }, + { + "epoch": 122.98666666666666, + "grad_norm": 0.3984375, + "learning_rate": 0.0002972660814288858, + "loss": 0.4792, + "step": 46120 + }, + { + "epoch": 123.0, + "eval_loss": 0.47855737805366516, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.2518, + "eval_samples_per_second": 1.561, + "eval_steps_per_second": 0.098, + "step": 46125 + }, + { + "epoch": 123.01333333333334, + "grad_norm": 0.3125, + "learning_rate": 0.0002972648863661125, + "loss": 0.4678, + "step": 46130 + }, + { + "epoch": 123.04, + "grad_norm": 0.251953125, + "learning_rate": 0.00029726369104460395, + "loss": 0.4923, + "step": 46140 + }, + { + "epoch": 123.06666666666666, + "grad_norm": 0.333984375, + "learning_rate": 0.00029726249546436215, + "loss": 0.4795, + "step": 46150 + }, + { + "epoch": 123.09333333333333, + "grad_norm": 0.294921875, + "learning_rate": 0.00029726129962538933, + "loss": 0.4745, + "step": 46160 + }, + { + "epoch": 123.12, + "grad_norm": 0.3046875, + "learning_rate": 0.0002972601035276875, + "loss": 0.4709, + "step": 46170 + }, + { + "epoch": 123.14666666666666, + "grad_norm": 0.30078125, + "learning_rate": 0.00029725890717125875, + "loss": 0.4801, + "step": 46180 + }, + { + "epoch": 123.17333333333333, + "grad_norm": 0.345703125, + "learning_rate": 0.0002972577105561052, + "loss": 0.47, + "step": 46190 + }, + { + "epoch": 123.2, + "grad_norm": 0.380859375, + "learning_rate": 0.000297256513682229, + "loss": 0.4686, + "step": 46200 + }, + { + "epoch": 123.22666666666667, + "grad_norm": 0.2734375, + "learning_rate": 0.00029725531654963217, + "loss": 0.4666, + "step": 46210 + }, + { + "epoch": 123.25333333333333, + "grad_norm": 0.2158203125, + "learning_rate": 0.0002972541191583169, + "loss": 0.4659, + "step": 46220 + }, + { + "epoch": 123.28, + "grad_norm": 0.37890625, + "learning_rate": 0.0002972529215082852, + "loss": 0.4796, + "step": 46230 + }, + { + "epoch": 123.30666666666667, + "grad_norm": 0.408203125, + "learning_rate": 0.0002972517235995393, + "loss": 0.4601, + "step": 46240 + }, + { + "epoch": 123.33333333333333, + "grad_norm": 0.3125, + "learning_rate": 0.0002972505254320812, + "loss": 0.4762, + "step": 46250 + }, + { + "epoch": 123.36, + "grad_norm": 0.23046875, + "learning_rate": 0.00029724932700591304, + "loss": 0.4785, + "step": 46260 + }, + { + "epoch": 123.38666666666667, + "grad_norm": 0.37890625, + "learning_rate": 0.00029724812832103686, + "loss": 0.4694, + "step": 46270 + }, + { + "epoch": 123.41333333333333, + "grad_norm": 0.2421875, + "learning_rate": 0.00029724692937745486, + "loss": 0.4741, + "step": 46280 + }, + { + "epoch": 123.44, + "grad_norm": 0.38671875, + "learning_rate": 0.00029724573017516915, + "loss": 0.4774, + "step": 46290 + }, + { + "epoch": 123.46666666666667, + "grad_norm": 0.30078125, + "learning_rate": 0.00029724453071418175, + "loss": 0.4869, + "step": 46300 + }, + { + "epoch": 123.49333333333334, + "grad_norm": 0.3828125, + "learning_rate": 0.0002972433309944949, + "loss": 0.4782, + "step": 46310 + }, + { + "epoch": 123.52, + "grad_norm": 0.3671875, + "learning_rate": 0.00029724213101611053, + "loss": 0.4726, + "step": 46320 + }, + { + "epoch": 123.54666666666667, + "grad_norm": 0.33984375, + "learning_rate": 0.0002972409307790309, + "loss": 0.4695, + "step": 46330 + }, + { + "epoch": 123.57333333333334, + "grad_norm": 0.2314453125, + "learning_rate": 0.00029723973028325805, + "loss": 0.4688, + "step": 46340 + }, + { + "epoch": 123.6, + "grad_norm": 0.318359375, + "learning_rate": 0.0002972385295287941, + "loss": 0.4626, + "step": 46350 + }, + { + "epoch": 123.62666666666667, + "grad_norm": 0.3359375, + "learning_rate": 0.0002972373285156411, + "loss": 0.4492, + "step": 46360 + }, + { + "epoch": 123.65333333333334, + "grad_norm": 0.259765625, + "learning_rate": 0.00029723612724380136, + "loss": 0.4686, + "step": 46370 + }, + { + "epoch": 123.68, + "grad_norm": 0.2890625, + "learning_rate": 0.00029723492571327677, + "loss": 0.4599, + "step": 46380 + }, + { + "epoch": 123.70666666666666, + "grad_norm": 0.400390625, + "learning_rate": 0.0002972337239240695, + "loss": 0.4616, + "step": 46390 + }, + { + "epoch": 123.73333333333333, + "grad_norm": 0.330078125, + "learning_rate": 0.00029723252187618173, + "loss": 0.4805, + "step": 46400 + }, + { + "epoch": 123.76, + "grad_norm": 0.33984375, + "learning_rate": 0.0002972313195696155, + "loss": 0.481, + "step": 46410 + }, + { + "epoch": 123.78666666666666, + "grad_norm": 0.2734375, + "learning_rate": 0.000297230117004373, + "loss": 0.4796, + "step": 46420 + }, + { + "epoch": 123.81333333333333, + "grad_norm": 0.3203125, + "learning_rate": 0.00029722891418045624, + "loss": 0.4647, + "step": 46430 + }, + { + "epoch": 123.84, + "grad_norm": 0.37890625, + "learning_rate": 0.0002972277110978674, + "loss": 0.4706, + "step": 46440 + }, + { + "epoch": 123.86666666666666, + "grad_norm": 0.30078125, + "learning_rate": 0.00029722650775660856, + "loss": 0.4697, + "step": 46450 + }, + { + "epoch": 123.89333333333333, + "grad_norm": 0.259765625, + "learning_rate": 0.0002972253041566819, + "loss": 0.4609, + "step": 46460 + }, + { + "epoch": 123.92, + "grad_norm": 0.271484375, + "learning_rate": 0.0002972241002980894, + "loss": 0.4714, + "step": 46470 + }, + { + "epoch": 123.94666666666667, + "grad_norm": 0.26171875, + "learning_rate": 0.00029722289618083335, + "loss": 0.4639, + "step": 46480 + }, + { + "epoch": 123.97333333333333, + "grad_norm": 0.328125, + "learning_rate": 0.0002972216918049158, + "loss": 0.4759, + "step": 46490 + }, + { + "epoch": 124.0, + "grad_norm": 0.328125, + "learning_rate": 0.00029722048717033874, + "loss": 0.4644, + "step": 46500 + }, + { + "epoch": 124.0, + "eval_loss": 0.478996604681015, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.2562, + "eval_samples_per_second": 1.56, + "eval_steps_per_second": 0.098, + "step": 46500 + }, + { + "epoch": 124.02666666666667, + "grad_norm": 0.255859375, + "learning_rate": 0.00029721928227710446, + "loss": 0.4836, + "step": 46510 + }, + { + "epoch": 124.05333333333333, + "grad_norm": 0.412109375, + "learning_rate": 0.000297218077125215, + "loss": 0.4899, + "step": 46520 + }, + { + "epoch": 124.08, + "grad_norm": 0.337890625, + "learning_rate": 0.00029721687171467245, + "loss": 0.476, + "step": 46530 + }, + { + "epoch": 124.10666666666667, + "grad_norm": 0.294921875, + "learning_rate": 0.000297215666045479, + "loss": 0.4721, + "step": 46540 + }, + { + "epoch": 124.13333333333334, + "grad_norm": 0.328125, + "learning_rate": 0.0002972144601176367, + "loss": 0.4734, + "step": 46550 + }, + { + "epoch": 124.16, + "grad_norm": 0.375, + "learning_rate": 0.00029721325393114776, + "loss": 0.4774, + "step": 46560 + }, + { + "epoch": 124.18666666666667, + "grad_norm": 0.46875, + "learning_rate": 0.0002972120474860142, + "loss": 0.4699, + "step": 46570 + }, + { + "epoch": 124.21333333333334, + "grad_norm": 0.302734375, + "learning_rate": 0.00029721084078223817, + "loss": 0.4647, + "step": 46580 + }, + { + "epoch": 124.24, + "grad_norm": 0.337890625, + "learning_rate": 0.0002972096338198218, + "loss": 0.4693, + "step": 46590 + }, + { + "epoch": 124.26666666666667, + "grad_norm": 0.27734375, + "learning_rate": 0.0002972084265987672, + "loss": 0.4729, + "step": 46600 + }, + { + "epoch": 124.29333333333334, + "grad_norm": 0.34765625, + "learning_rate": 0.0002972072191190765, + "loss": 0.4669, + "step": 46610 + }, + { + "epoch": 124.32, + "grad_norm": 0.306640625, + "learning_rate": 0.00029720601138075186, + "loss": 0.4697, + "step": 46620 + }, + { + "epoch": 124.34666666666666, + "grad_norm": 0.330078125, + "learning_rate": 0.0002972048033837954, + "loss": 0.4783, + "step": 46630 + }, + { + "epoch": 124.37333333333333, + "grad_norm": 0.30078125, + "learning_rate": 0.0002972035951282091, + "loss": 0.4745, + "step": 46640 + }, + { + "epoch": 124.4, + "grad_norm": 0.390625, + "learning_rate": 0.00029720238661399526, + "loss": 0.4708, + "step": 46650 + }, + { + "epoch": 124.42666666666666, + "grad_norm": 0.2412109375, + "learning_rate": 0.0002972011778411559, + "loss": 0.4779, + "step": 46660 + }, + { + "epoch": 124.45333333333333, + "grad_norm": 0.25, + "learning_rate": 0.0002971999688096932, + "loss": 0.4792, + "step": 46670 + }, + { + "epoch": 124.48, + "grad_norm": 0.318359375, + "learning_rate": 0.0002971987595196093, + "loss": 0.4856, + "step": 46680 + }, + { + "epoch": 124.50666666666666, + "grad_norm": 0.41015625, + "learning_rate": 0.0002971975499709062, + "loss": 0.4754, + "step": 46690 + }, + { + "epoch": 124.53333333333333, + "grad_norm": 0.376953125, + "learning_rate": 0.00029719634016358616, + "loss": 0.4688, + "step": 46700 + }, + { + "epoch": 124.56, + "grad_norm": 0.341796875, + "learning_rate": 0.00029719513009765123, + "loss": 0.4697, + "step": 46710 + }, + { + "epoch": 124.58666666666667, + "grad_norm": 0.35546875, + "learning_rate": 0.00029719391977310356, + "loss": 0.4657, + "step": 46720 + }, + { + "epoch": 124.61333333333333, + "grad_norm": 0.1875, + "learning_rate": 0.00029719270918994526, + "loss": 0.4521, + "step": 46730 + }, + { + "epoch": 124.64, + "grad_norm": 0.271484375, + "learning_rate": 0.00029719149834817857, + "loss": 0.4568, + "step": 46740 + }, + { + "epoch": 124.66666666666667, + "grad_norm": 0.318359375, + "learning_rate": 0.0002971902872478054, + "loss": 0.4727, + "step": 46750 + }, + { + "epoch": 124.69333333333333, + "grad_norm": 0.384765625, + "learning_rate": 0.0002971890758888281, + "loss": 0.4552, + "step": 46760 + }, + { + "epoch": 124.72, + "grad_norm": 0.263671875, + "learning_rate": 0.0002971878642712486, + "loss": 0.4725, + "step": 46770 + }, + { + "epoch": 124.74666666666667, + "grad_norm": 0.3046875, + "learning_rate": 0.00029718665239506924, + "loss": 0.4767, + "step": 46780 + }, + { + "epoch": 124.77333333333333, + "grad_norm": 0.365234375, + "learning_rate": 0.000297185440260292, + "loss": 0.4842, + "step": 46790 + }, + { + "epoch": 124.8, + "grad_norm": 0.33984375, + "learning_rate": 0.000297184227866919, + "loss": 0.4713, + "step": 46800 + }, + { + "epoch": 124.82666666666667, + "grad_norm": 0.341796875, + "learning_rate": 0.0002971830152149524, + "loss": 0.4664, + "step": 46810 + }, + { + "epoch": 124.85333333333334, + "grad_norm": 0.498046875, + "learning_rate": 0.0002971818023043944, + "loss": 0.4745, + "step": 46820 + }, + { + "epoch": 124.88, + "grad_norm": 0.345703125, + "learning_rate": 0.0002971805891352471, + "loss": 0.4628, + "step": 46830 + }, + { + "epoch": 124.90666666666667, + "grad_norm": 0.30859375, + "learning_rate": 0.0002971793757075126, + "loss": 0.4662, + "step": 46840 + }, + { + "epoch": 124.93333333333334, + "grad_norm": 0.25390625, + "learning_rate": 0.000297178162021193, + "loss": 0.4669, + "step": 46850 + }, + { + "epoch": 124.96, + "grad_norm": 0.26953125, + "learning_rate": 0.00029717694807629045, + "loss": 0.4652, + "step": 46860 + }, + { + "epoch": 124.98666666666666, + "grad_norm": 0.2265625, + "learning_rate": 0.0002971757338728072, + "loss": 0.4793, + "step": 46870 + }, + { + "epoch": 125.0, + "eval_loss": 0.4781440794467926, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.8307, + "eval_samples_per_second": 1.477, + "eval_steps_per_second": 0.092, + "step": 46875 + }, + { + "epoch": 125.01333333333334, + "grad_norm": 0.306640625, + "learning_rate": 0.00029717451941074525, + "loss": 0.4684, + "step": 46880 + }, + { + "epoch": 125.04, + "grad_norm": 0.271484375, + "learning_rate": 0.00029717330469010677, + "loss": 0.4925, + "step": 46890 + }, + { + "epoch": 125.06666666666666, + "grad_norm": 0.30859375, + "learning_rate": 0.0002971720897108939, + "loss": 0.4796, + "step": 46900 + }, + { + "epoch": 125.09333333333333, + "grad_norm": 0.287109375, + "learning_rate": 0.00029717087447310876, + "loss": 0.4745, + "step": 46910 + }, + { + "epoch": 125.12, + "grad_norm": 0.34375, + "learning_rate": 0.00029716965897675344, + "loss": 0.4713, + "step": 46920 + }, + { + "epoch": 125.14666666666666, + "grad_norm": 0.30078125, + "learning_rate": 0.0002971684432218302, + "loss": 0.4797, + "step": 46930 + }, + { + "epoch": 125.17333333333333, + "grad_norm": 0.330078125, + "learning_rate": 0.00029716722720834115, + "loss": 0.4707, + "step": 46940 + }, + { + "epoch": 125.2, + "grad_norm": 0.330078125, + "learning_rate": 0.0002971660109362883, + "loss": 0.4685, + "step": 46950 + }, + { + "epoch": 125.22666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.00029716479440567394, + "loss": 0.4667, + "step": 46960 + }, + { + "epoch": 125.25333333333333, + "grad_norm": 0.259765625, + "learning_rate": 0.00029716357761650007, + "loss": 0.4658, + "step": 46970 + }, + { + "epoch": 125.28, + "grad_norm": 0.2294921875, + "learning_rate": 0.0002971623605687689, + "loss": 0.4799, + "step": 46980 + }, + { + "epoch": 125.30666666666667, + "grad_norm": 0.39453125, + "learning_rate": 0.00029716114326248266, + "loss": 0.4605, + "step": 46990 + }, + { + "epoch": 125.33333333333333, + "grad_norm": 0.384765625, + "learning_rate": 0.00029715992569764334, + "loss": 0.4769, + "step": 47000 + }, + { + "epoch": 125.36, + "grad_norm": 0.3125, + "learning_rate": 0.00029715870787425314, + "loss": 0.4779, + "step": 47010 + }, + { + "epoch": 125.38666666666667, + "grad_norm": 0.345703125, + "learning_rate": 0.00029715748979231417, + "loss": 0.4707, + "step": 47020 + }, + { + "epoch": 125.41333333333333, + "grad_norm": 0.412109375, + "learning_rate": 0.0002971562714518286, + "loss": 0.4745, + "step": 47030 + }, + { + "epoch": 125.44, + "grad_norm": 0.4921875, + "learning_rate": 0.0002971550528527986, + "loss": 0.4773, + "step": 47040 + }, + { + "epoch": 125.46666666666667, + "grad_norm": 0.3125, + "learning_rate": 0.0002971538339952262, + "loss": 0.4864, + "step": 47050 + }, + { + "epoch": 125.49333333333334, + "grad_norm": 0.392578125, + "learning_rate": 0.0002971526148791137, + "loss": 0.4778, + "step": 47060 + }, + { + "epoch": 125.52, + "grad_norm": 0.412109375, + "learning_rate": 0.0002971513955044631, + "loss": 0.4728, + "step": 47070 + }, + { + "epoch": 125.54666666666667, + "grad_norm": 0.3515625, + "learning_rate": 0.0002971501758712766, + "loss": 0.4692, + "step": 47080 + }, + { + "epoch": 125.57333333333334, + "grad_norm": 0.302734375, + "learning_rate": 0.0002971489559795564, + "loss": 0.468, + "step": 47090 + }, + { + "epoch": 125.6, + "grad_norm": 0.287109375, + "learning_rate": 0.00029714773582930454, + "loss": 0.4618, + "step": 47100 + }, + { + "epoch": 125.62666666666667, + "grad_norm": 0.26953125, + "learning_rate": 0.00029714651542052324, + "loss": 0.4493, + "step": 47110 + }, + { + "epoch": 125.65333333333334, + "grad_norm": 0.255859375, + "learning_rate": 0.0002971452947532146, + "loss": 0.4687, + "step": 47120 + }, + { + "epoch": 125.68, + "grad_norm": 0.267578125, + "learning_rate": 0.0002971440738273808, + "loss": 0.4604, + "step": 47130 + }, + { + "epoch": 125.70666666666666, + "grad_norm": 0.25390625, + "learning_rate": 0.00029714285264302386, + "loss": 0.461, + "step": 47140 + }, + { + "epoch": 125.73333333333333, + "grad_norm": 0.25, + "learning_rate": 0.0002971416312001462, + "loss": 0.4794, + "step": 47150 + }, + { + "epoch": 125.76, + "grad_norm": 0.287109375, + "learning_rate": 0.0002971404094987497, + "loss": 0.4803, + "step": 47160 + }, + { + "epoch": 125.78666666666666, + "grad_norm": 0.30859375, + "learning_rate": 0.0002971391875388366, + "loss": 0.4795, + "step": 47170 + }, + { + "epoch": 125.81333333333333, + "grad_norm": 0.46484375, + "learning_rate": 0.00029713796532040905, + "loss": 0.4643, + "step": 47180 + }, + { + "epoch": 125.84, + "grad_norm": 0.388671875, + "learning_rate": 0.0002971367428434692, + "loss": 0.4705, + "step": 47190 + }, + { + "epoch": 125.86666666666666, + "grad_norm": 0.38671875, + "learning_rate": 0.0002971355201080192, + "loss": 0.4699, + "step": 47200 + }, + { + "epoch": 125.89333333333333, + "grad_norm": 0.314453125, + "learning_rate": 0.0002971342971140612, + "loss": 0.4611, + "step": 47210 + }, + { + "epoch": 125.92, + "grad_norm": 0.26953125, + "learning_rate": 0.00029713307386159733, + "loss": 0.4711, + "step": 47220 + }, + { + "epoch": 125.94666666666667, + "grad_norm": 0.25390625, + "learning_rate": 0.00029713185035062977, + "loss": 0.4638, + "step": 47230 + }, + { + "epoch": 125.97333333333333, + "grad_norm": 0.37109375, + "learning_rate": 0.0002971306265811606, + "loss": 0.4753, + "step": 47240 + }, + { + "epoch": 126.0, + "grad_norm": 0.404296875, + "learning_rate": 0.00029712940255319204, + "loss": 0.4644, + "step": 47250 + }, + { + "epoch": 126.0, + "eval_loss": 0.4798469841480255, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.3496, + "eval_samples_per_second": 1.546, + "eval_steps_per_second": 0.097, + "step": 47250 + }, + { + "epoch": 126.02666666666667, + "grad_norm": 0.345703125, + "learning_rate": 0.00029712817826672627, + "loss": 0.4832, + "step": 47260 + }, + { + "epoch": 126.05333333333333, + "grad_norm": 0.30078125, + "learning_rate": 0.00029712695372176534, + "loss": 0.4898, + "step": 47270 + }, + { + "epoch": 126.08, + "grad_norm": 0.2578125, + "learning_rate": 0.0002971257289183115, + "loss": 0.4771, + "step": 47280 + }, + { + "epoch": 126.10666666666667, + "grad_norm": 0.333984375, + "learning_rate": 0.0002971245038563668, + "loss": 0.4716, + "step": 47290 + }, + { + "epoch": 126.13333333333334, + "grad_norm": 0.263671875, + "learning_rate": 0.0002971232785359335, + "loss": 0.4734, + "step": 47300 + }, + { + "epoch": 126.16, + "grad_norm": 0.3515625, + "learning_rate": 0.0002971220529570137, + "loss": 0.4778, + "step": 47310 + }, + { + "epoch": 126.18666666666667, + "grad_norm": 0.2734375, + "learning_rate": 0.0002971208271196095, + "loss": 0.4695, + "step": 47320 + }, + { + "epoch": 126.21333333333334, + "grad_norm": 0.330078125, + "learning_rate": 0.0002971196010237231, + "loss": 0.4644, + "step": 47330 + }, + { + "epoch": 126.24, + "grad_norm": 0.28125, + "learning_rate": 0.00029711837466935676, + "loss": 0.4687, + "step": 47340 + }, + { + "epoch": 126.26666666666667, + "grad_norm": 0.361328125, + "learning_rate": 0.0002971171480565125, + "loss": 0.4723, + "step": 47350 + }, + { + "epoch": 126.29333333333334, + "grad_norm": 0.486328125, + "learning_rate": 0.00029711592118519245, + "loss": 0.4671, + "step": 47360 + }, + { + "epoch": 126.32, + "grad_norm": 0.349609375, + "learning_rate": 0.0002971146940553989, + "loss": 0.4704, + "step": 47370 + }, + { + "epoch": 126.34666666666666, + "grad_norm": 0.265625, + "learning_rate": 0.00029711346666713386, + "loss": 0.4785, + "step": 47380 + }, + { + "epoch": 126.37333333333333, + "grad_norm": 0.28515625, + "learning_rate": 0.0002971122390203996, + "loss": 0.4742, + "step": 47390 + }, + { + "epoch": 126.4, + "grad_norm": 0.287109375, + "learning_rate": 0.00029711101111519825, + "loss": 0.4702, + "step": 47400 + }, + { + "epoch": 126.42666666666666, + "grad_norm": 0.234375, + "learning_rate": 0.0002971097829515319, + "loss": 0.4773, + "step": 47410 + }, + { + "epoch": 126.45333333333333, + "grad_norm": 0.3203125, + "learning_rate": 0.0002971085545294028, + "loss": 0.4792, + "step": 47420 + }, + { + "epoch": 126.48, + "grad_norm": 0.49609375, + "learning_rate": 0.00029710732584881306, + "loss": 0.4853, + "step": 47430 + }, + { + "epoch": 126.50666666666666, + "grad_norm": 0.52734375, + "learning_rate": 0.0002971060969097649, + "loss": 0.475, + "step": 47440 + }, + { + "epoch": 126.53333333333333, + "grad_norm": 0.333984375, + "learning_rate": 0.00029710486771226035, + "loss": 0.4694, + "step": 47450 + }, + { + "epoch": 126.56, + "grad_norm": 0.29296875, + "learning_rate": 0.0002971036382563017, + "loss": 0.4704, + "step": 47460 + }, + { + "epoch": 126.58666666666667, + "grad_norm": 0.3515625, + "learning_rate": 0.000297102408541891, + "loss": 0.4666, + "step": 47470 + }, + { + "epoch": 126.61333333333333, + "grad_norm": 0.318359375, + "learning_rate": 0.0002971011785690305, + "loss": 0.4518, + "step": 47480 + }, + { + "epoch": 126.64, + "grad_norm": 0.40625, + "learning_rate": 0.00029709994833772237, + "loss": 0.4578, + "step": 47490 + }, + { + "epoch": 126.66666666666667, + "grad_norm": 0.275390625, + "learning_rate": 0.00029709871784796866, + "loss": 0.4728, + "step": 47500 + }, + { + "epoch": 126.69333333333333, + "grad_norm": 0.296875, + "learning_rate": 0.00029709748709977167, + "loss": 0.4551, + "step": 47510 + }, + { + "epoch": 126.72, + "grad_norm": 0.22265625, + "learning_rate": 0.00029709625609313346, + "loss": 0.4729, + "step": 47520 + }, + { + "epoch": 126.74666666666667, + "grad_norm": 0.22265625, + "learning_rate": 0.00029709502482805626, + "loss": 0.4774, + "step": 47530 + }, + { + "epoch": 126.77333333333333, + "grad_norm": 0.28125, + "learning_rate": 0.00029709379330454213, + "loss": 0.4844, + "step": 47540 + }, + { + "epoch": 126.8, + "grad_norm": 0.271484375, + "learning_rate": 0.00029709256152259334, + "loss": 0.4708, + "step": 47550 + }, + { + "epoch": 126.82666666666667, + "grad_norm": 0.255859375, + "learning_rate": 0.000297091329482212, + "loss": 0.4653, + "step": 47560 + }, + { + "epoch": 126.85333333333334, + "grad_norm": 0.33984375, + "learning_rate": 0.00029709009718340034, + "loss": 0.4742, + "step": 47570 + }, + { + "epoch": 126.88, + "grad_norm": 0.298828125, + "learning_rate": 0.0002970888646261605, + "loss": 0.4627, + "step": 47580 + }, + { + "epoch": 126.90666666666667, + "grad_norm": 0.34765625, + "learning_rate": 0.0002970876318104945, + "loss": 0.4648, + "step": 47590 + }, + { + "epoch": 126.93333333333334, + "grad_norm": 0.279296875, + "learning_rate": 0.00029708639873640474, + "loss": 0.4666, + "step": 47600 + }, + { + "epoch": 126.96, + "grad_norm": 0.27734375, + "learning_rate": 0.00029708516540389327, + "loss": 0.4647, + "step": 47610 + }, + { + "epoch": 126.98666666666666, + "grad_norm": 0.26953125, + "learning_rate": 0.0002970839318129622, + "loss": 0.4781, + "step": 47620 + }, + { + "epoch": 127.0, + "eval_loss": 0.47838637232780457, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.6113, + "eval_samples_per_second": 1.508, + "eval_steps_per_second": 0.094, + "step": 47625 + }, + { + "epoch": 127.01333333333334, + "grad_norm": 0.298828125, + "learning_rate": 0.0002970826979636138, + "loss": 0.4677, + "step": 47630 + }, + { + "epoch": 127.04, + "grad_norm": 0.291015625, + "learning_rate": 0.0002970814638558502, + "loss": 0.4926, + "step": 47640 + }, + { + "epoch": 127.06666666666666, + "grad_norm": 0.408203125, + "learning_rate": 0.00029708022948967354, + "loss": 0.4799, + "step": 47650 + }, + { + "epoch": 127.09333333333333, + "grad_norm": 0.326171875, + "learning_rate": 0.0002970789948650861, + "loss": 0.4745, + "step": 47660 + }, + { + "epoch": 127.12, + "grad_norm": 0.28125, + "learning_rate": 0.0002970777599820899, + "loss": 0.4704, + "step": 47670 + }, + { + "epoch": 127.14666666666666, + "grad_norm": 0.361328125, + "learning_rate": 0.0002970765248406871, + "loss": 0.4794, + "step": 47680 + }, + { + "epoch": 127.17333333333333, + "grad_norm": 0.369140625, + "learning_rate": 0.00029707528944088006, + "loss": 0.4701, + "step": 47690 + }, + { + "epoch": 127.2, + "grad_norm": 0.404296875, + "learning_rate": 0.0002970740537826708, + "loss": 0.4684, + "step": 47700 + }, + { + "epoch": 127.22666666666667, + "grad_norm": 0.5234375, + "learning_rate": 0.0002970728178660615, + "loss": 0.4663, + "step": 47710 + }, + { + "epoch": 127.25333333333333, + "grad_norm": 0.5625, + "learning_rate": 0.00029707158169105436, + "loss": 0.4663, + "step": 47720 + }, + { + "epoch": 127.28, + "grad_norm": 0.369140625, + "learning_rate": 0.00029707034525765154, + "loss": 0.4801, + "step": 47730 + }, + { + "epoch": 127.30666666666667, + "grad_norm": 0.30859375, + "learning_rate": 0.00029706910856585526, + "loss": 0.4606, + "step": 47740 + }, + { + "epoch": 127.33333333333333, + "grad_norm": 0.283203125, + "learning_rate": 0.00029706787161566764, + "loss": 0.4764, + "step": 47750 + }, + { + "epoch": 127.36, + "grad_norm": 0.310546875, + "learning_rate": 0.00029706663440709084, + "loss": 0.4788, + "step": 47760 + }, + { + "epoch": 127.38666666666667, + "grad_norm": 0.54296875, + "learning_rate": 0.0002970653969401271, + "loss": 0.4702, + "step": 47770 + }, + { + "epoch": 127.41333333333333, + "grad_norm": 0.341796875, + "learning_rate": 0.00029706415921477856, + "loss": 0.4746, + "step": 47780 + }, + { + "epoch": 127.44, + "grad_norm": 0.294921875, + "learning_rate": 0.00029706292123104735, + "loss": 0.4769, + "step": 47790 + }, + { + "epoch": 127.46666666666667, + "grad_norm": 0.359375, + "learning_rate": 0.0002970616829889357, + "loss": 0.4867, + "step": 47800 + }, + { + "epoch": 127.49333333333334, + "grad_norm": 0.3984375, + "learning_rate": 0.00029706044448844576, + "loss": 0.478, + "step": 47810 + }, + { + "epoch": 127.52, + "grad_norm": 0.2470703125, + "learning_rate": 0.0002970592057295797, + "loss": 0.4725, + "step": 47820 + }, + { + "epoch": 127.54666666666667, + "grad_norm": 0.298828125, + "learning_rate": 0.0002970579667123398, + "loss": 0.4688, + "step": 47830 + }, + { + "epoch": 127.57333333333334, + "grad_norm": 0.255859375, + "learning_rate": 0.0002970567274367281, + "loss": 0.4684, + "step": 47840 + }, + { + "epoch": 127.6, + "grad_norm": 0.388671875, + "learning_rate": 0.0002970554879027468, + "loss": 0.4613, + "step": 47850 + }, + { + "epoch": 127.62666666666667, + "grad_norm": 0.3125, + "learning_rate": 0.0002970542481103981, + "loss": 0.4488, + "step": 47860 + }, + { + "epoch": 127.65333333333334, + "grad_norm": 0.349609375, + "learning_rate": 0.00029705300805968424, + "loss": 0.4684, + "step": 47870 + }, + { + "epoch": 127.68, + "grad_norm": 0.375, + "learning_rate": 0.0002970517677506073, + "loss": 0.4601, + "step": 47880 + }, + { + "epoch": 127.70666666666666, + "grad_norm": 0.314453125, + "learning_rate": 0.0002970505271831695, + "loss": 0.4603, + "step": 47890 + }, + { + "epoch": 127.73333333333333, + "grad_norm": 0.3671875, + "learning_rate": 0.00029704928635737306, + "loss": 0.4793, + "step": 47900 + }, + { + "epoch": 127.76, + "grad_norm": 0.369140625, + "learning_rate": 0.0002970480452732201, + "loss": 0.4805, + "step": 47910 + }, + { + "epoch": 127.78666666666666, + "grad_norm": 0.271484375, + "learning_rate": 0.0002970468039307128, + "loss": 0.4791, + "step": 47920 + }, + { + "epoch": 127.81333333333333, + "grad_norm": 0.3515625, + "learning_rate": 0.0002970455623298533, + "loss": 0.4643, + "step": 47930 + }, + { + "epoch": 127.84, + "grad_norm": 0.50390625, + "learning_rate": 0.00029704432047064394, + "loss": 0.4696, + "step": 47940 + }, + { + "epoch": 127.86666666666666, + "grad_norm": 0.443359375, + "learning_rate": 0.0002970430783530868, + "loss": 0.47, + "step": 47950 + }, + { + "epoch": 127.89333333333333, + "grad_norm": 0.359375, + "learning_rate": 0.0002970418359771841, + "loss": 0.4608, + "step": 47960 + }, + { + "epoch": 127.92, + "grad_norm": 0.365234375, + "learning_rate": 0.00029704059334293787, + "loss": 0.4716, + "step": 47970 + }, + { + "epoch": 127.94666666666667, + "grad_norm": 0.38671875, + "learning_rate": 0.00029703935045035046, + "loss": 0.4634, + "step": 47980 + }, + { + "epoch": 127.97333333333333, + "grad_norm": 0.380859375, + "learning_rate": 0.000297038107299424, + "loss": 0.4752, + "step": 47990 + }, + { + "epoch": 128.0, + "grad_norm": 0.38671875, + "learning_rate": 0.0002970368638901607, + "loss": 0.4643, + "step": 48000 + }, + { + "epoch": 128.0, + "eval_loss": 0.47970858216285706, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.9496, + "eval_samples_per_second": 1.608, + "eval_steps_per_second": 0.101, + "step": 48000 + }, + { + "epoch": 128.02666666666667, + "grad_norm": 0.466796875, + "learning_rate": 0.0002970356202225628, + "loss": 0.4841, + "step": 48010 + }, + { + "epoch": 128.05333333333334, + "grad_norm": 0.30078125, + "learning_rate": 0.0002970343762966323, + "loss": 0.4894, + "step": 48020 + }, + { + "epoch": 128.08, + "grad_norm": 0.3359375, + "learning_rate": 0.00029703313211237154, + "loss": 0.4765, + "step": 48030 + }, + { + "epoch": 128.10666666666665, + "grad_norm": 0.30078125, + "learning_rate": 0.0002970318876697827, + "loss": 0.4722, + "step": 48040 + }, + { + "epoch": 128.13333333333333, + "grad_norm": 0.388671875, + "learning_rate": 0.00029703064296886787, + "loss": 0.4733, + "step": 48050 + }, + { + "epoch": 128.16, + "grad_norm": 0.333984375, + "learning_rate": 0.0002970293980096293, + "loss": 0.4777, + "step": 48060 + }, + { + "epoch": 128.18666666666667, + "grad_norm": 0.275390625, + "learning_rate": 0.0002970281527920692, + "loss": 0.4689, + "step": 48070 + }, + { + "epoch": 128.21333333333334, + "grad_norm": 0.318359375, + "learning_rate": 0.0002970269073161897, + "loss": 0.4643, + "step": 48080 + }, + { + "epoch": 128.24, + "grad_norm": 0.37890625, + "learning_rate": 0.00029702566158199304, + "loss": 0.4688, + "step": 48090 + }, + { + "epoch": 128.26666666666668, + "grad_norm": 0.28125, + "learning_rate": 0.0002970244155894814, + "loss": 0.4729, + "step": 48100 + }, + { + "epoch": 128.29333333333332, + "grad_norm": 0.298828125, + "learning_rate": 0.00029702316933865697, + "loss": 0.4669, + "step": 48110 + }, + { + "epoch": 128.32, + "grad_norm": 0.333984375, + "learning_rate": 0.00029702192282952185, + "loss": 0.4695, + "step": 48120 + }, + { + "epoch": 128.34666666666666, + "grad_norm": 0.44140625, + "learning_rate": 0.00029702067606207833, + "loss": 0.4785, + "step": 48130 + }, + { + "epoch": 128.37333333333333, + "grad_norm": 0.53125, + "learning_rate": 0.00029701942903632864, + "loss": 0.4739, + "step": 48140 + }, + { + "epoch": 128.4, + "grad_norm": 0.46484375, + "learning_rate": 0.0002970181817522749, + "loss": 0.471, + "step": 48150 + }, + { + "epoch": 128.42666666666668, + "grad_norm": 0.75390625, + "learning_rate": 0.0002970169342099192, + "loss": 0.4775, + "step": 48160 + }, + { + "epoch": 128.45333333333335, + "grad_norm": 0.50390625, + "learning_rate": 0.000297015686409264, + "loss": 0.4797, + "step": 48170 + }, + { + "epoch": 128.48, + "grad_norm": 0.345703125, + "learning_rate": 0.0002970144383503112, + "loss": 0.4853, + "step": 48180 + }, + { + "epoch": 128.50666666666666, + "grad_norm": 0.310546875, + "learning_rate": 0.00029701319003306323, + "loss": 0.4752, + "step": 48190 + }, + { + "epoch": 128.53333333333333, + "grad_norm": 0.2734375, + "learning_rate": 0.0002970119414575221, + "loss": 0.4686, + "step": 48200 + }, + { + "epoch": 128.56, + "grad_norm": 0.322265625, + "learning_rate": 0.0002970106926236901, + "loss": 0.4697, + "step": 48210 + }, + { + "epoch": 128.58666666666667, + "grad_norm": 0.296875, + "learning_rate": 0.0002970094435315694, + "loss": 0.4653, + "step": 48220 + }, + { + "epoch": 128.61333333333334, + "grad_norm": 0.27734375, + "learning_rate": 0.0002970081941811622, + "loss": 0.4517, + "step": 48230 + }, + { + "epoch": 128.64, + "grad_norm": 0.2294921875, + "learning_rate": 0.00029700694457247075, + "loss": 0.4569, + "step": 48240 + }, + { + "epoch": 128.66666666666666, + "grad_norm": 0.2890625, + "learning_rate": 0.00029700569470549716, + "loss": 0.472, + "step": 48250 + }, + { + "epoch": 128.69333333333333, + "grad_norm": 0.294921875, + "learning_rate": 0.0002970044445802437, + "loss": 0.4552, + "step": 48260 + }, + { + "epoch": 128.72, + "grad_norm": 0.33203125, + "learning_rate": 0.0002970031941967124, + "loss": 0.472, + "step": 48270 + }, + { + "epoch": 128.74666666666667, + "grad_norm": 0.2353515625, + "learning_rate": 0.0002970019435549057, + "loss": 0.4763, + "step": 48280 + }, + { + "epoch": 128.77333333333334, + "grad_norm": 0.46875, + "learning_rate": 0.0002970006926548256, + "loss": 0.4842, + "step": 48290 + }, + { + "epoch": 128.8, + "grad_norm": 0.326171875, + "learning_rate": 0.00029699944149647446, + "loss": 0.4708, + "step": 48300 + }, + { + "epoch": 128.82666666666665, + "grad_norm": 0.302734375, + "learning_rate": 0.00029699819007985434, + "loss": 0.4657, + "step": 48310 + }, + { + "epoch": 128.85333333333332, + "grad_norm": 0.275390625, + "learning_rate": 0.0002969969384049675, + "loss": 0.4748, + "step": 48320 + }, + { + "epoch": 128.88, + "grad_norm": 0.326171875, + "learning_rate": 0.0002969956864718161, + "loss": 0.4618, + "step": 48330 + }, + { + "epoch": 128.90666666666667, + "grad_norm": 0.33203125, + "learning_rate": 0.00029699443428040246, + "loss": 0.4652, + "step": 48340 + }, + { + "epoch": 128.93333333333334, + "grad_norm": 0.30078125, + "learning_rate": 0.0002969931818307286, + "loss": 0.4673, + "step": 48350 + }, + { + "epoch": 128.96, + "grad_norm": 0.296875, + "learning_rate": 0.0002969919291227969, + "loss": 0.4648, + "step": 48360 + }, + { + "epoch": 128.98666666666668, + "grad_norm": 0.392578125, + "learning_rate": 0.0002969906761566094, + "loss": 0.4788, + "step": 48370 + }, + { + "epoch": 129.0, + "eval_loss": 0.47966912388801575, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.9567, + "eval_samples_per_second": 1.607, + "eval_steps_per_second": 0.1, + "step": 48375 + }, + { + "epoch": 129.01333333333332, + "grad_norm": 0.3359375, + "learning_rate": 0.0002969894229321684, + "loss": 0.4686, + "step": 48380 + }, + { + "epoch": 129.04, + "grad_norm": 0.330078125, + "learning_rate": 0.0002969881694494761, + "loss": 0.4921, + "step": 48390 + }, + { + "epoch": 129.06666666666666, + "grad_norm": 0.30078125, + "learning_rate": 0.0002969869157085346, + "loss": 0.4794, + "step": 48400 + }, + { + "epoch": 129.09333333333333, + "grad_norm": 0.3359375, + "learning_rate": 0.00029698566170934627, + "loss": 0.4736, + "step": 48410 + }, + { + "epoch": 129.12, + "grad_norm": 0.27734375, + "learning_rate": 0.00029698440745191317, + "loss": 0.471, + "step": 48420 + }, + { + "epoch": 129.14666666666668, + "grad_norm": 0.328125, + "learning_rate": 0.0002969831529362376, + "loss": 0.479, + "step": 48430 + }, + { + "epoch": 129.17333333333335, + "grad_norm": 0.427734375, + "learning_rate": 0.0002969818981623217, + "loss": 0.4695, + "step": 48440 + }, + { + "epoch": 129.2, + "grad_norm": 0.373046875, + "learning_rate": 0.0002969806431301677, + "loss": 0.4678, + "step": 48450 + }, + { + "epoch": 129.22666666666666, + "grad_norm": 0.388671875, + "learning_rate": 0.00029697938783977777, + "loss": 0.466, + "step": 48460 + }, + { + "epoch": 129.25333333333333, + "grad_norm": 0.4765625, + "learning_rate": 0.0002969781322911542, + "loss": 0.4658, + "step": 48470 + }, + { + "epoch": 129.28, + "grad_norm": 0.291015625, + "learning_rate": 0.0002969768764842991, + "loss": 0.4796, + "step": 48480 + }, + { + "epoch": 129.30666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.00029697562041921475, + "loss": 0.4613, + "step": 48490 + }, + { + "epoch": 129.33333333333334, + "grad_norm": 0.3984375, + "learning_rate": 0.0002969743640959033, + "loss": 0.4767, + "step": 48500 + }, + { + "epoch": 129.36, + "grad_norm": 0.384765625, + "learning_rate": 0.000296973107514367, + "loss": 0.4786, + "step": 48510 + }, + { + "epoch": 129.38666666666666, + "grad_norm": 0.392578125, + "learning_rate": 0.00029697185067460805, + "loss": 0.4697, + "step": 48520 + }, + { + "epoch": 129.41333333333333, + "grad_norm": 0.28125, + "learning_rate": 0.0002969705935766287, + "loss": 0.4744, + "step": 48530 + }, + { + "epoch": 129.44, + "grad_norm": 0.2578125, + "learning_rate": 0.000296969336220431, + "loss": 0.4768, + "step": 48540 + }, + { + "epoch": 129.46666666666667, + "grad_norm": 0.453125, + "learning_rate": 0.0002969680786060173, + "loss": 0.4873, + "step": 48550 + }, + { + "epoch": 129.49333333333334, + "grad_norm": 0.38671875, + "learning_rate": 0.00029696682073338985, + "loss": 0.4782, + "step": 48560 + }, + { + "epoch": 129.52, + "grad_norm": 0.259765625, + "learning_rate": 0.0002969655626025507, + "loss": 0.4721, + "step": 48570 + }, + { + "epoch": 129.54666666666665, + "grad_norm": 0.28125, + "learning_rate": 0.0002969643042135022, + "loss": 0.4689, + "step": 48580 + }, + { + "epoch": 129.57333333333332, + "grad_norm": 0.23828125, + "learning_rate": 0.0002969630455662465, + "loss": 0.4687, + "step": 48590 + }, + { + "epoch": 129.6, + "grad_norm": 0.28515625, + "learning_rate": 0.0002969617866607858, + "loss": 0.4625, + "step": 48600 + }, + { + "epoch": 129.62666666666667, + "grad_norm": 0.2255859375, + "learning_rate": 0.00029696052749712235, + "loss": 0.4495, + "step": 48610 + }, + { + "epoch": 129.65333333333334, + "grad_norm": 0.41015625, + "learning_rate": 0.00029695926807525835, + "loss": 0.4686, + "step": 48620 + }, + { + "epoch": 129.68, + "grad_norm": 0.255859375, + "learning_rate": 0.00029695800839519594, + "loss": 0.46, + "step": 48630 + }, + { + "epoch": 129.70666666666668, + "grad_norm": 0.298828125, + "learning_rate": 0.0002969567484569375, + "loss": 0.4605, + "step": 48640 + }, + { + "epoch": 129.73333333333332, + "grad_norm": 0.296875, + "learning_rate": 0.0002969554882604851, + "loss": 0.4797, + "step": 48650 + }, + { + "epoch": 129.76, + "grad_norm": 0.3515625, + "learning_rate": 0.000296954227805841, + "loss": 0.4812, + "step": 48660 + }, + { + "epoch": 129.78666666666666, + "grad_norm": 0.25, + "learning_rate": 0.0002969529670930074, + "loss": 0.4795, + "step": 48670 + }, + { + "epoch": 129.81333333333333, + "grad_norm": 0.349609375, + "learning_rate": 0.0002969517061219865, + "loss": 0.4639, + "step": 48680 + }, + { + "epoch": 129.84, + "grad_norm": 0.369140625, + "learning_rate": 0.0002969504448927806, + "loss": 0.4704, + "step": 48690 + }, + { + "epoch": 129.86666666666667, + "grad_norm": 0.3203125, + "learning_rate": 0.00029694918340539186, + "loss": 0.4689, + "step": 48700 + }, + { + "epoch": 129.89333333333335, + "grad_norm": 0.318359375, + "learning_rate": 0.0002969479216598224, + "loss": 0.4601, + "step": 48710 + }, + { + "epoch": 129.92, + "grad_norm": 0.302734375, + "learning_rate": 0.00029694665965607464, + "loss": 0.4713, + "step": 48720 + }, + { + "epoch": 129.94666666666666, + "grad_norm": 0.291015625, + "learning_rate": 0.00029694539739415064, + "loss": 0.463, + "step": 48730 + }, + { + "epoch": 129.97333333333333, + "grad_norm": 0.5078125, + "learning_rate": 0.0002969441348740527, + "loss": 0.4752, + "step": 48740 + }, + { + "epoch": 130.0, + "grad_norm": 0.3359375, + "learning_rate": 0.000296942872095783, + "loss": 0.4645, + "step": 48750 + }, + { + "epoch": 130.0, + "eval_loss": 0.47943049669265747, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.9185, + "eval_samples_per_second": 1.613, + "eval_steps_per_second": 0.101, + "step": 48750 + }, + { + "epoch": 130.02666666666667, + "grad_norm": 0.345703125, + "learning_rate": 0.0002969416090593437, + "loss": 0.4839, + "step": 48760 + }, + { + "epoch": 130.05333333333334, + "grad_norm": 0.326171875, + "learning_rate": 0.00029694034576473714, + "loss": 0.4896, + "step": 48770 + }, + { + "epoch": 130.08, + "grad_norm": 0.4453125, + "learning_rate": 0.00029693908221196545, + "loss": 0.4754, + "step": 48780 + }, + { + "epoch": 130.10666666666665, + "grad_norm": 0.306640625, + "learning_rate": 0.0002969378184010309, + "loss": 0.4716, + "step": 48790 + }, + { + "epoch": 130.13333333333333, + "grad_norm": 0.423828125, + "learning_rate": 0.0002969365543319357, + "loss": 0.4728, + "step": 48800 + }, + { + "epoch": 130.16, + "grad_norm": 0.455078125, + "learning_rate": 0.00029693529000468207, + "loss": 0.477, + "step": 48810 + }, + { + "epoch": 130.18666666666667, + "grad_norm": 0.375, + "learning_rate": 0.0002969340254192722, + "loss": 0.4699, + "step": 48820 + }, + { + "epoch": 130.21333333333334, + "grad_norm": 0.26953125, + "learning_rate": 0.00029693276057570834, + "loss": 0.4641, + "step": 48830 + }, + { + "epoch": 130.24, + "grad_norm": 0.33984375, + "learning_rate": 0.00029693149547399273, + "loss": 0.4682, + "step": 48840 + }, + { + "epoch": 130.26666666666668, + "grad_norm": 0.287109375, + "learning_rate": 0.00029693023011412756, + "loss": 0.472, + "step": 48850 + }, + { + "epoch": 130.29333333333332, + "grad_norm": 0.2412109375, + "learning_rate": 0.0002969289644961151, + "loss": 0.4671, + "step": 48860 + }, + { + "epoch": 130.32, + "grad_norm": 0.458984375, + "learning_rate": 0.00029692769861995746, + "loss": 0.4702, + "step": 48870 + }, + { + "epoch": 130.34666666666666, + "grad_norm": 0.3359375, + "learning_rate": 0.000296926432485657, + "loss": 0.4789, + "step": 48880 + }, + { + "epoch": 130.37333333333333, + "grad_norm": 0.3671875, + "learning_rate": 0.00029692516609321586, + "loss": 0.4748, + "step": 48890 + }, + { + "epoch": 130.4, + "grad_norm": 0.267578125, + "learning_rate": 0.0002969238994426363, + "loss": 0.471, + "step": 48900 + }, + { + "epoch": 130.42666666666668, + "grad_norm": 0.322265625, + "learning_rate": 0.00029692263253392056, + "loss": 0.4774, + "step": 48910 + }, + { + "epoch": 130.45333333333335, + "grad_norm": 0.34765625, + "learning_rate": 0.0002969213653670708, + "loss": 0.4787, + "step": 48920 + }, + { + "epoch": 130.48, + "grad_norm": 0.298828125, + "learning_rate": 0.00029692009794208933, + "loss": 0.4856, + "step": 48930 + }, + { + "epoch": 130.50666666666666, + "grad_norm": 0.28515625, + "learning_rate": 0.00029691883025897834, + "loss": 0.4752, + "step": 48940 + }, + { + "epoch": 130.53333333333333, + "grad_norm": 0.306640625, + "learning_rate": 0.00029691756231774, + "loss": 0.4688, + "step": 48950 + }, + { + "epoch": 130.56, + "grad_norm": 0.330078125, + "learning_rate": 0.0002969162941183766, + "loss": 0.4698, + "step": 48960 + }, + { + "epoch": 130.58666666666667, + "grad_norm": 0.2412109375, + "learning_rate": 0.00029691502566089043, + "loss": 0.4654, + "step": 48970 + }, + { + "epoch": 130.61333333333334, + "grad_norm": 0.26171875, + "learning_rate": 0.0002969137569452836, + "loss": 0.4517, + "step": 48980 + }, + { + "epoch": 130.64, + "grad_norm": 0.275390625, + "learning_rate": 0.0002969124879715584, + "loss": 0.457, + "step": 48990 + }, + { + "epoch": 130.66666666666666, + "grad_norm": 0.39453125, + "learning_rate": 0.000296911218739717, + "loss": 0.4729, + "step": 49000 + }, + { + "epoch": 130.69333333333333, + "grad_norm": 0.3125, + "learning_rate": 0.0002969099492497617, + "loss": 0.4555, + "step": 49010 + }, + { + "epoch": 130.72, + "grad_norm": 0.29296875, + "learning_rate": 0.00029690867950169474, + "loss": 0.4714, + "step": 49020 + }, + { + "epoch": 130.74666666666667, + "grad_norm": 0.287109375, + "learning_rate": 0.00029690740949551834, + "loss": 0.4767, + "step": 49030 + }, + { + "epoch": 130.77333333333334, + "grad_norm": 0.267578125, + "learning_rate": 0.0002969061392312346, + "loss": 0.4839, + "step": 49040 + }, + { + "epoch": 130.8, + "grad_norm": 0.279296875, + "learning_rate": 0.0002969048687088459, + "loss": 0.4714, + "step": 49050 + }, + { + "epoch": 130.82666666666665, + "grad_norm": 0.25, + "learning_rate": 0.0002969035979283545, + "loss": 0.4653, + "step": 49060 + }, + { + "epoch": 130.85333333333332, + "grad_norm": 0.341796875, + "learning_rate": 0.00029690232688976253, + "loss": 0.4741, + "step": 49070 + }, + { + "epoch": 130.88, + "grad_norm": 0.337890625, + "learning_rate": 0.00029690105559307227, + "loss": 0.4627, + "step": 49080 + }, + { + "epoch": 130.90666666666667, + "grad_norm": 0.439453125, + "learning_rate": 0.0002968997840382859, + "loss": 0.4654, + "step": 49090 + }, + { + "epoch": 130.93333333333334, + "grad_norm": 0.294921875, + "learning_rate": 0.00029689851222540573, + "loss": 0.4663, + "step": 49100 + }, + { + "epoch": 130.96, + "grad_norm": 0.345703125, + "learning_rate": 0.00029689724015443395, + "loss": 0.465, + "step": 49110 + }, + { + "epoch": 130.98666666666668, + "grad_norm": 0.357421875, + "learning_rate": 0.0002968959678253728, + "loss": 0.4788, + "step": 49120 + }, + { + "epoch": 131.0, + "eval_loss": 0.47895506024360657, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.9459, + "eval_samples_per_second": 1.462, + "eval_steps_per_second": 0.091, + "step": 49125 + }, + { + "epoch": 131.01333333333332, + "grad_norm": 0.3828125, + "learning_rate": 0.00029689469523822454, + "loss": 0.4677, + "step": 49130 + }, + { + "epoch": 131.04, + "grad_norm": 0.263671875, + "learning_rate": 0.0002968934223929914, + "loss": 0.4924, + "step": 49140 + }, + { + "epoch": 131.06666666666666, + "grad_norm": 0.40625, + "learning_rate": 0.00029689214928967555, + "loss": 0.4797, + "step": 49150 + }, + { + "epoch": 131.09333333333333, + "grad_norm": 0.3125, + "learning_rate": 0.0002968908759282793, + "loss": 0.4743, + "step": 49160 + }, + { + "epoch": 131.12, + "grad_norm": 0.3359375, + "learning_rate": 0.00029688960230880493, + "loss": 0.4702, + "step": 49170 + }, + { + "epoch": 131.14666666666668, + "grad_norm": 0.345703125, + "learning_rate": 0.0002968883284312545, + "loss": 0.4795, + "step": 49180 + }, + { + "epoch": 131.17333333333335, + "grad_norm": 0.431640625, + "learning_rate": 0.0002968870542956305, + "loss": 0.4697, + "step": 49190 + }, + { + "epoch": 131.2, + "grad_norm": 0.322265625, + "learning_rate": 0.0002968857799019349, + "loss": 0.4685, + "step": 49200 + }, + { + "epoch": 131.22666666666666, + "grad_norm": 0.361328125, + "learning_rate": 0.0002968845052501702, + "loss": 0.4661, + "step": 49210 + }, + { + "epoch": 131.25333333333333, + "grad_norm": 0.28515625, + "learning_rate": 0.0002968832303403384, + "loss": 0.4657, + "step": 49220 + }, + { + "epoch": 131.28, + "grad_norm": 0.392578125, + "learning_rate": 0.0002968819551724419, + "loss": 0.48, + "step": 49230 + }, + { + "epoch": 131.30666666666667, + "grad_norm": 0.474609375, + "learning_rate": 0.00029688067974648286, + "loss": 0.4606, + "step": 49240 + }, + { + "epoch": 131.33333333333334, + "grad_norm": 0.462890625, + "learning_rate": 0.0002968794040624636, + "loss": 0.4766, + "step": 49250 + }, + { + "epoch": 131.36, + "grad_norm": 0.287109375, + "learning_rate": 0.00029687812812038625, + "loss": 0.4782, + "step": 49260 + }, + { + "epoch": 131.38666666666666, + "grad_norm": 0.376953125, + "learning_rate": 0.00029687685192025315, + "loss": 0.4695, + "step": 49270 + }, + { + "epoch": 131.41333333333333, + "grad_norm": 0.310546875, + "learning_rate": 0.0002968755754620665, + "loss": 0.4743, + "step": 49280 + }, + { + "epoch": 131.44, + "grad_norm": 0.322265625, + "learning_rate": 0.00029687429874582856, + "loss": 0.4774, + "step": 49290 + }, + { + "epoch": 131.46666666666667, + "grad_norm": 0.44921875, + "learning_rate": 0.00029687302177154156, + "loss": 0.4868, + "step": 49300 + }, + { + "epoch": 131.49333333333334, + "grad_norm": 0.353515625, + "learning_rate": 0.0002968717445392077, + "loss": 0.4775, + "step": 49310 + }, + { + "epoch": 131.52, + "grad_norm": 0.298828125, + "learning_rate": 0.0002968704670488294, + "loss": 0.4724, + "step": 49320 + }, + { + "epoch": 131.54666666666665, + "grad_norm": 0.296875, + "learning_rate": 0.00029686918930040863, + "loss": 0.4699, + "step": 49330 + }, + { + "epoch": 131.57333333333332, + "grad_norm": 0.296875, + "learning_rate": 0.0002968679112939479, + "loss": 0.4682, + "step": 49340 + }, + { + "epoch": 131.6, + "grad_norm": 0.34375, + "learning_rate": 0.00029686663302944924, + "loss": 0.4619, + "step": 49350 + }, + { + "epoch": 131.62666666666667, + "grad_norm": 0.263671875, + "learning_rate": 0.00029686535450691503, + "loss": 0.4493, + "step": 49360 + }, + { + "epoch": 131.65333333333334, + "grad_norm": 0.224609375, + "learning_rate": 0.0002968640757263475, + "loss": 0.468, + "step": 49370 + }, + { + "epoch": 131.68, + "grad_norm": 0.419921875, + "learning_rate": 0.0002968627966877488, + "loss": 0.4603, + "step": 49380 + }, + { + "epoch": 131.70666666666668, + "grad_norm": 0.283203125, + "learning_rate": 0.00029686151739112136, + "loss": 0.4607, + "step": 49390 + }, + { + "epoch": 131.73333333333332, + "grad_norm": 0.3515625, + "learning_rate": 0.00029686023783646724, + "loss": 0.4792, + "step": 49400 + }, + { + "epoch": 131.76, + "grad_norm": 0.37109375, + "learning_rate": 0.00029685895802378877, + "loss": 0.4805, + "step": 49410 + }, + { + "epoch": 131.78666666666666, + "grad_norm": 0.41796875, + "learning_rate": 0.00029685767795308823, + "loss": 0.479, + "step": 49420 + }, + { + "epoch": 131.81333333333333, + "grad_norm": 0.455078125, + "learning_rate": 0.0002968563976243678, + "loss": 0.4645, + "step": 49430 + }, + { + "epoch": 131.84, + "grad_norm": 0.345703125, + "learning_rate": 0.00029685511703762975, + "loss": 0.4707, + "step": 49440 + }, + { + "epoch": 131.86666666666667, + "grad_norm": 0.427734375, + "learning_rate": 0.0002968538361928764, + "loss": 0.47, + "step": 49450 + }, + { + "epoch": 131.89333333333335, + "grad_norm": 0.3046875, + "learning_rate": 0.0002968525550901099, + "loss": 0.4606, + "step": 49460 + }, + { + "epoch": 131.92, + "grad_norm": 0.341796875, + "learning_rate": 0.00029685127372933254, + "loss": 0.471, + "step": 49470 + }, + { + "epoch": 131.94666666666666, + "grad_norm": 0.244140625, + "learning_rate": 0.0002968499921105466, + "loss": 0.4636, + "step": 49480 + }, + { + "epoch": 131.97333333333333, + "grad_norm": 0.21875, + "learning_rate": 0.0002968487102337543, + "loss": 0.4754, + "step": 49490 + }, + { + "epoch": 132.0, + "grad_norm": 0.51953125, + "learning_rate": 0.0002968474280989579, + "loss": 0.4642, + "step": 49500 + }, + { + "epoch": 132.0, + "eval_loss": 0.4787776470184326, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 11.4216, + "eval_samples_per_second": 1.401, + "eval_steps_per_second": 0.088, + "step": 49500 + }, + { + "epoch": 132.02666666666667, + "grad_norm": 0.35546875, + "learning_rate": 0.00029684614570615967, + "loss": 0.4831, + "step": 49510 + }, + { + "epoch": 132.05333333333334, + "grad_norm": 0.287109375, + "learning_rate": 0.00029684486305536187, + "loss": 0.4898, + "step": 49520 + }, + { + "epoch": 132.08, + "grad_norm": 0.353515625, + "learning_rate": 0.00029684358014656667, + "loss": 0.4761, + "step": 49530 + }, + { + "epoch": 132.10666666666665, + "grad_norm": 0.21875, + "learning_rate": 0.0002968422969797764, + "loss": 0.4725, + "step": 49540 + }, + { + "epoch": 132.13333333333333, + "grad_norm": 0.26953125, + "learning_rate": 0.00029684101355499334, + "loss": 0.4729, + "step": 49550 + }, + { + "epoch": 132.16, + "grad_norm": 0.353515625, + "learning_rate": 0.00029683972987221965, + "loss": 0.4776, + "step": 49560 + }, + { + "epoch": 132.18666666666667, + "grad_norm": 0.318359375, + "learning_rate": 0.0002968384459314576, + "loss": 0.4695, + "step": 49570 + }, + { + "epoch": 132.21333333333334, + "grad_norm": 0.3125, + "learning_rate": 0.00029683716173270957, + "loss": 0.4646, + "step": 49580 + }, + { + "epoch": 132.24, + "grad_norm": 0.267578125, + "learning_rate": 0.0002968358772759777, + "loss": 0.4676, + "step": 49590 + }, + { + "epoch": 132.26666666666668, + "grad_norm": 0.369140625, + "learning_rate": 0.00029683459256126427, + "loss": 0.4726, + "step": 49600 + }, + { + "epoch": 132.29333333333332, + "grad_norm": 0.3359375, + "learning_rate": 0.00029683330758857157, + "loss": 0.4667, + "step": 49610 + }, + { + "epoch": 132.32, + "grad_norm": 0.248046875, + "learning_rate": 0.0002968320223579018, + "loss": 0.4697, + "step": 49620 + }, + { + "epoch": 132.34666666666666, + "grad_norm": 0.349609375, + "learning_rate": 0.0002968307368692572, + "loss": 0.4782, + "step": 49630 + }, + { + "epoch": 132.37333333333333, + "grad_norm": 0.4921875, + "learning_rate": 0.00029682945112264014, + "loss": 0.4745, + "step": 49640 + }, + { + "epoch": 132.4, + "grad_norm": 0.443359375, + "learning_rate": 0.0002968281651180528, + "loss": 0.4713, + "step": 49650 + }, + { + "epoch": 132.42666666666668, + "grad_norm": 0.3203125, + "learning_rate": 0.0002968268788554975, + "loss": 0.4767, + "step": 49660 + }, + { + "epoch": 132.45333333333335, + "grad_norm": 0.349609375, + "learning_rate": 0.00029682559233497644, + "loss": 0.4792, + "step": 49670 + }, + { + "epoch": 132.48, + "grad_norm": 0.32421875, + "learning_rate": 0.00029682430555649184, + "loss": 0.4857, + "step": 49680 + }, + { + "epoch": 132.50666666666666, + "grad_norm": 0.392578125, + "learning_rate": 0.0002968230185200461, + "loss": 0.4744, + "step": 49690 + }, + { + "epoch": 132.53333333333333, + "grad_norm": 0.259765625, + "learning_rate": 0.00029682173122564135, + "loss": 0.469, + "step": 49700 + }, + { + "epoch": 132.56, + "grad_norm": 0.369140625, + "learning_rate": 0.0002968204436732799, + "loss": 0.4702, + "step": 49710 + }, + { + "epoch": 132.58666666666667, + "grad_norm": 0.24609375, + "learning_rate": 0.00029681915586296406, + "loss": 0.4661, + "step": 49720 + }, + { + "epoch": 132.61333333333334, + "grad_norm": 0.236328125, + "learning_rate": 0.000296817867794696, + "loss": 0.4518, + "step": 49730 + }, + { + "epoch": 132.64, + "grad_norm": 0.29296875, + "learning_rate": 0.000296816579468478, + "loss": 0.4575, + "step": 49740 + }, + { + "epoch": 132.66666666666666, + "grad_norm": 0.310546875, + "learning_rate": 0.0002968152908843124, + "loss": 0.4721, + "step": 49750 + }, + { + "epoch": 132.69333333333333, + "grad_norm": 0.37890625, + "learning_rate": 0.00029681400204220143, + "loss": 0.4554, + "step": 49760 + }, + { + "epoch": 132.72, + "grad_norm": 0.296875, + "learning_rate": 0.0002968127129421473, + "loss": 0.472, + "step": 49770 + }, + { + "epoch": 132.74666666666667, + "grad_norm": 0.33203125, + "learning_rate": 0.00029681142358415236, + "loss": 0.4757, + "step": 49780 + }, + { + "epoch": 132.77333333333334, + "grad_norm": 0.259765625, + "learning_rate": 0.0002968101339682188, + "loss": 0.4841, + "step": 49790 + }, + { + "epoch": 132.8, + "grad_norm": 0.271484375, + "learning_rate": 0.00029680884409434886, + "loss": 0.4705, + "step": 49800 + }, + { + "epoch": 132.82666666666665, + "grad_norm": 0.333984375, + "learning_rate": 0.00029680755396254495, + "loss": 0.466, + "step": 49810 + }, + { + "epoch": 132.85333333333332, + "grad_norm": 0.36328125, + "learning_rate": 0.0002968062635728092, + "loss": 0.4745, + "step": 49820 + }, + { + "epoch": 132.88, + "grad_norm": 0.310546875, + "learning_rate": 0.00029680497292514395, + "loss": 0.4631, + "step": 49830 + }, + { + "epoch": 132.90666666666667, + "grad_norm": 0.314453125, + "learning_rate": 0.00029680368201955145, + "loss": 0.4654, + "step": 49840 + }, + { + "epoch": 132.93333333333334, + "grad_norm": 0.2294921875, + "learning_rate": 0.00029680239085603393, + "loss": 0.467, + "step": 49850 + }, + { + "epoch": 132.96, + "grad_norm": 0.27734375, + "learning_rate": 0.0002968010994345937, + "loss": 0.4645, + "step": 49860 + }, + { + "epoch": 132.98666666666668, + "grad_norm": 0.365234375, + "learning_rate": 0.000296799807755233, + "loss": 0.4786, + "step": 49870 + }, + { + "epoch": 133.0, + "eval_loss": 0.4792354702949524, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.5036, + "eval_samples_per_second": 1.523, + "eval_steps_per_second": 0.095, + "step": 49875 + }, + { + "epoch": 133.01333333333332, + "grad_norm": 0.30859375, + "learning_rate": 0.0002967985158179542, + "loss": 0.4681, + "step": 49880 + }, + { + "epoch": 133.04, + "grad_norm": 0.244140625, + "learning_rate": 0.00029679722362275943, + "loss": 0.4921, + "step": 49890 + }, + { + "epoch": 133.06666666666666, + "grad_norm": 0.3671875, + "learning_rate": 0.000296795931169651, + "loss": 0.4797, + "step": 49900 + }, + { + "epoch": 133.09333333333333, + "grad_norm": 0.33203125, + "learning_rate": 0.00029679463845863125, + "loss": 0.4746, + "step": 49910 + }, + { + "epoch": 133.12, + "grad_norm": 0.349609375, + "learning_rate": 0.0002967933454897024, + "loss": 0.4712, + "step": 49920 + }, + { + "epoch": 133.14666666666668, + "grad_norm": 0.318359375, + "learning_rate": 0.00029679205226286666, + "loss": 0.4798, + "step": 49930 + }, + { + "epoch": 133.17333333333335, + "grad_norm": 0.376953125, + "learning_rate": 0.0002967907587781264, + "loss": 0.4697, + "step": 49940 + }, + { + "epoch": 133.2, + "grad_norm": 0.302734375, + "learning_rate": 0.00029678946503548386, + "loss": 0.468, + "step": 49950 + }, + { + "epoch": 133.22666666666666, + "grad_norm": 0.400390625, + "learning_rate": 0.00029678817103494134, + "loss": 0.4664, + "step": 49960 + }, + { + "epoch": 133.25333333333333, + "grad_norm": 0.380859375, + "learning_rate": 0.000296786876776501, + "loss": 0.4654, + "step": 49970 + }, + { + "epoch": 133.28, + "grad_norm": 0.318359375, + "learning_rate": 0.00029678558226016525, + "loss": 0.4786, + "step": 49980 + }, + { + "epoch": 133.30666666666667, + "grad_norm": 0.26171875, + "learning_rate": 0.00029678428748593634, + "loss": 0.4603, + "step": 49990 + }, + { + "epoch": 133.33333333333334, + "grad_norm": 0.26171875, + "learning_rate": 0.0002967829924538165, + "loss": 0.4756, + "step": 50000 + }, + { + "epoch": 133.36, + "grad_norm": 0.298828125, + "learning_rate": 0.000296781697163808, + "loss": 0.4776, + "step": 50010 + }, + { + "epoch": 133.38666666666666, + "grad_norm": 0.36328125, + "learning_rate": 0.0002967804016159131, + "loss": 0.4695, + "step": 50020 + }, + { + "epoch": 133.41333333333333, + "grad_norm": 0.490234375, + "learning_rate": 0.0002967791058101342, + "loss": 0.4748, + "step": 50030 + }, + { + "epoch": 133.44, + "grad_norm": 0.30859375, + "learning_rate": 0.00029677780974647345, + "loss": 0.4773, + "step": 50040 + }, + { + "epoch": 133.46666666666667, + "grad_norm": 0.296875, + "learning_rate": 0.00029677651342493316, + "loss": 0.4864, + "step": 50050 + }, + { + "epoch": 133.49333333333334, + "grad_norm": 0.396484375, + "learning_rate": 0.00029677521684551565, + "loss": 0.4777, + "step": 50060 + }, + { + "epoch": 133.52, + "grad_norm": 0.314453125, + "learning_rate": 0.00029677392000822315, + "loss": 0.4722, + "step": 50070 + }, + { + "epoch": 133.54666666666665, + "grad_norm": 0.29296875, + "learning_rate": 0.00029677262291305794, + "loss": 0.4701, + "step": 50080 + }, + { + "epoch": 133.57333333333332, + "grad_norm": 0.341796875, + "learning_rate": 0.0002967713255600223, + "loss": 0.4683, + "step": 50090 + }, + { + "epoch": 133.6, + "grad_norm": 0.384765625, + "learning_rate": 0.00029677002794911857, + "loss": 0.4618, + "step": 50100 + }, + { + "epoch": 133.62666666666667, + "grad_norm": 0.396484375, + "learning_rate": 0.00029676873008034887, + "loss": 0.4487, + "step": 50110 + }, + { + "epoch": 133.65333333333334, + "grad_norm": 0.279296875, + "learning_rate": 0.0002967674319537157, + "loss": 0.468, + "step": 50120 + }, + { + "epoch": 133.68, + "grad_norm": 0.232421875, + "learning_rate": 0.0002967661335692212, + "loss": 0.4605, + "step": 50130 + }, + { + "epoch": 133.70666666666668, + "grad_norm": 0.376953125, + "learning_rate": 0.00029676483492686764, + "loss": 0.4606, + "step": 50140 + }, + { + "epoch": 133.73333333333332, + "grad_norm": 0.30078125, + "learning_rate": 0.00029676353602665743, + "loss": 0.4794, + "step": 50150 + }, + { + "epoch": 133.76, + "grad_norm": 0.416015625, + "learning_rate": 0.00029676223686859267, + "loss": 0.4806, + "step": 50160 + }, + { + "epoch": 133.78666666666666, + "grad_norm": 0.236328125, + "learning_rate": 0.00029676093745267584, + "loss": 0.4786, + "step": 50170 + }, + { + "epoch": 133.81333333333333, + "grad_norm": 0.40234375, + "learning_rate": 0.000296759637778909, + "loss": 0.4646, + "step": 50180 + }, + { + "epoch": 133.84, + "grad_norm": 0.4296875, + "learning_rate": 0.0002967583378472947, + "loss": 0.471, + "step": 50190 + }, + { + "epoch": 133.86666666666667, + "grad_norm": 0.30078125, + "learning_rate": 0.00029675703765783494, + "loss": 0.4692, + "step": 50200 + }, + { + "epoch": 133.89333333333335, + "grad_norm": 0.25390625, + "learning_rate": 0.0002967557372105322, + "loss": 0.4609, + "step": 50210 + }, + { + "epoch": 133.92, + "grad_norm": 0.37890625, + "learning_rate": 0.00029675443650538873, + "loss": 0.4713, + "step": 50220 + }, + { + "epoch": 133.94666666666666, + "grad_norm": 0.421875, + "learning_rate": 0.0002967531355424068, + "loss": 0.4639, + "step": 50230 + }, + { + "epoch": 133.97333333333333, + "grad_norm": 0.32421875, + "learning_rate": 0.00029675183432158864, + "loss": 0.4759, + "step": 50240 + }, + { + "epoch": 134.0, + "grad_norm": 0.54296875, + "learning_rate": 0.0002967505328429366, + "loss": 0.4638, + "step": 50250 + }, + { + "epoch": 134.0, + "eval_loss": 0.47991687059402466, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.8196, + "eval_samples_per_second": 1.629, + "eval_steps_per_second": 0.102, + "step": 50250 + }, + { + "epoch": 134.02666666666667, + "grad_norm": 0.369140625, + "learning_rate": 0.00029674923110645295, + "loss": 0.4837, + "step": 50260 + }, + { + "epoch": 134.05333333333334, + "grad_norm": 0.3125, + "learning_rate": 0.00029674792911214, + "loss": 0.4895, + "step": 50270 + }, + { + "epoch": 134.08, + "grad_norm": 0.26953125, + "learning_rate": 0.00029674662685999996, + "loss": 0.4755, + "step": 50280 + }, + { + "epoch": 134.10666666666665, + "grad_norm": 0.33984375, + "learning_rate": 0.0002967453243500353, + "loss": 0.4715, + "step": 50290 + }, + { + "epoch": 134.13333333333333, + "grad_norm": 0.279296875, + "learning_rate": 0.000296744021582248, + "loss": 0.4738, + "step": 50300 + }, + { + "epoch": 134.16, + "grad_norm": 0.314453125, + "learning_rate": 0.0002967427185566407, + "loss": 0.4776, + "step": 50310 + }, + { + "epoch": 134.18666666666667, + "grad_norm": 0.25390625, + "learning_rate": 0.00029674141527321544, + "loss": 0.4694, + "step": 50320 + }, + { + "epoch": 134.21333333333334, + "grad_norm": 0.34765625, + "learning_rate": 0.0002967401117319746, + "loss": 0.4645, + "step": 50330 + }, + { + "epoch": 134.24, + "grad_norm": 0.373046875, + "learning_rate": 0.00029673880793292044, + "loss": 0.4684, + "step": 50340 + }, + { + "epoch": 134.26666666666668, + "grad_norm": 0.2578125, + "learning_rate": 0.00029673750387605534, + "loss": 0.4731, + "step": 50350 + }, + { + "epoch": 134.29333333333332, + "grad_norm": 0.416015625, + "learning_rate": 0.00029673619956138144, + "loss": 0.467, + "step": 50360 + }, + { + "epoch": 134.32, + "grad_norm": 0.294921875, + "learning_rate": 0.00029673489498890113, + "loss": 0.4706, + "step": 50370 + }, + { + "epoch": 134.34666666666666, + "grad_norm": 0.36328125, + "learning_rate": 0.0002967335901586167, + "loss": 0.4784, + "step": 50380 + }, + { + "epoch": 134.37333333333333, + "grad_norm": 0.447265625, + "learning_rate": 0.00029673228507053046, + "loss": 0.4742, + "step": 50390 + }, + { + "epoch": 134.4, + "grad_norm": 0.390625, + "learning_rate": 0.00029673097972464466, + "loss": 0.4707, + "step": 50400 + }, + { + "epoch": 134.42666666666668, + "grad_norm": 0.3203125, + "learning_rate": 0.0002967296741209616, + "loss": 0.4772, + "step": 50410 + }, + { + "epoch": 134.45333333333335, + "grad_norm": 0.3046875, + "learning_rate": 0.00029672836825948357, + "loss": 0.4792, + "step": 50420 + }, + { + "epoch": 134.48, + "grad_norm": 0.357421875, + "learning_rate": 0.0002967270621402129, + "loss": 0.4849, + "step": 50430 + }, + { + "epoch": 134.50666666666666, + "grad_norm": 0.296875, + "learning_rate": 0.00029672575576315184, + "loss": 0.4752, + "step": 50440 + }, + { + "epoch": 134.53333333333333, + "grad_norm": 0.353515625, + "learning_rate": 0.0002967244491283027, + "loss": 0.4688, + "step": 50450 + }, + { + "epoch": 134.56, + "grad_norm": 0.251953125, + "learning_rate": 0.00029672314223566773, + "loss": 0.47, + "step": 50460 + }, + { + "epoch": 134.58666666666667, + "grad_norm": 0.298828125, + "learning_rate": 0.0002967218350852494, + "loss": 0.4659, + "step": 50470 + }, + { + "epoch": 134.61333333333334, + "grad_norm": 0.232421875, + "learning_rate": 0.0002967205276770498, + "loss": 0.4511, + "step": 50480 + }, + { + "epoch": 134.64, + "grad_norm": 0.275390625, + "learning_rate": 0.00029671922001107124, + "loss": 0.457, + "step": 50490 + }, + { + "epoch": 134.66666666666666, + "grad_norm": 0.283203125, + "learning_rate": 0.0002967179120873162, + "loss": 0.472, + "step": 50500 + }, + { + "epoch": 134.69333333333333, + "grad_norm": 0.3828125, + "learning_rate": 0.0002967166039057868, + "loss": 0.4553, + "step": 50510 + }, + { + "epoch": 134.72, + "grad_norm": 0.291015625, + "learning_rate": 0.00029671529546648545, + "loss": 0.4721, + "step": 50520 + }, + { + "epoch": 134.74666666666667, + "grad_norm": 0.326171875, + "learning_rate": 0.0002967139867694144, + "loss": 0.4771, + "step": 50530 + }, + { + "epoch": 134.77333333333334, + "grad_norm": 0.328125, + "learning_rate": 0.00029671267781457587, + "loss": 0.484, + "step": 50540 + }, + { + "epoch": 134.8, + "grad_norm": 0.365234375, + "learning_rate": 0.0002967113686019723, + "loss": 0.4713, + "step": 50550 + }, + { + "epoch": 134.82666666666665, + "grad_norm": 0.392578125, + "learning_rate": 0.00029671005913160597, + "loss": 0.4659, + "step": 50560 + }, + { + "epoch": 134.85333333333332, + "grad_norm": 0.302734375, + "learning_rate": 0.00029670874940347907, + "loss": 0.4745, + "step": 50570 + }, + { + "epoch": 134.88, + "grad_norm": 0.35546875, + "learning_rate": 0.000296707439417594, + "loss": 0.4623, + "step": 50580 + }, + { + "epoch": 134.90666666666667, + "grad_norm": 0.30859375, + "learning_rate": 0.00029670612917395304, + "loss": 0.4649, + "step": 50590 + }, + { + "epoch": 134.93333333333334, + "grad_norm": 0.302734375, + "learning_rate": 0.0002967048186725585, + "loss": 0.4675, + "step": 50600 + }, + { + "epoch": 134.96, + "grad_norm": 0.40234375, + "learning_rate": 0.00029670350791341266, + "loss": 0.4651, + "step": 50610 + }, + { + "epoch": 134.98666666666668, + "grad_norm": 0.3125, + "learning_rate": 0.00029670219689651784, + "loss": 0.4785, + "step": 50620 + }, + { + "epoch": 135.0, + "eval_loss": 0.48060470819473267, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.9735, + "eval_samples_per_second": 1.604, + "eval_steps_per_second": 0.1, + "step": 50625 + }, + { + "epoch": 135.01333333333332, + "grad_norm": 0.388671875, + "learning_rate": 0.0002967008856218763, + "loss": 0.4674, + "step": 50630 + }, + { + "epoch": 135.04, + "grad_norm": 0.28515625, + "learning_rate": 0.0002966995740894904, + "loss": 0.4918, + "step": 50640 + }, + { + "epoch": 135.06666666666666, + "grad_norm": 0.431640625, + "learning_rate": 0.00029669826229936243, + "loss": 0.4794, + "step": 50650 + }, + { + "epoch": 135.09333333333333, + "grad_norm": 0.283203125, + "learning_rate": 0.00029669695025149467, + "loss": 0.4739, + "step": 50660 + }, + { + "epoch": 135.12, + "grad_norm": 0.283203125, + "learning_rate": 0.00029669563794588945, + "loss": 0.471, + "step": 50670 + }, + { + "epoch": 135.14666666666668, + "grad_norm": 0.369140625, + "learning_rate": 0.00029669432538254905, + "loss": 0.4787, + "step": 50680 + }, + { + "epoch": 135.17333333333335, + "grad_norm": 0.328125, + "learning_rate": 0.00029669301256147584, + "loss": 0.4702, + "step": 50690 + }, + { + "epoch": 135.2, + "grad_norm": 0.3125, + "learning_rate": 0.00029669169948267206, + "loss": 0.4689, + "step": 50700 + }, + { + "epoch": 135.22666666666666, + "grad_norm": 0.333984375, + "learning_rate": 0.00029669038614614003, + "loss": 0.4662, + "step": 50710 + }, + { + "epoch": 135.25333333333333, + "grad_norm": 0.376953125, + "learning_rate": 0.0002966890725518821, + "loss": 0.4657, + "step": 50720 + }, + { + "epoch": 135.28, + "grad_norm": 0.306640625, + "learning_rate": 0.0002966877586999005, + "loss": 0.4801, + "step": 50730 + }, + { + "epoch": 135.30666666666667, + "grad_norm": 0.271484375, + "learning_rate": 0.00029668644459019755, + "loss": 0.4604, + "step": 50740 + }, + { + "epoch": 135.33333333333334, + "grad_norm": 0.2734375, + "learning_rate": 0.0002966851302227757, + "loss": 0.4755, + "step": 50750 + }, + { + "epoch": 135.36, + "grad_norm": 0.380859375, + "learning_rate": 0.00029668381559763707, + "loss": 0.4788, + "step": 50760 + }, + { + "epoch": 135.38666666666666, + "grad_norm": 0.306640625, + "learning_rate": 0.0002966825007147841, + "loss": 0.469, + "step": 50770 + }, + { + "epoch": 135.41333333333333, + "grad_norm": 0.3671875, + "learning_rate": 0.000296681185574219, + "loss": 0.4744, + "step": 50780 + }, + { + "epoch": 135.44, + "grad_norm": 0.302734375, + "learning_rate": 0.0002966798701759441, + "loss": 0.477, + "step": 50790 + }, + { + "epoch": 135.46666666666667, + "grad_norm": 0.302734375, + "learning_rate": 0.00029667855451996183, + "loss": 0.4861, + "step": 50800 + }, + { + "epoch": 135.49333333333334, + "grad_norm": 0.443359375, + "learning_rate": 0.00029667723860627435, + "loss": 0.4775, + "step": 50810 + }, + { + "epoch": 135.52, + "grad_norm": 0.359375, + "learning_rate": 0.00029667592243488405, + "loss": 0.4721, + "step": 50820 + }, + { + "epoch": 135.54666666666665, + "grad_norm": 0.349609375, + "learning_rate": 0.00029667460600579326, + "loss": 0.4694, + "step": 50830 + }, + { + "epoch": 135.57333333333332, + "grad_norm": 0.2451171875, + "learning_rate": 0.0002966732893190042, + "loss": 0.4681, + "step": 50840 + }, + { + "epoch": 135.6, + "grad_norm": 0.318359375, + "learning_rate": 0.0002966719723745193, + "loss": 0.4617, + "step": 50850 + }, + { + "epoch": 135.62666666666667, + "grad_norm": 0.330078125, + "learning_rate": 0.00029667065517234077, + "loss": 0.4491, + "step": 50860 + }, + { + "epoch": 135.65333333333334, + "grad_norm": 0.33203125, + "learning_rate": 0.000296669337712471, + "loss": 0.469, + "step": 50870 + }, + { + "epoch": 135.68, + "grad_norm": 0.421875, + "learning_rate": 0.0002966680199949123, + "loss": 0.4603, + "step": 50880 + }, + { + "epoch": 135.70666666666668, + "grad_norm": 0.35546875, + "learning_rate": 0.0002966667020196669, + "loss": 0.4611, + "step": 50890 + }, + { + "epoch": 135.73333333333332, + "grad_norm": 0.302734375, + "learning_rate": 0.00029666538378673725, + "loss": 0.4793, + "step": 50900 + }, + { + "epoch": 135.76, + "grad_norm": 0.34765625, + "learning_rate": 0.0002966640652961255, + "loss": 0.481, + "step": 50910 + }, + { + "epoch": 135.78666666666666, + "grad_norm": 0.2421875, + "learning_rate": 0.0002966627465478342, + "loss": 0.4792, + "step": 50920 + }, + { + "epoch": 135.81333333333333, + "grad_norm": 0.357421875, + "learning_rate": 0.0002966614275418654, + "loss": 0.4643, + "step": 50930 + }, + { + "epoch": 135.84, + "grad_norm": 0.326171875, + "learning_rate": 0.0002966601082782216, + "loss": 0.4706, + "step": 50940 + }, + { + "epoch": 135.86666666666667, + "grad_norm": 0.30078125, + "learning_rate": 0.00029665878875690505, + "loss": 0.4698, + "step": 50950 + }, + { + "epoch": 135.89333333333335, + "grad_norm": 0.259765625, + "learning_rate": 0.0002966574689779181, + "loss": 0.4609, + "step": 50960 + }, + { + "epoch": 135.92, + "grad_norm": 0.3203125, + "learning_rate": 0.000296656148941263, + "loss": 0.4711, + "step": 50970 + }, + { + "epoch": 135.94666666666666, + "grad_norm": 0.33203125, + "learning_rate": 0.00029665482864694217, + "loss": 0.4637, + "step": 50980 + }, + { + "epoch": 135.97333333333333, + "grad_norm": 0.373046875, + "learning_rate": 0.00029665350809495784, + "loss": 0.4755, + "step": 50990 + }, + { + "epoch": 136.0, + "grad_norm": 0.3984375, + "learning_rate": 0.00029665218728531237, + "loss": 0.4643, + "step": 51000 + }, + { + "epoch": 136.0, + "eval_loss": 0.4795243740081787, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.3714, + "eval_samples_per_second": 1.543, + "eval_steps_per_second": 0.096, + "step": 51000 + }, + { + "epoch": 136.02666666666667, + "grad_norm": 0.349609375, + "learning_rate": 0.0002966508662180081, + "loss": 0.4833, + "step": 51010 + }, + { + "epoch": 136.05333333333334, + "grad_norm": 0.30859375, + "learning_rate": 0.0002966495448930473, + "loss": 0.4893, + "step": 51020 + }, + { + "epoch": 136.08, + "grad_norm": 0.28515625, + "learning_rate": 0.0002966482233104323, + "loss": 0.4764, + "step": 51030 + }, + { + "epoch": 136.10666666666665, + "grad_norm": 0.5234375, + "learning_rate": 0.00029664690147016557, + "loss": 0.4718, + "step": 51040 + }, + { + "epoch": 136.13333333333333, + "grad_norm": 0.400390625, + "learning_rate": 0.0002966455793722492, + "loss": 0.4726, + "step": 51050 + }, + { + "epoch": 136.16, + "grad_norm": 0.388671875, + "learning_rate": 0.00029664425701668565, + "loss": 0.4775, + "step": 51060 + }, + { + "epoch": 136.18666666666667, + "grad_norm": 0.2734375, + "learning_rate": 0.0002966429344034772, + "loss": 0.4692, + "step": 51070 + }, + { + "epoch": 136.21333333333334, + "grad_norm": 0.294921875, + "learning_rate": 0.0002966416115326262, + "loss": 0.4637, + "step": 51080 + }, + { + "epoch": 136.24, + "grad_norm": 0.33984375, + "learning_rate": 0.0002966402884041349, + "loss": 0.4677, + "step": 51090 + }, + { + "epoch": 136.26666666666668, + "grad_norm": 0.271484375, + "learning_rate": 0.0002966389650180058, + "loss": 0.4721, + "step": 51100 + }, + { + "epoch": 136.29333333333332, + "grad_norm": 0.37890625, + "learning_rate": 0.000296637641374241, + "loss": 0.4667, + "step": 51110 + }, + { + "epoch": 136.32, + "grad_norm": 0.2890625, + "learning_rate": 0.00029663631747284296, + "loss": 0.4704, + "step": 51120 + }, + { + "epoch": 136.34666666666666, + "grad_norm": 0.287109375, + "learning_rate": 0.00029663499331381395, + "loss": 0.4782, + "step": 51130 + }, + { + "epoch": 136.37333333333333, + "grad_norm": 0.28125, + "learning_rate": 0.00029663366889715645, + "loss": 0.4737, + "step": 51140 + }, + { + "epoch": 136.4, + "grad_norm": 0.279296875, + "learning_rate": 0.00029663234422287255, + "loss": 0.4703, + "step": 51150 + }, + { + "epoch": 136.42666666666668, + "grad_norm": 0.388671875, + "learning_rate": 0.00029663101929096477, + "loss": 0.4766, + "step": 51160 + }, + { + "epoch": 136.45333333333335, + "grad_norm": 0.33203125, + "learning_rate": 0.00029662969410143526, + "loss": 0.4793, + "step": 51170 + }, + { + "epoch": 136.48, + "grad_norm": 0.48828125, + "learning_rate": 0.0002966283686542865, + "loss": 0.4862, + "step": 51180 + }, + { + "epoch": 136.50666666666666, + "grad_norm": 0.2890625, + "learning_rate": 0.0002966270429495208, + "loss": 0.475, + "step": 51190 + }, + { + "epoch": 136.53333333333333, + "grad_norm": 0.2578125, + "learning_rate": 0.00029662571698714046, + "loss": 0.4683, + "step": 51200 + }, + { + "epoch": 136.56, + "grad_norm": 0.3671875, + "learning_rate": 0.00029662439076714775, + "loss": 0.4704, + "step": 51210 + }, + { + "epoch": 136.58666666666667, + "grad_norm": 0.326171875, + "learning_rate": 0.0002966230642895451, + "loss": 0.4661, + "step": 51220 + }, + { + "epoch": 136.61333333333334, + "grad_norm": 0.251953125, + "learning_rate": 0.0002966217375543348, + "loss": 0.4518, + "step": 51230 + }, + { + "epoch": 136.64, + "grad_norm": 0.244140625, + "learning_rate": 0.0002966204105615191, + "loss": 0.4572, + "step": 51240 + }, + { + "epoch": 136.66666666666666, + "grad_norm": 0.322265625, + "learning_rate": 0.00029661908331110045, + "loss": 0.4721, + "step": 51250 + }, + { + "epoch": 136.69333333333333, + "grad_norm": 0.38671875, + "learning_rate": 0.0002966177558030812, + "loss": 0.4556, + "step": 51260 + }, + { + "epoch": 136.72, + "grad_norm": 0.341796875, + "learning_rate": 0.0002966164280374635, + "loss": 0.4725, + "step": 51270 + }, + { + "epoch": 136.74666666666667, + "grad_norm": 0.306640625, + "learning_rate": 0.00029661510001424994, + "loss": 0.4768, + "step": 51280 + }, + { + "epoch": 136.77333333333334, + "grad_norm": 0.380859375, + "learning_rate": 0.00029661377173344265, + "loss": 0.4839, + "step": 51290 + }, + { + "epoch": 136.8, + "grad_norm": 0.322265625, + "learning_rate": 0.000296612443195044, + "loss": 0.471, + "step": 51300 + }, + { + "epoch": 136.82666666666665, + "grad_norm": 0.396484375, + "learning_rate": 0.00029661111439905643, + "loss": 0.4659, + "step": 51310 + }, + { + "epoch": 136.85333333333332, + "grad_norm": 0.3671875, + "learning_rate": 0.0002966097853454822, + "loss": 0.4752, + "step": 51320 + }, + { + "epoch": 136.88, + "grad_norm": 0.41015625, + "learning_rate": 0.00029660845603432355, + "loss": 0.4628, + "step": 51330 + }, + { + "epoch": 136.90666666666667, + "grad_norm": 0.40234375, + "learning_rate": 0.000296607126465583, + "loss": 0.4644, + "step": 51340 + }, + { + "epoch": 136.93333333333334, + "grad_norm": 0.251953125, + "learning_rate": 0.00029660579663926283, + "loss": 0.4672, + "step": 51350 + }, + { + "epoch": 136.96, + "grad_norm": 0.34375, + "learning_rate": 0.00029660446655536526, + "loss": 0.4656, + "step": 51360 + }, + { + "epoch": 136.98666666666668, + "grad_norm": 0.3125, + "learning_rate": 0.00029660313621389275, + "loss": 0.4786, + "step": 51370 + }, + { + "epoch": 137.0, + "eval_loss": 0.48131263256073, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.7597, + "eval_samples_per_second": 1.487, + "eval_steps_per_second": 0.093, + "step": 51375 + }, + { + "epoch": 137.01333333333332, + "grad_norm": 0.291015625, + "learning_rate": 0.0002966018056148476, + "loss": 0.4687, + "step": 51380 + }, + { + "epoch": 137.04, + "grad_norm": 0.365234375, + "learning_rate": 0.0002966004747582321, + "loss": 0.4916, + "step": 51390 + }, + { + "epoch": 137.06666666666666, + "grad_norm": 0.330078125, + "learning_rate": 0.0002965991436440487, + "loss": 0.4795, + "step": 51400 + }, + { + "epoch": 137.09333333333333, + "grad_norm": 0.37890625, + "learning_rate": 0.0002965978122722996, + "loss": 0.4739, + "step": 51410 + }, + { + "epoch": 137.12, + "grad_norm": 0.3984375, + "learning_rate": 0.00029659648064298726, + "loss": 0.4704, + "step": 51420 + }, + { + "epoch": 137.14666666666668, + "grad_norm": 0.37109375, + "learning_rate": 0.00029659514875611396, + "loss": 0.4798, + "step": 51430 + }, + { + "epoch": 137.17333333333335, + "grad_norm": 0.361328125, + "learning_rate": 0.00029659381661168203, + "loss": 0.4698, + "step": 51440 + }, + { + "epoch": 137.2, + "grad_norm": 0.29296875, + "learning_rate": 0.0002965924842096939, + "loss": 0.468, + "step": 51450 + }, + { + "epoch": 137.22666666666666, + "grad_norm": 0.322265625, + "learning_rate": 0.0002965911515501518, + "loss": 0.4659, + "step": 51460 + }, + { + "epoch": 137.25333333333333, + "grad_norm": 0.330078125, + "learning_rate": 0.00029658981863305814, + "loss": 0.4653, + "step": 51470 + }, + { + "epoch": 137.28, + "grad_norm": 0.30078125, + "learning_rate": 0.0002965884854584152, + "loss": 0.4789, + "step": 51480 + }, + { + "epoch": 137.30666666666667, + "grad_norm": 0.298828125, + "learning_rate": 0.00029658715202622533, + "loss": 0.4608, + "step": 51490 + }, + { + "epoch": 137.33333333333334, + "grad_norm": 0.31640625, + "learning_rate": 0.00029658581833649094, + "loss": 0.4757, + "step": 51500 + }, + { + "epoch": 137.36, + "grad_norm": 0.26171875, + "learning_rate": 0.00029658448438921436, + "loss": 0.4782, + "step": 51510 + }, + { + "epoch": 137.38666666666666, + "grad_norm": 0.357421875, + "learning_rate": 0.0002965831501843979, + "loss": 0.4689, + "step": 51520 + }, + { + "epoch": 137.41333333333333, + "grad_norm": 0.349609375, + "learning_rate": 0.0002965818157220439, + "loss": 0.4748, + "step": 51530 + }, + { + "epoch": 137.44, + "grad_norm": 0.2734375, + "learning_rate": 0.00029658048100215473, + "loss": 0.4771, + "step": 51540 + }, + { + "epoch": 137.46666666666667, + "grad_norm": 0.41015625, + "learning_rate": 0.0002965791460247327, + "loss": 0.4872, + "step": 51550 + }, + { + "epoch": 137.49333333333334, + "grad_norm": 0.3515625, + "learning_rate": 0.00029657781078978017, + "loss": 0.478, + "step": 51560 + }, + { + "epoch": 137.52, + "grad_norm": 0.267578125, + "learning_rate": 0.0002965764752972995, + "loss": 0.4714, + "step": 51570 + }, + { + "epoch": 137.54666666666665, + "grad_norm": 0.380859375, + "learning_rate": 0.0002965751395472931, + "loss": 0.4692, + "step": 51580 + }, + { + "epoch": 137.57333333333332, + "grad_norm": 0.2236328125, + "learning_rate": 0.00029657380353976316, + "loss": 0.4688, + "step": 51590 + }, + { + "epoch": 137.6, + "grad_norm": 0.251953125, + "learning_rate": 0.00029657246727471213, + "loss": 0.4619, + "step": 51600 + }, + { + "epoch": 137.62666666666667, + "grad_norm": 0.27734375, + "learning_rate": 0.0002965711307521424, + "loss": 0.4492, + "step": 51610 + }, + { + "epoch": 137.65333333333334, + "grad_norm": 0.318359375, + "learning_rate": 0.0002965697939720562, + "loss": 0.4685, + "step": 51620 + }, + { + "epoch": 137.68, + "grad_norm": 0.298828125, + "learning_rate": 0.00029656845693445597, + "loss": 0.4599, + "step": 51630 + }, + { + "epoch": 137.70666666666668, + "grad_norm": 0.3359375, + "learning_rate": 0.00029656711963934397, + "loss": 0.46, + "step": 51640 + }, + { + "epoch": 137.73333333333332, + "grad_norm": 0.279296875, + "learning_rate": 0.00029656578208672263, + "loss": 0.4792, + "step": 51650 + }, + { + "epoch": 137.76, + "grad_norm": 0.35546875, + "learning_rate": 0.0002965644442765943, + "loss": 0.4801, + "step": 51660 + }, + { + "epoch": 137.78666666666666, + "grad_norm": 0.384765625, + "learning_rate": 0.00029656310620896134, + "loss": 0.4792, + "step": 51670 + }, + { + "epoch": 137.81333333333333, + "grad_norm": 0.31640625, + "learning_rate": 0.000296561767883826, + "loss": 0.4638, + "step": 51680 + }, + { + "epoch": 137.84, + "grad_norm": 0.341796875, + "learning_rate": 0.00029656042930119075, + "loss": 0.4706, + "step": 51690 + }, + { + "epoch": 137.86666666666667, + "grad_norm": 0.345703125, + "learning_rate": 0.00029655909046105787, + "loss": 0.4694, + "step": 51700 + }, + { + "epoch": 137.89333333333335, + "grad_norm": 0.32421875, + "learning_rate": 0.0002965577513634297, + "loss": 0.4606, + "step": 51710 + }, + { + "epoch": 137.92, + "grad_norm": 0.41796875, + "learning_rate": 0.0002965564120083087, + "loss": 0.4704, + "step": 51720 + }, + { + "epoch": 137.94666666666666, + "grad_norm": 0.3203125, + "learning_rate": 0.00029655507239569707, + "loss": 0.4627, + "step": 51730 + }, + { + "epoch": 137.97333333333333, + "grad_norm": 0.326171875, + "learning_rate": 0.00029655373252559733, + "loss": 0.4747, + "step": 51740 + }, + { + "epoch": 138.0, + "grad_norm": 0.3046875, + "learning_rate": 0.0002965523923980117, + "loss": 0.4634, + "step": 51750 + }, + { + "epoch": 138.0, + "eval_loss": 0.47989213466644287, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.2738, + "eval_samples_per_second": 1.557, + "eval_steps_per_second": 0.097, + "step": 51750 + }, + { + "epoch": 138.02666666666667, + "grad_norm": 0.373046875, + "learning_rate": 0.0002965510520129426, + "loss": 0.4841, + "step": 51760 + }, + { + "epoch": 138.05333333333334, + "grad_norm": 0.236328125, + "learning_rate": 0.00029654971137039234, + "loss": 0.4889, + "step": 51770 + }, + { + "epoch": 138.08, + "grad_norm": 0.3515625, + "learning_rate": 0.0002965483704703633, + "loss": 0.4767, + "step": 51780 + }, + { + "epoch": 138.10666666666665, + "grad_norm": 0.29296875, + "learning_rate": 0.0002965470293128579, + "loss": 0.4717, + "step": 51790 + }, + { + "epoch": 138.13333333333333, + "grad_norm": 0.3828125, + "learning_rate": 0.00029654568789787836, + "loss": 0.4731, + "step": 51800 + }, + { + "epoch": 138.16, + "grad_norm": 0.326171875, + "learning_rate": 0.00029654434622542717, + "loss": 0.4769, + "step": 51810 + }, + { + "epoch": 138.18666666666667, + "grad_norm": 0.2890625, + "learning_rate": 0.0002965430042955066, + "loss": 0.469, + "step": 51820 + }, + { + "epoch": 138.21333333333334, + "grad_norm": 0.30078125, + "learning_rate": 0.00029654166210811903, + "loss": 0.4644, + "step": 51830 + }, + { + "epoch": 138.24, + "grad_norm": 0.259765625, + "learning_rate": 0.0002965403196632668, + "loss": 0.4684, + "step": 51840 + }, + { + "epoch": 138.26666666666668, + "grad_norm": 0.255859375, + "learning_rate": 0.00029653897696095235, + "loss": 0.473, + "step": 51850 + }, + { + "epoch": 138.29333333333332, + "grad_norm": 0.34375, + "learning_rate": 0.000296537634001178, + "loss": 0.466, + "step": 51860 + }, + { + "epoch": 138.32, + "grad_norm": 0.3046875, + "learning_rate": 0.000296536290783946, + "loss": 0.4706, + "step": 51870 + }, + { + "epoch": 138.34666666666666, + "grad_norm": 0.349609375, + "learning_rate": 0.00029653494730925886, + "loss": 0.4785, + "step": 51880 + }, + { + "epoch": 138.37333333333333, + "grad_norm": 0.30078125, + "learning_rate": 0.00029653360357711887, + "loss": 0.4745, + "step": 51890 + }, + { + "epoch": 138.4, + "grad_norm": 0.2294921875, + "learning_rate": 0.00029653225958752835, + "loss": 0.471, + "step": 51900 + }, + { + "epoch": 138.42666666666668, + "grad_norm": 0.31640625, + "learning_rate": 0.0002965309153404898, + "loss": 0.4771, + "step": 51910 + }, + { + "epoch": 138.45333333333335, + "grad_norm": 0.3046875, + "learning_rate": 0.0002965295708360055, + "loss": 0.4787, + "step": 51920 + }, + { + "epoch": 138.48, + "grad_norm": 0.349609375, + "learning_rate": 0.00029652822607407776, + "loss": 0.486, + "step": 51930 + }, + { + "epoch": 138.50666666666666, + "grad_norm": 0.330078125, + "learning_rate": 0.000296526881054709, + "loss": 0.4745, + "step": 51940 + }, + { + "epoch": 138.53333333333333, + "grad_norm": 0.263671875, + "learning_rate": 0.00029652553577790155, + "loss": 0.4689, + "step": 51950 + }, + { + "epoch": 138.56, + "grad_norm": 0.373046875, + "learning_rate": 0.0002965241902436579, + "loss": 0.4704, + "step": 51960 + }, + { + "epoch": 138.58666666666667, + "grad_norm": 0.421875, + "learning_rate": 0.0002965228444519802, + "loss": 0.4655, + "step": 51970 + }, + { + "epoch": 138.61333333333334, + "grad_norm": 0.39453125, + "learning_rate": 0.00029652149840287095, + "loss": 0.4512, + "step": 51980 + }, + { + "epoch": 138.64, + "grad_norm": 0.369140625, + "learning_rate": 0.0002965201520963325, + "loss": 0.4568, + "step": 51990 + }, + { + "epoch": 138.66666666666666, + "grad_norm": 0.37109375, + "learning_rate": 0.0002965188055323672, + "loss": 0.4718, + "step": 52000 + }, + { + "epoch": 138.69333333333333, + "grad_norm": 0.3671875, + "learning_rate": 0.00029651745871097745, + "loss": 0.4547, + "step": 52010 + }, + { + "epoch": 138.72, + "grad_norm": 0.36328125, + "learning_rate": 0.00029651611163216557, + "loss": 0.4725, + "step": 52020 + }, + { + "epoch": 138.74666666666667, + "grad_norm": 0.3203125, + "learning_rate": 0.00029651476429593394, + "loss": 0.4767, + "step": 52030 + }, + { + "epoch": 138.77333333333334, + "grad_norm": 0.2734375, + "learning_rate": 0.00029651341670228497, + "loss": 0.4832, + "step": 52040 + }, + { + "epoch": 138.8, + "grad_norm": 0.353515625, + "learning_rate": 0.00029651206885122097, + "loss": 0.471, + "step": 52050 + }, + { + "epoch": 138.82666666666665, + "grad_norm": 0.40625, + "learning_rate": 0.0002965107207427443, + "loss": 0.4659, + "step": 52060 + }, + { + "epoch": 138.85333333333332, + "grad_norm": 0.462890625, + "learning_rate": 0.00029650937237685735, + "loss": 0.4744, + "step": 52070 + }, + { + "epoch": 138.88, + "grad_norm": 0.380859375, + "learning_rate": 0.00029650802375356255, + "loss": 0.4626, + "step": 52080 + }, + { + "epoch": 138.90666666666667, + "grad_norm": 0.328125, + "learning_rate": 0.00029650667487286217, + "loss": 0.465, + "step": 52090 + }, + { + "epoch": 138.93333333333334, + "grad_norm": 0.2314453125, + "learning_rate": 0.00029650532573475863, + "loss": 0.467, + "step": 52100 + }, + { + "epoch": 138.96, + "grad_norm": 0.328125, + "learning_rate": 0.0002965039763392543, + "loss": 0.4643, + "step": 52110 + }, + { + "epoch": 138.98666666666668, + "grad_norm": 0.3671875, + "learning_rate": 0.0002965026266863516, + "loss": 0.4791, + "step": 52120 + }, + { + "epoch": 139.0, + "eval_loss": 0.47840365767478943, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.325, + "eval_samples_per_second": 1.55, + "eval_steps_per_second": 0.097, + "step": 52125 + }, + { + "epoch": 139.01333333333332, + "grad_norm": 0.3125, + "learning_rate": 0.0002965012767760528, + "loss": 0.4676, + "step": 52130 + }, + { + "epoch": 139.04, + "grad_norm": 0.298828125, + "learning_rate": 0.0002964999266083603, + "loss": 0.4924, + "step": 52140 + }, + { + "epoch": 139.06666666666666, + "grad_norm": 0.404296875, + "learning_rate": 0.0002964985761832765, + "loss": 0.4791, + "step": 52150 + }, + { + "epoch": 139.09333333333333, + "grad_norm": 0.34375, + "learning_rate": 0.00029649722550080374, + "loss": 0.4739, + "step": 52160 + }, + { + "epoch": 139.12, + "grad_norm": 0.3125, + "learning_rate": 0.00029649587456094447, + "loss": 0.4702, + "step": 52170 + }, + { + "epoch": 139.14666666666668, + "grad_norm": 0.365234375, + "learning_rate": 0.000296494523363701, + "loss": 0.4791, + "step": 52180 + }, + { + "epoch": 139.17333333333335, + "grad_norm": 0.39453125, + "learning_rate": 0.0002964931719090757, + "loss": 0.4698, + "step": 52190 + }, + { + "epoch": 139.2, + "grad_norm": 0.333984375, + "learning_rate": 0.000296491820197071, + "loss": 0.4683, + "step": 52200 + }, + { + "epoch": 139.22666666666666, + "grad_norm": 0.28125, + "learning_rate": 0.0002964904682276892, + "loss": 0.4656, + "step": 52210 + }, + { + "epoch": 139.25333333333333, + "grad_norm": 0.3359375, + "learning_rate": 0.0002964891160009327, + "loss": 0.4663, + "step": 52220 + }, + { + "epoch": 139.28, + "grad_norm": 0.44921875, + "learning_rate": 0.0002964877635168039, + "loss": 0.48, + "step": 52230 + }, + { + "epoch": 139.30666666666667, + "grad_norm": 0.3671875, + "learning_rate": 0.0002964864107753051, + "loss": 0.4602, + "step": 52240 + }, + { + "epoch": 139.33333333333334, + "grad_norm": 0.3203125, + "learning_rate": 0.0002964850577764388, + "loss": 0.4762, + "step": 52250 + }, + { + "epoch": 139.36, + "grad_norm": 0.4140625, + "learning_rate": 0.0002964837045202073, + "loss": 0.4771, + "step": 52260 + }, + { + "epoch": 139.38666666666666, + "grad_norm": 0.40625, + "learning_rate": 0.00029648235100661303, + "loss": 0.4695, + "step": 52270 + }, + { + "epoch": 139.41333333333333, + "grad_norm": 0.51953125, + "learning_rate": 0.00029648099723565826, + "loss": 0.4741, + "step": 52280 + }, + { + "epoch": 139.44, + "grad_norm": 0.51953125, + "learning_rate": 0.00029647964320734545, + "loss": 0.4775, + "step": 52290 + }, + { + "epoch": 139.46666666666667, + "grad_norm": 0.4453125, + "learning_rate": 0.00029647828892167703, + "loss": 0.4868, + "step": 52300 + }, + { + "epoch": 139.49333333333334, + "grad_norm": 0.498046875, + "learning_rate": 0.0002964769343786553, + "loss": 0.4776, + "step": 52310 + }, + { + "epoch": 139.52, + "grad_norm": 0.490234375, + "learning_rate": 0.00029647557957828265, + "loss": 0.4722, + "step": 52320 + }, + { + "epoch": 139.54666666666665, + "grad_norm": 0.3515625, + "learning_rate": 0.00029647422452056145, + "loss": 0.4691, + "step": 52330 + }, + { + "epoch": 139.57333333333332, + "grad_norm": 0.279296875, + "learning_rate": 0.0002964728692054941, + "loss": 0.4681, + "step": 52340 + }, + { + "epoch": 139.6, + "grad_norm": 0.419921875, + "learning_rate": 0.000296471513633083, + "loss": 0.4618, + "step": 52350 + }, + { + "epoch": 139.62666666666667, + "grad_norm": 0.28125, + "learning_rate": 0.0002964701578033305, + "loss": 0.4491, + "step": 52360 + }, + { + "epoch": 139.65333333333334, + "grad_norm": 0.30078125, + "learning_rate": 0.00029646880171623895, + "loss": 0.4688, + "step": 52370 + }, + { + "epoch": 139.68, + "grad_norm": 0.34375, + "learning_rate": 0.00029646744537181085, + "loss": 0.4603, + "step": 52380 + }, + { + "epoch": 139.70666666666668, + "grad_norm": 0.3515625, + "learning_rate": 0.00029646608877004844, + "loss": 0.4603, + "step": 52390 + }, + { + "epoch": 139.73333333333332, + "grad_norm": 0.283203125, + "learning_rate": 0.00029646473191095423, + "loss": 0.4796, + "step": 52400 + }, + { + "epoch": 139.76, + "grad_norm": 0.412109375, + "learning_rate": 0.00029646337479453055, + "loss": 0.4807, + "step": 52410 + }, + { + "epoch": 139.78666666666666, + "grad_norm": 0.296875, + "learning_rate": 0.0002964620174207797, + "loss": 0.4792, + "step": 52420 + }, + { + "epoch": 139.81333333333333, + "grad_norm": 0.404296875, + "learning_rate": 0.0002964606597897042, + "loss": 0.4641, + "step": 52430 + }, + { + "epoch": 139.84, + "grad_norm": 0.6171875, + "learning_rate": 0.00029645930190130637, + "loss": 0.4705, + "step": 52440 + }, + { + "epoch": 139.86666666666667, + "grad_norm": 0.353515625, + "learning_rate": 0.0002964579437555886, + "loss": 0.4694, + "step": 52450 + }, + { + "epoch": 139.89333333333335, + "grad_norm": 0.322265625, + "learning_rate": 0.00029645658535255333, + "loss": 0.4606, + "step": 52460 + }, + { + "epoch": 139.92, + "grad_norm": 0.33984375, + "learning_rate": 0.00029645522669220287, + "loss": 0.4712, + "step": 52470 + }, + { + "epoch": 139.94666666666666, + "grad_norm": 0.2578125, + "learning_rate": 0.00029645386777453963, + "loss": 0.4637, + "step": 52480 + }, + { + "epoch": 139.97333333333333, + "grad_norm": 0.365234375, + "learning_rate": 0.000296452508599566, + "loss": 0.4746, + "step": 52490 + }, + { + "epoch": 140.0, + "grad_norm": 0.298828125, + "learning_rate": 0.00029645114916728436, + "loss": 0.4636, + "step": 52500 + }, + { + "epoch": 140.0, + "eval_loss": 0.4796655476093292, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.272, + "eval_samples_per_second": 1.558, + "eval_steps_per_second": 0.097, + "step": 52500 + }, + { + "epoch": 140.02666666666667, + "grad_norm": 0.3203125, + "learning_rate": 0.0002964497894776972, + "loss": 0.4833, + "step": 52510 + }, + { + "epoch": 140.05333333333334, + "grad_norm": 0.34765625, + "learning_rate": 0.0002964484295308067, + "loss": 0.4887, + "step": 52520 + }, + { + "epoch": 140.08, + "grad_norm": 0.314453125, + "learning_rate": 0.00029644706932661544, + "loss": 0.4763, + "step": 52530 + }, + { + "epoch": 140.10666666666665, + "grad_norm": 0.416015625, + "learning_rate": 0.0002964457088651257, + "loss": 0.4715, + "step": 52540 + }, + { + "epoch": 140.13333333333333, + "grad_norm": 0.31640625, + "learning_rate": 0.0002964443481463399, + "loss": 0.4732, + "step": 52550 + }, + { + "epoch": 140.16, + "grad_norm": 0.291015625, + "learning_rate": 0.00029644298717026047, + "loss": 0.4769, + "step": 52560 + }, + { + "epoch": 140.18666666666667, + "grad_norm": 0.33984375, + "learning_rate": 0.00029644162593688977, + "loss": 0.469, + "step": 52570 + }, + { + "epoch": 140.21333333333334, + "grad_norm": 0.34375, + "learning_rate": 0.0002964402644462302, + "loss": 0.4644, + "step": 52580 + }, + { + "epoch": 140.24, + "grad_norm": 0.251953125, + "learning_rate": 0.0002964389026982841, + "loss": 0.4683, + "step": 52590 + }, + { + "epoch": 140.26666666666668, + "grad_norm": 0.265625, + "learning_rate": 0.00029643754069305395, + "loss": 0.4718, + "step": 52600 + }, + { + "epoch": 140.29333333333332, + "grad_norm": 0.5078125, + "learning_rate": 0.00029643617843054206, + "loss": 0.4664, + "step": 52610 + }, + { + "epoch": 140.32, + "grad_norm": 0.416015625, + "learning_rate": 0.0002964348159107509, + "loss": 0.47, + "step": 52620 + }, + { + "epoch": 140.34666666666666, + "grad_norm": 0.32421875, + "learning_rate": 0.00029643345313368284, + "loss": 0.4782, + "step": 52630 + }, + { + "epoch": 140.37333333333333, + "grad_norm": 0.326171875, + "learning_rate": 0.0002964320900993402, + "loss": 0.4739, + "step": 52640 + }, + { + "epoch": 140.4, + "grad_norm": 0.353515625, + "learning_rate": 0.00029643072680772553, + "loss": 0.4709, + "step": 52650 + }, + { + "epoch": 140.42666666666668, + "grad_norm": 0.2236328125, + "learning_rate": 0.00029642936325884105, + "loss": 0.4764, + "step": 52660 + }, + { + "epoch": 140.45333333333335, + "grad_norm": 0.3671875, + "learning_rate": 0.00029642799945268927, + "loss": 0.4789, + "step": 52670 + }, + { + "epoch": 140.48, + "grad_norm": 0.40625, + "learning_rate": 0.0002964266353892725, + "loss": 0.4854, + "step": 52680 + }, + { + "epoch": 140.50666666666666, + "grad_norm": 0.36328125, + "learning_rate": 0.00029642527106859325, + "loss": 0.4751, + "step": 52690 + }, + { + "epoch": 140.53333333333333, + "grad_norm": 0.322265625, + "learning_rate": 0.00029642390649065384, + "loss": 0.4682, + "step": 52700 + }, + { + "epoch": 140.56, + "grad_norm": 0.291015625, + "learning_rate": 0.00029642254165545667, + "loss": 0.4695, + "step": 52710 + }, + { + "epoch": 140.58666666666667, + "grad_norm": 0.2890625, + "learning_rate": 0.0002964211765630042, + "loss": 0.4653, + "step": 52720 + }, + { + "epoch": 140.61333333333334, + "grad_norm": 0.287109375, + "learning_rate": 0.0002964198112132987, + "loss": 0.4515, + "step": 52730 + }, + { + "epoch": 140.64, + "grad_norm": 0.337890625, + "learning_rate": 0.00029641844560634274, + "loss": 0.4572, + "step": 52740 + }, + { + "epoch": 140.66666666666666, + "grad_norm": 0.349609375, + "learning_rate": 0.00029641707974213856, + "loss": 0.4722, + "step": 52750 + }, + { + "epoch": 140.69333333333333, + "grad_norm": 0.294921875, + "learning_rate": 0.00029641571362068865, + "loss": 0.4553, + "step": 52760 + }, + { + "epoch": 140.72, + "grad_norm": 0.3671875, + "learning_rate": 0.0002964143472419954, + "loss": 0.4722, + "step": 52770 + }, + { + "epoch": 140.74666666666667, + "grad_norm": 0.384765625, + "learning_rate": 0.00029641298060606116, + "loss": 0.4764, + "step": 52780 + }, + { + "epoch": 140.77333333333334, + "grad_norm": 0.48828125, + "learning_rate": 0.0002964116137128884, + "loss": 0.4843, + "step": 52790 + }, + { + "epoch": 140.8, + "grad_norm": 0.33203125, + "learning_rate": 0.0002964102465624795, + "loss": 0.4708, + "step": 52800 + }, + { + "epoch": 140.82666666666665, + "grad_norm": 0.283203125, + "learning_rate": 0.00029640887915483683, + "loss": 0.4655, + "step": 52810 + }, + { + "epoch": 140.85333333333332, + "grad_norm": 0.341796875, + "learning_rate": 0.00029640751148996285, + "loss": 0.4745, + "step": 52820 + }, + { + "epoch": 140.88, + "grad_norm": 0.361328125, + "learning_rate": 0.0002964061435678599, + "loss": 0.4619, + "step": 52830 + }, + { + "epoch": 140.90666666666667, + "grad_norm": 0.25, + "learning_rate": 0.0002964047753885304, + "loss": 0.4648, + "step": 52840 + }, + { + "epoch": 140.93333333333334, + "grad_norm": 0.2890625, + "learning_rate": 0.0002964034069519768, + "loss": 0.4664, + "step": 52850 + }, + { + "epoch": 140.96, + "grad_norm": 0.3046875, + "learning_rate": 0.0002964020382582015, + "loss": 0.4644, + "step": 52860 + }, + { + "epoch": 140.98666666666668, + "grad_norm": 0.28515625, + "learning_rate": 0.0002964006693072068, + "loss": 0.4791, + "step": 52870 + }, + { + "epoch": 141.0, + "eval_loss": 0.4809083044528961, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.875, + "eval_samples_per_second": 1.62, + "eval_steps_per_second": 0.101, + "step": 52875 + }, + { + "epoch": 141.01333333333332, + "grad_norm": 0.294921875, + "learning_rate": 0.0002963993000989952, + "loss": 0.4674, + "step": 52880 + }, + { + "epoch": 141.04, + "grad_norm": 0.349609375, + "learning_rate": 0.00029639793063356907, + "loss": 0.4921, + "step": 52890 + }, + { + "epoch": 141.06666666666666, + "grad_norm": 0.283203125, + "learning_rate": 0.00029639656091093086, + "loss": 0.4794, + "step": 52900 + }, + { + "epoch": 141.09333333333333, + "grad_norm": 0.5703125, + "learning_rate": 0.0002963951909310829, + "loss": 0.4747, + "step": 52910 + }, + { + "epoch": 141.12, + "grad_norm": 0.404296875, + "learning_rate": 0.00029639382069402776, + "loss": 0.471, + "step": 52920 + }, + { + "epoch": 141.14666666666668, + "grad_norm": 0.34375, + "learning_rate": 0.00029639245019976763, + "loss": 0.4793, + "step": 52930 + }, + { + "epoch": 141.17333333333335, + "grad_norm": 0.396484375, + "learning_rate": 0.0002963910794483051, + "loss": 0.4698, + "step": 52940 + }, + { + "epoch": 141.2, + "grad_norm": 0.369140625, + "learning_rate": 0.00029638970843964244, + "loss": 0.4675, + "step": 52950 + }, + { + "epoch": 141.22666666666666, + "grad_norm": 0.359375, + "learning_rate": 0.00029638833717378214, + "loss": 0.466, + "step": 52960 + }, + { + "epoch": 141.25333333333333, + "grad_norm": 0.279296875, + "learning_rate": 0.0002963869656507266, + "loss": 0.4655, + "step": 52970 + }, + { + "epoch": 141.28, + "grad_norm": 0.3203125, + "learning_rate": 0.0002963855938704782, + "loss": 0.4792, + "step": 52980 + }, + { + "epoch": 141.30666666666667, + "grad_norm": 0.279296875, + "learning_rate": 0.0002963842218330393, + "loss": 0.4611, + "step": 52990 + }, + { + "epoch": 141.33333333333334, + "grad_norm": 0.2734375, + "learning_rate": 0.00029638284953841247, + "loss": 0.4756, + "step": 53000 + }, + { + "epoch": 141.36, + "grad_norm": 0.3125, + "learning_rate": 0.0002963814769866, + "loss": 0.4774, + "step": 53010 + }, + { + "epoch": 141.38666666666666, + "grad_norm": 0.40234375, + "learning_rate": 0.0002963801041776044, + "loss": 0.4695, + "step": 53020 + }, + { + "epoch": 141.41333333333333, + "grad_norm": 0.322265625, + "learning_rate": 0.0002963787311114279, + "loss": 0.4743, + "step": 53030 + }, + { + "epoch": 141.44, + "grad_norm": 0.314453125, + "learning_rate": 0.00029637735778807305, + "loss": 0.4769, + "step": 53040 + }, + { + "epoch": 141.46666666666667, + "grad_norm": 0.357421875, + "learning_rate": 0.00029637598420754227, + "loss": 0.487, + "step": 53050 + }, + { + "epoch": 141.49333333333334, + "grad_norm": 0.314453125, + "learning_rate": 0.0002963746103698379, + "loss": 0.4776, + "step": 53060 + }, + { + "epoch": 141.52, + "grad_norm": 0.296875, + "learning_rate": 0.00029637323627496243, + "loss": 0.4722, + "step": 53070 + }, + { + "epoch": 141.54666666666665, + "grad_norm": 0.353515625, + "learning_rate": 0.0002963718619229182, + "loss": 0.469, + "step": 53080 + }, + { + "epoch": 141.57333333333332, + "grad_norm": 0.34375, + "learning_rate": 0.0002963704873137077, + "loss": 0.4677, + "step": 53090 + }, + { + "epoch": 141.6, + "grad_norm": 0.4140625, + "learning_rate": 0.0002963691124473333, + "loss": 0.4615, + "step": 53100 + }, + { + "epoch": 141.62666666666667, + "grad_norm": 0.41015625, + "learning_rate": 0.0002963677373237974, + "loss": 0.4487, + "step": 53110 + }, + { + "epoch": 141.65333333333334, + "grad_norm": 0.34765625, + "learning_rate": 0.0002963663619431025, + "loss": 0.4685, + "step": 53120 + }, + { + "epoch": 141.68, + "grad_norm": 0.2275390625, + "learning_rate": 0.00029636498630525093, + "loss": 0.4596, + "step": 53130 + }, + { + "epoch": 141.70666666666668, + "grad_norm": 0.48046875, + "learning_rate": 0.0002963636104102451, + "loss": 0.4605, + "step": 53140 + }, + { + "epoch": 141.73333333333332, + "grad_norm": 0.3984375, + "learning_rate": 0.0002963622342580875, + "loss": 0.4791, + "step": 53150 + }, + { + "epoch": 141.76, + "grad_norm": 0.330078125, + "learning_rate": 0.00029636085784878047, + "loss": 0.4807, + "step": 53160 + }, + { + "epoch": 141.78666666666666, + "grad_norm": 0.45703125, + "learning_rate": 0.00029635948118232646, + "loss": 0.4792, + "step": 53170 + }, + { + "epoch": 141.81333333333333, + "grad_norm": 0.40234375, + "learning_rate": 0.00029635810425872794, + "loss": 0.4642, + "step": 53180 + }, + { + "epoch": 141.84, + "grad_norm": 0.3359375, + "learning_rate": 0.00029635672707798723, + "loss": 0.4703, + "step": 53190 + }, + { + "epoch": 141.86666666666667, + "grad_norm": 0.3984375, + "learning_rate": 0.0002963553496401069, + "loss": 0.47, + "step": 53200 + }, + { + "epoch": 141.89333333333335, + "grad_norm": 0.39453125, + "learning_rate": 0.00029635397194508915, + "loss": 0.4605, + "step": 53210 + }, + { + "epoch": 141.92, + "grad_norm": 0.36328125, + "learning_rate": 0.00029635259399293665, + "loss": 0.4711, + "step": 53220 + }, + { + "epoch": 141.94666666666666, + "grad_norm": 0.349609375, + "learning_rate": 0.0002963512157836516, + "loss": 0.4629, + "step": 53230 + }, + { + "epoch": 141.97333333333333, + "grad_norm": 0.46484375, + "learning_rate": 0.0002963498373172365, + "loss": 0.4751, + "step": 53240 + }, + { + "epoch": 142.0, + "grad_norm": 0.39453125, + "learning_rate": 0.0002963484585936939, + "loss": 0.4645, + "step": 53250 + }, + { + "epoch": 142.0, + "eval_loss": 0.4798355996608734, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.4414, + "eval_samples_per_second": 1.532, + "eval_steps_per_second": 0.096, + "step": 53250 + }, + { + "epoch": 142.02666666666667, + "grad_norm": 0.328125, + "learning_rate": 0.00029634707961302605, + "loss": 0.4836, + "step": 53260 + }, + { + "epoch": 142.05333333333334, + "grad_norm": 0.396484375, + "learning_rate": 0.0002963457003752354, + "loss": 0.4895, + "step": 53270 + }, + { + "epoch": 142.08, + "grad_norm": 0.361328125, + "learning_rate": 0.00029634432088032446, + "loss": 0.476, + "step": 53280 + }, + { + "epoch": 142.10666666666665, + "grad_norm": 0.466796875, + "learning_rate": 0.0002963429411282956, + "loss": 0.472, + "step": 53290 + }, + { + "epoch": 142.13333333333333, + "grad_norm": 0.259765625, + "learning_rate": 0.0002963415611191512, + "loss": 0.4728, + "step": 53300 + }, + { + "epoch": 142.16, + "grad_norm": 0.365234375, + "learning_rate": 0.0002963401808528938, + "loss": 0.4772, + "step": 53310 + }, + { + "epoch": 142.18666666666667, + "grad_norm": 0.271484375, + "learning_rate": 0.0002963388003295257, + "loss": 0.4693, + "step": 53320 + }, + { + "epoch": 142.21333333333334, + "grad_norm": 0.283203125, + "learning_rate": 0.00029633741954904934, + "loss": 0.4641, + "step": 53330 + }, + { + "epoch": 142.24, + "grad_norm": 0.330078125, + "learning_rate": 0.00029633603851146725, + "loss": 0.468, + "step": 53340 + }, + { + "epoch": 142.26666666666668, + "grad_norm": 0.3203125, + "learning_rate": 0.0002963346572167818, + "loss": 0.4727, + "step": 53350 + }, + { + "epoch": 142.29333333333332, + "grad_norm": 0.310546875, + "learning_rate": 0.00029633327566499536, + "loss": 0.4661, + "step": 53360 + }, + { + "epoch": 142.32, + "grad_norm": 0.431640625, + "learning_rate": 0.00029633189385611043, + "loss": 0.4704, + "step": 53370 + }, + { + "epoch": 142.34666666666666, + "grad_norm": 0.37890625, + "learning_rate": 0.00029633051179012946, + "loss": 0.4778, + "step": 53380 + }, + { + "epoch": 142.37333333333333, + "grad_norm": 0.32421875, + "learning_rate": 0.00029632912946705477, + "loss": 0.4738, + "step": 53390 + }, + { + "epoch": 142.4, + "grad_norm": 0.470703125, + "learning_rate": 0.0002963277468868889, + "loss": 0.4701, + "step": 53400 + }, + { + "epoch": 142.42666666666668, + "grad_norm": 0.29296875, + "learning_rate": 0.0002963263640496342, + "loss": 0.4769, + "step": 53410 + }, + { + "epoch": 142.45333333333335, + "grad_norm": 0.30078125, + "learning_rate": 0.0002963249809552931, + "loss": 0.4788, + "step": 53420 + }, + { + "epoch": 142.48, + "grad_norm": 0.3125, + "learning_rate": 0.0002963235976038681, + "loss": 0.485, + "step": 53430 + }, + { + "epoch": 142.50666666666666, + "grad_norm": 0.41796875, + "learning_rate": 0.0002963222139953616, + "loss": 0.4746, + "step": 53440 + }, + { + "epoch": 142.53333333333333, + "grad_norm": 0.330078125, + "learning_rate": 0.000296320830129776, + "loss": 0.4682, + "step": 53450 + }, + { + "epoch": 142.56, + "grad_norm": 0.2421875, + "learning_rate": 0.00029631944600711375, + "loss": 0.4695, + "step": 53460 + }, + { + "epoch": 142.58666666666667, + "grad_norm": 0.2470703125, + "learning_rate": 0.0002963180616273773, + "loss": 0.4654, + "step": 53470 + }, + { + "epoch": 142.61333333333334, + "grad_norm": 0.248046875, + "learning_rate": 0.00029631667699056905, + "loss": 0.4513, + "step": 53480 + }, + { + "epoch": 142.64, + "grad_norm": 0.357421875, + "learning_rate": 0.00029631529209669146, + "loss": 0.457, + "step": 53490 + }, + { + "epoch": 142.66666666666666, + "grad_norm": 0.369140625, + "learning_rate": 0.00029631390694574694, + "loss": 0.472, + "step": 53500 + }, + { + "epoch": 142.69333333333333, + "grad_norm": 0.330078125, + "learning_rate": 0.000296312521537738, + "loss": 0.4546, + "step": 53510 + }, + { + "epoch": 142.72, + "grad_norm": 0.40234375, + "learning_rate": 0.0002963111358726669, + "loss": 0.4723, + "step": 53520 + }, + { + "epoch": 142.74666666666667, + "grad_norm": 0.267578125, + "learning_rate": 0.00029630974995053627, + "loss": 0.4757, + "step": 53530 + }, + { + "epoch": 142.77333333333334, + "grad_norm": 0.322265625, + "learning_rate": 0.0002963083637713484, + "loss": 0.484, + "step": 53540 + }, + { + "epoch": 142.8, + "grad_norm": 0.28515625, + "learning_rate": 0.0002963069773351059, + "loss": 0.4705, + "step": 53550 + }, + { + "epoch": 142.82666666666665, + "grad_norm": 0.369140625, + "learning_rate": 0.0002963055906418109, + "loss": 0.4654, + "step": 53560 + }, + { + "epoch": 142.85333333333332, + "grad_norm": 0.412109375, + "learning_rate": 0.0002963042036914662, + "loss": 0.4743, + "step": 53570 + }, + { + "epoch": 142.88, + "grad_norm": 0.34765625, + "learning_rate": 0.000296302816484074, + "loss": 0.4629, + "step": 53580 + }, + { + "epoch": 142.90666666666667, + "grad_norm": 0.248046875, + "learning_rate": 0.00029630142901963683, + "loss": 0.4649, + "step": 53590 + }, + { + "epoch": 142.93333333333334, + "grad_norm": 0.220703125, + "learning_rate": 0.00029630004129815705, + "loss": 0.4671, + "step": 53600 + }, + { + "epoch": 142.96, + "grad_norm": 0.361328125, + "learning_rate": 0.0002962986533196372, + "loss": 0.465, + "step": 53610 + }, + { + "epoch": 142.98666666666668, + "grad_norm": 0.404296875, + "learning_rate": 0.00029629726508407963, + "loss": 0.4792, + "step": 53620 + }, + { + "epoch": 143.0, + "eval_loss": 0.4780339300632477, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.9163, + "eval_samples_per_second": 1.614, + "eval_steps_per_second": 0.101, + "step": 53625 + }, + { + "epoch": 143.01333333333332, + "grad_norm": 0.275390625, + "learning_rate": 0.0002962958765914868, + "loss": 0.4674, + "step": 53630 + }, + { + "epoch": 143.04, + "grad_norm": 0.275390625, + "learning_rate": 0.0002962944878418612, + "loss": 0.4919, + "step": 53640 + }, + { + "epoch": 143.06666666666666, + "grad_norm": 0.359375, + "learning_rate": 0.0002962930988352052, + "loss": 0.4789, + "step": 53650 + }, + { + "epoch": 143.09333333333333, + "grad_norm": 0.2578125, + "learning_rate": 0.0002962917095715213, + "loss": 0.4737, + "step": 53660 + }, + { + "epoch": 143.12, + "grad_norm": 0.294921875, + "learning_rate": 0.0002962903200508119, + "loss": 0.4704, + "step": 53670 + }, + { + "epoch": 143.14666666666668, + "grad_norm": 0.376953125, + "learning_rate": 0.00029628893027307946, + "loss": 0.4792, + "step": 53680 + }, + { + "epoch": 143.17333333333335, + "grad_norm": 0.380859375, + "learning_rate": 0.00029628754023832646, + "loss": 0.4696, + "step": 53690 + }, + { + "epoch": 143.2, + "grad_norm": 0.439453125, + "learning_rate": 0.00029628614994655527, + "loss": 0.4679, + "step": 53700 + }, + { + "epoch": 143.22666666666666, + "grad_norm": 0.3046875, + "learning_rate": 0.00029628475939776837, + "loss": 0.4653, + "step": 53710 + }, + { + "epoch": 143.25333333333333, + "grad_norm": 0.45703125, + "learning_rate": 0.00029628336859196814, + "loss": 0.4658, + "step": 53720 + }, + { + "epoch": 143.28, + "grad_norm": 0.4453125, + "learning_rate": 0.00029628197752915714, + "loss": 0.4797, + "step": 53730 + }, + { + "epoch": 143.30666666666667, + "grad_norm": 0.46484375, + "learning_rate": 0.00029628058620933775, + "loss": 0.4607, + "step": 53740 + }, + { + "epoch": 143.33333333333334, + "grad_norm": 0.490234375, + "learning_rate": 0.0002962791946325124, + "loss": 0.4758, + "step": 53750 + }, + { + "epoch": 143.36, + "grad_norm": 0.36328125, + "learning_rate": 0.0002962778027986836, + "loss": 0.4777, + "step": 53760 + }, + { + "epoch": 143.38666666666666, + "grad_norm": 0.345703125, + "learning_rate": 0.0002962764107078537, + "loss": 0.4699, + "step": 53770 + }, + { + "epoch": 143.41333333333333, + "grad_norm": 0.34765625, + "learning_rate": 0.00029627501836002523, + "loss": 0.4746, + "step": 53780 + }, + { + "epoch": 143.44, + "grad_norm": 0.287109375, + "learning_rate": 0.0002962736257552006, + "loss": 0.4771, + "step": 53790 + }, + { + "epoch": 143.46666666666667, + "grad_norm": 0.296875, + "learning_rate": 0.0002962722328933822, + "loss": 0.4868, + "step": 53800 + }, + { + "epoch": 143.49333333333334, + "grad_norm": 0.32421875, + "learning_rate": 0.0002962708397745726, + "loss": 0.4779, + "step": 53810 + }, + { + "epoch": 143.52, + "grad_norm": 0.337890625, + "learning_rate": 0.0002962694463987741, + "loss": 0.4726, + "step": 53820 + }, + { + "epoch": 143.54666666666665, + "grad_norm": 0.318359375, + "learning_rate": 0.0002962680527659893, + "loss": 0.4689, + "step": 53830 + }, + { + "epoch": 143.57333333333332, + "grad_norm": 0.251953125, + "learning_rate": 0.0002962666588762206, + "loss": 0.4682, + "step": 53840 + }, + { + "epoch": 143.6, + "grad_norm": 0.314453125, + "learning_rate": 0.00029626526472947037, + "loss": 0.4626, + "step": 53850 + }, + { + "epoch": 143.62666666666667, + "grad_norm": 0.408203125, + "learning_rate": 0.00029626387032574117, + "loss": 0.4487, + "step": 53860 + }, + { + "epoch": 143.65333333333334, + "grad_norm": 0.359375, + "learning_rate": 0.00029626247566503534, + "loss": 0.4684, + "step": 53870 + }, + { + "epoch": 143.68, + "grad_norm": 0.2578125, + "learning_rate": 0.00029626108074735545, + "loss": 0.46, + "step": 53880 + }, + { + "epoch": 143.70666666666668, + "grad_norm": 0.34765625, + "learning_rate": 0.00029625968557270386, + "loss": 0.4596, + "step": 53890 + }, + { + "epoch": 143.73333333333332, + "grad_norm": 0.359375, + "learning_rate": 0.000296258290141083, + "loss": 0.4787, + "step": 53900 + }, + { + "epoch": 143.76, + "grad_norm": 0.306640625, + "learning_rate": 0.0002962568944524954, + "loss": 0.4809, + "step": 53910 + }, + { + "epoch": 143.78666666666666, + "grad_norm": 0.26171875, + "learning_rate": 0.00029625549850694356, + "loss": 0.4796, + "step": 53920 + }, + { + "epoch": 143.81333333333333, + "grad_norm": 0.34765625, + "learning_rate": 0.00029625410230442977, + "loss": 0.464, + "step": 53930 + }, + { + "epoch": 143.84, + "grad_norm": 0.330078125, + "learning_rate": 0.00029625270584495664, + "loss": 0.4704, + "step": 53940 + }, + { + "epoch": 143.86666666666667, + "grad_norm": 0.390625, + "learning_rate": 0.0002962513091285265, + "loss": 0.4687, + "step": 53950 + }, + { + "epoch": 143.89333333333335, + "grad_norm": 0.3984375, + "learning_rate": 0.00029624991215514184, + "loss": 0.4605, + "step": 53960 + }, + { + "epoch": 143.92, + "grad_norm": 0.318359375, + "learning_rate": 0.00029624851492480515, + "loss": 0.4708, + "step": 53970 + }, + { + "epoch": 143.94666666666666, + "grad_norm": 0.36328125, + "learning_rate": 0.0002962471174375189, + "loss": 0.4638, + "step": 53980 + }, + { + "epoch": 143.97333333333333, + "grad_norm": 0.380859375, + "learning_rate": 0.00029624571969328543, + "loss": 0.4742, + "step": 53990 + }, + { + "epoch": 144.0, + "grad_norm": 0.330078125, + "learning_rate": 0.0002962443216921074, + "loss": 0.4636, + "step": 54000 + }, + { + "epoch": 144.0, + "eval_loss": 0.4806298017501831, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.7466, + "eval_samples_per_second": 1.489, + "eval_steps_per_second": 0.093, + "step": 54000 + }, + { + "epoch": 144.02666666666667, + "grad_norm": 0.291015625, + "learning_rate": 0.0002962429234339871, + "loss": 0.4834, + "step": 54010 + }, + { + "epoch": 144.05333333333334, + "grad_norm": 0.333984375, + "learning_rate": 0.00029624152491892694, + "loss": 0.4897, + "step": 54020 + }, + { + "epoch": 144.08, + "grad_norm": 0.287109375, + "learning_rate": 0.00029624012614692957, + "loss": 0.4766, + "step": 54030 + }, + { + "epoch": 144.10666666666665, + "grad_norm": 0.2734375, + "learning_rate": 0.0002962387271179973, + "loss": 0.4718, + "step": 54040 + }, + { + "epoch": 144.13333333333333, + "grad_norm": 0.404296875, + "learning_rate": 0.0002962373278321326, + "loss": 0.4734, + "step": 54050 + }, + { + "epoch": 144.16, + "grad_norm": 0.337890625, + "learning_rate": 0.00029623592828933803, + "loss": 0.4773, + "step": 54060 + }, + { + "epoch": 144.18666666666667, + "grad_norm": 0.310546875, + "learning_rate": 0.00029623452848961593, + "loss": 0.4699, + "step": 54070 + }, + { + "epoch": 144.21333333333334, + "grad_norm": 0.3046875, + "learning_rate": 0.00029623312843296887, + "loss": 0.4645, + "step": 54080 + }, + { + "epoch": 144.24, + "grad_norm": 0.296875, + "learning_rate": 0.0002962317281193992, + "loss": 0.4681, + "step": 54090 + }, + { + "epoch": 144.26666666666668, + "grad_norm": 0.384765625, + "learning_rate": 0.00029623032754890947, + "loss": 0.4728, + "step": 54100 + }, + { + "epoch": 144.29333333333332, + "grad_norm": 0.51171875, + "learning_rate": 0.00029622892672150205, + "loss": 0.4667, + "step": 54110 + }, + { + "epoch": 144.32, + "grad_norm": 0.287109375, + "learning_rate": 0.00029622752563717943, + "loss": 0.4703, + "step": 54120 + }, + { + "epoch": 144.34666666666666, + "grad_norm": 0.298828125, + "learning_rate": 0.00029622612429594416, + "loss": 0.4781, + "step": 54130 + }, + { + "epoch": 144.37333333333333, + "grad_norm": 0.322265625, + "learning_rate": 0.0002962247226977986, + "loss": 0.4743, + "step": 54140 + }, + { + "epoch": 144.4, + "grad_norm": 0.423828125, + "learning_rate": 0.00029622332084274525, + "loss": 0.4711, + "step": 54150 + }, + { + "epoch": 144.42666666666668, + "grad_norm": 0.359375, + "learning_rate": 0.0002962219187307866, + "loss": 0.4769, + "step": 54160 + }, + { + "epoch": 144.45333333333335, + "grad_norm": 0.265625, + "learning_rate": 0.0002962205163619251, + "loss": 0.4793, + "step": 54170 + }, + { + "epoch": 144.48, + "grad_norm": 0.357421875, + "learning_rate": 0.00029621911373616314, + "loss": 0.4857, + "step": 54180 + }, + { + "epoch": 144.50666666666666, + "grad_norm": 0.28125, + "learning_rate": 0.0002962177108535032, + "loss": 0.475, + "step": 54190 + }, + { + "epoch": 144.53333333333333, + "grad_norm": 0.29296875, + "learning_rate": 0.0002962163077139479, + "loss": 0.4688, + "step": 54200 + }, + { + "epoch": 144.56, + "grad_norm": 0.42578125, + "learning_rate": 0.0002962149043174995, + "loss": 0.4697, + "step": 54210 + }, + { + "epoch": 144.58666666666667, + "grad_norm": 0.373046875, + "learning_rate": 0.0002962135006641606, + "loss": 0.4656, + "step": 54220 + }, + { + "epoch": 144.61333333333334, + "grad_norm": 0.25390625, + "learning_rate": 0.00029621209675393366, + "loss": 0.4519, + "step": 54230 + }, + { + "epoch": 144.64, + "grad_norm": 0.2578125, + "learning_rate": 0.00029621069258682105, + "loss": 0.4568, + "step": 54240 + }, + { + "epoch": 144.66666666666666, + "grad_norm": 0.2890625, + "learning_rate": 0.00029620928816282533, + "loss": 0.4718, + "step": 54250 + }, + { + "epoch": 144.69333333333333, + "grad_norm": 0.25390625, + "learning_rate": 0.0002962078834819489, + "loss": 0.4548, + "step": 54260 + }, + { + "epoch": 144.72, + "grad_norm": 0.318359375, + "learning_rate": 0.0002962064785441943, + "loss": 0.472, + "step": 54270 + }, + { + "epoch": 144.74666666666667, + "grad_norm": 0.333984375, + "learning_rate": 0.00029620507334956396, + "loss": 0.4762, + "step": 54280 + }, + { + "epoch": 144.77333333333334, + "grad_norm": 0.40234375, + "learning_rate": 0.00029620366789806035, + "loss": 0.4842, + "step": 54290 + }, + { + "epoch": 144.8, + "grad_norm": 0.3671875, + "learning_rate": 0.0002962022621896859, + "loss": 0.4709, + "step": 54300 + }, + { + "epoch": 144.82666666666665, + "grad_norm": 0.380859375, + "learning_rate": 0.0002962008562244431, + "loss": 0.4649, + "step": 54310 + }, + { + "epoch": 144.85333333333332, + "grad_norm": 0.38671875, + "learning_rate": 0.0002961994500023345, + "loss": 0.4743, + "step": 54320 + }, + { + "epoch": 144.88, + "grad_norm": 0.359375, + "learning_rate": 0.00029619804352336255, + "loss": 0.4627, + "step": 54330 + }, + { + "epoch": 144.90666666666667, + "grad_norm": 0.361328125, + "learning_rate": 0.0002961966367875296, + "loss": 0.4651, + "step": 54340 + }, + { + "epoch": 144.93333333333334, + "grad_norm": 0.302734375, + "learning_rate": 0.00029619522979483823, + "loss": 0.4662, + "step": 54350 + }, + { + "epoch": 144.96, + "grad_norm": 0.40625, + "learning_rate": 0.0002961938225452909, + "loss": 0.4642, + "step": 54360 + }, + { + "epoch": 144.98666666666668, + "grad_norm": 0.349609375, + "learning_rate": 0.00029619241503889006, + "loss": 0.4787, + "step": 54370 + }, + { + "epoch": 145.0, + "eval_loss": 0.4806334376335144, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.935, + "eval_samples_per_second": 1.463, + "eval_steps_per_second": 0.091, + "step": 54375 + }, + { + "epoch": 145.01333333333332, + "grad_norm": 0.30859375, + "learning_rate": 0.0002961910072756382, + "loss": 0.4674, + "step": 54380 + }, + { + "epoch": 145.04, + "grad_norm": 0.287109375, + "learning_rate": 0.0002961895992555378, + "loss": 0.4921, + "step": 54390 + }, + { + "epoch": 145.06666666666666, + "grad_norm": 0.470703125, + "learning_rate": 0.00029618819097859125, + "loss": 0.4797, + "step": 54400 + }, + { + "epoch": 145.09333333333333, + "grad_norm": 0.306640625, + "learning_rate": 0.0002961867824448011, + "loss": 0.4738, + "step": 54410 + }, + { + "epoch": 145.12, + "grad_norm": 0.458984375, + "learning_rate": 0.00029618537365416986, + "loss": 0.4707, + "step": 54420 + }, + { + "epoch": 145.14666666666668, + "grad_norm": 0.396484375, + "learning_rate": 0.00029618396460669996, + "loss": 0.4792, + "step": 54430 + }, + { + "epoch": 145.17333333333335, + "grad_norm": 0.3984375, + "learning_rate": 0.00029618255530239383, + "loss": 0.4699, + "step": 54440 + }, + { + "epoch": 145.2, + "grad_norm": 0.306640625, + "learning_rate": 0.00029618114574125404, + "loss": 0.4681, + "step": 54450 + }, + { + "epoch": 145.22666666666666, + "grad_norm": 0.314453125, + "learning_rate": 0.000296179735923283, + "loss": 0.4654, + "step": 54460 + }, + { + "epoch": 145.25333333333333, + "grad_norm": 0.31640625, + "learning_rate": 0.0002961783258484832, + "loss": 0.4662, + "step": 54470 + }, + { + "epoch": 145.28, + "grad_norm": 0.515625, + "learning_rate": 0.00029617691551685714, + "loss": 0.4791, + "step": 54480 + }, + { + "epoch": 145.30666666666667, + "grad_norm": 0.33984375, + "learning_rate": 0.0002961755049284073, + "loss": 0.4603, + "step": 54490 + }, + { + "epoch": 145.33333333333334, + "grad_norm": 0.3828125, + "learning_rate": 0.0002961740940831361, + "loss": 0.4757, + "step": 54500 + }, + { + "epoch": 145.36, + "grad_norm": 0.357421875, + "learning_rate": 0.00029617268298104605, + "loss": 0.4782, + "step": 54510 + }, + { + "epoch": 145.38666666666666, + "grad_norm": 0.423828125, + "learning_rate": 0.0002961712716221397, + "loss": 0.4692, + "step": 54520 + }, + { + "epoch": 145.41333333333333, + "grad_norm": 0.443359375, + "learning_rate": 0.0002961698600064194, + "loss": 0.4741, + "step": 54530 + }, + { + "epoch": 145.44, + "grad_norm": 0.2578125, + "learning_rate": 0.0002961684481338878, + "loss": 0.4767, + "step": 54540 + }, + { + "epoch": 145.46666666666667, + "grad_norm": 0.38671875, + "learning_rate": 0.0002961670360045472, + "loss": 0.4865, + "step": 54550 + }, + { + "epoch": 145.49333333333334, + "grad_norm": 0.3203125, + "learning_rate": 0.0002961656236184001, + "loss": 0.4771, + "step": 54560 + }, + { + "epoch": 145.52, + "grad_norm": 0.287109375, + "learning_rate": 0.00029616421097544915, + "loss": 0.4718, + "step": 54570 + }, + { + "epoch": 145.54666666666665, + "grad_norm": 0.2890625, + "learning_rate": 0.00029616279807569666, + "loss": 0.4694, + "step": 54580 + }, + { + "epoch": 145.57333333333332, + "grad_norm": 0.2333984375, + "learning_rate": 0.00029616138491914514, + "loss": 0.4682, + "step": 54590 + }, + { + "epoch": 145.6, + "grad_norm": 0.400390625, + "learning_rate": 0.0002961599715057972, + "loss": 0.4621, + "step": 54600 + }, + { + "epoch": 145.62666666666667, + "grad_norm": 0.400390625, + "learning_rate": 0.0002961585578356552, + "loss": 0.4486, + "step": 54610 + }, + { + "epoch": 145.65333333333334, + "grad_norm": 0.392578125, + "learning_rate": 0.00029615714390872165, + "loss": 0.4683, + "step": 54620 + }, + { + "epoch": 145.68, + "grad_norm": 0.34765625, + "learning_rate": 0.00029615572972499905, + "loss": 0.4594, + "step": 54630 + }, + { + "epoch": 145.70666666666668, + "grad_norm": 0.431640625, + "learning_rate": 0.0002961543152844899, + "loss": 0.4596, + "step": 54640 + }, + { + "epoch": 145.73333333333332, + "grad_norm": 0.322265625, + "learning_rate": 0.00029615290058719655, + "loss": 0.4798, + "step": 54650 + }, + { + "epoch": 145.76, + "grad_norm": 0.3359375, + "learning_rate": 0.0002961514856331217, + "loss": 0.48, + "step": 54660 + }, + { + "epoch": 145.78666666666666, + "grad_norm": 0.404296875, + "learning_rate": 0.0002961500704222677, + "loss": 0.4795, + "step": 54670 + }, + { + "epoch": 145.81333333333333, + "grad_norm": 0.34765625, + "learning_rate": 0.00029614865495463706, + "loss": 0.4644, + "step": 54680 + }, + { + "epoch": 145.84, + "grad_norm": 0.5078125, + "learning_rate": 0.00029614723923023227, + "loss": 0.47, + "step": 54690 + }, + { + "epoch": 145.86666666666667, + "grad_norm": 0.39453125, + "learning_rate": 0.00029614582324905583, + "loss": 0.4696, + "step": 54700 + }, + { + "epoch": 145.89333333333335, + "grad_norm": 0.24609375, + "learning_rate": 0.00029614440701111023, + "loss": 0.46, + "step": 54710 + }, + { + "epoch": 145.92, + "grad_norm": 0.333984375, + "learning_rate": 0.0002961429905163979, + "loss": 0.4713, + "step": 54720 + }, + { + "epoch": 145.94666666666666, + "grad_norm": 0.314453125, + "learning_rate": 0.00029614157376492146, + "loss": 0.4628, + "step": 54730 + }, + { + "epoch": 145.97333333333333, + "grad_norm": 0.310546875, + "learning_rate": 0.00029614015675668323, + "loss": 0.4747, + "step": 54740 + }, + { + "epoch": 146.0, + "grad_norm": 0.333984375, + "learning_rate": 0.0002961387394916858, + "loss": 0.4641, + "step": 54750 + }, + { + "epoch": 146.0, + "eval_loss": 0.47998303174972534, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.6278, + "eval_samples_per_second": 1.662, + "eval_steps_per_second": 0.104, + "step": 54750 + }, + { + "epoch": 146.02666666666667, + "grad_norm": 0.326171875, + "learning_rate": 0.0002961373219699317, + "loss": 0.4833, + "step": 54760 + }, + { + "epoch": 146.05333333333334, + "grad_norm": 0.291015625, + "learning_rate": 0.0002961359041914233, + "loss": 0.4892, + "step": 54770 + }, + { + "epoch": 146.08, + "grad_norm": 0.41015625, + "learning_rate": 0.0002961344861561632, + "loss": 0.4762, + "step": 54780 + }, + { + "epoch": 146.10666666666665, + "grad_norm": 0.345703125, + "learning_rate": 0.0002961330678641539, + "loss": 0.4708, + "step": 54790 + }, + { + "epoch": 146.13333333333333, + "grad_norm": 0.369140625, + "learning_rate": 0.0002961316493153977, + "loss": 0.4731, + "step": 54800 + }, + { + "epoch": 146.16, + "grad_norm": 0.3046875, + "learning_rate": 0.00029613023050989733, + "loss": 0.4775, + "step": 54810 + }, + { + "epoch": 146.18666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.00029612881144765516, + "loss": 0.4692, + "step": 54820 + }, + { + "epoch": 146.21333333333334, + "grad_norm": 0.49609375, + "learning_rate": 0.0002961273921286737, + "loss": 0.464, + "step": 54830 + }, + { + "epoch": 146.24, + "grad_norm": 0.298828125, + "learning_rate": 0.0002961259725529555, + "loss": 0.4674, + "step": 54840 + }, + { + "epoch": 146.26666666666668, + "grad_norm": 0.2734375, + "learning_rate": 0.0002961245527205029, + "loss": 0.4721, + "step": 54850 + }, + { + "epoch": 146.29333333333332, + "grad_norm": 0.310546875, + "learning_rate": 0.0002961231326313186, + "loss": 0.4666, + "step": 54860 + }, + { + "epoch": 146.32, + "grad_norm": 0.328125, + "learning_rate": 0.0002961217122854049, + "loss": 0.4697, + "step": 54870 + }, + { + "epoch": 146.34666666666666, + "grad_norm": 0.3046875, + "learning_rate": 0.00029612029168276445, + "loss": 0.4776, + "step": 54880 + }, + { + "epoch": 146.37333333333333, + "grad_norm": 0.455078125, + "learning_rate": 0.0002961188708233997, + "loss": 0.4741, + "step": 54890 + }, + { + "epoch": 146.4, + "grad_norm": 0.345703125, + "learning_rate": 0.00029611744970731315, + "loss": 0.47, + "step": 54900 + }, + { + "epoch": 146.42666666666668, + "grad_norm": 0.310546875, + "learning_rate": 0.00029611602833450723, + "loss": 0.4773, + "step": 54910 + }, + { + "epoch": 146.45333333333335, + "grad_norm": 0.365234375, + "learning_rate": 0.00029611460670498453, + "loss": 0.479, + "step": 54920 + }, + { + "epoch": 146.48, + "grad_norm": 0.37890625, + "learning_rate": 0.00029611318481874747, + "loss": 0.4848, + "step": 54930 + }, + { + "epoch": 146.50666666666666, + "grad_norm": 0.265625, + "learning_rate": 0.0002961117626757986, + "loss": 0.4746, + "step": 54940 + }, + { + "epoch": 146.53333333333333, + "grad_norm": 0.310546875, + "learning_rate": 0.0002961103402761404, + "loss": 0.4685, + "step": 54950 + }, + { + "epoch": 146.56, + "grad_norm": 0.291015625, + "learning_rate": 0.00029610891761977536, + "loss": 0.4695, + "step": 54960 + }, + { + "epoch": 146.58666666666667, + "grad_norm": 0.373046875, + "learning_rate": 0.000296107494706706, + "loss": 0.4652, + "step": 54970 + }, + { + "epoch": 146.61333333333334, + "grad_norm": 0.349609375, + "learning_rate": 0.00029610607153693477, + "loss": 0.4521, + "step": 54980 + }, + { + "epoch": 146.64, + "grad_norm": 0.490234375, + "learning_rate": 0.00029610464811046427, + "loss": 0.4565, + "step": 54990 + }, + { + "epoch": 146.66666666666666, + "grad_norm": 0.392578125, + "learning_rate": 0.0002961032244272969, + "loss": 0.4725, + "step": 55000 + }, + { + "epoch": 146.69333333333333, + "grad_norm": 0.29296875, + "learning_rate": 0.00029610180048743524, + "loss": 0.4555, + "step": 55010 + }, + { + "epoch": 146.72, + "grad_norm": 0.296875, + "learning_rate": 0.00029610037629088174, + "loss": 0.4717, + "step": 55020 + }, + { + "epoch": 146.74666666666667, + "grad_norm": 0.419921875, + "learning_rate": 0.0002960989518376389, + "loss": 0.4765, + "step": 55030 + }, + { + "epoch": 146.77333333333334, + "grad_norm": 0.64453125, + "learning_rate": 0.0002960975271277092, + "loss": 0.4843, + "step": 55040 + }, + { + "epoch": 146.8, + "grad_norm": 0.3828125, + "learning_rate": 0.00029609610216109526, + "loss": 0.471, + "step": 55050 + }, + { + "epoch": 146.82666666666665, + "grad_norm": 0.412109375, + "learning_rate": 0.0002960946769377995, + "loss": 0.4655, + "step": 55060 + }, + { + "epoch": 146.85333333333332, + "grad_norm": 0.353515625, + "learning_rate": 0.0002960932514578244, + "loss": 0.4744, + "step": 55070 + }, + { + "epoch": 146.88, + "grad_norm": 0.3125, + "learning_rate": 0.0002960918257211725, + "loss": 0.4625, + "step": 55080 + }, + { + "epoch": 146.90666666666667, + "grad_norm": 0.40625, + "learning_rate": 0.0002960903997278463, + "loss": 0.465, + "step": 55090 + }, + { + "epoch": 146.93333333333334, + "grad_norm": 0.31640625, + "learning_rate": 0.0002960889734778483, + "loss": 0.4671, + "step": 55100 + }, + { + "epoch": 146.96, + "grad_norm": 0.30078125, + "learning_rate": 0.000296087546971181, + "loss": 0.4649, + "step": 55110 + }, + { + "epoch": 146.98666666666668, + "grad_norm": 0.4921875, + "learning_rate": 0.0002960861202078469, + "loss": 0.4779, + "step": 55120 + }, + { + "epoch": 147.0, + "eval_loss": 0.4791259765625, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 12.1587, + "eval_samples_per_second": 1.316, + "eval_steps_per_second": 0.082, + "step": 55125 + }, + { + "epoch": 147.01333333333332, + "grad_norm": 0.275390625, + "learning_rate": 0.0002960846931878486, + "loss": 0.4683, + "step": 55130 + }, + { + "epoch": 147.04, + "grad_norm": 0.40625, + "learning_rate": 0.0002960832659111885, + "loss": 0.4919, + "step": 55140 + }, + { + "epoch": 147.06666666666666, + "grad_norm": 0.373046875, + "learning_rate": 0.0002960818383778691, + "loss": 0.4797, + "step": 55150 + }, + { + "epoch": 147.09333333333333, + "grad_norm": 0.373046875, + "learning_rate": 0.00029608041058789295, + "loss": 0.4741, + "step": 55160 + }, + { + "epoch": 147.12, + "grad_norm": 0.33203125, + "learning_rate": 0.0002960789825412626, + "loss": 0.4707, + "step": 55170 + }, + { + "epoch": 147.14666666666668, + "grad_norm": 0.263671875, + "learning_rate": 0.0002960775542379805, + "loss": 0.4788, + "step": 55180 + }, + { + "epoch": 147.17333333333335, + "grad_norm": 0.375, + "learning_rate": 0.0002960761256780492, + "loss": 0.4701, + "step": 55190 + }, + { + "epoch": 147.2, + "grad_norm": 0.33203125, + "learning_rate": 0.0002960746968614711, + "loss": 0.4677, + "step": 55200 + }, + { + "epoch": 147.22666666666666, + "grad_norm": 0.404296875, + "learning_rate": 0.0002960732677882488, + "loss": 0.466, + "step": 55210 + }, + { + "epoch": 147.25333333333333, + "grad_norm": 0.337890625, + "learning_rate": 0.0002960718384583849, + "loss": 0.4659, + "step": 55220 + }, + { + "epoch": 147.28, + "grad_norm": 0.283203125, + "learning_rate": 0.0002960704088718817, + "loss": 0.4787, + "step": 55230 + }, + { + "epoch": 147.30666666666667, + "grad_norm": 0.255859375, + "learning_rate": 0.00029606897902874195, + "loss": 0.4604, + "step": 55240 + }, + { + "epoch": 147.33333333333334, + "grad_norm": 0.400390625, + "learning_rate": 0.00029606754892896794, + "loss": 0.4756, + "step": 55250 + }, + { + "epoch": 147.36, + "grad_norm": 0.306640625, + "learning_rate": 0.0002960661185725623, + "loss": 0.4776, + "step": 55260 + }, + { + "epoch": 147.38666666666666, + "grad_norm": 0.3828125, + "learning_rate": 0.0002960646879595276, + "loss": 0.4692, + "step": 55270 + }, + { + "epoch": 147.41333333333333, + "grad_norm": 0.47265625, + "learning_rate": 0.0002960632570898662, + "loss": 0.474, + "step": 55280 + }, + { + "epoch": 147.44, + "grad_norm": 0.419921875, + "learning_rate": 0.0002960618259635807, + "loss": 0.4773, + "step": 55290 + }, + { + "epoch": 147.46666666666667, + "grad_norm": 0.271484375, + "learning_rate": 0.0002960603945806736, + "loss": 0.4863, + "step": 55300 + }, + { + "epoch": 147.49333333333334, + "grad_norm": 0.36328125, + "learning_rate": 0.0002960589629411475, + "loss": 0.4775, + "step": 55310 + }, + { + "epoch": 147.52, + "grad_norm": 0.390625, + "learning_rate": 0.00029605753104500475, + "loss": 0.4723, + "step": 55320 + }, + { + "epoch": 147.54666666666665, + "grad_norm": 0.44140625, + "learning_rate": 0.00029605609889224796, + "loss": 0.4683, + "step": 55330 + }, + { + "epoch": 147.57333333333332, + "grad_norm": 0.275390625, + "learning_rate": 0.0002960546664828797, + "loss": 0.4674, + "step": 55340 + }, + { + "epoch": 147.6, + "grad_norm": 0.462890625, + "learning_rate": 0.0002960532338169024, + "loss": 0.461, + "step": 55350 + }, + { + "epoch": 147.62666666666667, + "grad_norm": 0.287109375, + "learning_rate": 0.00029605180089431856, + "loss": 0.4488, + "step": 55360 + }, + { + "epoch": 147.65333333333334, + "grad_norm": 0.423828125, + "learning_rate": 0.00029605036771513076, + "loss": 0.4688, + "step": 55370 + }, + { + "epoch": 147.68, + "grad_norm": 0.345703125, + "learning_rate": 0.00029604893427934154, + "loss": 0.4596, + "step": 55380 + }, + { + "epoch": 147.70666666666668, + "grad_norm": 0.31640625, + "learning_rate": 0.00029604750058695337, + "loss": 0.4607, + "step": 55390 + }, + { + "epoch": 147.73333333333332, + "grad_norm": 0.390625, + "learning_rate": 0.00029604606663796875, + "loss": 0.4796, + "step": 55400 + }, + { + "epoch": 147.76, + "grad_norm": 0.361328125, + "learning_rate": 0.0002960446324323902, + "loss": 0.4801, + "step": 55410 + }, + { + "epoch": 147.78666666666666, + "grad_norm": 0.333984375, + "learning_rate": 0.0002960431979702203, + "loss": 0.4793, + "step": 55420 + }, + { + "epoch": 147.81333333333333, + "grad_norm": 0.40625, + "learning_rate": 0.0002960417632514615, + "loss": 0.4646, + "step": 55430 + }, + { + "epoch": 147.84, + "grad_norm": 0.36328125, + "learning_rate": 0.0002960403282761164, + "loss": 0.4702, + "step": 55440 + }, + { + "epoch": 147.86666666666667, + "grad_norm": 0.26171875, + "learning_rate": 0.00029603889304418747, + "loss": 0.4688, + "step": 55450 + }, + { + "epoch": 147.89333333333335, + "grad_norm": 0.35546875, + "learning_rate": 0.00029603745755567724, + "loss": 0.4601, + "step": 55460 + }, + { + "epoch": 147.92, + "grad_norm": 0.3125, + "learning_rate": 0.00029603602181058823, + "loss": 0.4701, + "step": 55470 + }, + { + "epoch": 147.94666666666666, + "grad_norm": 0.271484375, + "learning_rate": 0.00029603458580892294, + "loss": 0.4625, + "step": 55480 + }, + { + "epoch": 147.97333333333333, + "grad_norm": 0.33984375, + "learning_rate": 0.0002960331495506839, + "loss": 0.4747, + "step": 55490 + }, + { + "epoch": 148.0, + "grad_norm": 0.29296875, + "learning_rate": 0.0002960317130358737, + "loss": 0.4637, + "step": 55500 + }, + { + "epoch": 148.0, + "eval_loss": 0.4773246943950653, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.3415, + "eval_samples_per_second": 1.547, + "eval_steps_per_second": 0.097, + "step": 55500 + }, + { + "epoch": 148.02666666666667, + "grad_norm": 0.353515625, + "learning_rate": 0.0002960302762644948, + "loss": 0.4839, + "step": 55510 + }, + { + "epoch": 148.05333333333334, + "grad_norm": 0.33984375, + "learning_rate": 0.0002960288392365497, + "loss": 0.4889, + "step": 55520 + }, + { + "epoch": 148.08, + "grad_norm": 0.337890625, + "learning_rate": 0.000296027401952041, + "loss": 0.4762, + "step": 55530 + }, + { + "epoch": 148.10666666666665, + "grad_norm": 0.298828125, + "learning_rate": 0.0002960259644109712, + "loss": 0.4714, + "step": 55540 + }, + { + "epoch": 148.13333333333333, + "grad_norm": 0.478515625, + "learning_rate": 0.0002960245266133428, + "loss": 0.4734, + "step": 55550 + }, + { + "epoch": 148.16, + "grad_norm": 0.41015625, + "learning_rate": 0.00029602308855915835, + "loss": 0.4773, + "step": 55560 + }, + { + "epoch": 148.18666666666667, + "grad_norm": 0.33203125, + "learning_rate": 0.0002960216502484203, + "loss": 0.4693, + "step": 55570 + }, + { + "epoch": 148.21333333333334, + "grad_norm": 0.31640625, + "learning_rate": 0.0002960202116811313, + "loss": 0.4633, + "step": 55580 + }, + { + "epoch": 148.24, + "grad_norm": 0.34765625, + "learning_rate": 0.00029601877285729384, + "loss": 0.4677, + "step": 55590 + }, + { + "epoch": 148.26666666666668, + "grad_norm": 0.2236328125, + "learning_rate": 0.00029601733377691044, + "loss": 0.4725, + "step": 55600 + }, + { + "epoch": 148.29333333333332, + "grad_norm": 0.390625, + "learning_rate": 0.00029601589443998356, + "loss": 0.4664, + "step": 55610 + }, + { + "epoch": 148.32, + "grad_norm": 0.26953125, + "learning_rate": 0.0002960144548465158, + "loss": 0.47, + "step": 55620 + }, + { + "epoch": 148.34666666666666, + "grad_norm": 0.404296875, + "learning_rate": 0.0002960130149965097, + "loss": 0.4777, + "step": 55630 + }, + { + "epoch": 148.37333333333333, + "grad_norm": 0.474609375, + "learning_rate": 0.00029601157488996777, + "loss": 0.4738, + "step": 55640 + }, + { + "epoch": 148.4, + "grad_norm": 0.361328125, + "learning_rate": 0.0002960101345268925, + "loss": 0.4714, + "step": 55650 + }, + { + "epoch": 148.42666666666668, + "grad_norm": 0.337890625, + "learning_rate": 0.00029600869390728645, + "loss": 0.476, + "step": 55660 + }, + { + "epoch": 148.45333333333335, + "grad_norm": 0.400390625, + "learning_rate": 0.00029600725303115217, + "loss": 0.4789, + "step": 55670 + }, + { + "epoch": 148.48, + "grad_norm": 0.3125, + "learning_rate": 0.00029600581189849224, + "loss": 0.4845, + "step": 55680 + }, + { + "epoch": 148.50666666666666, + "grad_norm": 0.35546875, + "learning_rate": 0.000296004370509309, + "loss": 0.4755, + "step": 55690 + }, + { + "epoch": 148.53333333333333, + "grad_norm": 0.392578125, + "learning_rate": 0.0002960029288636052, + "loss": 0.4682, + "step": 55700 + }, + { + "epoch": 148.56, + "grad_norm": 0.349609375, + "learning_rate": 0.0002960014869613833, + "loss": 0.4695, + "step": 55710 + }, + { + "epoch": 148.58666666666667, + "grad_norm": 0.275390625, + "learning_rate": 0.0002960000448026458, + "loss": 0.4649, + "step": 55720 + }, + { + "epoch": 148.61333333333334, + "grad_norm": 0.287109375, + "learning_rate": 0.00029599860238739524, + "loss": 0.4518, + "step": 55730 + }, + { + "epoch": 148.64, + "grad_norm": 0.283203125, + "learning_rate": 0.00029599715971563416, + "loss": 0.4569, + "step": 55740 + }, + { + "epoch": 148.66666666666666, + "grad_norm": 0.25, + "learning_rate": 0.0002959957167873651, + "loss": 0.4717, + "step": 55750 + }, + { + "epoch": 148.69333333333333, + "grad_norm": 0.333984375, + "learning_rate": 0.0002959942736025906, + "loss": 0.4557, + "step": 55760 + }, + { + "epoch": 148.72, + "grad_norm": 0.27734375, + "learning_rate": 0.0002959928301613132, + "loss": 0.4717, + "step": 55770 + }, + { + "epoch": 148.74666666666667, + "grad_norm": 0.3359375, + "learning_rate": 0.00029599138646353544, + "loss": 0.4761, + "step": 55780 + }, + { + "epoch": 148.77333333333334, + "grad_norm": 0.384765625, + "learning_rate": 0.00029598994250925985, + "loss": 0.484, + "step": 55790 + }, + { + "epoch": 148.8, + "grad_norm": 0.361328125, + "learning_rate": 0.00029598849829848896, + "loss": 0.4708, + "step": 55800 + }, + { + "epoch": 148.82666666666665, + "grad_norm": 0.3828125, + "learning_rate": 0.0002959870538312253, + "loss": 0.4648, + "step": 55810 + }, + { + "epoch": 148.85333333333332, + "grad_norm": 0.48828125, + "learning_rate": 0.0002959856091074714, + "loss": 0.4742, + "step": 55820 + }, + { + "epoch": 148.88, + "grad_norm": 0.26953125, + "learning_rate": 0.00029598416412722977, + "loss": 0.4623, + "step": 55830 + }, + { + "epoch": 148.90666666666667, + "grad_norm": 0.36328125, + "learning_rate": 0.0002959827188905031, + "loss": 0.4647, + "step": 55840 + }, + { + "epoch": 148.93333333333334, + "grad_norm": 0.337890625, + "learning_rate": 0.00029598127339729375, + "loss": 0.4666, + "step": 55850 + }, + { + "epoch": 148.96, + "grad_norm": 0.2578125, + "learning_rate": 0.0002959798276476044, + "loss": 0.4639, + "step": 55860 + }, + { + "epoch": 148.98666666666668, + "grad_norm": 0.283203125, + "learning_rate": 0.00029597838164143744, + "loss": 0.4785, + "step": 55870 + }, + { + "epoch": 149.0, + "eval_loss": 0.47737348079681396, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.2614, + "eval_samples_per_second": 1.559, + "eval_steps_per_second": 0.097, + "step": 55875 + }, + { + "epoch": 149.01333333333332, + "grad_norm": 0.33203125, + "learning_rate": 0.00029597693537879556, + "loss": 0.4675, + "step": 55880 + }, + { + "epoch": 149.04, + "grad_norm": 0.330078125, + "learning_rate": 0.00029597548885968117, + "loss": 0.492, + "step": 55890 + }, + { + "epoch": 149.06666666666666, + "grad_norm": 0.40234375, + "learning_rate": 0.0002959740420840969, + "loss": 0.4798, + "step": 55900 + }, + { + "epoch": 149.09333333333333, + "grad_norm": 0.2236328125, + "learning_rate": 0.0002959725950520453, + "loss": 0.4738, + "step": 55910 + }, + { + "epoch": 149.12, + "grad_norm": 0.36328125, + "learning_rate": 0.0002959711477635289, + "loss": 0.4702, + "step": 55920 + }, + { + "epoch": 149.14666666666668, + "grad_norm": 0.294921875, + "learning_rate": 0.0002959697002185502, + "loss": 0.479, + "step": 55930 + }, + { + "epoch": 149.17333333333335, + "grad_norm": 0.349609375, + "learning_rate": 0.0002959682524171117, + "loss": 0.4693, + "step": 55940 + }, + { + "epoch": 149.2, + "grad_norm": 0.34375, + "learning_rate": 0.0002959668043592161, + "loss": 0.4684, + "step": 55950 + }, + { + "epoch": 149.22666666666666, + "grad_norm": 0.337890625, + "learning_rate": 0.0002959653560448658, + "loss": 0.4652, + "step": 55960 + }, + { + "epoch": 149.25333333333333, + "grad_norm": 0.333984375, + "learning_rate": 0.0002959639074740634, + "loss": 0.4654, + "step": 55970 + }, + { + "epoch": 149.28, + "grad_norm": 0.318359375, + "learning_rate": 0.0002959624586468115, + "loss": 0.4793, + "step": 55980 + }, + { + "epoch": 149.30666666666667, + "grad_norm": 0.275390625, + "learning_rate": 0.00029596100956311253, + "loss": 0.4602, + "step": 55990 + }, + { + "epoch": 149.33333333333334, + "grad_norm": 0.365234375, + "learning_rate": 0.0002959595602229691, + "loss": 0.4766, + "step": 56000 + }, + { + "epoch": 149.36, + "grad_norm": 0.359375, + "learning_rate": 0.0002959581106263838, + "loss": 0.4777, + "step": 56010 + }, + { + "epoch": 149.38666666666666, + "grad_norm": 0.36328125, + "learning_rate": 0.0002959566607733591, + "loss": 0.4695, + "step": 56020 + }, + { + "epoch": 149.41333333333333, + "grad_norm": 0.294921875, + "learning_rate": 0.0002959552106638975, + "loss": 0.4742, + "step": 56030 + }, + { + "epoch": 149.44, + "grad_norm": 0.318359375, + "learning_rate": 0.00029595376029800175, + "loss": 0.4764, + "step": 56040 + }, + { + "epoch": 149.46666666666667, + "grad_norm": 0.396484375, + "learning_rate": 0.0002959523096756742, + "loss": 0.4864, + "step": 56050 + }, + { + "epoch": 149.49333333333334, + "grad_norm": 0.37109375, + "learning_rate": 0.0002959508587969175, + "loss": 0.4777, + "step": 56060 + }, + { + "epoch": 149.52, + "grad_norm": 0.30859375, + "learning_rate": 0.0002959494076617341, + "loss": 0.4719, + "step": 56070 + }, + { + "epoch": 149.54666666666665, + "grad_norm": 0.25390625, + "learning_rate": 0.0002959479562701267, + "loss": 0.4685, + "step": 56080 + }, + { + "epoch": 149.57333333333332, + "grad_norm": 0.314453125, + "learning_rate": 0.00029594650462209774, + "loss": 0.468, + "step": 56090 + }, + { + "epoch": 149.6, + "grad_norm": 0.30859375, + "learning_rate": 0.0002959450527176498, + "loss": 0.461, + "step": 56100 + }, + { + "epoch": 149.62666666666667, + "grad_norm": 0.271484375, + "learning_rate": 0.00029594360055678546, + "loss": 0.4487, + "step": 56110 + }, + { + "epoch": 149.65333333333334, + "grad_norm": 0.271484375, + "learning_rate": 0.0002959421481395072, + "loss": 0.4677, + "step": 56120 + }, + { + "epoch": 149.68, + "grad_norm": 0.271484375, + "learning_rate": 0.0002959406954658176, + "loss": 0.4598, + "step": 56130 + }, + { + "epoch": 149.70666666666668, + "grad_norm": 0.384765625, + "learning_rate": 0.00029593924253571926, + "loss": 0.4597, + "step": 56140 + }, + { + "epoch": 149.73333333333332, + "grad_norm": 0.31640625, + "learning_rate": 0.0002959377893492147, + "loss": 0.4794, + "step": 56150 + }, + { + "epoch": 149.76, + "grad_norm": 0.396484375, + "learning_rate": 0.00029593633590630647, + "loss": 0.4807, + "step": 56160 + }, + { + "epoch": 149.78666666666666, + "grad_norm": 0.353515625, + "learning_rate": 0.0002959348822069971, + "loss": 0.4794, + "step": 56170 + }, + { + "epoch": 149.81333333333333, + "grad_norm": 0.359375, + "learning_rate": 0.0002959334282512892, + "loss": 0.4643, + "step": 56180 + }, + { + "epoch": 149.84, + "grad_norm": 0.54296875, + "learning_rate": 0.0002959319740391853, + "loss": 0.47, + "step": 56190 + }, + { + "epoch": 149.86666666666667, + "grad_norm": 0.3671875, + "learning_rate": 0.00029593051957068787, + "loss": 0.4694, + "step": 56200 + }, + { + "epoch": 149.89333333333335, + "grad_norm": 0.23828125, + "learning_rate": 0.00029592906484579963, + "loss": 0.4607, + "step": 56210 + }, + { + "epoch": 149.92, + "grad_norm": 0.333984375, + "learning_rate": 0.000295927609864523, + "loss": 0.4705, + "step": 56220 + }, + { + "epoch": 149.94666666666666, + "grad_norm": 0.2431640625, + "learning_rate": 0.00029592615462686064, + "loss": 0.4632, + "step": 56230 + }, + { + "epoch": 149.97333333333333, + "grad_norm": 0.2578125, + "learning_rate": 0.00029592469913281504, + "loss": 0.4746, + "step": 56240 + }, + { + "epoch": 150.0, + "grad_norm": 0.302734375, + "learning_rate": 0.00029592324338238875, + "loss": 0.4636, + "step": 56250 + }, + { + "epoch": 150.0, + "eval_loss": 0.4786826968193054, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 11.265, + "eval_samples_per_second": 1.42, + "eval_steps_per_second": 0.089, + "step": 56250 + }, + { + "epoch": 150.02666666666667, + "grad_norm": 0.443359375, + "learning_rate": 0.00029592178737558437, + "loss": 0.4837, + "step": 56260 + }, + { + "epoch": 150.05333333333334, + "grad_norm": 0.3359375, + "learning_rate": 0.0002959203311124044, + "loss": 0.4892, + "step": 56270 + }, + { + "epoch": 150.08, + "grad_norm": 0.380859375, + "learning_rate": 0.0002959188745928515, + "loss": 0.4766, + "step": 56280 + }, + { + "epoch": 150.10666666666665, + "grad_norm": 0.287109375, + "learning_rate": 0.00029591741781692806, + "loss": 0.4712, + "step": 56290 + }, + { + "epoch": 150.13333333333333, + "grad_norm": 0.3203125, + "learning_rate": 0.00029591596078463686, + "loss": 0.4729, + "step": 56300 + }, + { + "epoch": 150.16, + "grad_norm": 0.37109375, + "learning_rate": 0.00029591450349598025, + "loss": 0.4763, + "step": 56310 + }, + { + "epoch": 150.18666666666667, + "grad_norm": 0.267578125, + "learning_rate": 0.0002959130459509609, + "loss": 0.469, + "step": 56320 + }, + { + "epoch": 150.21333333333334, + "grad_norm": 0.3828125, + "learning_rate": 0.0002959115881495814, + "loss": 0.4638, + "step": 56330 + }, + { + "epoch": 150.24, + "grad_norm": 0.275390625, + "learning_rate": 0.00029591013009184423, + "loss": 0.467, + "step": 56340 + }, + { + "epoch": 150.26666666666668, + "grad_norm": 0.39453125, + "learning_rate": 0.00029590867177775197, + "loss": 0.4718, + "step": 56350 + }, + { + "epoch": 150.29333333333332, + "grad_norm": 0.326171875, + "learning_rate": 0.0002959072132073072, + "loss": 0.4665, + "step": 56360 + }, + { + "epoch": 150.32, + "grad_norm": 0.384765625, + "learning_rate": 0.0002959057543805125, + "loss": 0.4695, + "step": 56370 + }, + { + "epoch": 150.34666666666666, + "grad_norm": 0.3046875, + "learning_rate": 0.0002959042952973705, + "loss": 0.4785, + "step": 56380 + }, + { + "epoch": 150.37333333333333, + "grad_norm": 0.408203125, + "learning_rate": 0.00029590283595788355, + "loss": 0.4736, + "step": 56390 + }, + { + "epoch": 150.4, + "grad_norm": 0.52734375, + "learning_rate": 0.0002959013763620544, + "loss": 0.4703, + "step": 56400 + }, + { + "epoch": 150.42666666666668, + "grad_norm": 0.41796875, + "learning_rate": 0.00029589991650988553, + "loss": 0.4769, + "step": 56410 + }, + { + "epoch": 150.45333333333335, + "grad_norm": 0.314453125, + "learning_rate": 0.0002958984564013796, + "loss": 0.4789, + "step": 56420 + }, + { + "epoch": 150.48, + "grad_norm": 0.4296875, + "learning_rate": 0.00029589699603653903, + "loss": 0.4849, + "step": 56430 + }, + { + "epoch": 150.50666666666666, + "grad_norm": 0.35546875, + "learning_rate": 0.0002958955354153665, + "loss": 0.4752, + "step": 56440 + }, + { + "epoch": 150.53333333333333, + "grad_norm": 0.3125, + "learning_rate": 0.00029589407453786454, + "loss": 0.4683, + "step": 56450 + }, + { + "epoch": 150.56, + "grad_norm": 0.294921875, + "learning_rate": 0.00029589261340403565, + "loss": 0.4696, + "step": 56460 + }, + { + "epoch": 150.58666666666667, + "grad_norm": 0.267578125, + "learning_rate": 0.0002958911520138826, + "loss": 0.4656, + "step": 56470 + }, + { + "epoch": 150.61333333333334, + "grad_norm": 0.30859375, + "learning_rate": 0.0002958896903674077, + "loss": 0.4516, + "step": 56480 + }, + { + "epoch": 150.64, + "grad_norm": 0.2578125, + "learning_rate": 0.00029588822846461367, + "loss": 0.4567, + "step": 56490 + }, + { + "epoch": 150.66666666666666, + "grad_norm": 0.275390625, + "learning_rate": 0.000295886766305503, + "loss": 0.4719, + "step": 56500 + }, + { + "epoch": 150.69333333333333, + "grad_norm": 0.330078125, + "learning_rate": 0.00029588530389007843, + "loss": 0.4552, + "step": 56510 + }, + { + "epoch": 150.72, + "grad_norm": 0.427734375, + "learning_rate": 0.0002958838412183423, + "loss": 0.472, + "step": 56520 + }, + { + "epoch": 150.74666666666667, + "grad_norm": 0.3203125, + "learning_rate": 0.00029588237829029733, + "loss": 0.4759, + "step": 56530 + }, + { + "epoch": 150.77333333333334, + "grad_norm": 0.35546875, + "learning_rate": 0.00029588091510594604, + "loss": 0.4832, + "step": 56540 + }, + { + "epoch": 150.8, + "grad_norm": 0.275390625, + "learning_rate": 0.00029587945166529103, + "loss": 0.4703, + "step": 56550 + }, + { + "epoch": 150.82666666666665, + "grad_norm": 0.3203125, + "learning_rate": 0.0002958779879683348, + "loss": 0.4654, + "step": 56560 + }, + { + "epoch": 150.85333333333332, + "grad_norm": 0.345703125, + "learning_rate": 0.00029587652401508, + "loss": 0.4736, + "step": 56570 + }, + { + "epoch": 150.88, + "grad_norm": 0.36328125, + "learning_rate": 0.0002958750598055292, + "loss": 0.4623, + "step": 56580 + }, + { + "epoch": 150.90666666666667, + "grad_norm": 0.400390625, + "learning_rate": 0.0002958735953396849, + "loss": 0.4646, + "step": 56590 + }, + { + "epoch": 150.93333333333334, + "grad_norm": 0.271484375, + "learning_rate": 0.0002958721306175497, + "loss": 0.4667, + "step": 56600 + }, + { + "epoch": 150.96, + "grad_norm": 0.306640625, + "learning_rate": 0.0002958706656391262, + "loss": 0.4644, + "step": 56610 + }, + { + "epoch": 150.98666666666668, + "grad_norm": 0.306640625, + "learning_rate": 0.000295869200404417, + "loss": 0.4788, + "step": 56620 + }, + { + "epoch": 151.0, + "eval_loss": 0.4782044291496277, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.4378, + "eval_samples_per_second": 1.533, + "eval_steps_per_second": 0.096, + "step": 56625 + }, + { + "epoch": 151.01333333333332, + "grad_norm": 0.384765625, + "learning_rate": 0.0002958677349134246, + "loss": 0.4672, + "step": 56630 + }, + { + "epoch": 151.04, + "grad_norm": 0.263671875, + "learning_rate": 0.00029586626916615165, + "loss": 0.4916, + "step": 56640 + }, + { + "epoch": 151.06666666666666, + "grad_norm": 0.40625, + "learning_rate": 0.0002958648031626006, + "loss": 0.4791, + "step": 56650 + }, + { + "epoch": 151.09333333333333, + "grad_norm": 0.3515625, + "learning_rate": 0.0002958633369027742, + "loss": 0.4737, + "step": 56660 + }, + { + "epoch": 151.12, + "grad_norm": 0.373046875, + "learning_rate": 0.0002958618703866749, + "loss": 0.4703, + "step": 56670 + }, + { + "epoch": 151.14666666666668, + "grad_norm": 0.412109375, + "learning_rate": 0.0002958604036143054, + "loss": 0.4782, + "step": 56680 + }, + { + "epoch": 151.17333333333335, + "grad_norm": 0.361328125, + "learning_rate": 0.0002958589365856681, + "loss": 0.4698, + "step": 56690 + }, + { + "epoch": 151.2, + "grad_norm": 0.2236328125, + "learning_rate": 0.0002958574693007657, + "loss": 0.4678, + "step": 56700 + }, + { + "epoch": 151.22666666666666, + "grad_norm": 0.3125, + "learning_rate": 0.00029585600175960076, + "loss": 0.466, + "step": 56710 + }, + { + "epoch": 151.25333333333333, + "grad_norm": 0.3203125, + "learning_rate": 0.0002958545339621758, + "loss": 0.4654, + "step": 56720 + }, + { + "epoch": 151.28, + "grad_norm": 0.333984375, + "learning_rate": 0.0002958530659084935, + "loss": 0.4796, + "step": 56730 + }, + { + "epoch": 151.30666666666667, + "grad_norm": 0.3515625, + "learning_rate": 0.0002958515975985564, + "loss": 0.4607, + "step": 56740 + }, + { + "epoch": 151.33333333333334, + "grad_norm": 0.2890625, + "learning_rate": 0.00029585012903236705, + "loss": 0.4753, + "step": 56750 + }, + { + "epoch": 151.36, + "grad_norm": 0.46484375, + "learning_rate": 0.000295848660209928, + "loss": 0.4776, + "step": 56760 + }, + { + "epoch": 151.38666666666666, + "grad_norm": 0.388671875, + "learning_rate": 0.0002958471911312419, + "loss": 0.469, + "step": 56770 + }, + { + "epoch": 151.41333333333333, + "grad_norm": 0.46484375, + "learning_rate": 0.00029584572179631134, + "loss": 0.4739, + "step": 56780 + }, + { + "epoch": 151.44, + "grad_norm": 0.34765625, + "learning_rate": 0.0002958442522051388, + "loss": 0.4766, + "step": 56790 + }, + { + "epoch": 151.46666666666667, + "grad_norm": 0.34375, + "learning_rate": 0.000295842782357727, + "loss": 0.4859, + "step": 56800 + }, + { + "epoch": 151.49333333333334, + "grad_norm": 0.39453125, + "learning_rate": 0.0002958413122540784, + "loss": 0.4778, + "step": 56810 + }, + { + "epoch": 151.52, + "grad_norm": 0.3359375, + "learning_rate": 0.00029583984189419563, + "loss": 0.4716, + "step": 56820 + }, + { + "epoch": 151.54666666666665, + "grad_norm": 0.3046875, + "learning_rate": 0.00029583837127808134, + "loss": 0.4689, + "step": 56830 + }, + { + "epoch": 151.57333333333332, + "grad_norm": 0.29296875, + "learning_rate": 0.00029583690040573804, + "loss": 0.4676, + "step": 56840 + }, + { + "epoch": 151.6, + "grad_norm": 0.341796875, + "learning_rate": 0.00029583542927716827, + "loss": 0.4618, + "step": 56850 + }, + { + "epoch": 151.62666666666667, + "grad_norm": 0.2734375, + "learning_rate": 0.00029583395789237475, + "loss": 0.4483, + "step": 56860 + }, + { + "epoch": 151.65333333333334, + "grad_norm": 0.326171875, + "learning_rate": 0.00029583248625136, + "loss": 0.4684, + "step": 56870 + }, + { + "epoch": 151.68, + "grad_norm": 0.314453125, + "learning_rate": 0.0002958310143541265, + "loss": 0.4596, + "step": 56880 + }, + { + "epoch": 151.70666666666668, + "grad_norm": 0.291015625, + "learning_rate": 0.00029582954220067694, + "loss": 0.4602, + "step": 56890 + }, + { + "epoch": 151.73333333333332, + "grad_norm": 0.32421875, + "learning_rate": 0.00029582806979101394, + "loss": 0.4789, + "step": 56900 + }, + { + "epoch": 151.76, + "grad_norm": 0.361328125, + "learning_rate": 0.00029582659712514003, + "loss": 0.4805, + "step": 56910 + }, + { + "epoch": 151.78666666666666, + "grad_norm": 0.4375, + "learning_rate": 0.0002958251242030578, + "loss": 0.4786, + "step": 56920 + }, + { + "epoch": 151.81333333333333, + "grad_norm": 0.4296875, + "learning_rate": 0.00029582365102476986, + "loss": 0.4642, + "step": 56930 + }, + { + "epoch": 151.84, + "grad_norm": 0.474609375, + "learning_rate": 0.0002958221775902788, + "loss": 0.4702, + "step": 56940 + }, + { + "epoch": 151.86666666666667, + "grad_norm": 0.380859375, + "learning_rate": 0.00029582070389958713, + "loss": 0.4694, + "step": 56950 + }, + { + "epoch": 151.89333333333335, + "grad_norm": 0.337890625, + "learning_rate": 0.00029581922995269757, + "loss": 0.4602, + "step": 56960 + }, + { + "epoch": 151.92, + "grad_norm": 0.361328125, + "learning_rate": 0.00029581775574961266, + "loss": 0.4706, + "step": 56970 + }, + { + "epoch": 151.94666666666666, + "grad_norm": 0.33203125, + "learning_rate": 0.0002958162812903349, + "loss": 0.4635, + "step": 56980 + }, + { + "epoch": 151.97333333333333, + "grad_norm": 0.326171875, + "learning_rate": 0.000295814806574867, + "loss": 0.4742, + "step": 56990 + }, + { + "epoch": 152.0, + "grad_norm": 0.4140625, + "learning_rate": 0.0002958133316032115, + "loss": 0.4633, + "step": 57000 + }, + { + "epoch": 152.0, + "eval_loss": 0.4801050126552582, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 11.088, + "eval_samples_per_second": 1.443, + "eval_steps_per_second": 0.09, + "step": 57000 + }, + { + "epoch": 152.02666666666667, + "grad_norm": 0.345703125, + "learning_rate": 0.000295811856375371, + "loss": 0.4835, + "step": 57010 + }, + { + "epoch": 152.05333333333334, + "grad_norm": 0.328125, + "learning_rate": 0.000295810380891348, + "loss": 0.4886, + "step": 57020 + }, + { + "epoch": 152.08, + "grad_norm": 0.314453125, + "learning_rate": 0.00029580890515114533, + "loss": 0.4753, + "step": 57030 + }, + { + "epoch": 152.10666666666665, + "grad_norm": 0.25390625, + "learning_rate": 0.00029580742915476536, + "loss": 0.471, + "step": 57040 + }, + { + "epoch": 152.13333333333333, + "grad_norm": 0.345703125, + "learning_rate": 0.00029580595290221076, + "loss": 0.4723, + "step": 57050 + }, + { + "epoch": 152.16, + "grad_norm": 0.298828125, + "learning_rate": 0.0002958044763934841, + "loss": 0.4767, + "step": 57060 + }, + { + "epoch": 152.18666666666667, + "grad_norm": 0.341796875, + "learning_rate": 0.00029580299962858803, + "loss": 0.4693, + "step": 57070 + }, + { + "epoch": 152.21333333333334, + "grad_norm": 0.388671875, + "learning_rate": 0.00029580152260752507, + "loss": 0.4642, + "step": 57080 + }, + { + "epoch": 152.24, + "grad_norm": 0.34765625, + "learning_rate": 0.00029580004533029787, + "loss": 0.4685, + "step": 57090 + }, + { + "epoch": 152.26666666666668, + "grad_norm": 0.30078125, + "learning_rate": 0.000295798567796909, + "loss": 0.4721, + "step": 57100 + }, + { + "epoch": 152.29333333333332, + "grad_norm": 0.296875, + "learning_rate": 0.0002957970900073611, + "loss": 0.4665, + "step": 57110 + }, + { + "epoch": 152.32, + "grad_norm": 0.265625, + "learning_rate": 0.0002957956119616567, + "loss": 0.4689, + "step": 57120 + }, + { + "epoch": 152.34666666666666, + "grad_norm": 0.314453125, + "learning_rate": 0.00029579413365979845, + "loss": 0.4782, + "step": 57130 + }, + { + "epoch": 152.37333333333333, + "grad_norm": 0.30859375, + "learning_rate": 0.0002957926551017889, + "loss": 0.4742, + "step": 57140 + }, + { + "epoch": 152.4, + "grad_norm": 0.28515625, + "learning_rate": 0.0002957911762876307, + "loss": 0.4696, + "step": 57150 + }, + { + "epoch": 152.42666666666668, + "grad_norm": 0.439453125, + "learning_rate": 0.00029578969721732643, + "loss": 0.4762, + "step": 57160 + }, + { + "epoch": 152.45333333333335, + "grad_norm": 0.33984375, + "learning_rate": 0.00029578821789087863, + "loss": 0.4787, + "step": 57170 + }, + { + "epoch": 152.48, + "grad_norm": 0.26953125, + "learning_rate": 0.00029578673830828997, + "loss": 0.4848, + "step": 57180 + }, + { + "epoch": 152.50666666666666, + "grad_norm": 0.279296875, + "learning_rate": 0.0002957852584695631, + "loss": 0.4744, + "step": 57190 + }, + { + "epoch": 152.53333333333333, + "grad_norm": 0.302734375, + "learning_rate": 0.0002957837783747005, + "loss": 0.4686, + "step": 57200 + }, + { + "epoch": 152.56, + "grad_norm": 0.361328125, + "learning_rate": 0.00029578229802370475, + "loss": 0.4699, + "step": 57210 + }, + { + "epoch": 152.58666666666667, + "grad_norm": 0.3671875, + "learning_rate": 0.0002957808174165786, + "loss": 0.4651, + "step": 57220 + }, + { + "epoch": 152.61333333333334, + "grad_norm": 0.30859375, + "learning_rate": 0.00029577933655332457, + "loss": 0.4511, + "step": 57230 + }, + { + "epoch": 152.64, + "grad_norm": 0.34765625, + "learning_rate": 0.00029577785543394525, + "loss": 0.4565, + "step": 57240 + }, + { + "epoch": 152.66666666666666, + "grad_norm": 0.3046875, + "learning_rate": 0.0002957763740584432, + "loss": 0.4722, + "step": 57250 + }, + { + "epoch": 152.69333333333333, + "grad_norm": 0.33203125, + "learning_rate": 0.0002957748924268212, + "loss": 0.4543, + "step": 57260 + }, + { + "epoch": 152.72, + "grad_norm": 0.283203125, + "learning_rate": 0.0002957734105390816, + "loss": 0.4716, + "step": 57270 + }, + { + "epoch": 152.74666666666667, + "grad_norm": 0.3828125, + "learning_rate": 0.0002957719283952272, + "loss": 0.4767, + "step": 57280 + }, + { + "epoch": 152.77333333333334, + "grad_norm": 0.384765625, + "learning_rate": 0.0002957704459952606, + "loss": 0.4836, + "step": 57290 + }, + { + "epoch": 152.8, + "grad_norm": 0.3828125, + "learning_rate": 0.0002957689633391842, + "loss": 0.4712, + "step": 57300 + }, + { + "epoch": 152.82666666666665, + "grad_norm": 0.310546875, + "learning_rate": 0.00029576748042700086, + "loss": 0.4655, + "step": 57310 + }, + { + "epoch": 152.85333333333332, + "grad_norm": 0.306640625, + "learning_rate": 0.000295765997258713, + "loss": 0.4742, + "step": 57320 + }, + { + "epoch": 152.88, + "grad_norm": 0.28125, + "learning_rate": 0.00029576451383432335, + "loss": 0.4624, + "step": 57330 + }, + { + "epoch": 152.90666666666667, + "grad_norm": 0.33984375, + "learning_rate": 0.0002957630301538345, + "loss": 0.4651, + "step": 57340 + }, + { + "epoch": 152.93333333333334, + "grad_norm": 0.251953125, + "learning_rate": 0.00029576154621724897, + "loss": 0.4671, + "step": 57350 + }, + { + "epoch": 152.96, + "grad_norm": 0.384765625, + "learning_rate": 0.0002957600620245694, + "loss": 0.464, + "step": 57360 + }, + { + "epoch": 152.98666666666668, + "grad_norm": 0.365234375, + "learning_rate": 0.00029575857757579846, + "loss": 0.4777, + "step": 57370 + }, + { + "epoch": 153.0, + "eval_loss": 0.4788782000541687, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.2479, + "eval_samples_per_second": 1.561, + "eval_steps_per_second": 0.098, + "step": 57375 + }, + { + "epoch": 153.01333333333332, + "grad_norm": 0.314453125, + "learning_rate": 0.0002957570928709387, + "loss": 0.4673, + "step": 57380 + }, + { + "epoch": 153.04, + "grad_norm": 0.3046875, + "learning_rate": 0.0002957556079099928, + "loss": 0.4914, + "step": 57390 + }, + { + "epoch": 153.06666666666666, + "grad_norm": 0.39453125, + "learning_rate": 0.00029575412269296317, + "loss": 0.4789, + "step": 57400 + }, + { + "epoch": 153.09333333333333, + "grad_norm": 0.26171875, + "learning_rate": 0.00029575263721985266, + "loss": 0.474, + "step": 57410 + }, + { + "epoch": 153.12, + "grad_norm": 0.287109375, + "learning_rate": 0.0002957511514906638, + "loss": 0.4703, + "step": 57420 + }, + { + "epoch": 153.14666666666668, + "grad_norm": 0.3671875, + "learning_rate": 0.00029574966550539915, + "loss": 0.4791, + "step": 57430 + }, + { + "epoch": 153.17333333333335, + "grad_norm": 0.34375, + "learning_rate": 0.00029574817926406136, + "loss": 0.4697, + "step": 57440 + }, + { + "epoch": 153.2, + "grad_norm": 0.3203125, + "learning_rate": 0.00029574669276665307, + "loss": 0.4679, + "step": 57450 + }, + { + "epoch": 153.22666666666666, + "grad_norm": 0.361328125, + "learning_rate": 0.00029574520601317677, + "loss": 0.4649, + "step": 57460 + }, + { + "epoch": 153.25333333333333, + "grad_norm": 0.353515625, + "learning_rate": 0.0002957437190036352, + "loss": 0.4655, + "step": 57470 + }, + { + "epoch": 153.28, + "grad_norm": 0.388671875, + "learning_rate": 0.00029574223173803093, + "loss": 0.4788, + "step": 57480 + }, + { + "epoch": 153.30666666666667, + "grad_norm": 0.3828125, + "learning_rate": 0.00029574074421636666, + "loss": 0.4605, + "step": 57490 + }, + { + "epoch": 153.33333333333334, + "grad_norm": 0.27734375, + "learning_rate": 0.00029573925643864484, + "loss": 0.4753, + "step": 57500 + }, + { + "epoch": 153.36, + "grad_norm": 0.27734375, + "learning_rate": 0.0002957377684048682, + "loss": 0.478, + "step": 57510 + }, + { + "epoch": 153.38666666666666, + "grad_norm": 0.4140625, + "learning_rate": 0.00029573628011503924, + "loss": 0.4689, + "step": 57520 + }, + { + "epoch": 153.41333333333333, + "grad_norm": 0.451171875, + "learning_rate": 0.00029573479156916067, + "loss": 0.4739, + "step": 57530 + }, + { + "epoch": 153.44, + "grad_norm": 0.2890625, + "learning_rate": 0.0002957333027672351, + "loss": 0.4773, + "step": 57540 + }, + { + "epoch": 153.46666666666667, + "grad_norm": 0.375, + "learning_rate": 0.00029573181370926515, + "loss": 0.4865, + "step": 57550 + }, + { + "epoch": 153.49333333333334, + "grad_norm": 0.546875, + "learning_rate": 0.00029573032439525346, + "loss": 0.4772, + "step": 57560 + }, + { + "epoch": 153.52, + "grad_norm": 0.302734375, + "learning_rate": 0.00029572883482520255, + "loss": 0.472, + "step": 57570 + }, + { + "epoch": 153.54666666666665, + "grad_norm": 0.453125, + "learning_rate": 0.000295727344999115, + "loss": 0.4691, + "step": 57580 + }, + { + "epoch": 153.57333333333332, + "grad_norm": 0.34765625, + "learning_rate": 0.0002957258549169937, + "loss": 0.4683, + "step": 57590 + }, + { + "epoch": 153.6, + "grad_norm": 0.26953125, + "learning_rate": 0.000295724364578841, + "loss": 0.4615, + "step": 57600 + }, + { + "epoch": 153.62666666666667, + "grad_norm": 0.41015625, + "learning_rate": 0.00029572287398465955, + "loss": 0.4486, + "step": 57610 + }, + { + "epoch": 153.65333333333334, + "grad_norm": 0.345703125, + "learning_rate": 0.0002957213831344521, + "loss": 0.4675, + "step": 57620 + }, + { + "epoch": 153.68, + "grad_norm": 0.34375, + "learning_rate": 0.0002957198920282212, + "loss": 0.4602, + "step": 57630 + }, + { + "epoch": 153.70666666666668, + "grad_norm": 0.357421875, + "learning_rate": 0.0002957184006659694, + "loss": 0.4598, + "step": 57640 + }, + { + "epoch": 153.73333333333332, + "grad_norm": 0.400390625, + "learning_rate": 0.0002957169090476995, + "loss": 0.4793, + "step": 57650 + }, + { + "epoch": 153.76, + "grad_norm": 0.357421875, + "learning_rate": 0.0002957154171734139, + "loss": 0.4798, + "step": 57660 + }, + { + "epoch": 153.78666666666666, + "grad_norm": 0.306640625, + "learning_rate": 0.0002957139250431153, + "loss": 0.4794, + "step": 57670 + }, + { + "epoch": 153.81333333333333, + "grad_norm": 0.35546875, + "learning_rate": 0.00029571243265680644, + "loss": 0.4645, + "step": 57680 + }, + { + "epoch": 153.84, + "grad_norm": 0.3125, + "learning_rate": 0.00029571094001448983, + "loss": 0.4694, + "step": 57690 + }, + { + "epoch": 153.86666666666667, + "grad_norm": 0.33984375, + "learning_rate": 0.00029570944711616805, + "loss": 0.4688, + "step": 57700 + }, + { + "epoch": 153.89333333333335, + "grad_norm": 0.423828125, + "learning_rate": 0.0002957079539618439, + "loss": 0.4597, + "step": 57710 + }, + { + "epoch": 153.92, + "grad_norm": 0.45703125, + "learning_rate": 0.0002957064605515198, + "loss": 0.4709, + "step": 57720 + }, + { + "epoch": 153.94666666666666, + "grad_norm": 0.345703125, + "learning_rate": 0.00029570496688519847, + "loss": 0.4634, + "step": 57730 + }, + { + "epoch": 153.97333333333333, + "grad_norm": 0.37109375, + "learning_rate": 0.00029570347296288253, + "loss": 0.4753, + "step": 57740 + }, + { + "epoch": 154.0, + "grad_norm": 0.33984375, + "learning_rate": 0.0002957019787845746, + "loss": 0.4637, + "step": 57750 + }, + { + "epoch": 154.0, + "eval_loss": 0.4789036810398102, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.9362, + "eval_samples_per_second": 1.61, + "eval_steps_per_second": 0.101, + "step": 57750 + }, + { + "epoch": 154.02666666666667, + "grad_norm": 0.44140625, + "learning_rate": 0.0002957004843502773, + "loss": 0.4838, + "step": 57760 + }, + { + "epoch": 154.05333333333334, + "grad_norm": 0.26171875, + "learning_rate": 0.0002956989896599933, + "loss": 0.4894, + "step": 57770 + }, + { + "epoch": 154.08, + "grad_norm": 0.294921875, + "learning_rate": 0.00029569749471372516, + "loss": 0.4765, + "step": 57780 + }, + { + "epoch": 154.10666666666665, + "grad_norm": 0.345703125, + "learning_rate": 0.00029569599951147555, + "loss": 0.4716, + "step": 57790 + }, + { + "epoch": 154.13333333333333, + "grad_norm": 0.306640625, + "learning_rate": 0.00029569450405324705, + "loss": 0.4725, + "step": 57800 + }, + { + "epoch": 154.16, + "grad_norm": 0.328125, + "learning_rate": 0.0002956930083390423, + "loss": 0.4766, + "step": 57810 + }, + { + "epoch": 154.18666666666667, + "grad_norm": 0.294921875, + "learning_rate": 0.000295691512368864, + "loss": 0.4689, + "step": 57820 + }, + { + "epoch": 154.21333333333334, + "grad_norm": 0.333984375, + "learning_rate": 0.00029569001614271475, + "loss": 0.4636, + "step": 57830 + }, + { + "epoch": 154.24, + "grad_norm": 0.330078125, + "learning_rate": 0.0002956885196605971, + "loss": 0.4677, + "step": 57840 + }, + { + "epoch": 154.26666666666668, + "grad_norm": 0.265625, + "learning_rate": 0.0002956870229225137, + "loss": 0.4721, + "step": 57850 + }, + { + "epoch": 154.29333333333332, + "grad_norm": 0.328125, + "learning_rate": 0.0002956855259284673, + "loss": 0.4664, + "step": 57860 + }, + { + "epoch": 154.32, + "grad_norm": 0.384765625, + "learning_rate": 0.00029568402867846043, + "loss": 0.4698, + "step": 57870 + }, + { + "epoch": 154.34666666666666, + "grad_norm": 0.40234375, + "learning_rate": 0.0002956825311724957, + "loss": 0.4782, + "step": 57880 + }, + { + "epoch": 154.37333333333333, + "grad_norm": 0.365234375, + "learning_rate": 0.00029568103341057574, + "loss": 0.4739, + "step": 57890 + }, + { + "epoch": 154.4, + "grad_norm": 0.359375, + "learning_rate": 0.0002956795353927033, + "loss": 0.4697, + "step": 57900 + }, + { + "epoch": 154.42666666666668, + "grad_norm": 0.34375, + "learning_rate": 0.0002956780371188809, + "loss": 0.4771, + "step": 57910 + }, + { + "epoch": 154.45333333333335, + "grad_norm": 0.380859375, + "learning_rate": 0.0002956765385891111, + "loss": 0.4791, + "step": 57920 + }, + { + "epoch": 154.48, + "grad_norm": 0.388671875, + "learning_rate": 0.00029567503980339676, + "loss": 0.4847, + "step": 57930 + }, + { + "epoch": 154.50666666666666, + "grad_norm": 0.365234375, + "learning_rate": 0.00029567354076174033, + "loss": 0.4745, + "step": 57940 + }, + { + "epoch": 154.53333333333333, + "grad_norm": 0.388671875, + "learning_rate": 0.00029567204146414453, + "loss": 0.4673, + "step": 57950 + }, + { + "epoch": 154.56, + "grad_norm": 0.255859375, + "learning_rate": 0.00029567054191061197, + "loss": 0.4692, + "step": 57960 + }, + { + "epoch": 154.58666666666667, + "grad_norm": 0.306640625, + "learning_rate": 0.0002956690421011452, + "loss": 0.4656, + "step": 57970 + }, + { + "epoch": 154.61333333333334, + "grad_norm": 0.412109375, + "learning_rate": 0.000295667542035747, + "loss": 0.4507, + "step": 57980 + }, + { + "epoch": 154.64, + "grad_norm": 0.361328125, + "learning_rate": 0.00029566604171441993, + "loss": 0.4571, + "step": 57990 + }, + { + "epoch": 154.66666666666666, + "grad_norm": 0.2353515625, + "learning_rate": 0.00029566454113716666, + "loss": 0.4722, + "step": 58000 + }, + { + "epoch": 154.69333333333333, + "grad_norm": 0.357421875, + "learning_rate": 0.0002956630403039898, + "loss": 0.4553, + "step": 58010 + }, + { + "epoch": 154.72, + "grad_norm": 0.50390625, + "learning_rate": 0.00029566153921489194, + "loss": 0.4724, + "step": 58020 + }, + { + "epoch": 154.74666666666667, + "grad_norm": 0.396484375, + "learning_rate": 0.0002956600378698758, + "loss": 0.4768, + "step": 58030 + }, + { + "epoch": 154.77333333333334, + "grad_norm": 0.361328125, + "learning_rate": 0.00029565853626894393, + "loss": 0.4837, + "step": 58040 + }, + { + "epoch": 154.8, + "grad_norm": 0.40234375, + "learning_rate": 0.0002956570344120991, + "loss": 0.4701, + "step": 58050 + }, + { + "epoch": 154.82666666666665, + "grad_norm": 0.283203125, + "learning_rate": 0.00029565553229934385, + "loss": 0.4656, + "step": 58060 + }, + { + "epoch": 154.85333333333332, + "grad_norm": 0.33984375, + "learning_rate": 0.00029565402993068083, + "loss": 0.4735, + "step": 58070 + }, + { + "epoch": 154.88, + "grad_norm": 0.310546875, + "learning_rate": 0.0002956525273061127, + "loss": 0.4624, + "step": 58080 + }, + { + "epoch": 154.90666666666667, + "grad_norm": 0.3515625, + "learning_rate": 0.0002956510244256421, + "loss": 0.4646, + "step": 58090 + }, + { + "epoch": 154.93333333333334, + "grad_norm": 0.33203125, + "learning_rate": 0.0002956495212892716, + "loss": 0.4656, + "step": 58100 + }, + { + "epoch": 154.96, + "grad_norm": 0.265625, + "learning_rate": 0.00029564801789700395, + "loss": 0.4641, + "step": 58110 + }, + { + "epoch": 154.98666666666668, + "grad_norm": 0.341796875, + "learning_rate": 0.00029564651424884175, + "loss": 0.478, + "step": 58120 + }, + { + "epoch": 155.0, + "eval_loss": 0.47817400097846985, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.3606, + "eval_samples_per_second": 1.544, + "eval_steps_per_second": 0.097, + "step": 58125 + }, + { + "epoch": 155.01333333333332, + "grad_norm": 0.5, + "learning_rate": 0.00029564501034478756, + "loss": 0.4681, + "step": 58130 + }, + { + "epoch": 155.04, + "grad_norm": 0.31640625, + "learning_rate": 0.0002956435061848442, + "loss": 0.4919, + "step": 58140 + }, + { + "epoch": 155.06666666666666, + "grad_norm": 0.36328125, + "learning_rate": 0.0002956420017690141, + "loss": 0.4791, + "step": 58150 + }, + { + "epoch": 155.09333333333333, + "grad_norm": 0.30859375, + "learning_rate": 0.0002956404970973001, + "loss": 0.4743, + "step": 58160 + }, + { + "epoch": 155.12, + "grad_norm": 0.296875, + "learning_rate": 0.0002956389921697047, + "loss": 0.4699, + "step": 58170 + }, + { + "epoch": 155.14666666666668, + "grad_norm": 0.279296875, + "learning_rate": 0.00029563748698623065, + "loss": 0.4787, + "step": 58180 + }, + { + "epoch": 155.17333333333335, + "grad_norm": 0.322265625, + "learning_rate": 0.00029563598154688054, + "loss": 0.4692, + "step": 58190 + }, + { + "epoch": 155.2, + "grad_norm": 0.392578125, + "learning_rate": 0.000295634475851657, + "loss": 0.4675, + "step": 58200 + }, + { + "epoch": 155.22666666666666, + "grad_norm": 0.361328125, + "learning_rate": 0.0002956329699005627, + "loss": 0.4659, + "step": 58210 + }, + { + "epoch": 155.25333333333333, + "grad_norm": 0.23828125, + "learning_rate": 0.00029563146369360026, + "loss": 0.4653, + "step": 58220 + }, + { + "epoch": 155.28, + "grad_norm": 0.341796875, + "learning_rate": 0.00029562995723077235, + "loss": 0.4793, + "step": 58230 + }, + { + "epoch": 155.30666666666667, + "grad_norm": 0.3359375, + "learning_rate": 0.00029562845051208167, + "loss": 0.46, + "step": 58240 + }, + { + "epoch": 155.33333333333334, + "grad_norm": 0.27734375, + "learning_rate": 0.0002956269435375307, + "loss": 0.4758, + "step": 58250 + }, + { + "epoch": 155.36, + "grad_norm": 0.375, + "learning_rate": 0.0002956254363071223, + "loss": 0.4782, + "step": 58260 + }, + { + "epoch": 155.38666666666666, + "grad_norm": 0.357421875, + "learning_rate": 0.000295623928820859, + "loss": 0.4693, + "step": 58270 + }, + { + "epoch": 155.41333333333333, + "grad_norm": 0.35546875, + "learning_rate": 0.0002956224210787435, + "loss": 0.473, + "step": 58280 + }, + { + "epoch": 155.44, + "grad_norm": 0.34375, + "learning_rate": 0.0002956209130807783, + "loss": 0.4761, + "step": 58290 + }, + { + "epoch": 155.46666666666667, + "grad_norm": 0.46484375, + "learning_rate": 0.0002956194048269662, + "loss": 0.486, + "step": 58300 + }, + { + "epoch": 155.49333333333334, + "grad_norm": 0.3671875, + "learning_rate": 0.0002956178963173099, + "loss": 0.4774, + "step": 58310 + }, + { + "epoch": 155.52, + "grad_norm": 0.3671875, + "learning_rate": 0.0002956163875518119, + "loss": 0.4713, + "step": 58320 + }, + { + "epoch": 155.54666666666665, + "grad_norm": 0.52734375, + "learning_rate": 0.0002956148785304749, + "loss": 0.4686, + "step": 58330 + }, + { + "epoch": 155.57333333333332, + "grad_norm": 0.380859375, + "learning_rate": 0.0002956133692533016, + "loss": 0.4681, + "step": 58340 + }, + { + "epoch": 155.6, + "grad_norm": 0.3125, + "learning_rate": 0.00029561185972029456, + "loss": 0.4616, + "step": 58350 + }, + { + "epoch": 155.62666666666667, + "grad_norm": 0.44921875, + "learning_rate": 0.00029561034993145656, + "loss": 0.4488, + "step": 58360 + }, + { + "epoch": 155.65333333333334, + "grad_norm": 0.369140625, + "learning_rate": 0.00029560883988679015, + "loss": 0.468, + "step": 58370 + }, + { + "epoch": 155.68, + "grad_norm": 0.318359375, + "learning_rate": 0.000295607329586298, + "loss": 0.4594, + "step": 58380 + }, + { + "epoch": 155.70666666666668, + "grad_norm": 0.439453125, + "learning_rate": 0.00029560581902998283, + "loss": 0.46, + "step": 58390 + }, + { + "epoch": 155.73333333333332, + "grad_norm": 0.43359375, + "learning_rate": 0.00029560430821784717, + "loss": 0.4785, + "step": 58400 + }, + { + "epoch": 155.76, + "grad_norm": 0.34375, + "learning_rate": 0.00029560279714989384, + "loss": 0.4805, + "step": 58410 + }, + { + "epoch": 155.78666666666666, + "grad_norm": 0.443359375, + "learning_rate": 0.00029560128582612535, + "loss": 0.4782, + "step": 58420 + }, + { + "epoch": 155.81333333333333, + "grad_norm": 0.353515625, + "learning_rate": 0.0002955997742465444, + "loss": 0.4644, + "step": 58430 + }, + { + "epoch": 155.84, + "grad_norm": 0.56640625, + "learning_rate": 0.0002955982624111537, + "loss": 0.4701, + "step": 58440 + }, + { + "epoch": 155.86666666666667, + "grad_norm": 0.34375, + "learning_rate": 0.0002955967503199558, + "loss": 0.4692, + "step": 58450 + }, + { + "epoch": 155.89333333333335, + "grad_norm": 0.271484375, + "learning_rate": 0.0002955952379729534, + "loss": 0.4597, + "step": 58460 + }, + { + "epoch": 155.92, + "grad_norm": 0.296875, + "learning_rate": 0.00029559372537014923, + "loss": 0.4701, + "step": 58470 + }, + { + "epoch": 155.94666666666666, + "grad_norm": 0.28515625, + "learning_rate": 0.0002955922125115459, + "loss": 0.4635, + "step": 58480 + }, + { + "epoch": 155.97333333333333, + "grad_norm": 0.30078125, + "learning_rate": 0.00029559069939714597, + "loss": 0.4747, + "step": 58490 + }, + { + "epoch": 156.0, + "grad_norm": 0.421875, + "learning_rate": 0.00029558918602695227, + "loss": 0.4635, + "step": 58500 + }, + { + "epoch": 156.0, + "eval_loss": 0.47919952869415283, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.9366, + "eval_samples_per_second": 1.463, + "eval_steps_per_second": 0.091, + "step": 58500 + }, + { + "epoch": 156.02666666666667, + "grad_norm": 0.361328125, + "learning_rate": 0.00029558767240096736, + "loss": 0.4834, + "step": 58510 + }, + { + "epoch": 156.05333333333334, + "grad_norm": 0.3828125, + "learning_rate": 0.00029558615851919395, + "loss": 0.4883, + "step": 58520 + }, + { + "epoch": 156.08, + "grad_norm": 0.33984375, + "learning_rate": 0.0002955846443816346, + "loss": 0.4755, + "step": 58530 + }, + { + "epoch": 156.10666666666665, + "grad_norm": 0.353515625, + "learning_rate": 0.0002955831299882921, + "loss": 0.4714, + "step": 58540 + }, + { + "epoch": 156.13333333333333, + "grad_norm": 0.33203125, + "learning_rate": 0.00029558161533916894, + "loss": 0.4731, + "step": 58550 + }, + { + "epoch": 156.16, + "grad_norm": 0.390625, + "learning_rate": 0.000295580100434268, + "loss": 0.4766, + "step": 58560 + }, + { + "epoch": 156.18666666666667, + "grad_norm": 0.234375, + "learning_rate": 0.00029557858527359175, + "loss": 0.4692, + "step": 58570 + }, + { + "epoch": 156.21333333333334, + "grad_norm": 0.302734375, + "learning_rate": 0.00029557706985714296, + "loss": 0.4633, + "step": 58580 + }, + { + "epoch": 156.24, + "grad_norm": 0.32421875, + "learning_rate": 0.0002955755541849243, + "loss": 0.4672, + "step": 58590 + }, + { + "epoch": 156.26666666666668, + "grad_norm": 0.359375, + "learning_rate": 0.00029557403825693836, + "loss": 0.4724, + "step": 58600 + }, + { + "epoch": 156.29333333333332, + "grad_norm": 0.33203125, + "learning_rate": 0.0002955725220731878, + "loss": 0.4662, + "step": 58610 + }, + { + "epoch": 156.32, + "grad_norm": 0.263671875, + "learning_rate": 0.0002955710056336754, + "loss": 0.4696, + "step": 58620 + }, + { + "epoch": 156.34666666666666, + "grad_norm": 0.330078125, + "learning_rate": 0.00029556948893840374, + "loss": 0.4775, + "step": 58630 + }, + { + "epoch": 156.37333333333333, + "grad_norm": 0.29296875, + "learning_rate": 0.00029556797198737546, + "loss": 0.4734, + "step": 58640 + }, + { + "epoch": 156.4, + "grad_norm": 0.37109375, + "learning_rate": 0.00029556645478059327, + "loss": 0.4702, + "step": 58650 + }, + { + "epoch": 156.42666666666668, + "grad_norm": 0.3828125, + "learning_rate": 0.0002955649373180598, + "loss": 0.4771, + "step": 58660 + }, + { + "epoch": 156.45333333333335, + "grad_norm": 0.3125, + "learning_rate": 0.00029556341959977776, + "loss": 0.4782, + "step": 58670 + }, + { + "epoch": 156.48, + "grad_norm": 0.3203125, + "learning_rate": 0.0002955619016257498, + "loss": 0.485, + "step": 58680 + }, + { + "epoch": 156.50666666666666, + "grad_norm": 0.29296875, + "learning_rate": 0.0002955603833959786, + "loss": 0.4745, + "step": 58690 + }, + { + "epoch": 156.53333333333333, + "grad_norm": 0.322265625, + "learning_rate": 0.0002955588649104668, + "loss": 0.4684, + "step": 58700 + }, + { + "epoch": 156.56, + "grad_norm": 0.30859375, + "learning_rate": 0.00029555734616921705, + "loss": 0.4694, + "step": 58710 + }, + { + "epoch": 156.58666666666667, + "grad_norm": 0.34375, + "learning_rate": 0.00029555582717223205, + "loss": 0.4654, + "step": 58720 + }, + { + "epoch": 156.61333333333334, + "grad_norm": 0.251953125, + "learning_rate": 0.0002955543079195145, + "loss": 0.4509, + "step": 58730 + }, + { + "epoch": 156.64, + "grad_norm": 0.22265625, + "learning_rate": 0.000295552788411067, + "loss": 0.4566, + "step": 58740 + }, + { + "epoch": 156.66666666666666, + "grad_norm": 0.2373046875, + "learning_rate": 0.0002955512686468923, + "loss": 0.4713, + "step": 58750 + }, + { + "epoch": 156.69333333333333, + "grad_norm": 0.267578125, + "learning_rate": 0.000295549748626993, + "loss": 0.4543, + "step": 58760 + }, + { + "epoch": 156.72, + "grad_norm": 0.25, + "learning_rate": 0.00029554822835137174, + "loss": 0.4719, + "step": 58770 + }, + { + "epoch": 156.74666666666667, + "grad_norm": 0.390625, + "learning_rate": 0.0002955467078200313, + "loss": 0.4758, + "step": 58780 + }, + { + "epoch": 156.77333333333334, + "grad_norm": 0.357421875, + "learning_rate": 0.0002955451870329743, + "loss": 0.4834, + "step": 58790 + }, + { + "epoch": 156.8, + "grad_norm": 0.4375, + "learning_rate": 0.0002955436659902034, + "loss": 0.4706, + "step": 58800 + }, + { + "epoch": 156.82666666666665, + "grad_norm": 0.326171875, + "learning_rate": 0.00029554214469172126, + "loss": 0.4652, + "step": 58810 + }, + { + "epoch": 156.85333333333332, + "grad_norm": 0.2734375, + "learning_rate": 0.0002955406231375306, + "loss": 0.4733, + "step": 58820 + }, + { + "epoch": 156.88, + "grad_norm": 0.37109375, + "learning_rate": 0.0002955391013276341, + "loss": 0.4615, + "step": 58830 + }, + { + "epoch": 156.90666666666667, + "grad_norm": 0.322265625, + "learning_rate": 0.0002955375792620344, + "loss": 0.4646, + "step": 58840 + }, + { + "epoch": 156.93333333333334, + "grad_norm": 0.271484375, + "learning_rate": 0.00029553605694073413, + "loss": 0.4669, + "step": 58850 + }, + { + "epoch": 156.96, + "grad_norm": 0.296875, + "learning_rate": 0.000295534534363736, + "loss": 0.4644, + "step": 58860 + }, + { + "epoch": 156.98666666666668, + "grad_norm": 0.36328125, + "learning_rate": 0.0002955330115310427, + "loss": 0.4789, + "step": 58870 + }, + { + "epoch": 157.0, + "eval_loss": 0.4790196120738983, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.6513, + "eval_samples_per_second": 1.502, + "eval_steps_per_second": 0.094, + "step": 58875 + }, + { + "epoch": 157.01333333333332, + "grad_norm": 0.357421875, + "learning_rate": 0.000295531488442657, + "loss": 0.4684, + "step": 58880 + }, + { + "epoch": 157.04, + "grad_norm": 0.283203125, + "learning_rate": 0.0002955299650985814, + "loss": 0.4916, + "step": 58890 + }, + { + "epoch": 157.06666666666666, + "grad_norm": 0.419921875, + "learning_rate": 0.0002955284414988186, + "loss": 0.4794, + "step": 58900 + }, + { + "epoch": 157.09333333333333, + "grad_norm": 0.37109375, + "learning_rate": 0.0002955269176433714, + "loss": 0.4741, + "step": 58910 + }, + { + "epoch": 157.12, + "grad_norm": 0.453125, + "learning_rate": 0.0002955253935322424, + "loss": 0.4699, + "step": 58920 + }, + { + "epoch": 157.14666666666668, + "grad_norm": 0.306640625, + "learning_rate": 0.0002955238691654343, + "loss": 0.4786, + "step": 58930 + }, + { + "epoch": 157.17333333333335, + "grad_norm": 0.44140625, + "learning_rate": 0.0002955223445429497, + "loss": 0.4701, + "step": 58940 + }, + { + "epoch": 157.2, + "grad_norm": 0.353515625, + "learning_rate": 0.0002955208196647914, + "loss": 0.4681, + "step": 58950 + }, + { + "epoch": 157.22666666666666, + "grad_norm": 0.28515625, + "learning_rate": 0.000295519294530962, + "loss": 0.4653, + "step": 58960 + }, + { + "epoch": 157.25333333333333, + "grad_norm": 0.3046875, + "learning_rate": 0.00029551776914146425, + "loss": 0.4657, + "step": 58970 + }, + { + "epoch": 157.28, + "grad_norm": 0.333984375, + "learning_rate": 0.0002955162434963007, + "loss": 0.4789, + "step": 58980 + }, + { + "epoch": 157.30666666666667, + "grad_norm": 0.396484375, + "learning_rate": 0.0002955147175954742, + "loss": 0.46, + "step": 58990 + }, + { + "epoch": 157.33333333333334, + "grad_norm": 0.30078125, + "learning_rate": 0.0002955131914389873, + "loss": 0.4756, + "step": 59000 + }, + { + "epoch": 157.36, + "grad_norm": 0.40625, + "learning_rate": 0.00029551166502684266, + "loss": 0.4777, + "step": 59010 + }, + { + "epoch": 157.38666666666666, + "grad_norm": 0.6171875, + "learning_rate": 0.0002955101383590431, + "loss": 0.469, + "step": 59020 + }, + { + "epoch": 157.41333333333333, + "grad_norm": 0.412109375, + "learning_rate": 0.0002955086114355912, + "loss": 0.4736, + "step": 59030 + }, + { + "epoch": 157.44, + "grad_norm": 0.298828125, + "learning_rate": 0.0002955070842564897, + "loss": 0.4763, + "step": 59040 + }, + { + "epoch": 157.46666666666667, + "grad_norm": 0.2890625, + "learning_rate": 0.0002955055568217412, + "loss": 0.486, + "step": 59050 + }, + { + "epoch": 157.49333333333334, + "grad_norm": 0.53125, + "learning_rate": 0.0002955040291313485, + "loss": 0.4772, + "step": 59060 + }, + { + "epoch": 157.52, + "grad_norm": 0.275390625, + "learning_rate": 0.0002955025011853142, + "loss": 0.4713, + "step": 59070 + }, + { + "epoch": 157.54666666666665, + "grad_norm": 0.359375, + "learning_rate": 0.000295500972983641, + "loss": 0.4681, + "step": 59080 + }, + { + "epoch": 157.57333333333332, + "grad_norm": 0.373046875, + "learning_rate": 0.0002954994445263316, + "loss": 0.4682, + "step": 59090 + }, + { + "epoch": 157.6, + "grad_norm": 0.376953125, + "learning_rate": 0.00029549791581338865, + "loss": 0.4613, + "step": 59100 + }, + { + "epoch": 157.62666666666667, + "grad_norm": 0.228515625, + "learning_rate": 0.0002954963868448149, + "loss": 0.4489, + "step": 59110 + }, + { + "epoch": 157.65333333333334, + "grad_norm": 0.337890625, + "learning_rate": 0.00029549485762061297, + "loss": 0.4687, + "step": 59120 + }, + { + "epoch": 157.68, + "grad_norm": 0.294921875, + "learning_rate": 0.00029549332814078557, + "loss": 0.4592, + "step": 59130 + }, + { + "epoch": 157.70666666666668, + "grad_norm": 0.361328125, + "learning_rate": 0.00029549179840533544, + "loss": 0.4602, + "step": 59140 + }, + { + "epoch": 157.73333333333332, + "grad_norm": 0.44140625, + "learning_rate": 0.00029549026841426513, + "loss": 0.4792, + "step": 59150 + }, + { + "epoch": 157.76, + "grad_norm": 1.7109375, + "learning_rate": 0.0002954887381675775, + "loss": 0.481, + "step": 59160 + }, + { + "epoch": 157.78666666666666, + "grad_norm": 0.95703125, + "learning_rate": 0.00029548720766527515, + "loss": 0.4805, + "step": 59170 + }, + { + "epoch": 157.81333333333333, + "grad_norm": 0.70703125, + "learning_rate": 0.00029548567690736074, + "loss": 0.4645, + "step": 59180 + }, + { + "epoch": 157.84, + "grad_norm": 0.50390625, + "learning_rate": 0.00029548414589383704, + "loss": 0.47, + "step": 59190 + }, + { + "epoch": 157.86666666666667, + "grad_norm": 0.322265625, + "learning_rate": 0.00029548261462470667, + "loss": 0.4692, + "step": 59200 + }, + { + "epoch": 157.89333333333335, + "grad_norm": 0.328125, + "learning_rate": 0.0002954810830999723, + "loss": 0.4599, + "step": 59210 + }, + { + "epoch": 157.92, + "grad_norm": 0.47265625, + "learning_rate": 0.0002954795513196367, + "loss": 0.4705, + "step": 59220 + }, + { + "epoch": 157.94666666666666, + "grad_norm": 0.33984375, + "learning_rate": 0.00029547801928370257, + "loss": 0.4625, + "step": 59230 + }, + { + "epoch": 157.97333333333333, + "grad_norm": 0.40234375, + "learning_rate": 0.00029547648699217253, + "loss": 0.475, + "step": 59240 + }, + { + "epoch": 158.0, + "grad_norm": 0.337890625, + "learning_rate": 0.0002954749544450493, + "loss": 0.4637, + "step": 59250 + }, + { + "epoch": 158.0, + "eval_loss": 0.47802263498306274, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.1878, + "eval_samples_per_second": 1.571, + "eval_steps_per_second": 0.098, + "step": 59250 + }, + { + "epoch": 158.02666666666667, + "grad_norm": 0.296875, + "learning_rate": 0.0002954734216423356, + "loss": 0.4836, + "step": 59260 + }, + { + "epoch": 158.05333333333334, + "grad_norm": 0.30078125, + "learning_rate": 0.00029547188858403405, + "loss": 0.4885, + "step": 59270 + }, + { + "epoch": 158.08, + "grad_norm": 0.337890625, + "learning_rate": 0.0002954703552701474, + "loss": 0.476, + "step": 59280 + }, + { + "epoch": 158.10666666666665, + "grad_norm": 0.306640625, + "learning_rate": 0.0002954688217006784, + "loss": 0.4711, + "step": 59290 + }, + { + "epoch": 158.13333333333333, + "grad_norm": 0.45703125, + "learning_rate": 0.0002954672878756296, + "loss": 0.4724, + "step": 59300 + }, + { + "epoch": 158.16, + "grad_norm": 0.328125, + "learning_rate": 0.0002954657537950038, + "loss": 0.4767, + "step": 59310 + }, + { + "epoch": 158.18666666666667, + "grad_norm": 0.40625, + "learning_rate": 0.0002954642194588036, + "loss": 0.4693, + "step": 59320 + }, + { + "epoch": 158.21333333333334, + "grad_norm": 0.3359375, + "learning_rate": 0.00029546268486703187, + "loss": 0.4638, + "step": 59330 + }, + { + "epoch": 158.24, + "grad_norm": 0.37890625, + "learning_rate": 0.0002954611500196912, + "loss": 0.4678, + "step": 59340 + }, + { + "epoch": 158.26666666666668, + "grad_norm": 0.333984375, + "learning_rate": 0.00029545961491678424, + "loss": 0.4718, + "step": 59350 + }, + { + "epoch": 158.29333333333332, + "grad_norm": 0.271484375, + "learning_rate": 0.00029545807955831373, + "loss": 0.4664, + "step": 59360 + }, + { + "epoch": 158.32, + "grad_norm": 0.3984375, + "learning_rate": 0.00029545654394428234, + "loss": 0.4697, + "step": 59370 + }, + { + "epoch": 158.34666666666666, + "grad_norm": 0.251953125, + "learning_rate": 0.0002954550080746929, + "loss": 0.4779, + "step": 59380 + }, + { + "epoch": 158.37333333333333, + "grad_norm": 0.31640625, + "learning_rate": 0.00029545347194954796, + "loss": 0.4732, + "step": 59390 + }, + { + "epoch": 158.4, + "grad_norm": 0.42578125, + "learning_rate": 0.0002954519355688502, + "loss": 0.4702, + "step": 59400 + }, + { + "epoch": 158.42666666666668, + "grad_norm": 0.294921875, + "learning_rate": 0.0002954503989326025, + "loss": 0.4761, + "step": 59410 + }, + { + "epoch": 158.45333333333335, + "grad_norm": 0.40234375, + "learning_rate": 0.0002954488620408074, + "loss": 0.4783, + "step": 59420 + }, + { + "epoch": 158.48, + "grad_norm": 0.71484375, + "learning_rate": 0.0002954473248934676, + "loss": 0.4846, + "step": 59430 + }, + { + "epoch": 158.50666666666666, + "grad_norm": 0.419921875, + "learning_rate": 0.0002954457874905859, + "loss": 0.475, + "step": 59440 + }, + { + "epoch": 158.53333333333333, + "grad_norm": 0.28125, + "learning_rate": 0.00029544424983216495, + "loss": 0.4689, + "step": 59450 + }, + { + "epoch": 158.56, + "grad_norm": 0.310546875, + "learning_rate": 0.0002954427119182074, + "loss": 0.4694, + "step": 59460 + }, + { + "epoch": 158.58666666666667, + "grad_norm": 0.470703125, + "learning_rate": 0.00029544117374871606, + "loss": 0.4651, + "step": 59470 + }, + { + "epoch": 158.61333333333334, + "grad_norm": 0.349609375, + "learning_rate": 0.00029543963532369354, + "loss": 0.4514, + "step": 59480 + }, + { + "epoch": 158.64, + "grad_norm": 0.26953125, + "learning_rate": 0.0002954380966431426, + "loss": 0.4561, + "step": 59490 + }, + { + "epoch": 158.66666666666666, + "grad_norm": 0.41796875, + "learning_rate": 0.0002954365577070659, + "loss": 0.4716, + "step": 59500 + }, + { + "epoch": 158.69333333333333, + "grad_norm": 0.32421875, + "learning_rate": 0.0002954350185154662, + "loss": 0.4547, + "step": 59510 + }, + { + "epoch": 158.72, + "grad_norm": 0.49609375, + "learning_rate": 0.00029543347906834614, + "loss": 0.4718, + "step": 59520 + }, + { + "epoch": 158.74666666666667, + "grad_norm": 0.375, + "learning_rate": 0.00029543193936570845, + "loss": 0.4763, + "step": 59530 + }, + { + "epoch": 158.77333333333334, + "grad_norm": 0.3828125, + "learning_rate": 0.00029543039940755587, + "loss": 0.4833, + "step": 59540 + }, + { + "epoch": 158.8, + "grad_norm": 0.4453125, + "learning_rate": 0.00029542885919389103, + "loss": 0.471, + "step": 59550 + }, + { + "epoch": 158.82666666666665, + "grad_norm": 0.302734375, + "learning_rate": 0.0002954273187247167, + "loss": 0.4658, + "step": 59560 + }, + { + "epoch": 158.85333333333332, + "grad_norm": 0.35546875, + "learning_rate": 0.0002954257780000356, + "loss": 0.4741, + "step": 59570 + }, + { + "epoch": 158.88, + "grad_norm": 0.421875, + "learning_rate": 0.0002954242370198504, + "loss": 0.4619, + "step": 59580 + }, + { + "epoch": 158.90666666666667, + "grad_norm": 0.345703125, + "learning_rate": 0.0002954226957841638, + "loss": 0.4649, + "step": 59590 + }, + { + "epoch": 158.93333333333334, + "grad_norm": 0.2431640625, + "learning_rate": 0.0002954211542929785, + "loss": 0.4669, + "step": 59600 + }, + { + "epoch": 158.96, + "grad_norm": 0.251953125, + "learning_rate": 0.0002954196125462972, + "loss": 0.4646, + "step": 59610 + }, + { + "epoch": 158.98666666666668, + "grad_norm": 0.427734375, + "learning_rate": 0.00029541807054412266, + "loss": 0.4785, + "step": 59620 + }, + { + "epoch": 159.0, + "eval_loss": 0.477658212184906, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.3986, + "eval_samples_per_second": 1.539, + "eval_steps_per_second": 0.096, + "step": 59625 + }, + { + "epoch": 159.01333333333332, + "grad_norm": 0.27734375, + "learning_rate": 0.00029541652828645755, + "loss": 0.4672, + "step": 59630 + }, + { + "epoch": 159.04, + "grad_norm": 0.26953125, + "learning_rate": 0.00029541498577330465, + "loss": 0.4921, + "step": 59640 + }, + { + "epoch": 159.06666666666666, + "grad_norm": 0.32421875, + "learning_rate": 0.0002954134430046666, + "loss": 0.4794, + "step": 59650 + }, + { + "epoch": 159.09333333333333, + "grad_norm": 0.28515625, + "learning_rate": 0.0002954118999805461, + "loss": 0.4733, + "step": 59660 + }, + { + "epoch": 159.12, + "grad_norm": 0.2578125, + "learning_rate": 0.00029541035670094587, + "loss": 0.4711, + "step": 59670 + }, + { + "epoch": 159.14666666666668, + "grad_norm": 0.318359375, + "learning_rate": 0.0002954088131658687, + "loss": 0.4789, + "step": 59680 + }, + { + "epoch": 159.17333333333335, + "grad_norm": 0.37890625, + "learning_rate": 0.00029540726937531716, + "loss": 0.4701, + "step": 59690 + }, + { + "epoch": 159.2, + "grad_norm": 0.275390625, + "learning_rate": 0.0002954057253292941, + "loss": 0.4682, + "step": 59700 + }, + { + "epoch": 159.22666666666666, + "grad_norm": 0.31640625, + "learning_rate": 0.0002954041810278022, + "loss": 0.4653, + "step": 59710 + }, + { + "epoch": 159.25333333333333, + "grad_norm": 0.3828125, + "learning_rate": 0.0002954026364708441, + "loss": 0.4648, + "step": 59720 + }, + { + "epoch": 159.28, + "grad_norm": 0.3359375, + "learning_rate": 0.00029540109165842254, + "loss": 0.4789, + "step": 59730 + }, + { + "epoch": 159.30666666666667, + "grad_norm": 0.33984375, + "learning_rate": 0.0002953995465905403, + "loss": 0.4599, + "step": 59740 + }, + { + "epoch": 159.33333333333334, + "grad_norm": 0.361328125, + "learning_rate": 0.00029539800126720004, + "loss": 0.4754, + "step": 59750 + }, + { + "epoch": 159.36, + "grad_norm": 0.2890625, + "learning_rate": 0.0002953964556884045, + "loss": 0.4769, + "step": 59760 + }, + { + "epoch": 159.38666666666666, + "grad_norm": 0.412109375, + "learning_rate": 0.0002953949098541564, + "loss": 0.4693, + "step": 59770 + }, + { + "epoch": 159.41333333333333, + "grad_norm": 0.337890625, + "learning_rate": 0.0002953933637644584, + "loss": 0.4733, + "step": 59780 + }, + { + "epoch": 159.44, + "grad_norm": 0.28125, + "learning_rate": 0.00029539181741931327, + "loss": 0.4768, + "step": 59790 + }, + { + "epoch": 159.46666666666667, + "grad_norm": 0.384765625, + "learning_rate": 0.00029539027081872365, + "loss": 0.4863, + "step": 59800 + }, + { + "epoch": 159.49333333333334, + "grad_norm": 0.375, + "learning_rate": 0.0002953887239626924, + "loss": 0.4777, + "step": 59810 + }, + { + "epoch": 159.52, + "grad_norm": 0.287109375, + "learning_rate": 0.0002953871768512221, + "loss": 0.4722, + "step": 59820 + }, + { + "epoch": 159.54666666666665, + "grad_norm": 0.2890625, + "learning_rate": 0.00029538562948431554, + "loss": 0.4689, + "step": 59830 + }, + { + "epoch": 159.57333333333332, + "grad_norm": 0.392578125, + "learning_rate": 0.00029538408186197547, + "loss": 0.4677, + "step": 59840 + }, + { + "epoch": 159.6, + "grad_norm": 0.3125, + "learning_rate": 0.00029538253398420447, + "loss": 0.4611, + "step": 59850 + }, + { + "epoch": 159.62666666666667, + "grad_norm": 0.263671875, + "learning_rate": 0.00029538098585100547, + "loss": 0.4489, + "step": 59860 + }, + { + "epoch": 159.65333333333334, + "grad_norm": 0.328125, + "learning_rate": 0.00029537943746238096, + "loss": 0.4682, + "step": 59870 + }, + { + "epoch": 159.68, + "grad_norm": 0.3125, + "learning_rate": 0.0002953778888183338, + "loss": 0.4598, + "step": 59880 + }, + { + "epoch": 159.70666666666668, + "grad_norm": 0.361328125, + "learning_rate": 0.00029537633991886673, + "loss": 0.4603, + "step": 59890 + }, + { + "epoch": 159.73333333333332, + "grad_norm": 0.31640625, + "learning_rate": 0.0002953747907639824, + "loss": 0.4789, + "step": 59900 + }, + { + "epoch": 159.76, + "grad_norm": 0.4140625, + "learning_rate": 0.0002953732413536835, + "loss": 0.4797, + "step": 59910 + }, + { + "epoch": 159.78666666666666, + "grad_norm": 0.66796875, + "learning_rate": 0.00029537169168797285, + "loss": 0.4787, + "step": 59920 + }, + { + "epoch": 159.81333333333333, + "grad_norm": 0.5, + "learning_rate": 0.0002953701417668531, + "loss": 0.4639, + "step": 59930 + }, + { + "epoch": 159.84, + "grad_norm": 0.38671875, + "learning_rate": 0.0002953685915903271, + "loss": 0.4702, + "step": 59940 + }, + { + "epoch": 159.86666666666667, + "grad_norm": 0.29296875, + "learning_rate": 0.00029536704115839743, + "loss": 0.4686, + "step": 59950 + }, + { + "epoch": 159.89333333333335, + "grad_norm": 0.314453125, + "learning_rate": 0.0002953654904710668, + "loss": 0.4601, + "step": 59960 + }, + { + "epoch": 159.92, + "grad_norm": 0.333984375, + "learning_rate": 0.00029536393952833803, + "loss": 0.4706, + "step": 59970 + }, + { + "epoch": 159.94666666666666, + "grad_norm": 0.3203125, + "learning_rate": 0.0002953623883302139, + "loss": 0.4632, + "step": 59980 + }, + { + "epoch": 159.97333333333333, + "grad_norm": 0.35546875, + "learning_rate": 0.0002953608368766969, + "loss": 0.4743, + "step": 59990 + }, + { + "epoch": 160.0, + "grad_norm": 0.275390625, + "learning_rate": 0.00029535928516779, + "loss": 0.464, + "step": 60000 + }, + { + "epoch": 160.0, + "eval_loss": 0.4785791039466858, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.3856, + "eval_samples_per_second": 1.541, + "eval_steps_per_second": 0.096, + "step": 60000 + }, + { + "epoch": 160.02666666666667, + "grad_norm": 0.34375, + "learning_rate": 0.0002953577332034958, + "loss": 0.4835, + "step": 60010 + }, + { + "epoch": 160.05333333333334, + "grad_norm": 0.3359375, + "learning_rate": 0.000295356180983817, + "loss": 0.4887, + "step": 60020 + }, + { + "epoch": 160.08, + "grad_norm": 0.310546875, + "learning_rate": 0.00029535462850875644, + "loss": 0.4753, + "step": 60030 + }, + { + "epoch": 160.10666666666665, + "grad_norm": 0.314453125, + "learning_rate": 0.00029535307577831677, + "loss": 0.4709, + "step": 60040 + }, + { + "epoch": 160.13333333333333, + "grad_norm": 0.3671875, + "learning_rate": 0.00029535152279250076, + "loss": 0.473, + "step": 60050 + }, + { + "epoch": 160.16, + "grad_norm": 0.349609375, + "learning_rate": 0.0002953499695513111, + "loss": 0.4761, + "step": 60060 + }, + { + "epoch": 160.18666666666667, + "grad_norm": 0.296875, + "learning_rate": 0.00029534841605475057, + "loss": 0.4696, + "step": 60070 + }, + { + "epoch": 160.21333333333334, + "grad_norm": 0.4140625, + "learning_rate": 0.0002953468623028218, + "loss": 0.4635, + "step": 60080 + }, + { + "epoch": 160.24, + "grad_norm": 0.341796875, + "learning_rate": 0.00029534530829552764, + "loss": 0.4677, + "step": 60090 + }, + { + "epoch": 160.26666666666668, + "grad_norm": 0.330078125, + "learning_rate": 0.0002953437540328707, + "loss": 0.4722, + "step": 60100 + }, + { + "epoch": 160.29333333333332, + "grad_norm": 0.279296875, + "learning_rate": 0.0002953421995148539, + "loss": 0.4656, + "step": 60110 + }, + { + "epoch": 160.32, + "grad_norm": 0.376953125, + "learning_rate": 0.0002953406447414797, + "loss": 0.4696, + "step": 60120 + }, + { + "epoch": 160.34666666666666, + "grad_norm": 0.298828125, + "learning_rate": 0.00029533908971275105, + "loss": 0.4778, + "step": 60130 + }, + { + "epoch": 160.37333333333333, + "grad_norm": 0.337890625, + "learning_rate": 0.0002953375344286706, + "loss": 0.4738, + "step": 60140 + }, + { + "epoch": 160.4, + "grad_norm": 0.33984375, + "learning_rate": 0.00029533597888924107, + "loss": 0.4701, + "step": 60150 + }, + { + "epoch": 160.42666666666668, + "grad_norm": 0.2890625, + "learning_rate": 0.00029533442309446524, + "loss": 0.4765, + "step": 60160 + }, + { + "epoch": 160.45333333333335, + "grad_norm": 0.29296875, + "learning_rate": 0.0002953328670443458, + "loss": 0.4785, + "step": 60170 + }, + { + "epoch": 160.48, + "grad_norm": 0.298828125, + "learning_rate": 0.00029533131073888555, + "loss": 0.4851, + "step": 60180 + }, + { + "epoch": 160.50666666666666, + "grad_norm": 0.291015625, + "learning_rate": 0.0002953297541780871, + "loss": 0.4744, + "step": 60190 + }, + { + "epoch": 160.53333333333333, + "grad_norm": 0.314453125, + "learning_rate": 0.00029532819736195336, + "loss": 0.4679, + "step": 60200 + }, + { + "epoch": 160.56, + "grad_norm": 0.310546875, + "learning_rate": 0.0002953266402904869, + "loss": 0.4696, + "step": 60210 + }, + { + "epoch": 160.58666666666667, + "grad_norm": 0.2734375, + "learning_rate": 0.0002953250829636906, + "loss": 0.4654, + "step": 60220 + }, + { + "epoch": 160.61333333333334, + "grad_norm": 0.267578125, + "learning_rate": 0.00029532352538156703, + "loss": 0.4511, + "step": 60230 + }, + { + "epoch": 160.64, + "grad_norm": 0.298828125, + "learning_rate": 0.000295321967544119, + "loss": 0.4559, + "step": 60240 + }, + { + "epoch": 160.66666666666666, + "grad_norm": 0.37890625, + "learning_rate": 0.0002953204094513493, + "loss": 0.4722, + "step": 60250 + }, + { + "epoch": 160.69333333333333, + "grad_norm": 0.361328125, + "learning_rate": 0.00029531885110326066, + "loss": 0.4548, + "step": 60260 + }, + { + "epoch": 160.72, + "grad_norm": 0.328125, + "learning_rate": 0.00029531729249985574, + "loss": 0.4718, + "step": 60270 + }, + { + "epoch": 160.74666666666667, + "grad_norm": 0.376953125, + "learning_rate": 0.00029531573364113736, + "loss": 0.4766, + "step": 60280 + }, + { + "epoch": 160.77333333333334, + "grad_norm": 0.314453125, + "learning_rate": 0.00029531417452710823, + "loss": 0.4833, + "step": 60290 + }, + { + "epoch": 160.8, + "grad_norm": 0.337890625, + "learning_rate": 0.00029531261515777107, + "loss": 0.4702, + "step": 60300 + }, + { + "epoch": 160.82666666666665, + "grad_norm": 0.34375, + "learning_rate": 0.00029531105553312864, + "loss": 0.4654, + "step": 60310 + }, + { + "epoch": 160.85333333333332, + "grad_norm": 0.3203125, + "learning_rate": 0.00029530949565318365, + "loss": 0.4733, + "step": 60320 + }, + { + "epoch": 160.88, + "grad_norm": 0.283203125, + "learning_rate": 0.00029530793551793886, + "loss": 0.4623, + "step": 60330 + }, + { + "epoch": 160.90666666666667, + "grad_norm": 0.310546875, + "learning_rate": 0.0002953063751273971, + "loss": 0.4649, + "step": 60340 + }, + { + "epoch": 160.93333333333334, + "grad_norm": 0.28125, + "learning_rate": 0.0002953048144815609, + "loss": 0.4665, + "step": 60350 + }, + { + "epoch": 160.96, + "grad_norm": 0.318359375, + "learning_rate": 0.00029530325358043325, + "loss": 0.4645, + "step": 60360 + }, + { + "epoch": 160.98666666666668, + "grad_norm": 0.322265625, + "learning_rate": 0.0002953016924240167, + "loss": 0.478, + "step": 60370 + }, + { + "epoch": 161.0, + "eval_loss": 0.4802950620651245, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.9741, + "eval_samples_per_second": 1.604, + "eval_steps_per_second": 0.1, + "step": 60375 + }, + { + "epoch": 161.01333333333332, + "grad_norm": 0.337890625, + "learning_rate": 0.00029530013101231403, + "loss": 0.467, + "step": 60380 + }, + { + "epoch": 161.04, + "grad_norm": 0.306640625, + "learning_rate": 0.0002952985693453281, + "loss": 0.4919, + "step": 60390 + }, + { + "epoch": 161.06666666666666, + "grad_norm": 0.3515625, + "learning_rate": 0.00029529700742306154, + "loss": 0.4782, + "step": 60400 + }, + { + "epoch": 161.09333333333333, + "grad_norm": 0.470703125, + "learning_rate": 0.0002952954452455171, + "loss": 0.4737, + "step": 60410 + }, + { + "epoch": 161.12, + "grad_norm": 0.55859375, + "learning_rate": 0.0002952938828126976, + "loss": 0.4706, + "step": 60420 + }, + { + "epoch": 161.14666666666668, + "grad_norm": 0.5078125, + "learning_rate": 0.00029529232012460576, + "loss": 0.4786, + "step": 60430 + }, + { + "epoch": 161.17333333333335, + "grad_norm": 0.423828125, + "learning_rate": 0.0002952907571812442, + "loss": 0.4694, + "step": 60440 + }, + { + "epoch": 161.2, + "grad_norm": 0.33984375, + "learning_rate": 0.00029528919398261584, + "loss": 0.4683, + "step": 60450 + }, + { + "epoch": 161.22666666666666, + "grad_norm": 0.310546875, + "learning_rate": 0.0002952876305287233, + "loss": 0.4657, + "step": 60460 + }, + { + "epoch": 161.25333333333333, + "grad_norm": 0.2578125, + "learning_rate": 0.00029528606681956943, + "loss": 0.4653, + "step": 60470 + }, + { + "epoch": 161.28, + "grad_norm": 0.375, + "learning_rate": 0.0002952845028551569, + "loss": 0.4799, + "step": 60480 + }, + { + "epoch": 161.30666666666667, + "grad_norm": 0.318359375, + "learning_rate": 0.0002952829386354885, + "loss": 0.4603, + "step": 60490 + }, + { + "epoch": 161.33333333333334, + "grad_norm": 0.302734375, + "learning_rate": 0.00029528137416056694, + "loss": 0.4755, + "step": 60500 + }, + { + "epoch": 161.36, + "grad_norm": 0.326171875, + "learning_rate": 0.00029527980943039507, + "loss": 0.4778, + "step": 60510 + }, + { + "epoch": 161.38666666666666, + "grad_norm": 0.435546875, + "learning_rate": 0.0002952782444449755, + "loss": 0.4697, + "step": 60520 + }, + { + "epoch": 161.41333333333333, + "grad_norm": 0.396484375, + "learning_rate": 0.00029527667920431104, + "loss": 0.4735, + "step": 60530 + }, + { + "epoch": 161.44, + "grad_norm": 0.33203125, + "learning_rate": 0.0002952751137084044, + "loss": 0.4766, + "step": 60540 + }, + { + "epoch": 161.46666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.00029527354795725843, + "loss": 0.4856, + "step": 60550 + }, + { + "epoch": 161.49333333333334, + "grad_norm": 0.380859375, + "learning_rate": 0.00029527198195087586, + "loss": 0.4773, + "step": 60560 + }, + { + "epoch": 161.52, + "grad_norm": 0.484375, + "learning_rate": 0.0002952704156892593, + "loss": 0.4719, + "step": 60570 + }, + { + "epoch": 161.54666666666665, + "grad_norm": 0.396484375, + "learning_rate": 0.0002952688491724117, + "loss": 0.4688, + "step": 60580 + }, + { + "epoch": 161.57333333333332, + "grad_norm": 0.349609375, + "learning_rate": 0.00029526728240033564, + "loss": 0.4677, + "step": 60590 + }, + { + "epoch": 161.6, + "grad_norm": 0.30078125, + "learning_rate": 0.000295265715373034, + "loss": 0.4616, + "step": 60600 + }, + { + "epoch": 161.62666666666667, + "grad_norm": 0.30078125, + "learning_rate": 0.0002952641480905095, + "loss": 0.4485, + "step": 60610 + }, + { + "epoch": 161.65333333333334, + "grad_norm": 0.28125, + "learning_rate": 0.00029526258055276484, + "loss": 0.4675, + "step": 60620 + }, + { + "epoch": 161.68, + "grad_norm": 0.40625, + "learning_rate": 0.0002952610127598029, + "loss": 0.4588, + "step": 60630 + }, + { + "epoch": 161.70666666666668, + "grad_norm": 0.4140625, + "learning_rate": 0.0002952594447116262, + "loss": 0.4598, + "step": 60640 + }, + { + "epoch": 161.73333333333332, + "grad_norm": 0.341796875, + "learning_rate": 0.0002952578764082377, + "loss": 0.4788, + "step": 60650 + }, + { + "epoch": 161.76, + "grad_norm": 0.349609375, + "learning_rate": 0.00029525630784964013, + "loss": 0.4797, + "step": 60660 + }, + { + "epoch": 161.78666666666666, + "grad_norm": 0.404296875, + "learning_rate": 0.00029525473903583617, + "loss": 0.4789, + "step": 60670 + }, + { + "epoch": 161.81333333333333, + "grad_norm": 0.349609375, + "learning_rate": 0.0002952531699668287, + "loss": 0.4635, + "step": 60680 + }, + { + "epoch": 161.84, + "grad_norm": 0.412109375, + "learning_rate": 0.0002952516006426203, + "loss": 0.4697, + "step": 60690 + }, + { + "epoch": 161.86666666666667, + "grad_norm": 0.349609375, + "learning_rate": 0.00029525003106321384, + "loss": 0.4697, + "step": 60700 + }, + { + "epoch": 161.89333333333335, + "grad_norm": 0.30859375, + "learning_rate": 0.0002952484612286121, + "loss": 0.4609, + "step": 60710 + }, + { + "epoch": 161.92, + "grad_norm": 0.318359375, + "learning_rate": 0.00029524689113881783, + "loss": 0.4706, + "step": 60720 + }, + { + "epoch": 161.94666666666666, + "grad_norm": 0.232421875, + "learning_rate": 0.0002952453207938337, + "loss": 0.4627, + "step": 60730 + }, + { + "epoch": 161.97333333333333, + "grad_norm": 0.40625, + "learning_rate": 0.0002952437501936625, + "loss": 0.4741, + "step": 60740 + }, + { + "epoch": 162.0, + "grad_norm": 0.330078125, + "learning_rate": 0.00029524217933830704, + "loss": 0.4638, + "step": 60750 + }, + { + "epoch": 162.0, + "eval_loss": 0.4797598421573639, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.5891, + "eval_samples_per_second": 1.511, + "eval_steps_per_second": 0.094, + "step": 60750 + }, + { + "epoch": 162.02666666666667, + "grad_norm": 0.36328125, + "learning_rate": 0.00029524060822777007, + "loss": 0.4828, + "step": 60760 + }, + { + "epoch": 162.05333333333334, + "grad_norm": 0.37890625, + "learning_rate": 0.0002952390368620543, + "loss": 0.489, + "step": 60770 + }, + { + "epoch": 162.08, + "grad_norm": 0.365234375, + "learning_rate": 0.00029523746524116255, + "loss": 0.4759, + "step": 60780 + }, + { + "epoch": 162.10666666666665, + "grad_norm": 0.375, + "learning_rate": 0.0002952358933650976, + "loss": 0.4707, + "step": 60790 + }, + { + "epoch": 162.13333333333333, + "grad_norm": 0.37890625, + "learning_rate": 0.0002952343212338621, + "loss": 0.4733, + "step": 60800 + }, + { + "epoch": 162.16, + "grad_norm": 0.259765625, + "learning_rate": 0.00029523274884745896, + "loss": 0.4769, + "step": 60810 + }, + { + "epoch": 162.18666666666667, + "grad_norm": 0.2578125, + "learning_rate": 0.00029523117620589077, + "loss": 0.4692, + "step": 60820 + }, + { + "epoch": 162.21333333333334, + "grad_norm": 0.2236328125, + "learning_rate": 0.00029522960330916043, + "loss": 0.4638, + "step": 60830 + }, + { + "epoch": 162.24, + "grad_norm": 0.373046875, + "learning_rate": 0.0002952280301572707, + "loss": 0.4677, + "step": 60840 + }, + { + "epoch": 162.26666666666668, + "grad_norm": 0.28515625, + "learning_rate": 0.0002952264567502242, + "loss": 0.4718, + "step": 60850 + }, + { + "epoch": 162.29333333333332, + "grad_norm": 0.3671875, + "learning_rate": 0.00029522488308802395, + "loss": 0.4667, + "step": 60860 + }, + { + "epoch": 162.32, + "grad_norm": 0.2412109375, + "learning_rate": 0.00029522330917067246, + "loss": 0.4697, + "step": 60870 + }, + { + "epoch": 162.34666666666666, + "grad_norm": 0.306640625, + "learning_rate": 0.00029522173499817265, + "loss": 0.4771, + "step": 60880 + }, + { + "epoch": 162.37333333333333, + "grad_norm": 0.34375, + "learning_rate": 0.00029522016057052715, + "loss": 0.4734, + "step": 60890 + }, + { + "epoch": 162.4, + "grad_norm": 0.291015625, + "learning_rate": 0.00029521858588773886, + "loss": 0.4701, + "step": 60900 + }, + { + "epoch": 162.42666666666668, + "grad_norm": 0.294921875, + "learning_rate": 0.0002952170109498105, + "loss": 0.4761, + "step": 60910 + }, + { + "epoch": 162.45333333333335, + "grad_norm": 0.359375, + "learning_rate": 0.0002952154357567449, + "loss": 0.4782, + "step": 60920 + }, + { + "epoch": 162.48, + "grad_norm": 0.384765625, + "learning_rate": 0.0002952138603085447, + "loss": 0.4846, + "step": 60930 + }, + { + "epoch": 162.50666666666666, + "grad_norm": 0.3125, + "learning_rate": 0.0002952122846052127, + "loss": 0.4737, + "step": 60940 + }, + { + "epoch": 162.53333333333333, + "grad_norm": 0.255859375, + "learning_rate": 0.0002952107086467518, + "loss": 0.4687, + "step": 60950 + }, + { + "epoch": 162.56, + "grad_norm": 0.39453125, + "learning_rate": 0.0002952091324331646, + "loss": 0.4694, + "step": 60960 + }, + { + "epoch": 162.58666666666667, + "grad_norm": 0.384765625, + "learning_rate": 0.0002952075559644539, + "loss": 0.4649, + "step": 60970 + }, + { + "epoch": 162.61333333333334, + "grad_norm": 0.240234375, + "learning_rate": 0.0002952059792406225, + "loss": 0.4513, + "step": 60980 + }, + { + "epoch": 162.64, + "grad_norm": 0.2236328125, + "learning_rate": 0.0002952044022616732, + "loss": 0.4561, + "step": 60990 + }, + { + "epoch": 162.66666666666666, + "grad_norm": 0.326171875, + "learning_rate": 0.00029520282502760884, + "loss": 0.4721, + "step": 61000 + }, + { + "epoch": 162.69333333333333, + "grad_norm": 0.294921875, + "learning_rate": 0.000295201247538432, + "loss": 0.4548, + "step": 61010 + }, + { + "epoch": 162.72, + "grad_norm": 0.380859375, + "learning_rate": 0.00029519966979414555, + "loss": 0.4715, + "step": 61020 + }, + { + "epoch": 162.74666666666667, + "grad_norm": 0.341796875, + "learning_rate": 0.00029519809179475234, + "loss": 0.4761, + "step": 61030 + }, + { + "epoch": 162.77333333333334, + "grad_norm": 0.4375, + "learning_rate": 0.000295196513540255, + "loss": 0.4838, + "step": 61040 + }, + { + "epoch": 162.8, + "grad_norm": 0.37109375, + "learning_rate": 0.00029519493503065634, + "loss": 0.4706, + "step": 61050 + }, + { + "epoch": 162.82666666666665, + "grad_norm": 0.25390625, + "learning_rate": 0.00029519335626595924, + "loss": 0.465, + "step": 61060 + }, + { + "epoch": 162.85333333333332, + "grad_norm": 0.5, + "learning_rate": 0.00029519177724616634, + "loss": 0.4739, + "step": 61070 + }, + { + "epoch": 162.88, + "grad_norm": 0.33203125, + "learning_rate": 0.00029519019797128045, + "loss": 0.4616, + "step": 61080 + }, + { + "epoch": 162.90666666666667, + "grad_norm": 0.375, + "learning_rate": 0.00029518861844130445, + "loss": 0.465, + "step": 61090 + }, + { + "epoch": 162.93333333333334, + "grad_norm": 0.259765625, + "learning_rate": 0.00029518703865624095, + "loss": 0.466, + "step": 61100 + }, + { + "epoch": 162.96, + "grad_norm": 0.2890625, + "learning_rate": 0.00029518545861609286, + "loss": 0.4646, + "step": 61110 + }, + { + "epoch": 162.98666666666668, + "grad_norm": 0.337890625, + "learning_rate": 0.00029518387832086284, + "loss": 0.4775, + "step": 61120 + }, + { + "epoch": 163.0, + "eval_loss": 0.4788980185985565, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.2111, + "eval_samples_per_second": 1.567, + "eval_steps_per_second": 0.098, + "step": 61125 + }, + { + "epoch": 163.01333333333332, + "grad_norm": 0.3359375, + "learning_rate": 0.00029518229777055377, + "loss": 0.4672, + "step": 61130 + }, + { + "epoch": 163.04, + "grad_norm": 0.37890625, + "learning_rate": 0.00029518071696516836, + "loss": 0.4917, + "step": 61140 + }, + { + "epoch": 163.06666666666666, + "grad_norm": 0.396484375, + "learning_rate": 0.00029517913590470943, + "loss": 0.4791, + "step": 61150 + }, + { + "epoch": 163.09333333333333, + "grad_norm": 0.376953125, + "learning_rate": 0.00029517755458917974, + "loss": 0.4738, + "step": 61160 + }, + { + "epoch": 163.12, + "grad_norm": 0.361328125, + "learning_rate": 0.00029517597301858205, + "loss": 0.4702, + "step": 61170 + }, + { + "epoch": 163.14666666666668, + "grad_norm": 0.412109375, + "learning_rate": 0.0002951743911929192, + "loss": 0.4788, + "step": 61180 + }, + { + "epoch": 163.17333333333335, + "grad_norm": 0.3515625, + "learning_rate": 0.00029517280911219387, + "loss": 0.4691, + "step": 61190 + }, + { + "epoch": 163.2, + "grad_norm": 0.30078125, + "learning_rate": 0.0002951712267764089, + "loss": 0.4677, + "step": 61200 + }, + { + "epoch": 163.22666666666666, + "grad_norm": 0.35546875, + "learning_rate": 0.00029516964418556705, + "loss": 0.4659, + "step": 61210 + }, + { + "epoch": 163.25333333333333, + "grad_norm": 0.30859375, + "learning_rate": 0.0002951680613396712, + "loss": 0.4648, + "step": 61220 + }, + { + "epoch": 163.28, + "grad_norm": 0.29296875, + "learning_rate": 0.000295166478238724, + "loss": 0.4787, + "step": 61230 + }, + { + "epoch": 163.30666666666667, + "grad_norm": 0.333984375, + "learning_rate": 0.00029516489488272824, + "loss": 0.46, + "step": 61240 + }, + { + "epoch": 163.33333333333334, + "grad_norm": 0.322265625, + "learning_rate": 0.00029516331127168674, + "loss": 0.4754, + "step": 61250 + }, + { + "epoch": 163.36, + "grad_norm": 0.34375, + "learning_rate": 0.00029516172740560233, + "loss": 0.4773, + "step": 61260 + }, + { + "epoch": 163.38666666666666, + "grad_norm": 0.458984375, + "learning_rate": 0.00029516014328447775, + "loss": 0.4693, + "step": 61270 + }, + { + "epoch": 163.41333333333333, + "grad_norm": 0.373046875, + "learning_rate": 0.00029515855890831574, + "loss": 0.4734, + "step": 61280 + }, + { + "epoch": 163.44, + "grad_norm": 0.388671875, + "learning_rate": 0.0002951569742771191, + "loss": 0.4764, + "step": 61290 + }, + { + "epoch": 163.46666666666667, + "grad_norm": 0.35546875, + "learning_rate": 0.0002951553893908907, + "loss": 0.4862, + "step": 61300 + }, + { + "epoch": 163.49333333333334, + "grad_norm": 0.40625, + "learning_rate": 0.00029515380424963324, + "loss": 0.4776, + "step": 61310 + }, + { + "epoch": 163.52, + "grad_norm": 0.306640625, + "learning_rate": 0.0002951522188533495, + "loss": 0.4714, + "step": 61320 + }, + { + "epoch": 163.54666666666665, + "grad_norm": 0.361328125, + "learning_rate": 0.0002951506332020423, + "loss": 0.4678, + "step": 61330 + }, + { + "epoch": 163.57333333333332, + "grad_norm": 0.3125, + "learning_rate": 0.00029514904729571436, + "loss": 0.467, + "step": 61340 + }, + { + "epoch": 163.6, + "grad_norm": 0.298828125, + "learning_rate": 0.0002951474611343686, + "loss": 0.4608, + "step": 61350 + }, + { + "epoch": 163.62666666666667, + "grad_norm": 0.33203125, + "learning_rate": 0.0002951458747180077, + "loss": 0.4486, + "step": 61360 + }, + { + "epoch": 163.65333333333334, + "grad_norm": 0.31640625, + "learning_rate": 0.0002951442880466345, + "loss": 0.4681, + "step": 61370 + }, + { + "epoch": 163.68, + "grad_norm": 0.369140625, + "learning_rate": 0.0002951427011202518, + "loss": 0.459, + "step": 61380 + }, + { + "epoch": 163.70666666666668, + "grad_norm": 0.31640625, + "learning_rate": 0.00029514111393886226, + "loss": 0.4598, + "step": 61390 + }, + { + "epoch": 163.73333333333332, + "grad_norm": 0.41015625, + "learning_rate": 0.0002951395265024688, + "loss": 0.479, + "step": 61400 + }, + { + "epoch": 163.76, + "grad_norm": 0.62890625, + "learning_rate": 0.0002951379388110742, + "loss": 0.4804, + "step": 61410 + }, + { + "epoch": 163.78666666666666, + "grad_norm": 0.443359375, + "learning_rate": 0.0002951363508646812, + "loss": 0.4786, + "step": 61420 + }, + { + "epoch": 163.81333333333333, + "grad_norm": 0.427734375, + "learning_rate": 0.0002951347626632926, + "loss": 0.4638, + "step": 61430 + }, + { + "epoch": 163.84, + "grad_norm": 0.375, + "learning_rate": 0.0002951331742069112, + "loss": 0.4693, + "step": 61440 + }, + { + "epoch": 163.86666666666667, + "grad_norm": 0.251953125, + "learning_rate": 0.00029513158549553976, + "loss": 0.4693, + "step": 61450 + }, + { + "epoch": 163.89333333333335, + "grad_norm": 0.2890625, + "learning_rate": 0.00029512999652918115, + "loss": 0.4603, + "step": 61460 + }, + { + "epoch": 163.92, + "grad_norm": 0.328125, + "learning_rate": 0.00029512840730783814, + "loss": 0.4704, + "step": 61470 + }, + { + "epoch": 163.94666666666666, + "grad_norm": 0.298828125, + "learning_rate": 0.00029512681783151344, + "loss": 0.4632, + "step": 61480 + }, + { + "epoch": 163.97333333333333, + "grad_norm": 0.5703125, + "learning_rate": 0.0002951252281002099, + "loss": 0.4749, + "step": 61490 + }, + { + "epoch": 164.0, + "grad_norm": 0.330078125, + "learning_rate": 0.00029512363811393035, + "loss": 0.4635, + "step": 61500 + }, + { + "epoch": 164.0, + "eval_loss": 0.4781702160835266, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.4605, + "eval_samples_per_second": 1.53, + "eval_steps_per_second": 0.096, + "step": 61500 + }, + { + "epoch": 164.02666666666667, + "grad_norm": 0.380859375, + "learning_rate": 0.00029512204787267754, + "loss": 0.4834, + "step": 61510 + }, + { + "epoch": 164.05333333333334, + "grad_norm": 0.35546875, + "learning_rate": 0.0002951204573764542, + "loss": 0.4897, + "step": 61520 + }, + { + "epoch": 164.08, + "grad_norm": 0.341796875, + "learning_rate": 0.0002951188666252632, + "loss": 0.476, + "step": 61530 + }, + { + "epoch": 164.10666666666665, + "grad_norm": 0.388671875, + "learning_rate": 0.0002951172756191074, + "loss": 0.4711, + "step": 61540 + }, + { + "epoch": 164.13333333333333, + "grad_norm": 0.369140625, + "learning_rate": 0.00029511568435798953, + "loss": 0.4721, + "step": 61550 + }, + { + "epoch": 164.16, + "grad_norm": 0.361328125, + "learning_rate": 0.00029511409284191235, + "loss": 0.4766, + "step": 61560 + }, + { + "epoch": 164.18666666666667, + "grad_norm": 0.3515625, + "learning_rate": 0.0002951125010708787, + "loss": 0.4696, + "step": 61570 + }, + { + "epoch": 164.21333333333334, + "grad_norm": 0.2890625, + "learning_rate": 0.00029511090904489135, + "loss": 0.4634, + "step": 61580 + }, + { + "epoch": 164.24, + "grad_norm": 0.375, + "learning_rate": 0.00029510931676395306, + "loss": 0.4684, + "step": 61590 + }, + { + "epoch": 164.26666666666668, + "grad_norm": 0.240234375, + "learning_rate": 0.00029510772422806675, + "loss": 0.4721, + "step": 61600 + }, + { + "epoch": 164.29333333333332, + "grad_norm": 0.259765625, + "learning_rate": 0.0002951061314372351, + "loss": 0.4657, + "step": 61610 + }, + { + "epoch": 164.32, + "grad_norm": 0.279296875, + "learning_rate": 0.00029510453839146094, + "loss": 0.4693, + "step": 61620 + }, + { + "epoch": 164.34666666666666, + "grad_norm": 0.4296875, + "learning_rate": 0.00029510294509074714, + "loss": 0.4777, + "step": 61630 + }, + { + "epoch": 164.37333333333333, + "grad_norm": 0.40234375, + "learning_rate": 0.0002951013515350964, + "loss": 0.4738, + "step": 61640 + }, + { + "epoch": 164.4, + "grad_norm": 0.33203125, + "learning_rate": 0.00029509975772451155, + "loss": 0.4694, + "step": 61650 + }, + { + "epoch": 164.42666666666668, + "grad_norm": 0.35546875, + "learning_rate": 0.00029509816365899547, + "loss": 0.4757, + "step": 61660 + }, + { + "epoch": 164.45333333333335, + "grad_norm": 0.333984375, + "learning_rate": 0.0002950965693385508, + "loss": 0.4787, + "step": 61670 + }, + { + "epoch": 164.48, + "grad_norm": 0.369140625, + "learning_rate": 0.0002950949747631805, + "loss": 0.4843, + "step": 61680 + }, + { + "epoch": 164.50666666666666, + "grad_norm": 0.2890625, + "learning_rate": 0.0002950933799328873, + "loss": 0.4745, + "step": 61690 + }, + { + "epoch": 164.53333333333333, + "grad_norm": 0.23828125, + "learning_rate": 0.000295091784847674, + "loss": 0.4684, + "step": 61700 + }, + { + "epoch": 164.56, + "grad_norm": 0.54296875, + "learning_rate": 0.00029509018950754336, + "loss": 0.4693, + "step": 61710 + }, + { + "epoch": 164.58666666666667, + "grad_norm": 0.330078125, + "learning_rate": 0.0002950885939124983, + "loss": 0.466, + "step": 61720 + }, + { + "epoch": 164.61333333333334, + "grad_norm": 0.34765625, + "learning_rate": 0.0002950869980625415, + "loss": 0.4507, + "step": 61730 + }, + { + "epoch": 164.64, + "grad_norm": 0.28125, + "learning_rate": 0.00029508540195767586, + "loss": 0.4562, + "step": 61740 + }, + { + "epoch": 164.66666666666666, + "grad_norm": 0.33203125, + "learning_rate": 0.0002950838055979041, + "loss": 0.4721, + "step": 61750 + }, + { + "epoch": 164.69333333333333, + "grad_norm": 0.298828125, + "learning_rate": 0.0002950822089832291, + "loss": 0.4543, + "step": 61760 + }, + { + "epoch": 164.72, + "grad_norm": 0.3125, + "learning_rate": 0.00029508061211365363, + "loss": 0.4716, + "step": 61770 + }, + { + "epoch": 164.74666666666667, + "grad_norm": 0.328125, + "learning_rate": 0.00029507901498918054, + "loss": 0.4759, + "step": 61780 + }, + { + "epoch": 164.77333333333334, + "grad_norm": 0.359375, + "learning_rate": 0.00029507741760981254, + "loss": 0.4826, + "step": 61790 + }, + { + "epoch": 164.8, + "grad_norm": 0.51953125, + "learning_rate": 0.0002950758199755525, + "loss": 0.4707, + "step": 61800 + }, + { + "epoch": 164.82666666666665, + "grad_norm": 0.33984375, + "learning_rate": 0.00029507422208640324, + "loss": 0.4646, + "step": 61810 + }, + { + "epoch": 164.85333333333332, + "grad_norm": 0.30078125, + "learning_rate": 0.0002950726239423675, + "loss": 0.4741, + "step": 61820 + }, + { + "epoch": 164.88, + "grad_norm": 0.353515625, + "learning_rate": 0.00029507102554344816, + "loss": 0.462, + "step": 61830 + }, + { + "epoch": 164.90666666666667, + "grad_norm": 0.265625, + "learning_rate": 0.00029506942688964805, + "loss": 0.4644, + "step": 61840 + }, + { + "epoch": 164.93333333333334, + "grad_norm": 0.275390625, + "learning_rate": 0.0002950678279809699, + "loss": 0.466, + "step": 61850 + }, + { + "epoch": 164.96, + "grad_norm": 0.3203125, + "learning_rate": 0.0002950662288174165, + "loss": 0.4642, + "step": 61860 + }, + { + "epoch": 164.98666666666668, + "grad_norm": 0.34375, + "learning_rate": 0.00029506462939899076, + "loss": 0.478, + "step": 61870 + }, + { + "epoch": 165.0, + "eval_loss": 0.4781385660171509, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.869, + "eval_samples_per_second": 1.621, + "eval_steps_per_second": 0.101, + "step": 61875 + }, + { + "epoch": 165.01333333333332, + "grad_norm": 0.44140625, + "learning_rate": 0.00029506302972569546, + "loss": 0.4677, + "step": 61880 + }, + { + "epoch": 165.04, + "grad_norm": 0.353515625, + "learning_rate": 0.00029506142979753334, + "loss": 0.4917, + "step": 61890 + }, + { + "epoch": 165.06666666666666, + "grad_norm": 0.3515625, + "learning_rate": 0.00029505982961450727, + "loss": 0.4791, + "step": 61900 + }, + { + "epoch": 165.09333333333333, + "grad_norm": 0.302734375, + "learning_rate": 0.00029505822917662007, + "loss": 0.4737, + "step": 61910 + }, + { + "epoch": 165.12, + "grad_norm": 0.35546875, + "learning_rate": 0.0002950566284838745, + "loss": 0.4702, + "step": 61920 + }, + { + "epoch": 165.14666666666668, + "grad_norm": 0.275390625, + "learning_rate": 0.00029505502753627346, + "loss": 0.4785, + "step": 61930 + }, + { + "epoch": 165.17333333333335, + "grad_norm": 0.3046875, + "learning_rate": 0.00029505342633381963, + "loss": 0.4697, + "step": 61940 + }, + { + "epoch": 165.2, + "grad_norm": 0.3046875, + "learning_rate": 0.000295051824876516, + "loss": 0.4672, + "step": 61950 + }, + { + "epoch": 165.22666666666666, + "grad_norm": 0.2890625, + "learning_rate": 0.00029505022316436523, + "loss": 0.4657, + "step": 61960 + }, + { + "epoch": 165.25333333333333, + "grad_norm": 0.376953125, + "learning_rate": 0.0002950486211973702, + "loss": 0.4657, + "step": 61970 + }, + { + "epoch": 165.28, + "grad_norm": 0.34375, + "learning_rate": 0.0002950470189755337, + "loss": 0.4794, + "step": 61980 + }, + { + "epoch": 165.30666666666667, + "grad_norm": 0.35546875, + "learning_rate": 0.00029504541649885864, + "loss": 0.4595, + "step": 61990 + }, + { + "epoch": 165.33333333333334, + "grad_norm": 0.287109375, + "learning_rate": 0.00029504381376734766, + "loss": 0.4756, + "step": 62000 + }, + { + "epoch": 165.36, + "grad_norm": 0.240234375, + "learning_rate": 0.00029504221078100373, + "loss": 0.4774, + "step": 62010 + }, + { + "epoch": 165.38666666666666, + "grad_norm": 0.390625, + "learning_rate": 0.0002950406075398296, + "loss": 0.4691, + "step": 62020 + }, + { + "epoch": 165.41333333333333, + "grad_norm": 0.353515625, + "learning_rate": 0.000295039004043828, + "loss": 0.4737, + "step": 62030 + }, + { + "epoch": 165.44, + "grad_norm": 0.376953125, + "learning_rate": 0.0002950374002930019, + "loss": 0.4766, + "step": 62040 + }, + { + "epoch": 165.46666666666667, + "grad_norm": 0.5078125, + "learning_rate": 0.00029503579628735417, + "loss": 0.4857, + "step": 62050 + }, + { + "epoch": 165.49333333333334, + "grad_norm": 0.4140625, + "learning_rate": 0.00029503419202688735, + "loss": 0.4776, + "step": 62060 + }, + { + "epoch": 165.52, + "grad_norm": 0.291015625, + "learning_rate": 0.00029503258751160456, + "loss": 0.4721, + "step": 62070 + }, + { + "epoch": 165.54666666666665, + "grad_norm": 0.349609375, + "learning_rate": 0.0002950309827415084, + "loss": 0.4689, + "step": 62080 + }, + { + "epoch": 165.57333333333332, + "grad_norm": 0.28125, + "learning_rate": 0.0002950293777166018, + "loss": 0.4681, + "step": 62090 + }, + { + "epoch": 165.6, + "grad_norm": 0.359375, + "learning_rate": 0.00029502777243688757, + "loss": 0.4615, + "step": 62100 + }, + { + "epoch": 165.62666666666667, + "grad_norm": 0.294921875, + "learning_rate": 0.0002950261669023685, + "loss": 0.4485, + "step": 62110 + }, + { + "epoch": 165.65333333333334, + "grad_norm": 0.275390625, + "learning_rate": 0.0002950245611130474, + "loss": 0.468, + "step": 62120 + }, + { + "epoch": 165.68, + "grad_norm": 0.43359375, + "learning_rate": 0.00029502295506892714, + "loss": 0.4596, + "step": 62130 + }, + { + "epoch": 165.70666666666668, + "grad_norm": 0.33203125, + "learning_rate": 0.00029502134877001056, + "loss": 0.4594, + "step": 62140 + }, + { + "epoch": 165.73333333333332, + "grad_norm": 0.39453125, + "learning_rate": 0.0002950197422163004, + "loss": 0.4794, + "step": 62150 + }, + { + "epoch": 165.76, + "grad_norm": 0.2412109375, + "learning_rate": 0.00029501813540779953, + "loss": 0.48, + "step": 62160 + }, + { + "epoch": 165.78666666666666, + "grad_norm": 0.326171875, + "learning_rate": 0.00029501652834451077, + "loss": 0.4787, + "step": 62170 + }, + { + "epoch": 165.81333333333333, + "grad_norm": 0.38671875, + "learning_rate": 0.00029501492102643694, + "loss": 0.4634, + "step": 62180 + }, + { + "epoch": 165.84, + "grad_norm": 0.30078125, + "learning_rate": 0.00029501331345358086, + "loss": 0.47, + "step": 62190 + }, + { + "epoch": 165.86666666666667, + "grad_norm": 0.423828125, + "learning_rate": 0.00029501170562594534, + "loss": 0.469, + "step": 62200 + }, + { + "epoch": 165.89333333333335, + "grad_norm": 0.3828125, + "learning_rate": 0.00029501009754353326, + "loss": 0.4599, + "step": 62210 + }, + { + "epoch": 165.92, + "grad_norm": 0.3125, + "learning_rate": 0.0002950084892063474, + "loss": 0.471, + "step": 62220 + }, + { + "epoch": 165.94666666666666, + "grad_norm": 0.28125, + "learning_rate": 0.0002950068806143906, + "loss": 0.4632, + "step": 62230 + }, + { + "epoch": 165.97333333333333, + "grad_norm": 0.5, + "learning_rate": 0.00029500527176766565, + "loss": 0.474, + "step": 62240 + }, + { + "epoch": 166.0, + "grad_norm": 0.4765625, + "learning_rate": 0.0002950036626661754, + "loss": 0.4636, + "step": 62250 + }, + { + "epoch": 166.0, + "eval_loss": 0.4782837927341461, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.1462, + "eval_samples_per_second": 1.577, + "eval_steps_per_second": 0.099, + "step": 62250 + }, + { + "epoch": 166.02666666666667, + "grad_norm": 0.35546875, + "learning_rate": 0.0002950020533099227, + "loss": 0.4832, + "step": 62260 + }, + { + "epoch": 166.05333333333334, + "grad_norm": 0.3046875, + "learning_rate": 0.00029500044369891036, + "loss": 0.4889, + "step": 62270 + }, + { + "epoch": 166.08, + "grad_norm": 0.255859375, + "learning_rate": 0.00029499883383314124, + "loss": 0.4757, + "step": 62280 + }, + { + "epoch": 166.10666666666665, + "grad_norm": 0.275390625, + "learning_rate": 0.0002949972237126181, + "loss": 0.4707, + "step": 62290 + }, + { + "epoch": 166.13333333333333, + "grad_norm": 0.45703125, + "learning_rate": 0.00029499561333734385, + "loss": 0.4729, + "step": 62300 + }, + { + "epoch": 166.16, + "grad_norm": 0.3359375, + "learning_rate": 0.00029499400270732127, + "loss": 0.477, + "step": 62310 + }, + { + "epoch": 166.18666666666667, + "grad_norm": 0.259765625, + "learning_rate": 0.00029499239182255313, + "loss": 0.4692, + "step": 62320 + }, + { + "epoch": 166.21333333333334, + "grad_norm": 0.328125, + "learning_rate": 0.00029499078068304243, + "loss": 0.4636, + "step": 62330 + }, + { + "epoch": 166.24, + "grad_norm": 0.3125, + "learning_rate": 0.00029498916928879186, + "loss": 0.4683, + "step": 62340 + }, + { + "epoch": 166.26666666666668, + "grad_norm": 0.23046875, + "learning_rate": 0.00029498755763980426, + "loss": 0.4723, + "step": 62350 + }, + { + "epoch": 166.29333333333332, + "grad_norm": 0.28515625, + "learning_rate": 0.0002949859457360825, + "loss": 0.466, + "step": 62360 + }, + { + "epoch": 166.32, + "grad_norm": 0.271484375, + "learning_rate": 0.00029498433357762937, + "loss": 0.4685, + "step": 62370 + }, + { + "epoch": 166.34666666666666, + "grad_norm": 0.33203125, + "learning_rate": 0.00029498272116444777, + "loss": 0.4769, + "step": 62380 + }, + { + "epoch": 166.37333333333333, + "grad_norm": 0.5, + "learning_rate": 0.00029498110849654046, + "loss": 0.4736, + "step": 62390 + }, + { + "epoch": 166.4, + "grad_norm": 0.5, + "learning_rate": 0.00029497949557391037, + "loss": 0.4704, + "step": 62400 + }, + { + "epoch": 166.42666666666668, + "grad_norm": 0.43359375, + "learning_rate": 0.00029497788239656026, + "loss": 0.4759, + "step": 62410 + }, + { + "epoch": 166.45333333333335, + "grad_norm": 0.404296875, + "learning_rate": 0.000294976268964493, + "loss": 0.4779, + "step": 62420 + }, + { + "epoch": 166.48, + "grad_norm": 0.404296875, + "learning_rate": 0.00029497465527771136, + "loss": 0.4849, + "step": 62430 + }, + { + "epoch": 166.50666666666666, + "grad_norm": 0.2451171875, + "learning_rate": 0.0002949730413362182, + "loss": 0.474, + "step": 62440 + }, + { + "epoch": 166.53333333333333, + "grad_norm": 0.357421875, + "learning_rate": 0.00029497142714001644, + "loss": 0.4684, + "step": 62450 + }, + { + "epoch": 166.56, + "grad_norm": 0.455078125, + "learning_rate": 0.0002949698126891088, + "loss": 0.4691, + "step": 62460 + }, + { + "epoch": 166.58666666666667, + "grad_norm": 0.388671875, + "learning_rate": 0.0002949681979834982, + "loss": 0.4654, + "step": 62470 + }, + { + "epoch": 166.61333333333334, + "grad_norm": 0.35546875, + "learning_rate": 0.0002949665830231874, + "loss": 0.4515, + "step": 62480 + }, + { + "epoch": 166.64, + "grad_norm": 0.28515625, + "learning_rate": 0.00029496496780817934, + "loss": 0.4559, + "step": 62490 + }, + { + "epoch": 166.66666666666666, + "grad_norm": 0.369140625, + "learning_rate": 0.00029496335233847673, + "loss": 0.4713, + "step": 62500 + }, + { + "epoch": 166.69333333333333, + "grad_norm": 0.37109375, + "learning_rate": 0.00029496173661408255, + "loss": 0.4549, + "step": 62510 + }, + { + "epoch": 166.72, + "grad_norm": 0.322265625, + "learning_rate": 0.00029496012063499953, + "loss": 0.4721, + "step": 62520 + }, + { + "epoch": 166.74666666666667, + "grad_norm": 0.3125, + "learning_rate": 0.0002949585044012305, + "loss": 0.4762, + "step": 62530 + }, + { + "epoch": 166.77333333333334, + "grad_norm": 0.43359375, + "learning_rate": 0.00029495688791277843, + "loss": 0.484, + "step": 62540 + }, + { + "epoch": 166.8, + "grad_norm": 0.416015625, + "learning_rate": 0.00029495527116964605, + "loss": 0.4708, + "step": 62550 + }, + { + "epoch": 166.82666666666665, + "grad_norm": 0.341796875, + "learning_rate": 0.0002949536541718362, + "loss": 0.4649, + "step": 62560 + }, + { + "epoch": 166.85333333333332, + "grad_norm": 0.314453125, + "learning_rate": 0.0002949520369193517, + "loss": 0.4737, + "step": 62570 + }, + { + "epoch": 166.88, + "grad_norm": 0.380859375, + "learning_rate": 0.0002949504194121955, + "loss": 0.4617, + "step": 62580 + }, + { + "epoch": 166.90666666666667, + "grad_norm": 0.30078125, + "learning_rate": 0.0002949488016503704, + "loss": 0.4645, + "step": 62590 + }, + { + "epoch": 166.93333333333334, + "grad_norm": 0.2158203125, + "learning_rate": 0.0002949471836338792, + "loss": 0.4665, + "step": 62600 + }, + { + "epoch": 166.96, + "grad_norm": 0.3984375, + "learning_rate": 0.00029494556536272475, + "loss": 0.4642, + "step": 62610 + }, + { + "epoch": 166.98666666666668, + "grad_norm": 0.318359375, + "learning_rate": 0.0002949439468369099, + "loss": 0.478, + "step": 62620 + }, + { + "epoch": 167.0, + "eval_loss": 0.4798828363418579, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.3858, + "eval_samples_per_second": 1.541, + "eval_steps_per_second": 0.096, + "step": 62625 + }, + { + "epoch": 167.01333333333332, + "grad_norm": 0.36328125, + "learning_rate": 0.00029494232805643756, + "loss": 0.4666, + "step": 62630 + }, + { + "epoch": 167.04, + "grad_norm": 0.3671875, + "learning_rate": 0.00029494070902131046, + "loss": 0.4911, + "step": 62640 + }, + { + "epoch": 167.06666666666666, + "grad_norm": 0.390625, + "learning_rate": 0.00029493908973153153, + "loss": 0.4786, + "step": 62650 + }, + { + "epoch": 167.09333333333333, + "grad_norm": 0.287109375, + "learning_rate": 0.00029493747018710355, + "loss": 0.4734, + "step": 62660 + }, + { + "epoch": 167.12, + "grad_norm": 0.302734375, + "learning_rate": 0.00029493585038802944, + "loss": 0.47, + "step": 62670 + }, + { + "epoch": 167.14666666666668, + "grad_norm": 0.26953125, + "learning_rate": 0.00029493423033431196, + "loss": 0.4781, + "step": 62680 + }, + { + "epoch": 167.17333333333335, + "grad_norm": 0.3359375, + "learning_rate": 0.00029493261002595404, + "loss": 0.4697, + "step": 62690 + }, + { + "epoch": 167.2, + "grad_norm": 0.33984375, + "learning_rate": 0.0002949309894629585, + "loss": 0.4679, + "step": 62700 + }, + { + "epoch": 167.22666666666666, + "grad_norm": 0.333984375, + "learning_rate": 0.0002949293686453281, + "loss": 0.4654, + "step": 62710 + }, + { + "epoch": 167.25333333333333, + "grad_norm": 0.35546875, + "learning_rate": 0.00029492774757306585, + "loss": 0.4655, + "step": 62720 + }, + { + "epoch": 167.28, + "grad_norm": 0.466796875, + "learning_rate": 0.00029492612624617447, + "loss": 0.4787, + "step": 62730 + }, + { + "epoch": 167.30666666666667, + "grad_norm": 0.458984375, + "learning_rate": 0.0002949245046646569, + "loss": 0.46, + "step": 62740 + }, + { + "epoch": 167.33333333333334, + "grad_norm": 0.40234375, + "learning_rate": 0.0002949228828285159, + "loss": 0.4756, + "step": 62750 + }, + { + "epoch": 167.36, + "grad_norm": 0.30078125, + "learning_rate": 0.0002949212607377543, + "loss": 0.4771, + "step": 62760 + }, + { + "epoch": 167.38666666666666, + "grad_norm": 0.416015625, + "learning_rate": 0.00029491963839237514, + "loss": 0.4687, + "step": 62770 + }, + { + "epoch": 167.41333333333333, + "grad_norm": 0.3125, + "learning_rate": 0.00029491801579238105, + "loss": 0.4738, + "step": 62780 + }, + { + "epoch": 167.44, + "grad_norm": 0.333984375, + "learning_rate": 0.00029491639293777503, + "loss": 0.4763, + "step": 62790 + }, + { + "epoch": 167.46666666666667, + "grad_norm": 0.33203125, + "learning_rate": 0.0002949147698285598, + "loss": 0.4856, + "step": 62800 + }, + { + "epoch": 167.49333333333334, + "grad_norm": 0.365234375, + "learning_rate": 0.00029491314646473834, + "loss": 0.4775, + "step": 62810 + }, + { + "epoch": 167.52, + "grad_norm": 0.322265625, + "learning_rate": 0.0002949115228463134, + "loss": 0.4713, + "step": 62820 + }, + { + "epoch": 167.54666666666665, + "grad_norm": 0.48828125, + "learning_rate": 0.00029490989897328795, + "loss": 0.4691, + "step": 62830 + }, + { + "epoch": 167.57333333333332, + "grad_norm": 0.234375, + "learning_rate": 0.0002949082748456647, + "loss": 0.4672, + "step": 62840 + }, + { + "epoch": 167.6, + "grad_norm": 0.388671875, + "learning_rate": 0.0002949066504634466, + "loss": 0.4614, + "step": 62850 + }, + { + "epoch": 167.62666666666667, + "grad_norm": 0.2451171875, + "learning_rate": 0.00029490502582663644, + "loss": 0.4483, + "step": 62860 + }, + { + "epoch": 167.65333333333334, + "grad_norm": 0.328125, + "learning_rate": 0.0002949034009352372, + "loss": 0.4682, + "step": 62870 + }, + { + "epoch": 167.68, + "grad_norm": 0.291015625, + "learning_rate": 0.0002949017757892516, + "loss": 0.4595, + "step": 62880 + }, + { + "epoch": 167.70666666666668, + "grad_norm": 0.416015625, + "learning_rate": 0.00029490015038868253, + "loss": 0.4602, + "step": 62890 + }, + { + "epoch": 167.73333333333332, + "grad_norm": 0.33203125, + "learning_rate": 0.00029489852473353286, + "loss": 0.4788, + "step": 62900 + }, + { + "epoch": 167.76, + "grad_norm": 0.38671875, + "learning_rate": 0.0002948968988238055, + "loss": 0.4801, + "step": 62910 + }, + { + "epoch": 167.78666666666666, + "grad_norm": 0.33203125, + "learning_rate": 0.0002948952726595032, + "loss": 0.4781, + "step": 62920 + }, + { + "epoch": 167.81333333333333, + "grad_norm": 0.259765625, + "learning_rate": 0.0002948936462406289, + "loss": 0.4641, + "step": 62930 + }, + { + "epoch": 167.84, + "grad_norm": 0.380859375, + "learning_rate": 0.0002948920195671854, + "loss": 0.4694, + "step": 62940 + }, + { + "epoch": 167.86666666666667, + "grad_norm": 0.349609375, + "learning_rate": 0.0002948903926391756, + "loss": 0.4686, + "step": 62950 + }, + { + "epoch": 167.89333333333335, + "grad_norm": 0.3203125, + "learning_rate": 0.0002948887654566023, + "loss": 0.4605, + "step": 62960 + }, + { + "epoch": 167.92, + "grad_norm": 0.27734375, + "learning_rate": 0.00029488713801946844, + "loss": 0.4704, + "step": 62970 + }, + { + "epoch": 167.94666666666666, + "grad_norm": 0.3046875, + "learning_rate": 0.00029488551032777683, + "loss": 0.463, + "step": 62980 + }, + { + "epoch": 167.97333333333333, + "grad_norm": 0.265625, + "learning_rate": 0.0002948838823815303, + "loss": 0.4746, + "step": 62990 + }, + { + "epoch": 168.0, + "grad_norm": 0.328125, + "learning_rate": 0.00029488225418073186, + "loss": 0.4629, + "step": 63000 + }, + { + "epoch": 168.0, + "eval_loss": 0.47927647829055786, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.5313, + "eval_samples_per_second": 1.519, + "eval_steps_per_second": 0.095, + "step": 63000 + }, + { + "epoch": 168.02666666666667, + "grad_norm": 0.376953125, + "learning_rate": 0.0002948806257253842, + "loss": 0.4834, + "step": 63010 + }, + { + "epoch": 168.05333333333334, + "grad_norm": 0.283203125, + "learning_rate": 0.00029487899701549023, + "loss": 0.4888, + "step": 63020 + }, + { + "epoch": 168.08, + "grad_norm": 0.412109375, + "learning_rate": 0.0002948773680510528, + "loss": 0.4762, + "step": 63030 + }, + { + "epoch": 168.10666666666665, + "grad_norm": 0.396484375, + "learning_rate": 0.0002948757388320749, + "loss": 0.4708, + "step": 63040 + }, + { + "epoch": 168.13333333333333, + "grad_norm": 0.328125, + "learning_rate": 0.0002948741093585592, + "loss": 0.4727, + "step": 63050 + }, + { + "epoch": 168.16, + "grad_norm": 0.453125, + "learning_rate": 0.00029487247963050865, + "loss": 0.4772, + "step": 63060 + }, + { + "epoch": 168.18666666666667, + "grad_norm": 0.328125, + "learning_rate": 0.00029487084964792615, + "loss": 0.469, + "step": 63070 + }, + { + "epoch": 168.21333333333334, + "grad_norm": 0.314453125, + "learning_rate": 0.0002948692194108145, + "loss": 0.4633, + "step": 63080 + }, + { + "epoch": 168.24, + "grad_norm": 0.3828125, + "learning_rate": 0.00029486758891917664, + "loss": 0.4673, + "step": 63090 + }, + { + "epoch": 168.26666666666668, + "grad_norm": 0.255859375, + "learning_rate": 0.0002948659581730154, + "loss": 0.472, + "step": 63100 + }, + { + "epoch": 168.29333333333332, + "grad_norm": 0.37890625, + "learning_rate": 0.00029486432717233354, + "loss": 0.4653, + "step": 63110 + }, + { + "epoch": 168.32, + "grad_norm": 0.39453125, + "learning_rate": 0.0002948626959171341, + "loss": 0.469, + "step": 63120 + }, + { + "epoch": 168.34666666666666, + "grad_norm": 0.328125, + "learning_rate": 0.0002948610644074198, + "loss": 0.4783, + "step": 63130 + }, + { + "epoch": 168.37333333333333, + "grad_norm": 0.32421875, + "learning_rate": 0.0002948594326431936, + "loss": 0.4735, + "step": 63140 + }, + { + "epoch": 168.4, + "grad_norm": 0.2890625, + "learning_rate": 0.00029485780062445837, + "loss": 0.4702, + "step": 63150 + }, + { + "epoch": 168.42666666666668, + "grad_norm": 0.40234375, + "learning_rate": 0.0002948561683512169, + "loss": 0.4773, + "step": 63160 + }, + { + "epoch": 168.45333333333335, + "grad_norm": 0.37109375, + "learning_rate": 0.0002948545358234721, + "loss": 0.479, + "step": 63170 + }, + { + "epoch": 168.48, + "grad_norm": 0.4453125, + "learning_rate": 0.0002948529030412269, + "loss": 0.4851, + "step": 63180 + }, + { + "epoch": 168.50666666666666, + "grad_norm": 0.365234375, + "learning_rate": 0.00029485127000448405, + "loss": 0.4748, + "step": 63190 + }, + { + "epoch": 168.53333333333333, + "grad_norm": 0.291015625, + "learning_rate": 0.00029484963671324655, + "loss": 0.4674, + "step": 63200 + }, + { + "epoch": 168.56, + "grad_norm": 0.28515625, + "learning_rate": 0.0002948480031675171, + "loss": 0.4694, + "step": 63210 + }, + { + "epoch": 168.58666666666667, + "grad_norm": 0.234375, + "learning_rate": 0.0002948463693672987, + "loss": 0.4653, + "step": 63220 + }, + { + "epoch": 168.61333333333334, + "grad_norm": 0.294921875, + "learning_rate": 0.00029484473531259423, + "loss": 0.4509, + "step": 63230 + }, + { + "epoch": 168.64, + "grad_norm": 0.25390625, + "learning_rate": 0.0002948431010034065, + "loss": 0.4567, + "step": 63240 + }, + { + "epoch": 168.66666666666666, + "grad_norm": 0.298828125, + "learning_rate": 0.0002948414664397384, + "loss": 0.4714, + "step": 63250 + }, + { + "epoch": 168.69333333333333, + "grad_norm": 0.32421875, + "learning_rate": 0.0002948398316215928, + "loss": 0.4545, + "step": 63260 + }, + { + "epoch": 168.72, + "grad_norm": 0.466796875, + "learning_rate": 0.0002948381965489726, + "loss": 0.4713, + "step": 63270 + }, + { + "epoch": 168.74666666666667, + "grad_norm": 0.55078125, + "learning_rate": 0.00029483656122188063, + "loss": 0.4756, + "step": 63280 + }, + { + "epoch": 168.77333333333334, + "grad_norm": 0.330078125, + "learning_rate": 0.00029483492564031977, + "loss": 0.4832, + "step": 63290 + }, + { + "epoch": 168.8, + "grad_norm": 0.375, + "learning_rate": 0.0002948332898042929, + "loss": 0.4708, + "step": 63300 + }, + { + "epoch": 168.82666666666665, + "grad_norm": 0.294921875, + "learning_rate": 0.0002948316537138029, + "loss": 0.4642, + "step": 63310 + }, + { + "epoch": 168.85333333333332, + "grad_norm": 0.359375, + "learning_rate": 0.0002948300173688526, + "loss": 0.4742, + "step": 63320 + }, + { + "epoch": 168.88, + "grad_norm": 0.392578125, + "learning_rate": 0.000294828380769445, + "loss": 0.4618, + "step": 63330 + }, + { + "epoch": 168.90666666666667, + "grad_norm": 0.267578125, + "learning_rate": 0.0002948267439155829, + "loss": 0.4645, + "step": 63340 + }, + { + "epoch": 168.93333333333334, + "grad_norm": 0.3046875, + "learning_rate": 0.00029482510680726916, + "loss": 0.4666, + "step": 63350 + }, + { + "epoch": 168.96, + "grad_norm": 0.287109375, + "learning_rate": 0.0002948234694445066, + "loss": 0.4638, + "step": 63360 + }, + { + "epoch": 168.98666666666668, + "grad_norm": 0.3046875, + "learning_rate": 0.0002948218318272982, + "loss": 0.4789, + "step": 63370 + }, + { + "epoch": 169.0, + "eval_loss": 0.47983646392822266, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.5389, + "eval_samples_per_second": 1.518, + "eval_steps_per_second": 0.095, + "step": 63375 + }, + { + "epoch": 169.01333333333332, + "grad_norm": 0.3515625, + "learning_rate": 0.00029482019395564684, + "loss": 0.4677, + "step": 63380 + }, + { + "epoch": 169.04, + "grad_norm": 0.33984375, + "learning_rate": 0.0002948185558295553, + "loss": 0.4913, + "step": 63390 + }, + { + "epoch": 169.06666666666666, + "grad_norm": 0.359375, + "learning_rate": 0.0002948169174490265, + "loss": 0.4795, + "step": 63400 + }, + { + "epoch": 169.09333333333333, + "grad_norm": 0.259765625, + "learning_rate": 0.0002948152788140634, + "loss": 0.4736, + "step": 63410 + }, + { + "epoch": 169.12, + "grad_norm": 0.29296875, + "learning_rate": 0.0002948136399246688, + "loss": 0.4705, + "step": 63420 + }, + { + "epoch": 169.14666666666668, + "grad_norm": 0.298828125, + "learning_rate": 0.0002948120007808456, + "loss": 0.4788, + "step": 63430 + }, + { + "epoch": 169.17333333333335, + "grad_norm": 0.341796875, + "learning_rate": 0.00029481036138259665, + "loss": 0.4695, + "step": 63440 + }, + { + "epoch": 169.2, + "grad_norm": 0.28515625, + "learning_rate": 0.0002948087217299248, + "loss": 0.4674, + "step": 63450 + }, + { + "epoch": 169.22666666666666, + "grad_norm": 0.38671875, + "learning_rate": 0.0002948070818228331, + "loss": 0.4655, + "step": 63460 + }, + { + "epoch": 169.25333333333333, + "grad_norm": 0.36328125, + "learning_rate": 0.00029480544166132425, + "loss": 0.4646, + "step": 63470 + }, + { + "epoch": 169.28, + "grad_norm": 0.328125, + "learning_rate": 0.00029480380124540114, + "loss": 0.4784, + "step": 63480 + }, + { + "epoch": 169.30666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.0002948021605750668, + "loss": 0.4594, + "step": 63490 + }, + { + "epoch": 169.33333333333334, + "grad_norm": 0.31640625, + "learning_rate": 0.000294800519650324, + "loss": 0.4747, + "step": 63500 + }, + { + "epoch": 169.36, + "grad_norm": 0.380859375, + "learning_rate": 0.0002947988784711756, + "loss": 0.477, + "step": 63510 + }, + { + "epoch": 169.38666666666666, + "grad_norm": 0.310546875, + "learning_rate": 0.00029479723703762457, + "loss": 0.4691, + "step": 63520 + }, + { + "epoch": 169.41333333333333, + "grad_norm": 0.5078125, + "learning_rate": 0.00029479559534967373, + "loss": 0.4733, + "step": 63530 + }, + { + "epoch": 169.44, + "grad_norm": 0.259765625, + "learning_rate": 0.00029479395340732597, + "loss": 0.4765, + "step": 63540 + }, + { + "epoch": 169.46666666666667, + "grad_norm": 0.2890625, + "learning_rate": 0.00029479231121058426, + "loss": 0.4855, + "step": 63550 + }, + { + "epoch": 169.49333333333334, + "grad_norm": 0.291015625, + "learning_rate": 0.00029479066875945137, + "loss": 0.4771, + "step": 63560 + }, + { + "epoch": 169.52, + "grad_norm": 0.2353515625, + "learning_rate": 0.0002947890260539302, + "loss": 0.4717, + "step": 63570 + }, + { + "epoch": 169.54666666666665, + "grad_norm": 0.302734375, + "learning_rate": 0.00029478738309402376, + "loss": 0.4691, + "step": 63580 + }, + { + "epoch": 169.57333333333332, + "grad_norm": 0.337890625, + "learning_rate": 0.0002947857398797348, + "loss": 0.4674, + "step": 63590 + }, + { + "epoch": 169.6, + "grad_norm": 0.369140625, + "learning_rate": 0.0002947840964110662, + "loss": 0.461, + "step": 63600 + }, + { + "epoch": 169.62666666666667, + "grad_norm": 0.28515625, + "learning_rate": 0.00029478245268802096, + "loss": 0.4487, + "step": 63610 + }, + { + "epoch": 169.65333333333334, + "grad_norm": 0.341796875, + "learning_rate": 0.00029478080871060187, + "loss": 0.4684, + "step": 63620 + }, + { + "epoch": 169.68, + "grad_norm": 0.26171875, + "learning_rate": 0.00029477916447881187, + "loss": 0.4594, + "step": 63630 + }, + { + "epoch": 169.70666666666668, + "grad_norm": 0.361328125, + "learning_rate": 0.00029477751999265384, + "loss": 0.4597, + "step": 63640 + }, + { + "epoch": 169.73333333333332, + "grad_norm": 0.375, + "learning_rate": 0.00029477587525213064, + "loss": 0.4782, + "step": 63650 + }, + { + "epoch": 169.76, + "grad_norm": 0.314453125, + "learning_rate": 0.0002947742302572452, + "loss": 0.48, + "step": 63660 + }, + { + "epoch": 169.78666666666666, + "grad_norm": 0.296875, + "learning_rate": 0.00029477258500800043, + "loss": 0.4787, + "step": 63670 + }, + { + "epoch": 169.81333333333333, + "grad_norm": 0.310546875, + "learning_rate": 0.0002947709395043991, + "loss": 0.4641, + "step": 63680 + }, + { + "epoch": 169.84, + "grad_norm": 0.37890625, + "learning_rate": 0.0002947692937464442, + "loss": 0.4691, + "step": 63690 + }, + { + "epoch": 169.86666666666667, + "grad_norm": 0.27734375, + "learning_rate": 0.0002947676477341387, + "loss": 0.4693, + "step": 63700 + }, + { + "epoch": 169.89333333333335, + "grad_norm": 0.419921875, + "learning_rate": 0.00029476600146748533, + "loss": 0.4603, + "step": 63710 + }, + { + "epoch": 169.92, + "grad_norm": 0.380859375, + "learning_rate": 0.00029476435494648706, + "loss": 0.47, + "step": 63720 + }, + { + "epoch": 169.94666666666666, + "grad_norm": 0.30859375, + "learning_rate": 0.00029476270817114673, + "loss": 0.4625, + "step": 63730 + }, + { + "epoch": 169.97333333333333, + "grad_norm": 0.33984375, + "learning_rate": 0.00029476106114146737, + "loss": 0.4743, + "step": 63740 + }, + { + "epoch": 170.0, + "grad_norm": 0.3203125, + "learning_rate": 0.00029475941385745174, + "loss": 0.4638, + "step": 63750 + }, + { + "epoch": 170.0, + "eval_loss": 0.4791702628135681, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.5946, + "eval_samples_per_second": 1.668, + "eval_steps_per_second": 0.104, + "step": 63750 + }, + { + "epoch": 170.02666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.0002947577663191027, + "loss": 0.4828, + "step": 63760 + }, + { + "epoch": 170.05333333333334, + "grad_norm": 0.31640625, + "learning_rate": 0.0002947561185264233, + "loss": 0.4889, + "step": 63770 + }, + { + "epoch": 170.08, + "grad_norm": 0.341796875, + "learning_rate": 0.0002947544704794163, + "loss": 0.4758, + "step": 63780 + }, + { + "epoch": 170.10666666666665, + "grad_norm": 0.40234375, + "learning_rate": 0.0002947528221780847, + "loss": 0.4712, + "step": 63790 + }, + { + "epoch": 170.13333333333333, + "grad_norm": 0.3046875, + "learning_rate": 0.00029475117362243137, + "loss": 0.4722, + "step": 63800 + }, + { + "epoch": 170.16, + "grad_norm": 0.333984375, + "learning_rate": 0.0002947495248124591, + "loss": 0.4768, + "step": 63810 + }, + { + "epoch": 170.18666666666667, + "grad_norm": 0.341796875, + "learning_rate": 0.0002947478757481709, + "loss": 0.4688, + "step": 63820 + }, + { + "epoch": 170.21333333333334, + "grad_norm": 0.27734375, + "learning_rate": 0.0002947462264295697, + "loss": 0.4644, + "step": 63830 + }, + { + "epoch": 170.24, + "grad_norm": 0.318359375, + "learning_rate": 0.00029474457685665825, + "loss": 0.4678, + "step": 63840 + }, + { + "epoch": 170.26666666666668, + "grad_norm": 0.3671875, + "learning_rate": 0.00029474292702943956, + "loss": 0.4715, + "step": 63850 + }, + { + "epoch": 170.29333333333332, + "grad_norm": 0.333984375, + "learning_rate": 0.0002947412769479165, + "loss": 0.4659, + "step": 63860 + }, + { + "epoch": 170.32, + "grad_norm": 0.28515625, + "learning_rate": 0.000294739626612092, + "loss": 0.4688, + "step": 63870 + }, + { + "epoch": 170.34666666666666, + "grad_norm": 0.30859375, + "learning_rate": 0.0002947379760219689, + "loss": 0.4769, + "step": 63880 + }, + { + "epoch": 170.37333333333333, + "grad_norm": 0.439453125, + "learning_rate": 0.0002947363251775501, + "loss": 0.4733, + "step": 63890 + }, + { + "epoch": 170.4, + "grad_norm": 0.326171875, + "learning_rate": 0.0002947346740788386, + "loss": 0.4703, + "step": 63900 + }, + { + "epoch": 170.42666666666668, + "grad_norm": 0.41796875, + "learning_rate": 0.0002947330227258372, + "loss": 0.4758, + "step": 63910 + }, + { + "epoch": 170.45333333333335, + "grad_norm": 0.33203125, + "learning_rate": 0.00029473137111854877, + "loss": 0.4783, + "step": 63920 + }, + { + "epoch": 170.48, + "grad_norm": 0.3828125, + "learning_rate": 0.0002947297192569764, + "loss": 0.4847, + "step": 63930 + }, + { + "epoch": 170.50666666666666, + "grad_norm": 0.345703125, + "learning_rate": 0.00029472806714112275, + "loss": 0.4746, + "step": 63940 + }, + { + "epoch": 170.53333333333333, + "grad_norm": 0.2421875, + "learning_rate": 0.00029472641477099087, + "loss": 0.4684, + "step": 63950 + }, + { + "epoch": 170.56, + "grad_norm": 0.28125, + "learning_rate": 0.0002947247621465837, + "loss": 0.4692, + "step": 63960 + }, + { + "epoch": 170.58666666666667, + "grad_norm": 0.427734375, + "learning_rate": 0.000294723109267904, + "loss": 0.4647, + "step": 63970 + }, + { + "epoch": 170.61333333333334, + "grad_norm": 0.263671875, + "learning_rate": 0.00029472145613495474, + "loss": 0.451, + "step": 63980 + }, + { + "epoch": 170.64, + "grad_norm": 0.37890625, + "learning_rate": 0.0002947198027477389, + "loss": 0.4565, + "step": 63990 + }, + { + "epoch": 170.66666666666666, + "grad_norm": 0.400390625, + "learning_rate": 0.00029471814910625926, + "loss": 0.4711, + "step": 64000 + }, + { + "epoch": 170.69333333333333, + "grad_norm": 0.29296875, + "learning_rate": 0.00029471649521051885, + "loss": 0.4541, + "step": 64010 + }, + { + "epoch": 170.72, + "grad_norm": 0.2734375, + "learning_rate": 0.00029471484106052045, + "loss": 0.4713, + "step": 64020 + }, + { + "epoch": 170.74666666666667, + "grad_norm": 0.39453125, + "learning_rate": 0.00029471318665626704, + "loss": 0.4762, + "step": 64030 + }, + { + "epoch": 170.77333333333334, + "grad_norm": 0.88671875, + "learning_rate": 0.0002947115319977615, + "loss": 0.4833, + "step": 64040 + }, + { + "epoch": 170.8, + "grad_norm": 0.466796875, + "learning_rate": 0.00029470987708500677, + "loss": 0.4707, + "step": 64050 + }, + { + "epoch": 170.82666666666665, + "grad_norm": 0.333984375, + "learning_rate": 0.0002947082219180057, + "loss": 0.4652, + "step": 64060 + }, + { + "epoch": 170.85333333333332, + "grad_norm": 0.3515625, + "learning_rate": 0.0002947065664967613, + "loss": 0.4739, + "step": 64070 + }, + { + "epoch": 170.88, + "grad_norm": 0.35546875, + "learning_rate": 0.0002947049108212764, + "loss": 0.4614, + "step": 64080 + }, + { + "epoch": 170.90666666666667, + "grad_norm": 0.326171875, + "learning_rate": 0.0002947032548915539, + "loss": 0.4648, + "step": 64090 + }, + { + "epoch": 170.93333333333334, + "grad_norm": 0.376953125, + "learning_rate": 0.0002947015987075967, + "loss": 0.4658, + "step": 64100 + }, + { + "epoch": 170.96, + "grad_norm": 0.326171875, + "learning_rate": 0.00029469994226940784, + "loss": 0.4648, + "step": 64110 + }, + { + "epoch": 170.98666666666668, + "grad_norm": 0.330078125, + "learning_rate": 0.0002946982855769901, + "loss": 0.4789, + "step": 64120 + }, + { + "epoch": 171.0, + "eval_loss": 0.4793436825275421, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.8251, + "eval_samples_per_second": 1.478, + "eval_steps_per_second": 0.092, + "step": 64125 + }, + { + "epoch": 171.01333333333332, + "grad_norm": 0.4375, + "learning_rate": 0.0002946966286303464, + "loss": 0.4671, + "step": 64130 + }, + { + "epoch": 171.04, + "grad_norm": 0.306640625, + "learning_rate": 0.00029469497142947963, + "loss": 0.4912, + "step": 64140 + }, + { + "epoch": 171.06666666666666, + "grad_norm": 0.3203125, + "learning_rate": 0.0002946933139743928, + "loss": 0.4792, + "step": 64150 + }, + { + "epoch": 171.09333333333333, + "grad_norm": 0.310546875, + "learning_rate": 0.00029469165626508874, + "loss": 0.4735, + "step": 64160 + }, + { + "epoch": 171.12, + "grad_norm": 0.3203125, + "learning_rate": 0.0002946899983015704, + "loss": 0.4694, + "step": 64170 + }, + { + "epoch": 171.14666666666668, + "grad_norm": 0.341796875, + "learning_rate": 0.0002946883400838407, + "loss": 0.4789, + "step": 64180 + }, + { + "epoch": 171.17333333333335, + "grad_norm": 0.392578125, + "learning_rate": 0.0002946866816119025, + "loss": 0.4688, + "step": 64190 + }, + { + "epoch": 171.2, + "grad_norm": 0.37109375, + "learning_rate": 0.0002946850228857588, + "loss": 0.4681, + "step": 64200 + }, + { + "epoch": 171.22666666666666, + "grad_norm": 0.4453125, + "learning_rate": 0.00029468336390541243, + "loss": 0.4657, + "step": 64210 + }, + { + "epoch": 171.25333333333333, + "grad_norm": 0.302734375, + "learning_rate": 0.00029468170467086634, + "loss": 0.465, + "step": 64220 + }, + { + "epoch": 171.28, + "grad_norm": 0.50390625, + "learning_rate": 0.00029468004518212347, + "loss": 0.4793, + "step": 64230 + }, + { + "epoch": 171.30666666666667, + "grad_norm": 0.388671875, + "learning_rate": 0.00029467838543918674, + "loss": 0.4597, + "step": 64240 + }, + { + "epoch": 171.33333333333334, + "grad_norm": 0.275390625, + "learning_rate": 0.00029467672544205897, + "loss": 0.4754, + "step": 64250 + }, + { + "epoch": 171.36, + "grad_norm": 0.27734375, + "learning_rate": 0.00029467506519074315, + "loss": 0.477, + "step": 64260 + }, + { + "epoch": 171.38666666666666, + "grad_norm": 0.302734375, + "learning_rate": 0.0002946734046852422, + "loss": 0.4694, + "step": 64270 + }, + { + "epoch": 171.41333333333333, + "grad_norm": 0.33203125, + "learning_rate": 0.000294671743925559, + "loss": 0.4739, + "step": 64280 + }, + { + "epoch": 171.44, + "grad_norm": 0.333984375, + "learning_rate": 0.0002946700829116965, + "loss": 0.4766, + "step": 64290 + }, + { + "epoch": 171.46666666666667, + "grad_norm": 0.400390625, + "learning_rate": 0.0002946684216436577, + "loss": 0.4862, + "step": 64300 + }, + { + "epoch": 171.49333333333334, + "grad_norm": 0.400390625, + "learning_rate": 0.0002946667601214454, + "loss": 0.4768, + "step": 64310 + }, + { + "epoch": 171.52, + "grad_norm": 0.359375, + "learning_rate": 0.0002946650983450625, + "loss": 0.4713, + "step": 64320 + }, + { + "epoch": 171.54666666666665, + "grad_norm": 0.34375, + "learning_rate": 0.000294663436314512, + "loss": 0.469, + "step": 64330 + }, + { + "epoch": 171.57333333333332, + "grad_norm": 0.2890625, + "learning_rate": 0.00029466177402979674, + "loss": 0.4678, + "step": 64340 + }, + { + "epoch": 171.6, + "grad_norm": 0.359375, + "learning_rate": 0.00029466011149091977, + "loss": 0.4615, + "step": 64350 + }, + { + "epoch": 171.62666666666667, + "grad_norm": 0.345703125, + "learning_rate": 0.0002946584486978839, + "loss": 0.4491, + "step": 64360 + }, + { + "epoch": 171.65333333333334, + "grad_norm": 0.345703125, + "learning_rate": 0.0002946567856506921, + "loss": 0.4682, + "step": 64370 + }, + { + "epoch": 171.68, + "grad_norm": 0.251953125, + "learning_rate": 0.00029465512234934724, + "loss": 0.4588, + "step": 64380 + }, + { + "epoch": 171.70666666666668, + "grad_norm": 0.390625, + "learning_rate": 0.0002946534587938523, + "loss": 0.4597, + "step": 64390 + }, + { + "epoch": 171.73333333333332, + "grad_norm": 0.3203125, + "learning_rate": 0.0002946517949842102, + "loss": 0.4786, + "step": 64400 + }, + { + "epoch": 171.76, + "grad_norm": 0.478515625, + "learning_rate": 0.0002946501309204238, + "loss": 0.4801, + "step": 64410 + }, + { + "epoch": 171.78666666666666, + "grad_norm": 0.296875, + "learning_rate": 0.0002946484666024961, + "loss": 0.4789, + "step": 64420 + }, + { + "epoch": 171.81333333333333, + "grad_norm": 0.330078125, + "learning_rate": 0.00029464680203043, + "loss": 0.4644, + "step": 64430 + }, + { + "epoch": 171.84, + "grad_norm": 0.37109375, + "learning_rate": 0.0002946451372042284, + "loss": 0.4694, + "step": 64440 + }, + { + "epoch": 171.86666666666667, + "grad_norm": 0.337890625, + "learning_rate": 0.0002946434721238942, + "loss": 0.4691, + "step": 64450 + }, + { + "epoch": 171.89333333333335, + "grad_norm": 0.220703125, + "learning_rate": 0.00029464180678943046, + "loss": 0.46, + "step": 64460 + }, + { + "epoch": 171.92, + "grad_norm": 0.337890625, + "learning_rate": 0.00029464014120083996, + "loss": 0.4705, + "step": 64470 + }, + { + "epoch": 171.94666666666666, + "grad_norm": 0.267578125, + "learning_rate": 0.0002946384753581257, + "loss": 0.4628, + "step": 64480 + }, + { + "epoch": 171.97333333333333, + "grad_norm": 0.34375, + "learning_rate": 0.0002946368092612905, + "loss": 0.4736, + "step": 64490 + }, + { + "epoch": 172.0, + "grad_norm": 0.365234375, + "learning_rate": 0.0002946351429103375, + "loss": 0.4631, + "step": 64500 + }, + { + "epoch": 172.0, + "eval_loss": 0.48019760847091675, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.5782, + "eval_samples_per_second": 1.513, + "eval_steps_per_second": 0.095, + "step": 64500 + }, + { + "epoch": 172.02666666666667, + "grad_norm": 0.43359375, + "learning_rate": 0.0002946334763052694, + "loss": 0.4831, + "step": 64510 + }, + { + "epoch": 172.05333333333334, + "grad_norm": 0.455078125, + "learning_rate": 0.0002946318094460893, + "loss": 0.4889, + "step": 64520 + }, + { + "epoch": 172.08, + "grad_norm": 0.361328125, + "learning_rate": 0.0002946301423328, + "loss": 0.4763, + "step": 64530 + }, + { + "epoch": 172.10666666666665, + "grad_norm": 0.296875, + "learning_rate": 0.00029462847496540453, + "loss": 0.4701, + "step": 64540 + }, + { + "epoch": 172.13333333333333, + "grad_norm": 0.369140625, + "learning_rate": 0.00029462680734390574, + "loss": 0.4723, + "step": 64550 + }, + { + "epoch": 172.16, + "grad_norm": 0.2734375, + "learning_rate": 0.00029462513946830666, + "loss": 0.4772, + "step": 64560 + }, + { + "epoch": 172.18666666666667, + "grad_norm": 0.330078125, + "learning_rate": 0.0002946234713386101, + "loss": 0.4686, + "step": 64570 + }, + { + "epoch": 172.21333333333334, + "grad_norm": 0.294921875, + "learning_rate": 0.0002946218029548191, + "loss": 0.4639, + "step": 64580 + }, + { + "epoch": 172.24, + "grad_norm": 0.283203125, + "learning_rate": 0.0002946201343169364, + "loss": 0.4674, + "step": 64590 + }, + { + "epoch": 172.26666666666668, + "grad_norm": 0.37109375, + "learning_rate": 0.00029461846542496524, + "loss": 0.4712, + "step": 64600 + }, + { + "epoch": 172.29333333333332, + "grad_norm": 0.36328125, + "learning_rate": 0.0002946167962789083, + "loss": 0.4659, + "step": 64610 + }, + { + "epoch": 172.32, + "grad_norm": 0.26171875, + "learning_rate": 0.0002946151268787686, + "loss": 0.469, + "step": 64620 + }, + { + "epoch": 172.34666666666666, + "grad_norm": 0.42578125, + "learning_rate": 0.00029461345722454907, + "loss": 0.4778, + "step": 64630 + }, + { + "epoch": 172.37333333333333, + "grad_norm": 0.318359375, + "learning_rate": 0.00029461178731625263, + "loss": 0.4729, + "step": 64640 + }, + { + "epoch": 172.4, + "grad_norm": 0.435546875, + "learning_rate": 0.00029461011715388224, + "loss": 0.4698, + "step": 64650 + }, + { + "epoch": 172.42666666666668, + "grad_norm": 0.3515625, + "learning_rate": 0.00029460844673744085, + "loss": 0.476, + "step": 64660 + }, + { + "epoch": 172.45333333333335, + "grad_norm": 0.44921875, + "learning_rate": 0.0002946067760669313, + "loss": 0.4785, + "step": 64670 + }, + { + "epoch": 172.48, + "grad_norm": 0.43359375, + "learning_rate": 0.0002946051051423566, + "loss": 0.4844, + "step": 64680 + }, + { + "epoch": 172.50666666666666, + "grad_norm": 0.35546875, + "learning_rate": 0.0002946034339637198, + "loss": 0.4743, + "step": 64690 + }, + { + "epoch": 172.53333333333333, + "grad_norm": 0.296875, + "learning_rate": 0.0002946017625310236, + "loss": 0.4677, + "step": 64700 + }, + { + "epoch": 172.56, + "grad_norm": 0.26953125, + "learning_rate": 0.000294600090844271, + "loss": 0.4694, + "step": 64710 + }, + { + "epoch": 172.58666666666667, + "grad_norm": 0.25390625, + "learning_rate": 0.00029459841890346506, + "loss": 0.4645, + "step": 64720 + }, + { + "epoch": 172.61333333333334, + "grad_norm": 0.2490234375, + "learning_rate": 0.0002945967467086086, + "loss": 0.4507, + "step": 64730 + }, + { + "epoch": 172.64, + "grad_norm": 0.2734375, + "learning_rate": 0.00029459507425970465, + "loss": 0.4565, + "step": 64740 + }, + { + "epoch": 172.66666666666666, + "grad_norm": 0.326171875, + "learning_rate": 0.00029459340155675606, + "loss": 0.4711, + "step": 64750 + }, + { + "epoch": 172.69333333333333, + "grad_norm": 0.33984375, + "learning_rate": 0.00029459172859976583, + "loss": 0.4546, + "step": 64760 + }, + { + "epoch": 172.72, + "grad_norm": 0.34765625, + "learning_rate": 0.00029459005538873685, + "loss": 0.4719, + "step": 64770 + }, + { + "epoch": 172.74666666666667, + "grad_norm": 0.3203125, + "learning_rate": 0.00029458838192367214, + "loss": 0.476, + "step": 64780 + }, + { + "epoch": 172.77333333333334, + "grad_norm": 0.412109375, + "learning_rate": 0.0002945867082045745, + "loss": 0.4833, + "step": 64790 + }, + { + "epoch": 172.8, + "grad_norm": 0.296875, + "learning_rate": 0.0002945850342314471, + "loss": 0.4709, + "step": 64800 + }, + { + "epoch": 172.82666666666665, + "grad_norm": 0.26953125, + "learning_rate": 0.00029458336000429266, + "loss": 0.4655, + "step": 64810 + }, + { + "epoch": 172.85333333333332, + "grad_norm": 0.275390625, + "learning_rate": 0.0002945816855231141, + "loss": 0.4729, + "step": 64820 + }, + { + "epoch": 172.88, + "grad_norm": 0.28125, + "learning_rate": 0.0002945800107879146, + "loss": 0.4615, + "step": 64830 + }, + { + "epoch": 172.90666666666667, + "grad_norm": 0.359375, + "learning_rate": 0.0002945783357986969, + "loss": 0.4648, + "step": 64840 + }, + { + "epoch": 172.93333333333334, + "grad_norm": 0.38671875, + "learning_rate": 0.000294576660555464, + "loss": 0.4665, + "step": 64850 + }, + { + "epoch": 172.96, + "grad_norm": 0.33203125, + "learning_rate": 0.00029457498505821894, + "loss": 0.4634, + "step": 64860 + }, + { + "epoch": 172.98666666666668, + "grad_norm": 0.33984375, + "learning_rate": 0.0002945733093069645, + "loss": 0.4779, + "step": 64870 + }, + { + "epoch": 173.0, + "eval_loss": 0.4777694344520569, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.9365, + "eval_samples_per_second": 1.61, + "eval_steps_per_second": 0.101, + "step": 64875 + }, + { + "epoch": 173.01333333333332, + "grad_norm": 0.392578125, + "learning_rate": 0.0002945716333017037, + "loss": 0.4672, + "step": 64880 + }, + { + "epoch": 173.04, + "grad_norm": 0.2578125, + "learning_rate": 0.0002945699570424395, + "loss": 0.4908, + "step": 64890 + }, + { + "epoch": 173.06666666666666, + "grad_norm": 0.45703125, + "learning_rate": 0.0002945682805291748, + "loss": 0.4793, + "step": 64900 + }, + { + "epoch": 173.09333333333333, + "grad_norm": 0.279296875, + "learning_rate": 0.0002945666037619126, + "loss": 0.4737, + "step": 64910 + }, + { + "epoch": 173.12, + "grad_norm": 0.28125, + "learning_rate": 0.0002945649267406558, + "loss": 0.47, + "step": 64920 + }, + { + "epoch": 173.14666666666668, + "grad_norm": 0.306640625, + "learning_rate": 0.0002945632494654074, + "loss": 0.4789, + "step": 64930 + }, + { + "epoch": 173.17333333333335, + "grad_norm": 0.3125, + "learning_rate": 0.0002945615719361703, + "loss": 0.47, + "step": 64940 + }, + { + "epoch": 173.2, + "grad_norm": 0.322265625, + "learning_rate": 0.00029455989415294744, + "loss": 0.4676, + "step": 64950 + }, + { + "epoch": 173.22666666666666, + "grad_norm": 0.359375, + "learning_rate": 0.0002945582161157418, + "loss": 0.4652, + "step": 64960 + }, + { + "epoch": 173.25333333333333, + "grad_norm": 0.298828125, + "learning_rate": 0.00029455653782455634, + "loss": 0.4647, + "step": 64970 + }, + { + "epoch": 173.28, + "grad_norm": 0.453125, + "learning_rate": 0.000294554859279394, + "loss": 0.4787, + "step": 64980 + }, + { + "epoch": 173.30666666666667, + "grad_norm": 0.37109375, + "learning_rate": 0.00029455318048025766, + "loss": 0.4594, + "step": 64990 + }, + { + "epoch": 173.33333333333334, + "grad_norm": 0.26171875, + "learning_rate": 0.00029455150142715034, + "loss": 0.4751, + "step": 65000 + }, + { + "epoch": 173.36, + "grad_norm": 0.322265625, + "learning_rate": 0.000294549822120075, + "loss": 0.4773, + "step": 65010 + }, + { + "epoch": 173.38666666666666, + "grad_norm": 0.30078125, + "learning_rate": 0.0002945481425590345, + "loss": 0.4686, + "step": 65020 + }, + { + "epoch": 173.41333333333333, + "grad_norm": 0.328125, + "learning_rate": 0.0002945464627440319, + "loss": 0.4738, + "step": 65030 + }, + { + "epoch": 173.44, + "grad_norm": 0.3359375, + "learning_rate": 0.0002945447826750701, + "loss": 0.4757, + "step": 65040 + }, + { + "epoch": 173.46666666666667, + "grad_norm": 0.3359375, + "learning_rate": 0.00029454310235215207, + "loss": 0.486, + "step": 65050 + }, + { + "epoch": 173.49333333333334, + "grad_norm": 0.33203125, + "learning_rate": 0.00029454142177528077, + "loss": 0.4775, + "step": 65060 + }, + { + "epoch": 173.52, + "grad_norm": 0.294921875, + "learning_rate": 0.0002945397409444591, + "loss": 0.472, + "step": 65070 + }, + { + "epoch": 173.54666666666665, + "grad_norm": 0.3515625, + "learning_rate": 0.00029453805985969, + "loss": 0.4682, + "step": 65080 + }, + { + "epoch": 173.57333333333332, + "grad_norm": 0.3125, + "learning_rate": 0.0002945363785209765, + "loss": 0.4676, + "step": 65090 + }, + { + "epoch": 173.6, + "grad_norm": 0.3828125, + "learning_rate": 0.0002945346969283216, + "loss": 0.4608, + "step": 65100 + }, + { + "epoch": 173.62666666666667, + "grad_norm": 0.50390625, + "learning_rate": 0.0002945330150817281, + "loss": 0.4482, + "step": 65110 + }, + { + "epoch": 173.65333333333334, + "grad_norm": 0.345703125, + "learning_rate": 0.00029453133298119904, + "loss": 0.4681, + "step": 65120 + }, + { + "epoch": 173.68, + "grad_norm": 0.302734375, + "learning_rate": 0.0002945296506267374, + "loss": 0.4594, + "step": 65130 + }, + { + "epoch": 173.70666666666668, + "grad_norm": 0.337890625, + "learning_rate": 0.0002945279680183461, + "loss": 0.46, + "step": 65140 + }, + { + "epoch": 173.73333333333332, + "grad_norm": 0.36328125, + "learning_rate": 0.0002945262851560281, + "loss": 0.4783, + "step": 65150 + }, + { + "epoch": 173.76, + "grad_norm": 0.298828125, + "learning_rate": 0.00029452460203978635, + "loss": 0.4801, + "step": 65160 + }, + { + "epoch": 173.78666666666666, + "grad_norm": 0.333984375, + "learning_rate": 0.00029452291866962385, + "loss": 0.4783, + "step": 65170 + }, + { + "epoch": 173.81333333333333, + "grad_norm": 0.392578125, + "learning_rate": 0.0002945212350455434, + "loss": 0.464, + "step": 65180 + }, + { + "epoch": 173.84, + "grad_norm": 0.419921875, + "learning_rate": 0.0002945195511675482, + "loss": 0.4701, + "step": 65190 + }, + { + "epoch": 173.86666666666667, + "grad_norm": 0.26171875, + "learning_rate": 0.00029451786703564104, + "loss": 0.4684, + "step": 65200 + }, + { + "epoch": 173.89333333333335, + "grad_norm": 0.455078125, + "learning_rate": 0.00029451618264982494, + "loss": 0.4604, + "step": 65210 + }, + { + "epoch": 173.92, + "grad_norm": 0.357421875, + "learning_rate": 0.00029451449801010283, + "loss": 0.4702, + "step": 65220 + }, + { + "epoch": 173.94666666666666, + "grad_norm": 0.37890625, + "learning_rate": 0.0002945128131164777, + "loss": 0.4634, + "step": 65230 + }, + { + "epoch": 173.97333333333333, + "grad_norm": 0.37890625, + "learning_rate": 0.00029451112796895256, + "loss": 0.4742, + "step": 65240 + }, + { + "epoch": 174.0, + "grad_norm": 0.365234375, + "learning_rate": 0.00029450944256753024, + "loss": 0.4637, + "step": 65250 + }, + { + "epoch": 174.0, + "eval_loss": 0.47973257303237915, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.9547, + "eval_samples_per_second": 1.607, + "eval_steps_per_second": 0.1, + "step": 65250 + }, + { + "epoch": 174.02666666666667, + "grad_norm": 0.33203125, + "learning_rate": 0.00029450775691221374, + "loss": 0.4829, + "step": 65260 + }, + { + "epoch": 174.05333333333334, + "grad_norm": 0.330078125, + "learning_rate": 0.0002945060710030061, + "loss": 0.4891, + "step": 65270 + }, + { + "epoch": 174.08, + "grad_norm": 0.29296875, + "learning_rate": 0.0002945043848399102, + "loss": 0.4759, + "step": 65280 + }, + { + "epoch": 174.10666666666665, + "grad_norm": 0.30859375, + "learning_rate": 0.00029450269842292906, + "loss": 0.471, + "step": 65290 + }, + { + "epoch": 174.13333333333333, + "grad_norm": 0.328125, + "learning_rate": 0.00029450101175206565, + "loss": 0.4724, + "step": 65300 + }, + { + "epoch": 174.16, + "grad_norm": 0.33984375, + "learning_rate": 0.0002944993248273228, + "loss": 0.4767, + "step": 65310 + }, + { + "epoch": 174.18666666666667, + "grad_norm": 0.3203125, + "learning_rate": 0.00029449763764870365, + "loss": 0.4687, + "step": 65320 + }, + { + "epoch": 174.21333333333334, + "grad_norm": 0.396484375, + "learning_rate": 0.0002944959502162111, + "loss": 0.4635, + "step": 65330 + }, + { + "epoch": 174.24, + "grad_norm": 0.306640625, + "learning_rate": 0.0002944942625298481, + "loss": 0.4677, + "step": 65340 + }, + { + "epoch": 174.26666666666668, + "grad_norm": 0.28515625, + "learning_rate": 0.00029449257458961757, + "loss": 0.4717, + "step": 65350 + }, + { + "epoch": 174.29333333333332, + "grad_norm": 0.388671875, + "learning_rate": 0.0002944908863955226, + "loss": 0.4663, + "step": 65360 + }, + { + "epoch": 174.32, + "grad_norm": 0.251953125, + "learning_rate": 0.000294489197947566, + "loss": 0.4689, + "step": 65370 + }, + { + "epoch": 174.34666666666666, + "grad_norm": 0.376953125, + "learning_rate": 0.00029448750924575083, + "loss": 0.4778, + "step": 65380 + }, + { + "epoch": 174.37333333333333, + "grad_norm": 0.2890625, + "learning_rate": 0.0002944858202900801, + "loss": 0.4728, + "step": 65390 + }, + { + "epoch": 174.4, + "grad_norm": 0.474609375, + "learning_rate": 0.00029448413108055664, + "loss": 0.4705, + "step": 65400 + }, + { + "epoch": 174.42666666666668, + "grad_norm": 0.3671875, + "learning_rate": 0.00029448244161718357, + "loss": 0.4758, + "step": 65410 + }, + { + "epoch": 174.45333333333335, + "grad_norm": 0.4140625, + "learning_rate": 0.00029448075189996375, + "loss": 0.4783, + "step": 65420 + }, + { + "epoch": 174.48, + "grad_norm": 0.4765625, + "learning_rate": 0.0002944790619289002, + "loss": 0.4842, + "step": 65430 + }, + { + "epoch": 174.50666666666666, + "grad_norm": 0.359375, + "learning_rate": 0.0002944773717039959, + "loss": 0.4744, + "step": 65440 + }, + { + "epoch": 174.53333333333333, + "grad_norm": 0.3984375, + "learning_rate": 0.00029447568122525377, + "loss": 0.4677, + "step": 65450 + }, + { + "epoch": 174.56, + "grad_norm": 0.330078125, + "learning_rate": 0.00029447399049267677, + "loss": 0.4694, + "step": 65460 + }, + { + "epoch": 174.58666666666667, + "grad_norm": 0.498046875, + "learning_rate": 0.0002944722995062679, + "loss": 0.4641, + "step": 65470 + }, + { + "epoch": 174.61333333333334, + "grad_norm": 0.328125, + "learning_rate": 0.00029447060826603023, + "loss": 0.4513, + "step": 65480 + }, + { + "epoch": 174.64, + "grad_norm": 0.31640625, + "learning_rate": 0.0002944689167719666, + "loss": 0.4564, + "step": 65490 + }, + { + "epoch": 174.66666666666666, + "grad_norm": 0.2490234375, + "learning_rate": 0.00029446722502408, + "loss": 0.471, + "step": 65500 + }, + { + "epoch": 174.69333333333333, + "grad_norm": 0.28515625, + "learning_rate": 0.0002944655330223734, + "loss": 0.4544, + "step": 65510 + }, + { + "epoch": 174.72, + "grad_norm": 0.263671875, + "learning_rate": 0.0002944638407668498, + "loss": 0.472, + "step": 65520 + }, + { + "epoch": 174.74666666666667, + "grad_norm": 0.30078125, + "learning_rate": 0.0002944621482575122, + "loss": 0.4755, + "step": 65530 + }, + { + "epoch": 174.77333333333334, + "grad_norm": 0.451171875, + "learning_rate": 0.00029446045549436355, + "loss": 0.4839, + "step": 65540 + }, + { + "epoch": 174.8, + "grad_norm": 0.3046875, + "learning_rate": 0.00029445876247740683, + "loss": 0.4703, + "step": 65550 + }, + { + "epoch": 174.82666666666665, + "grad_norm": 0.419921875, + "learning_rate": 0.00029445706920664495, + "loss": 0.4651, + "step": 65560 + }, + { + "epoch": 174.85333333333332, + "grad_norm": 0.44140625, + "learning_rate": 0.00029445537568208093, + "loss": 0.4734, + "step": 65570 + }, + { + "epoch": 174.88, + "grad_norm": 0.337890625, + "learning_rate": 0.0002944536819037178, + "loss": 0.4618, + "step": 65580 + }, + { + "epoch": 174.90666666666667, + "grad_norm": 0.30078125, + "learning_rate": 0.00029445198787155847, + "loss": 0.4645, + "step": 65590 + }, + { + "epoch": 174.93333333333334, + "grad_norm": 0.337890625, + "learning_rate": 0.0002944502935856059, + "loss": 0.4659, + "step": 65600 + }, + { + "epoch": 174.96, + "grad_norm": 0.3359375, + "learning_rate": 0.00029444859904586315, + "loss": 0.4638, + "step": 65610 + }, + { + "epoch": 174.98666666666668, + "grad_norm": 0.3671875, + "learning_rate": 0.0002944469042523331, + "loss": 0.4782, + "step": 65620 + }, + { + "epoch": 175.0, + "eval_loss": 0.47829604148864746, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.8386, + "eval_samples_per_second": 1.626, + "eval_steps_per_second": 0.102, + "step": 65625 + }, + { + "epoch": 175.01333333333332, + "grad_norm": 0.431640625, + "learning_rate": 0.0002944452092050188, + "loss": 0.4673, + "step": 65630 + }, + { + "epoch": 175.04, + "grad_norm": 0.2294921875, + "learning_rate": 0.00029444351390392324, + "loss": 0.4919, + "step": 65640 + }, + { + "epoch": 175.06666666666666, + "grad_norm": 0.46875, + "learning_rate": 0.0002944418183490493, + "loss": 0.4784, + "step": 65650 + }, + { + "epoch": 175.09333333333333, + "grad_norm": 0.287109375, + "learning_rate": 0.0002944401225404, + "loss": 0.4739, + "step": 65660 + }, + { + "epoch": 175.12, + "grad_norm": 0.341796875, + "learning_rate": 0.0002944384264779784, + "loss": 0.4695, + "step": 65670 + }, + { + "epoch": 175.14666666666668, + "grad_norm": 0.298828125, + "learning_rate": 0.0002944367301617874, + "loss": 0.478, + "step": 65680 + }, + { + "epoch": 175.17333333333335, + "grad_norm": 0.439453125, + "learning_rate": 0.00029443503359183, + "loss": 0.4692, + "step": 65690 + }, + { + "epoch": 175.2, + "grad_norm": 0.390625, + "learning_rate": 0.0002944333367681092, + "loss": 0.4675, + "step": 65700 + }, + { + "epoch": 175.22666666666666, + "grad_norm": 0.306640625, + "learning_rate": 0.00029443163969062794, + "loss": 0.4651, + "step": 65710 + }, + { + "epoch": 175.25333333333333, + "grad_norm": 0.322265625, + "learning_rate": 0.0002944299423593892, + "loss": 0.4653, + "step": 65720 + }, + { + "epoch": 175.28, + "grad_norm": 0.349609375, + "learning_rate": 0.000294428244774396, + "loss": 0.4787, + "step": 65730 + }, + { + "epoch": 175.30666666666667, + "grad_norm": 0.59375, + "learning_rate": 0.0002944265469356513, + "loss": 0.4601, + "step": 65740 + }, + { + "epoch": 175.33333333333334, + "grad_norm": 0.365234375, + "learning_rate": 0.00029442484884315814, + "loss": 0.4756, + "step": 65750 + }, + { + "epoch": 175.36, + "grad_norm": 0.3515625, + "learning_rate": 0.00029442315049691943, + "loss": 0.4776, + "step": 65760 + }, + { + "epoch": 175.38666666666666, + "grad_norm": 0.341796875, + "learning_rate": 0.00029442145189693817, + "loss": 0.4689, + "step": 65770 + }, + { + "epoch": 175.41333333333333, + "grad_norm": 0.333984375, + "learning_rate": 0.0002944197530432174, + "loss": 0.4737, + "step": 65780 + }, + { + "epoch": 175.44, + "grad_norm": 0.28125, + "learning_rate": 0.00029441805393575995, + "loss": 0.4766, + "step": 65790 + }, + { + "epoch": 175.46666666666667, + "grad_norm": 0.44140625, + "learning_rate": 0.000294416354574569, + "loss": 0.4857, + "step": 65800 + }, + { + "epoch": 175.49333333333334, + "grad_norm": 0.44140625, + "learning_rate": 0.0002944146549596474, + "loss": 0.4773, + "step": 65810 + }, + { + "epoch": 175.52, + "grad_norm": 0.291015625, + "learning_rate": 0.00029441295509099823, + "loss": 0.4715, + "step": 65820 + }, + { + "epoch": 175.54666666666665, + "grad_norm": 0.3203125, + "learning_rate": 0.0002944112549686244, + "loss": 0.4682, + "step": 65830 + }, + { + "epoch": 175.57333333333332, + "grad_norm": 0.267578125, + "learning_rate": 0.00029440955459252894, + "loss": 0.4675, + "step": 65840 + }, + { + "epoch": 175.6, + "grad_norm": 0.35546875, + "learning_rate": 0.00029440785396271483, + "loss": 0.4607, + "step": 65850 + }, + { + "epoch": 175.62666666666667, + "grad_norm": 0.2265625, + "learning_rate": 0.000294406153079185, + "loss": 0.4474, + "step": 65860 + }, + { + "epoch": 175.65333333333334, + "grad_norm": 0.39453125, + "learning_rate": 0.0002944044519419426, + "loss": 0.4674, + "step": 65870 + }, + { + "epoch": 175.68, + "grad_norm": 0.34765625, + "learning_rate": 0.0002944027505509904, + "loss": 0.4591, + "step": 65880 + }, + { + "epoch": 175.70666666666668, + "grad_norm": 0.443359375, + "learning_rate": 0.0002944010489063316, + "loss": 0.46, + "step": 65890 + }, + { + "epoch": 175.73333333333332, + "grad_norm": 0.287109375, + "learning_rate": 0.000294399347007969, + "loss": 0.4793, + "step": 65900 + }, + { + "epoch": 175.76, + "grad_norm": 0.3046875, + "learning_rate": 0.0002943976448559057, + "loss": 0.4798, + "step": 65910 + }, + { + "epoch": 175.78666666666666, + "grad_norm": 0.380859375, + "learning_rate": 0.0002943959424501447, + "loss": 0.4785, + "step": 65920 + }, + { + "epoch": 175.81333333333333, + "grad_norm": 0.515625, + "learning_rate": 0.000294394239790689, + "loss": 0.4638, + "step": 65930 + }, + { + "epoch": 175.84, + "grad_norm": 0.392578125, + "learning_rate": 0.0002943925368775415, + "loss": 0.4696, + "step": 65940 + }, + { + "epoch": 175.86666666666667, + "grad_norm": 0.330078125, + "learning_rate": 0.00029439083371070524, + "loss": 0.469, + "step": 65950 + }, + { + "epoch": 175.89333333333335, + "grad_norm": 0.359375, + "learning_rate": 0.00029438913029018325, + "loss": 0.4601, + "step": 65960 + }, + { + "epoch": 175.92, + "grad_norm": 0.326171875, + "learning_rate": 0.0002943874266159784, + "loss": 0.4696, + "step": 65970 + }, + { + "epoch": 175.94666666666666, + "grad_norm": 0.43359375, + "learning_rate": 0.00029438572268809387, + "loss": 0.4624, + "step": 65980 + }, + { + "epoch": 175.97333333333333, + "grad_norm": 0.30078125, + "learning_rate": 0.00029438401850653253, + "loss": 0.4751, + "step": 65990 + }, + { + "epoch": 176.0, + "grad_norm": 0.26953125, + "learning_rate": 0.0002943823140712974, + "loss": 0.4632, + "step": 66000 + }, + { + "epoch": 176.0, + "eval_loss": 0.47858747839927673, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.9547, + "eval_samples_per_second": 1.607, + "eval_steps_per_second": 0.1, + "step": 66000 + }, + { + "epoch": 176.02666666666667, + "grad_norm": 0.380859375, + "learning_rate": 0.00029438060938239145, + "loss": 0.4829, + "step": 66010 + }, + { + "epoch": 176.05333333333334, + "grad_norm": 0.416015625, + "learning_rate": 0.0002943789044398177, + "loss": 0.4888, + "step": 66020 + }, + { + "epoch": 176.08, + "grad_norm": 0.63671875, + "learning_rate": 0.0002943771992435792, + "loss": 0.4758, + "step": 66030 + }, + { + "epoch": 176.10666666666665, + "grad_norm": 0.404296875, + "learning_rate": 0.00029437549379367884, + "loss": 0.4713, + "step": 66040 + }, + { + "epoch": 176.13333333333333, + "grad_norm": 0.271484375, + "learning_rate": 0.0002943737880901197, + "loss": 0.4724, + "step": 66050 + }, + { + "epoch": 176.16, + "grad_norm": 0.56640625, + "learning_rate": 0.00029437208213290475, + "loss": 0.4772, + "step": 66060 + }, + { + "epoch": 176.18666666666667, + "grad_norm": 0.42578125, + "learning_rate": 0.00029437037592203695, + "loss": 0.4692, + "step": 66070 + }, + { + "epoch": 176.21333333333334, + "grad_norm": 0.359375, + "learning_rate": 0.00029436866945751935, + "loss": 0.4635, + "step": 66080 + }, + { + "epoch": 176.24, + "grad_norm": 0.390625, + "learning_rate": 0.00029436696273935493, + "loss": 0.4668, + "step": 66090 + }, + { + "epoch": 176.26666666666668, + "grad_norm": 0.380859375, + "learning_rate": 0.0002943652557675466, + "loss": 0.4723, + "step": 66100 + }, + { + "epoch": 176.29333333333332, + "grad_norm": 0.28125, + "learning_rate": 0.0002943635485420976, + "loss": 0.4656, + "step": 66110 + }, + { + "epoch": 176.32, + "grad_norm": 0.318359375, + "learning_rate": 0.0002943618410630107, + "loss": 0.4694, + "step": 66120 + }, + { + "epoch": 176.34666666666666, + "grad_norm": 0.3515625, + "learning_rate": 0.000294360133330289, + "loss": 0.4774, + "step": 66130 + }, + { + "epoch": 176.37333333333333, + "grad_norm": 0.314453125, + "learning_rate": 0.0002943584253439354, + "loss": 0.4733, + "step": 66140 + }, + { + "epoch": 176.4, + "grad_norm": 0.431640625, + "learning_rate": 0.00029435671710395305, + "loss": 0.47, + "step": 66150 + }, + { + "epoch": 176.42666666666668, + "grad_norm": 0.2470703125, + "learning_rate": 0.00029435500861034486, + "loss": 0.4767, + "step": 66160 + }, + { + "epoch": 176.45333333333335, + "grad_norm": 0.30859375, + "learning_rate": 0.0002943532998631138, + "loss": 0.4785, + "step": 66170 + }, + { + "epoch": 176.48, + "grad_norm": 0.400390625, + "learning_rate": 0.00029435159086226297, + "loss": 0.4846, + "step": 66180 + }, + { + "epoch": 176.50666666666666, + "grad_norm": 0.255859375, + "learning_rate": 0.00029434988160779535, + "loss": 0.4742, + "step": 66190 + }, + { + "epoch": 176.53333333333333, + "grad_norm": 0.3359375, + "learning_rate": 0.0002943481720997139, + "loss": 0.4683, + "step": 66200 + }, + { + "epoch": 176.56, + "grad_norm": 0.296875, + "learning_rate": 0.0002943464623380216, + "loss": 0.4692, + "step": 66210 + }, + { + "epoch": 176.58666666666667, + "grad_norm": 0.359375, + "learning_rate": 0.0002943447523227215, + "loss": 0.4655, + "step": 66220 + }, + { + "epoch": 176.61333333333334, + "grad_norm": 0.275390625, + "learning_rate": 0.00029434304205381667, + "loss": 0.4513, + "step": 66230 + }, + { + "epoch": 176.64, + "grad_norm": 0.296875, + "learning_rate": 0.00029434133153131, + "loss": 0.4563, + "step": 66240 + }, + { + "epoch": 176.66666666666666, + "grad_norm": 0.443359375, + "learning_rate": 0.0002943396207552046, + "loss": 0.4718, + "step": 66250 + }, + { + "epoch": 176.69333333333333, + "grad_norm": 0.251953125, + "learning_rate": 0.0002943379097255033, + "loss": 0.4545, + "step": 66260 + }, + { + "epoch": 176.72, + "grad_norm": 0.28515625, + "learning_rate": 0.00029433619844220925, + "loss": 0.4715, + "step": 66270 + }, + { + "epoch": 176.74666666666667, + "grad_norm": 0.365234375, + "learning_rate": 0.00029433448690532546, + "loss": 0.4751, + "step": 66280 + }, + { + "epoch": 176.77333333333334, + "grad_norm": 0.3203125, + "learning_rate": 0.0002943327751148549, + "loss": 0.4833, + "step": 66290 + }, + { + "epoch": 176.8, + "grad_norm": 0.39453125, + "learning_rate": 0.0002943310630708006, + "loss": 0.4702, + "step": 66300 + }, + { + "epoch": 176.82666666666665, + "grad_norm": 0.3203125, + "learning_rate": 0.0002943293507731655, + "loss": 0.4649, + "step": 66310 + }, + { + "epoch": 176.85333333333332, + "grad_norm": 0.5, + "learning_rate": 0.0002943276382219527, + "loss": 0.4732, + "step": 66320 + }, + { + "epoch": 176.88, + "grad_norm": 0.3125, + "learning_rate": 0.00029432592541716517, + "loss": 0.4616, + "step": 66330 + }, + { + "epoch": 176.90666666666667, + "grad_norm": 0.33203125, + "learning_rate": 0.0002943242123588059, + "loss": 0.4646, + "step": 66340 + }, + { + "epoch": 176.93333333333334, + "grad_norm": 0.294921875, + "learning_rate": 0.0002943224990468779, + "loss": 0.466, + "step": 66350 + }, + { + "epoch": 176.96, + "grad_norm": 0.27734375, + "learning_rate": 0.00029432078548138424, + "loss": 0.4632, + "step": 66360 + }, + { + "epoch": 176.98666666666668, + "grad_norm": 0.376953125, + "learning_rate": 0.00029431907166232784, + "loss": 0.4785, + "step": 66370 + }, + { + "epoch": 177.0, + "eval_loss": 0.47848471999168396, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.0402, + "eval_samples_per_second": 1.594, + "eval_steps_per_second": 0.1, + "step": 66375 + }, + { + "epoch": 177.01333333333332, + "grad_norm": 0.255859375, + "learning_rate": 0.0002943173575897118, + "loss": 0.4671, + "step": 66380 + }, + { + "epoch": 177.04, + "grad_norm": 0.259765625, + "learning_rate": 0.0002943156432635391, + "loss": 0.4906, + "step": 66390 + }, + { + "epoch": 177.06666666666666, + "grad_norm": 0.34375, + "learning_rate": 0.00029431392868381267, + "loss": 0.479, + "step": 66400 + }, + { + "epoch": 177.09333333333333, + "grad_norm": 0.37890625, + "learning_rate": 0.00029431221385053567, + "loss": 0.4738, + "step": 66410 + }, + { + "epoch": 177.12, + "grad_norm": 0.357421875, + "learning_rate": 0.000294310498763711, + "loss": 0.4697, + "step": 66420 + }, + { + "epoch": 177.14666666666668, + "grad_norm": 0.404296875, + "learning_rate": 0.00029430878342334173, + "loss": 0.4781, + "step": 66430 + }, + { + "epoch": 177.17333333333335, + "grad_norm": 0.37890625, + "learning_rate": 0.0002943070678294308, + "loss": 0.4696, + "step": 66440 + }, + { + "epoch": 177.2, + "grad_norm": 0.427734375, + "learning_rate": 0.00029430535198198134, + "loss": 0.4673, + "step": 66450 + }, + { + "epoch": 177.22666666666666, + "grad_norm": 0.42578125, + "learning_rate": 0.0002943036358809963, + "loss": 0.4648, + "step": 66460 + }, + { + "epoch": 177.25333333333333, + "grad_norm": 0.359375, + "learning_rate": 0.0002943019195264787, + "loss": 0.4646, + "step": 66470 + }, + { + "epoch": 177.28, + "grad_norm": 0.333984375, + "learning_rate": 0.0002943002029184315, + "loss": 0.4787, + "step": 66480 + }, + { + "epoch": 177.30666666666667, + "grad_norm": 0.30859375, + "learning_rate": 0.0002942984860568578, + "loss": 0.4591, + "step": 66490 + }, + { + "epoch": 177.33333333333334, + "grad_norm": 0.400390625, + "learning_rate": 0.00029429676894176057, + "loss": 0.4755, + "step": 66500 + }, + { + "epoch": 177.36, + "grad_norm": 0.34765625, + "learning_rate": 0.0002942950515731429, + "loss": 0.4772, + "step": 66510 + }, + { + "epoch": 177.38666666666666, + "grad_norm": 0.3671875, + "learning_rate": 0.0002942933339510077, + "loss": 0.4692, + "step": 66520 + }, + { + "epoch": 177.41333333333333, + "grad_norm": 0.333984375, + "learning_rate": 0.00029429161607535807, + "loss": 0.4735, + "step": 66530 + }, + { + "epoch": 177.44, + "grad_norm": 0.30859375, + "learning_rate": 0.000294289897946197, + "loss": 0.4762, + "step": 66540 + }, + { + "epoch": 177.46666666666667, + "grad_norm": 0.400390625, + "learning_rate": 0.00029428817956352743, + "loss": 0.4858, + "step": 66550 + }, + { + "epoch": 177.49333333333334, + "grad_norm": 0.337890625, + "learning_rate": 0.00029428646092735254, + "loss": 0.4765, + "step": 66560 + }, + { + "epoch": 177.52, + "grad_norm": 0.353515625, + "learning_rate": 0.0002942847420376752, + "loss": 0.4707, + "step": 66570 + }, + { + "epoch": 177.54666666666665, + "grad_norm": 0.2890625, + "learning_rate": 0.0002942830228944985, + "loss": 0.4683, + "step": 66580 + }, + { + "epoch": 177.57333333333332, + "grad_norm": 0.275390625, + "learning_rate": 0.00029428130349782553, + "loss": 0.4679, + "step": 66590 + }, + { + "epoch": 177.6, + "grad_norm": 0.3125, + "learning_rate": 0.0002942795838476592, + "loss": 0.4612, + "step": 66600 + }, + { + "epoch": 177.62666666666667, + "grad_norm": 0.224609375, + "learning_rate": 0.0002942778639440025, + "loss": 0.4485, + "step": 66610 + }, + { + "epoch": 177.65333333333334, + "grad_norm": 0.25390625, + "learning_rate": 0.0002942761437868586, + "loss": 0.4678, + "step": 66620 + }, + { + "epoch": 177.68, + "grad_norm": 0.39453125, + "learning_rate": 0.00029427442337623036, + "loss": 0.4588, + "step": 66630 + }, + { + "epoch": 177.70666666666668, + "grad_norm": 0.388671875, + "learning_rate": 0.00029427270271212096, + "loss": 0.4593, + "step": 66640 + }, + { + "epoch": 177.73333333333332, + "grad_norm": 0.306640625, + "learning_rate": 0.0002942709817945333, + "loss": 0.4789, + "step": 66650 + }, + { + "epoch": 177.76, + "grad_norm": 0.375, + "learning_rate": 0.00029426926062347045, + "loss": 0.4802, + "step": 66660 + }, + { + "epoch": 177.78666666666666, + "grad_norm": 0.3125, + "learning_rate": 0.00029426753919893547, + "loss": 0.4783, + "step": 66670 + }, + { + "epoch": 177.81333333333333, + "grad_norm": 0.283203125, + "learning_rate": 0.0002942658175209313, + "loss": 0.4637, + "step": 66680 + }, + { + "epoch": 177.84, + "grad_norm": 0.41796875, + "learning_rate": 0.00029426409558946107, + "loss": 0.4696, + "step": 66690 + }, + { + "epoch": 177.86666666666667, + "grad_norm": 0.263671875, + "learning_rate": 0.0002942623734045277, + "loss": 0.4686, + "step": 66700 + }, + { + "epoch": 177.89333333333335, + "grad_norm": 0.30078125, + "learning_rate": 0.0002942606509661343, + "loss": 0.4598, + "step": 66710 + }, + { + "epoch": 177.92, + "grad_norm": 0.365234375, + "learning_rate": 0.0002942589282742838, + "loss": 0.4702, + "step": 66720 + }, + { + "epoch": 177.94666666666666, + "grad_norm": 0.263671875, + "learning_rate": 0.0002942572053289794, + "loss": 0.4633, + "step": 66730 + }, + { + "epoch": 177.97333333333333, + "grad_norm": 0.36328125, + "learning_rate": 0.0002942554821302239, + "loss": 0.4747, + "step": 66740 + }, + { + "epoch": 178.0, + "grad_norm": 0.349609375, + "learning_rate": 0.0002942537586780205, + "loss": 0.4638, + "step": 66750 + }, + { + "epoch": 178.0, + "eval_loss": 0.47956180572509766, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.918, + "eval_samples_per_second": 1.613, + "eval_steps_per_second": 0.101, + "step": 66750 + }, + { + "epoch": 178.02666666666667, + "grad_norm": 0.35546875, + "learning_rate": 0.00029425203497237217, + "loss": 0.4836, + "step": 66760 + }, + { + "epoch": 178.05333333333334, + "grad_norm": 0.287109375, + "learning_rate": 0.0002942503110132819, + "loss": 0.4888, + "step": 66770 + }, + { + "epoch": 178.08, + "grad_norm": 0.357421875, + "learning_rate": 0.0002942485868007528, + "loss": 0.4758, + "step": 66780 + }, + { + "epoch": 178.10666666666665, + "grad_norm": 0.3203125, + "learning_rate": 0.00029424686233478785, + "loss": 0.471, + "step": 66790 + }, + { + "epoch": 178.13333333333333, + "grad_norm": 0.419921875, + "learning_rate": 0.00029424513761539006, + "loss": 0.4725, + "step": 66800 + }, + { + "epoch": 178.16, + "grad_norm": 0.396484375, + "learning_rate": 0.0002942434126425625, + "loss": 0.4763, + "step": 66810 + }, + { + "epoch": 178.18666666666667, + "grad_norm": 0.298828125, + "learning_rate": 0.00029424168741630817, + "loss": 0.469, + "step": 66820 + }, + { + "epoch": 178.21333333333334, + "grad_norm": 0.32421875, + "learning_rate": 0.00029423996193663014, + "loss": 0.4637, + "step": 66830 + }, + { + "epoch": 178.24, + "grad_norm": 0.359375, + "learning_rate": 0.0002942382362035314, + "loss": 0.4674, + "step": 66840 + }, + { + "epoch": 178.26666666666668, + "grad_norm": 0.361328125, + "learning_rate": 0.000294236510217015, + "loss": 0.4717, + "step": 66850 + }, + { + "epoch": 178.29333333333332, + "grad_norm": 0.3515625, + "learning_rate": 0.000294234783977084, + "loss": 0.4658, + "step": 66860 + }, + { + "epoch": 178.32, + "grad_norm": 0.287109375, + "learning_rate": 0.00029423305748374137, + "loss": 0.4691, + "step": 66870 + }, + { + "epoch": 178.34666666666666, + "grad_norm": 0.41015625, + "learning_rate": 0.0002942313307369902, + "loss": 0.4777, + "step": 66880 + }, + { + "epoch": 178.37333333333333, + "grad_norm": 0.35546875, + "learning_rate": 0.0002942296037368335, + "loss": 0.4734, + "step": 66890 + }, + { + "epoch": 178.4, + "grad_norm": 0.435546875, + "learning_rate": 0.0002942278764832743, + "loss": 0.4696, + "step": 66900 + }, + { + "epoch": 178.42666666666668, + "grad_norm": 0.369140625, + "learning_rate": 0.0002942261489763157, + "loss": 0.4759, + "step": 66910 + }, + { + "epoch": 178.45333333333335, + "grad_norm": 0.3046875, + "learning_rate": 0.0002942244212159606, + "loss": 0.4785, + "step": 66920 + }, + { + "epoch": 178.48, + "grad_norm": 0.3046875, + "learning_rate": 0.0002942226932022122, + "loss": 0.4842, + "step": 66930 + }, + { + "epoch": 178.50666666666666, + "grad_norm": 0.291015625, + "learning_rate": 0.00029422096493507334, + "loss": 0.4741, + "step": 66940 + }, + { + "epoch": 178.53333333333333, + "grad_norm": 0.283203125, + "learning_rate": 0.00029421923641454725, + "loss": 0.4678, + "step": 66950 + }, + { + "epoch": 178.56, + "grad_norm": 0.2373046875, + "learning_rate": 0.0002942175076406369, + "loss": 0.4688, + "step": 66960 + }, + { + "epoch": 178.58666666666667, + "grad_norm": 0.349609375, + "learning_rate": 0.0002942157786133452, + "loss": 0.4647, + "step": 66970 + }, + { + "epoch": 178.61333333333334, + "grad_norm": 0.28515625, + "learning_rate": 0.00029421404933267537, + "loss": 0.4518, + "step": 66980 + }, + { + "epoch": 178.64, + "grad_norm": 0.33203125, + "learning_rate": 0.00029421231979863036, + "loss": 0.4567, + "step": 66990 + }, + { + "epoch": 178.66666666666666, + "grad_norm": 0.287109375, + "learning_rate": 0.0002942105900112132, + "loss": 0.4721, + "step": 67000 + }, + { + "epoch": 178.69333333333333, + "grad_norm": 0.236328125, + "learning_rate": 0.000294208859970427, + "loss": 0.4545, + "step": 67010 + }, + { + "epoch": 178.72, + "grad_norm": 0.40234375, + "learning_rate": 0.00029420712967627476, + "loss": 0.4713, + "step": 67020 + }, + { + "epoch": 178.74666666666667, + "grad_norm": 0.337890625, + "learning_rate": 0.0002942053991287595, + "loss": 0.476, + "step": 67030 + }, + { + "epoch": 178.77333333333334, + "grad_norm": 0.400390625, + "learning_rate": 0.0002942036683278843, + "loss": 0.4829, + "step": 67040 + }, + { + "epoch": 178.8, + "grad_norm": 0.439453125, + "learning_rate": 0.0002942019372736521, + "loss": 0.4701, + "step": 67050 + }, + { + "epoch": 178.82666666666665, + "grad_norm": 0.3125, + "learning_rate": 0.0002942002059660661, + "loss": 0.4647, + "step": 67060 + }, + { + "epoch": 178.85333333333332, + "grad_norm": 0.267578125, + "learning_rate": 0.00029419847440512924, + "loss": 0.4732, + "step": 67070 + }, + { + "epoch": 178.88, + "grad_norm": 0.42578125, + "learning_rate": 0.00029419674259084454, + "loss": 0.4614, + "step": 67080 + }, + { + "epoch": 178.90666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.0002941950105232151, + "loss": 0.4643, + "step": 67090 + }, + { + "epoch": 178.93333333333334, + "grad_norm": 0.318359375, + "learning_rate": 0.00029419327820224395, + "loss": 0.4664, + "step": 67100 + }, + { + "epoch": 178.96, + "grad_norm": 0.33203125, + "learning_rate": 0.0002941915456279341, + "loss": 0.4638, + "step": 67110 + }, + { + "epoch": 178.98666666666668, + "grad_norm": 0.43359375, + "learning_rate": 0.0002941898128002887, + "loss": 0.4779, + "step": 67120 + }, + { + "epoch": 179.0, + "eval_loss": 0.4776739180088043, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.5294, + "eval_samples_per_second": 1.52, + "eval_steps_per_second": 0.095, + "step": 67125 + }, + { + "epoch": 179.01333333333332, + "grad_norm": 0.42578125, + "learning_rate": 0.00029418807971931066, + "loss": 0.4673, + "step": 67130 + }, + { + "epoch": 179.04, + "grad_norm": 0.34375, + "learning_rate": 0.0002941863463850031, + "loss": 0.4911, + "step": 67140 + }, + { + "epoch": 179.06666666666666, + "grad_norm": 0.35546875, + "learning_rate": 0.000294184612797369, + "loss": 0.4787, + "step": 67150 + }, + { + "epoch": 179.09333333333333, + "grad_norm": 0.306640625, + "learning_rate": 0.00029418287895641154, + "loss": 0.474, + "step": 67160 + }, + { + "epoch": 179.12, + "grad_norm": 0.306640625, + "learning_rate": 0.00029418114486213365, + "loss": 0.4694, + "step": 67170 + }, + { + "epoch": 179.14666666666668, + "grad_norm": 0.416015625, + "learning_rate": 0.00029417941051453837, + "loss": 0.4784, + "step": 67180 + }, + { + "epoch": 179.17333333333335, + "grad_norm": 0.41796875, + "learning_rate": 0.00029417767591362884, + "loss": 0.4695, + "step": 67190 + }, + { + "epoch": 179.2, + "grad_norm": 0.421875, + "learning_rate": 0.000294175941059408, + "loss": 0.4674, + "step": 67200 + }, + { + "epoch": 179.22666666666666, + "grad_norm": 0.294921875, + "learning_rate": 0.000294174205951879, + "loss": 0.4649, + "step": 67210 + }, + { + "epoch": 179.25333333333333, + "grad_norm": 0.357421875, + "learning_rate": 0.0002941724705910448, + "loss": 0.4653, + "step": 67220 + }, + { + "epoch": 179.28, + "grad_norm": 0.357421875, + "learning_rate": 0.0002941707349769085, + "loss": 0.4789, + "step": 67230 + }, + { + "epoch": 179.30666666666667, + "grad_norm": 0.318359375, + "learning_rate": 0.00029416899910947314, + "loss": 0.4597, + "step": 67240 + }, + { + "epoch": 179.33333333333334, + "grad_norm": 0.3203125, + "learning_rate": 0.0002941672629887418, + "loss": 0.4757, + "step": 67250 + }, + { + "epoch": 179.36, + "grad_norm": 0.29296875, + "learning_rate": 0.0002941655266147174, + "loss": 0.4771, + "step": 67260 + }, + { + "epoch": 179.38666666666666, + "grad_norm": 0.40625, + "learning_rate": 0.00029416378998740314, + "loss": 0.4683, + "step": 67270 + }, + { + "epoch": 179.41333333333333, + "grad_norm": 0.287109375, + "learning_rate": 0.00029416205310680204, + "loss": 0.4736, + "step": 67280 + }, + { + "epoch": 179.44, + "grad_norm": 0.3125, + "learning_rate": 0.0002941603159729171, + "loss": 0.4761, + "step": 67290 + }, + { + "epoch": 179.46666666666667, + "grad_norm": 0.275390625, + "learning_rate": 0.00029415857858575145, + "loss": 0.4856, + "step": 67300 + }, + { + "epoch": 179.49333333333334, + "grad_norm": 0.412109375, + "learning_rate": 0.000294156840945308, + "loss": 0.477, + "step": 67310 + }, + { + "epoch": 179.52, + "grad_norm": 0.33203125, + "learning_rate": 0.00029415510305159004, + "loss": 0.4715, + "step": 67320 + }, + { + "epoch": 179.54666666666665, + "grad_norm": 0.34765625, + "learning_rate": 0.00029415336490460037, + "loss": 0.4682, + "step": 67330 + }, + { + "epoch": 179.57333333333332, + "grad_norm": 0.302734375, + "learning_rate": 0.00029415162650434226, + "loss": 0.4674, + "step": 67340 + }, + { + "epoch": 179.6, + "grad_norm": 0.359375, + "learning_rate": 0.00029414988785081853, + "loss": 0.4614, + "step": 67350 + }, + { + "epoch": 179.62666666666667, + "grad_norm": 0.376953125, + "learning_rate": 0.00029414814894403244, + "loss": 0.448, + "step": 67360 + }, + { + "epoch": 179.65333333333334, + "grad_norm": 0.369140625, + "learning_rate": 0.0002941464097839869, + "loss": 0.4686, + "step": 67370 + }, + { + "epoch": 179.68, + "grad_norm": 0.298828125, + "learning_rate": 0.00029414467037068516, + "loss": 0.4595, + "step": 67380 + }, + { + "epoch": 179.70666666666668, + "grad_norm": 0.34765625, + "learning_rate": 0.0002941429307041301, + "loss": 0.459, + "step": 67390 + }, + { + "epoch": 179.73333333333332, + "grad_norm": 0.33984375, + "learning_rate": 0.00029414119078432474, + "loss": 0.4788, + "step": 67400 + }, + { + "epoch": 179.76, + "grad_norm": 0.291015625, + "learning_rate": 0.0002941394506112723, + "loss": 0.4799, + "step": 67410 + }, + { + "epoch": 179.78666666666666, + "grad_norm": 0.337890625, + "learning_rate": 0.00029413771018497575, + "loss": 0.4783, + "step": 67420 + }, + { + "epoch": 179.81333333333333, + "grad_norm": 0.328125, + "learning_rate": 0.00029413596950543817, + "loss": 0.4635, + "step": 67430 + }, + { + "epoch": 179.84, + "grad_norm": 0.2373046875, + "learning_rate": 0.0002941342285726626, + "loss": 0.4694, + "step": 67440 + }, + { + "epoch": 179.86666666666667, + "grad_norm": 0.28515625, + "learning_rate": 0.0002941324873866521, + "loss": 0.4689, + "step": 67450 + }, + { + "epoch": 179.89333333333335, + "grad_norm": 0.36328125, + "learning_rate": 0.0002941307459474097, + "loss": 0.4593, + "step": 67460 + }, + { + "epoch": 179.92, + "grad_norm": 0.36328125, + "learning_rate": 0.00029412900425493854, + "loss": 0.47, + "step": 67470 + }, + { + "epoch": 179.94666666666666, + "grad_norm": 0.306640625, + "learning_rate": 0.00029412726230924164, + "loss": 0.4629, + "step": 67480 + }, + { + "epoch": 179.97333333333333, + "grad_norm": 0.357421875, + "learning_rate": 0.00029412552011032206, + "loss": 0.4744, + "step": 67490 + }, + { + "epoch": 180.0, + "grad_norm": 0.384765625, + "learning_rate": 0.00029412377765818283, + "loss": 0.463, + "step": 67500 + }, + { + "epoch": 180.0, + "eval_loss": 0.47930899262428284, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 11.2008, + "eval_samples_per_second": 1.428, + "eval_steps_per_second": 0.089, + "step": 67500 + }, + { + "epoch": 180.02666666666667, + "grad_norm": 0.310546875, + "learning_rate": 0.00029412203495282705, + "loss": 0.4827, + "step": 67510 + }, + { + "epoch": 180.05333333333334, + "grad_norm": 0.365234375, + "learning_rate": 0.00029412029199425775, + "loss": 0.4879, + "step": 67520 + }, + { + "epoch": 180.08, + "grad_norm": 0.2734375, + "learning_rate": 0.00029411854878247807, + "loss": 0.4751, + "step": 67530 + }, + { + "epoch": 180.10666666666665, + "grad_norm": 0.251953125, + "learning_rate": 0.00029411680531749094, + "loss": 0.471, + "step": 67540 + }, + { + "epoch": 180.13333333333333, + "grad_norm": 0.279296875, + "learning_rate": 0.00029411506159929957, + "loss": 0.4723, + "step": 67550 + }, + { + "epoch": 180.16, + "grad_norm": 0.3359375, + "learning_rate": 0.00029411331762790687, + "loss": 0.4764, + "step": 67560 + }, + { + "epoch": 180.18666666666667, + "grad_norm": 0.333984375, + "learning_rate": 0.00029411157340331604, + "loss": 0.4692, + "step": 67570 + }, + { + "epoch": 180.21333333333334, + "grad_norm": 0.470703125, + "learning_rate": 0.0002941098289255301, + "loss": 0.464, + "step": 67580 + }, + { + "epoch": 180.24, + "grad_norm": 0.54296875, + "learning_rate": 0.00029410808419455206, + "loss": 0.4669, + "step": 67590 + }, + { + "epoch": 180.26666666666668, + "grad_norm": 0.267578125, + "learning_rate": 0.0002941063392103851, + "loss": 0.472, + "step": 67600 + }, + { + "epoch": 180.29333333333332, + "grad_norm": 0.24609375, + "learning_rate": 0.00029410459397303216, + "loss": 0.4662, + "step": 67610 + }, + { + "epoch": 180.32, + "grad_norm": 0.2333984375, + "learning_rate": 0.00029410284848249636, + "loss": 0.4687, + "step": 67620 + }, + { + "epoch": 180.34666666666666, + "grad_norm": 0.3203125, + "learning_rate": 0.00029410110273878076, + "loss": 0.4779, + "step": 67630 + }, + { + "epoch": 180.37333333333333, + "grad_norm": 0.443359375, + "learning_rate": 0.0002940993567418885, + "loss": 0.4735, + "step": 67640 + }, + { + "epoch": 180.4, + "grad_norm": 0.34375, + "learning_rate": 0.00029409761049182257, + "loss": 0.4704, + "step": 67650 + }, + { + "epoch": 180.42666666666668, + "grad_norm": 0.296875, + "learning_rate": 0.000294095863988586, + "loss": 0.476, + "step": 67660 + }, + { + "epoch": 180.45333333333335, + "grad_norm": 0.302734375, + "learning_rate": 0.0002940941172321819, + "loss": 0.4786, + "step": 67670 + }, + { + "epoch": 180.48, + "grad_norm": 0.34765625, + "learning_rate": 0.0002940923702226134, + "loss": 0.4852, + "step": 67680 + }, + { + "epoch": 180.50666666666666, + "grad_norm": 0.412109375, + "learning_rate": 0.00029409062295988355, + "loss": 0.4738, + "step": 67690 + }, + { + "epoch": 180.53333333333333, + "grad_norm": 0.34375, + "learning_rate": 0.0002940888754439953, + "loss": 0.4675, + "step": 67700 + }, + { + "epoch": 180.56, + "grad_norm": 0.380859375, + "learning_rate": 0.0002940871276749519, + "loss": 0.4694, + "step": 67710 + }, + { + "epoch": 180.58666666666667, + "grad_norm": 0.353515625, + "learning_rate": 0.0002940853796527563, + "loss": 0.4653, + "step": 67720 + }, + { + "epoch": 180.61333333333334, + "grad_norm": 0.255859375, + "learning_rate": 0.00029408363137741156, + "loss": 0.4516, + "step": 67730 + }, + { + "epoch": 180.64, + "grad_norm": 0.322265625, + "learning_rate": 0.0002940818828489208, + "loss": 0.4566, + "step": 67740 + }, + { + "epoch": 180.66666666666666, + "grad_norm": 0.388671875, + "learning_rate": 0.0002940801340672871, + "loss": 0.4704, + "step": 67750 + }, + { + "epoch": 180.69333333333333, + "grad_norm": 0.4375, + "learning_rate": 0.00029407838503251355, + "loss": 0.4555, + "step": 67760 + }, + { + "epoch": 180.72, + "grad_norm": 0.390625, + "learning_rate": 0.00029407663574460317, + "loss": 0.4713, + "step": 67770 + }, + { + "epoch": 180.74666666666667, + "grad_norm": 0.302734375, + "learning_rate": 0.000294074886203559, + "loss": 0.4758, + "step": 67780 + }, + { + "epoch": 180.77333333333334, + "grad_norm": 0.4765625, + "learning_rate": 0.0002940731364093842, + "loss": 0.4832, + "step": 67790 + }, + { + "epoch": 180.8, + "grad_norm": 0.31640625, + "learning_rate": 0.00029407138636208184, + "loss": 0.4709, + "step": 67800 + }, + { + "epoch": 180.82666666666665, + "grad_norm": 0.28515625, + "learning_rate": 0.00029406963606165494, + "loss": 0.4644, + "step": 67810 + }, + { + "epoch": 180.85333333333332, + "grad_norm": 0.37109375, + "learning_rate": 0.00029406788550810663, + "loss": 0.4734, + "step": 67820 + }, + { + "epoch": 180.88, + "grad_norm": 0.306640625, + "learning_rate": 0.00029406613470143994, + "loss": 0.4615, + "step": 67830 + }, + { + "epoch": 180.90666666666667, + "grad_norm": 0.28125, + "learning_rate": 0.00029406438364165796, + "loss": 0.4643, + "step": 67840 + }, + { + "epoch": 180.93333333333334, + "grad_norm": 0.2412109375, + "learning_rate": 0.0002940626323287638, + "loss": 0.4661, + "step": 67850 + }, + { + "epoch": 180.96, + "grad_norm": 0.302734375, + "learning_rate": 0.0002940608807627604, + "loss": 0.4639, + "step": 67860 + }, + { + "epoch": 180.98666666666668, + "grad_norm": 0.291015625, + "learning_rate": 0.00029405912894365106, + "loss": 0.4776, + "step": 67870 + }, + { + "epoch": 181.0, + "eval_loss": 0.47777873277664185, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.7052, + "eval_samples_per_second": 1.649, + "eval_steps_per_second": 0.103, + "step": 67875 + }, + { + "epoch": 181.01333333333332, + "grad_norm": 0.4140625, + "learning_rate": 0.0002940573768714387, + "loss": 0.4674, + "step": 67880 + }, + { + "epoch": 181.04, + "grad_norm": 0.27734375, + "learning_rate": 0.00029405562454612645, + "loss": 0.4913, + "step": 67890 + }, + { + "epoch": 181.06666666666666, + "grad_norm": 0.40625, + "learning_rate": 0.00029405387196771734, + "loss": 0.4786, + "step": 67900 + }, + { + "epoch": 181.09333333333333, + "grad_norm": 0.3828125, + "learning_rate": 0.00029405211913621456, + "loss": 0.4739, + "step": 67910 + }, + { + "epoch": 181.12, + "grad_norm": 0.31640625, + "learning_rate": 0.00029405036605162105, + "loss": 0.4692, + "step": 67920 + }, + { + "epoch": 181.14666666666668, + "grad_norm": 0.39453125, + "learning_rate": 0.00029404861271394, + "loss": 0.4791, + "step": 67930 + }, + { + "epoch": 181.17333333333335, + "grad_norm": 0.337890625, + "learning_rate": 0.0002940468591231744, + "loss": 0.4696, + "step": 67940 + }, + { + "epoch": 181.2, + "grad_norm": 0.28125, + "learning_rate": 0.00029404510527932746, + "loss": 0.4676, + "step": 67950 + }, + { + "epoch": 181.22666666666666, + "grad_norm": 0.4453125, + "learning_rate": 0.0002940433511824021, + "loss": 0.4649, + "step": 67960 + }, + { + "epoch": 181.25333333333333, + "grad_norm": 0.419921875, + "learning_rate": 0.0002940415968324015, + "loss": 0.4652, + "step": 67970 + }, + { + "epoch": 181.28, + "grad_norm": 0.404296875, + "learning_rate": 0.00029403984222932877, + "loss": 0.4789, + "step": 67980 + }, + { + "epoch": 181.30666666666667, + "grad_norm": 0.345703125, + "learning_rate": 0.0002940380873731869, + "loss": 0.46, + "step": 67990 + }, + { + "epoch": 181.33333333333334, + "grad_norm": 0.3125, + "learning_rate": 0.00029403633226397904, + "loss": 0.4756, + "step": 68000 + }, + { + "epoch": 181.36, + "grad_norm": 0.28125, + "learning_rate": 0.00029403457690170825, + "loss": 0.4767, + "step": 68010 + }, + { + "epoch": 181.38666666666666, + "grad_norm": 0.26953125, + "learning_rate": 0.0002940328212863776, + "loss": 0.4687, + "step": 68020 + }, + { + "epoch": 181.41333333333333, + "grad_norm": 0.28125, + "learning_rate": 0.00029403106541799024, + "loss": 0.4728, + "step": 68030 + }, + { + "epoch": 181.44, + "grad_norm": 0.318359375, + "learning_rate": 0.00029402930929654916, + "loss": 0.4755, + "step": 68040 + }, + { + "epoch": 181.46666666666667, + "grad_norm": 0.458984375, + "learning_rate": 0.0002940275529220575, + "loss": 0.4852, + "step": 68050 + }, + { + "epoch": 181.49333333333334, + "grad_norm": 0.326171875, + "learning_rate": 0.0002940257962945184, + "loss": 0.4768, + "step": 68060 + }, + { + "epoch": 181.52, + "grad_norm": 0.2353515625, + "learning_rate": 0.00029402403941393483, + "loss": 0.4711, + "step": 68070 + }, + { + "epoch": 181.54666666666665, + "grad_norm": 0.34765625, + "learning_rate": 0.0002940222822803099, + "loss": 0.4682, + "step": 68080 + }, + { + "epoch": 181.57333333333332, + "grad_norm": 0.234375, + "learning_rate": 0.00029402052489364676, + "loss": 0.4674, + "step": 68090 + }, + { + "epoch": 181.6, + "grad_norm": 0.30078125, + "learning_rate": 0.0002940187672539485, + "loss": 0.4607, + "step": 68100 + }, + { + "epoch": 181.62666666666667, + "grad_norm": 0.337890625, + "learning_rate": 0.00029401700936121817, + "loss": 0.4478, + "step": 68110 + }, + { + "epoch": 181.65333333333334, + "grad_norm": 0.328125, + "learning_rate": 0.0002940152512154588, + "loss": 0.4679, + "step": 68120 + }, + { + "epoch": 181.68, + "grad_norm": 0.31640625, + "learning_rate": 0.00029401349281667357, + "loss": 0.459, + "step": 68130 + }, + { + "epoch": 181.70666666666668, + "grad_norm": 0.35546875, + "learning_rate": 0.00029401173416486557, + "loss": 0.4594, + "step": 68140 + }, + { + "epoch": 181.73333333333332, + "grad_norm": 0.380859375, + "learning_rate": 0.00029400997526003784, + "loss": 0.4781, + "step": 68150 + }, + { + "epoch": 181.76, + "grad_norm": 0.478515625, + "learning_rate": 0.0002940082161021935, + "loss": 0.4795, + "step": 68160 + }, + { + "epoch": 181.78666666666666, + "grad_norm": 0.29296875, + "learning_rate": 0.00029400645669133566, + "loss": 0.4785, + "step": 68170 + }, + { + "epoch": 181.81333333333333, + "grad_norm": 0.330078125, + "learning_rate": 0.0002940046970274673, + "loss": 0.4639, + "step": 68180 + }, + { + "epoch": 181.84, + "grad_norm": 0.326171875, + "learning_rate": 0.00029400293711059173, + "loss": 0.469, + "step": 68190 + }, + { + "epoch": 181.86666666666667, + "grad_norm": 0.341796875, + "learning_rate": 0.0002940011769407118, + "loss": 0.4687, + "step": 68200 + }, + { + "epoch": 181.89333333333335, + "grad_norm": 0.279296875, + "learning_rate": 0.0002939994165178307, + "loss": 0.4592, + "step": 68210 + }, + { + "epoch": 181.92, + "grad_norm": 0.357421875, + "learning_rate": 0.0002939976558419516, + "loss": 0.4701, + "step": 68220 + }, + { + "epoch": 181.94666666666666, + "grad_norm": 0.330078125, + "learning_rate": 0.00029399589491307753, + "loss": 0.4629, + "step": 68230 + }, + { + "epoch": 181.97333333333333, + "grad_norm": 0.322265625, + "learning_rate": 0.0002939941337312115, + "loss": 0.4745, + "step": 68240 + }, + { + "epoch": 182.0, + "grad_norm": 0.396484375, + "learning_rate": 0.00029399237229635675, + "loss": 0.4629, + "step": 68250 + }, + { + "epoch": 182.0, + "eval_loss": 0.4777792990207672, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.8783, + "eval_samples_per_second": 1.62, + "eval_steps_per_second": 0.101, + "step": 68250 + }, + { + "epoch": 182.02666666666667, + "grad_norm": 0.298828125, + "learning_rate": 0.0002939906106085163, + "loss": 0.4823, + "step": 68260 + }, + { + "epoch": 182.05333333333334, + "grad_norm": 0.32421875, + "learning_rate": 0.0002939888486676932, + "loss": 0.4881, + "step": 68270 + }, + { + "epoch": 182.08, + "grad_norm": 0.296875, + "learning_rate": 0.00029398708647389066, + "loss": 0.4751, + "step": 68280 + }, + { + "epoch": 182.10666666666665, + "grad_norm": 0.25, + "learning_rate": 0.0002939853240271117, + "loss": 0.4704, + "step": 68290 + }, + { + "epoch": 182.13333333333333, + "grad_norm": 0.302734375, + "learning_rate": 0.0002939835613273594, + "loss": 0.4724, + "step": 68300 + }, + { + "epoch": 182.16, + "grad_norm": 0.369140625, + "learning_rate": 0.000293981798374637, + "loss": 0.4764, + "step": 68310 + }, + { + "epoch": 182.18666666666667, + "grad_norm": 0.34765625, + "learning_rate": 0.0002939800351689474, + "loss": 0.4693, + "step": 68320 + }, + { + "epoch": 182.21333333333334, + "grad_norm": 0.359375, + "learning_rate": 0.0002939782717102938, + "loss": 0.4633, + "step": 68330 + }, + { + "epoch": 182.24, + "grad_norm": 0.328125, + "learning_rate": 0.00029397650799867925, + "loss": 0.4672, + "step": 68340 + }, + { + "epoch": 182.26666666666668, + "grad_norm": 0.2265625, + "learning_rate": 0.0002939747440341069, + "loss": 0.471, + "step": 68350 + }, + { + "epoch": 182.29333333333332, + "grad_norm": 0.306640625, + "learning_rate": 0.00029397297981657985, + "loss": 0.4657, + "step": 68360 + }, + { + "epoch": 182.32, + "grad_norm": 0.326171875, + "learning_rate": 0.0002939712153461012, + "loss": 0.4686, + "step": 68370 + }, + { + "epoch": 182.34666666666666, + "grad_norm": 0.349609375, + "learning_rate": 0.000293969450622674, + "loss": 0.4774, + "step": 68380 + }, + { + "epoch": 182.37333333333333, + "grad_norm": 0.44140625, + "learning_rate": 0.00029396768564630136, + "loss": 0.4727, + "step": 68390 + }, + { + "epoch": 182.4, + "grad_norm": 0.3203125, + "learning_rate": 0.0002939659204169864, + "loss": 0.4698, + "step": 68400 + }, + { + "epoch": 182.42666666666668, + "grad_norm": 0.359375, + "learning_rate": 0.0002939641549347322, + "loss": 0.476, + "step": 68410 + }, + { + "epoch": 182.45333333333335, + "grad_norm": 0.4140625, + "learning_rate": 0.000293962389199542, + "loss": 0.4782, + "step": 68420 + }, + { + "epoch": 182.48, + "grad_norm": 0.609375, + "learning_rate": 0.00029396062321141873, + "loss": 0.4842, + "step": 68430 + }, + { + "epoch": 182.50666666666666, + "grad_norm": 0.287109375, + "learning_rate": 0.0002939588569703655, + "loss": 0.4744, + "step": 68440 + }, + { + "epoch": 182.53333333333333, + "grad_norm": 0.267578125, + "learning_rate": 0.0002939570904763855, + "loss": 0.4671, + "step": 68450 + }, + { + "epoch": 182.56, + "grad_norm": 0.345703125, + "learning_rate": 0.00029395532372948185, + "loss": 0.4696, + "step": 68460 + }, + { + "epoch": 182.58666666666667, + "grad_norm": 0.287109375, + "learning_rate": 0.00029395355672965756, + "loss": 0.4644, + "step": 68470 + }, + { + "epoch": 182.61333333333334, + "grad_norm": 0.3125, + "learning_rate": 0.00029395178947691573, + "loss": 0.4512, + "step": 68480 + }, + { + "epoch": 182.64, + "grad_norm": 0.33984375, + "learning_rate": 0.00029395002197125957, + "loss": 0.456, + "step": 68490 + }, + { + "epoch": 182.66666666666666, + "grad_norm": 0.328125, + "learning_rate": 0.0002939482542126921, + "loss": 0.4707, + "step": 68500 + }, + { + "epoch": 182.69333333333333, + "grad_norm": 0.37890625, + "learning_rate": 0.00029394648620121645, + "loss": 0.4547, + "step": 68510 + }, + { + "epoch": 182.72, + "grad_norm": 0.287109375, + "learning_rate": 0.0002939447179368357, + "loss": 0.4712, + "step": 68520 + }, + { + "epoch": 182.74666666666667, + "grad_norm": 0.298828125, + "learning_rate": 0.000293942949419553, + "loss": 0.4757, + "step": 68530 + }, + { + "epoch": 182.77333333333334, + "grad_norm": 0.484375, + "learning_rate": 0.00029394118064937153, + "loss": 0.4827, + "step": 68540 + }, + { + "epoch": 182.8, + "grad_norm": 0.494140625, + "learning_rate": 0.0002939394116262942, + "loss": 0.4701, + "step": 68550 + }, + { + "epoch": 182.82666666666665, + "grad_norm": 0.298828125, + "learning_rate": 0.0002939376423503243, + "loss": 0.4647, + "step": 68560 + }, + { + "epoch": 182.85333333333332, + "grad_norm": 0.330078125, + "learning_rate": 0.00029393587282146484, + "loss": 0.4732, + "step": 68570 + }, + { + "epoch": 182.88, + "grad_norm": 0.267578125, + "learning_rate": 0.00029393410303971894, + "loss": 0.4617, + "step": 68580 + }, + { + "epoch": 182.90666666666667, + "grad_norm": 0.375, + "learning_rate": 0.0002939323330050897, + "loss": 0.4646, + "step": 68590 + }, + { + "epoch": 182.93333333333334, + "grad_norm": 0.3515625, + "learning_rate": 0.0002939305627175803, + "loss": 0.4658, + "step": 68600 + }, + { + "epoch": 182.96, + "grad_norm": 0.404296875, + "learning_rate": 0.0002939287921771938, + "loss": 0.4648, + "step": 68610 + }, + { + "epoch": 182.98666666666668, + "grad_norm": 0.41015625, + "learning_rate": 0.00029392702138393334, + "loss": 0.478, + "step": 68620 + }, + { + "epoch": 183.0, + "eval_loss": 0.47816112637519836, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.7955, + "eval_samples_per_second": 1.633, + "eval_steps_per_second": 0.102, + "step": 68625 + }, + { + "epoch": 183.01333333333332, + "grad_norm": 0.37890625, + "learning_rate": 0.000293925250337802, + "loss": 0.4666, + "step": 68630 + }, + { + "epoch": 183.04, + "grad_norm": 0.375, + "learning_rate": 0.00029392347903880285, + "loss": 0.4909, + "step": 68640 + }, + { + "epoch": 183.06666666666666, + "grad_norm": 0.3359375, + "learning_rate": 0.00029392170748693904, + "loss": 0.4787, + "step": 68650 + }, + { + "epoch": 183.09333333333333, + "grad_norm": 0.306640625, + "learning_rate": 0.00029391993568221375, + "loss": 0.4737, + "step": 68660 + }, + { + "epoch": 183.12, + "grad_norm": 0.3125, + "learning_rate": 0.00029391816362463, + "loss": 0.4694, + "step": 68670 + }, + { + "epoch": 183.14666666666668, + "grad_norm": 0.3046875, + "learning_rate": 0.0002939163913141909, + "loss": 0.4784, + "step": 68680 + }, + { + "epoch": 183.17333333333335, + "grad_norm": 0.310546875, + "learning_rate": 0.00029391461875089974, + "loss": 0.4691, + "step": 68690 + }, + { + "epoch": 183.2, + "grad_norm": 0.3515625, + "learning_rate": 0.0002939128459347594, + "loss": 0.4679, + "step": 68700 + }, + { + "epoch": 183.22666666666666, + "grad_norm": 0.396484375, + "learning_rate": 0.0002939110728657731, + "loss": 0.4647, + "step": 68710 + }, + { + "epoch": 183.25333333333333, + "grad_norm": 0.32421875, + "learning_rate": 0.0002939092995439439, + "loss": 0.4651, + "step": 68720 + }, + { + "epoch": 183.28, + "grad_norm": 0.349609375, + "learning_rate": 0.000293907525969275, + "loss": 0.4786, + "step": 68730 + }, + { + "epoch": 183.30666666666667, + "grad_norm": 0.326171875, + "learning_rate": 0.00029390575214176956, + "loss": 0.4599, + "step": 68740 + }, + { + "epoch": 183.33333333333334, + "grad_norm": 0.322265625, + "learning_rate": 0.0002939039780614305, + "loss": 0.4749, + "step": 68750 + }, + { + "epoch": 183.36, + "grad_norm": 0.2890625, + "learning_rate": 0.0002939022037282611, + "loss": 0.4769, + "step": 68760 + }, + { + "epoch": 183.38666666666666, + "grad_norm": 0.341796875, + "learning_rate": 0.00029390042914226446, + "loss": 0.4688, + "step": 68770 + }, + { + "epoch": 183.41333333333333, + "grad_norm": 0.484375, + "learning_rate": 0.00029389865430344363, + "loss": 0.4731, + "step": 68780 + }, + { + "epoch": 183.44, + "grad_norm": 0.265625, + "learning_rate": 0.00029389687921180176, + "loss": 0.476, + "step": 68790 + }, + { + "epoch": 183.46666666666667, + "grad_norm": 0.380859375, + "learning_rate": 0.000293895103867342, + "loss": 0.4856, + "step": 68800 + }, + { + "epoch": 183.49333333333334, + "grad_norm": 0.373046875, + "learning_rate": 0.0002938933282700674, + "loss": 0.4773, + "step": 68810 + }, + { + "epoch": 183.52, + "grad_norm": 0.29296875, + "learning_rate": 0.0002938915524199812, + "loss": 0.4721, + "step": 68820 + }, + { + "epoch": 183.54666666666665, + "grad_norm": 0.6328125, + "learning_rate": 0.0002938897763170864, + "loss": 0.4679, + "step": 68830 + }, + { + "epoch": 183.57333333333332, + "grad_norm": 0.3828125, + "learning_rate": 0.0002938879999613861, + "loss": 0.4679, + "step": 68840 + }, + { + "epoch": 183.6, + "grad_norm": 0.33984375, + "learning_rate": 0.0002938862233528836, + "loss": 0.4613, + "step": 68850 + }, + { + "epoch": 183.62666666666667, + "grad_norm": 0.2041015625, + "learning_rate": 0.00029388444649158183, + "loss": 0.4487, + "step": 68860 + }, + { + "epoch": 183.65333333333334, + "grad_norm": 0.41796875, + "learning_rate": 0.00029388266937748403, + "loss": 0.4679, + "step": 68870 + }, + { + "epoch": 183.68, + "grad_norm": 0.310546875, + "learning_rate": 0.00029388089201059326, + "loss": 0.4594, + "step": 68880 + }, + { + "epoch": 183.70666666666668, + "grad_norm": 0.38671875, + "learning_rate": 0.00029387911439091263, + "loss": 0.4592, + "step": 68890 + }, + { + "epoch": 183.73333333333332, + "grad_norm": 0.298828125, + "learning_rate": 0.00029387733651844533, + "loss": 0.4783, + "step": 68900 + }, + { + "epoch": 183.76, + "grad_norm": 0.33203125, + "learning_rate": 0.0002938755583931945, + "loss": 0.4797, + "step": 68910 + }, + { + "epoch": 183.78666666666666, + "grad_norm": 0.5078125, + "learning_rate": 0.00029387378001516313, + "loss": 0.4785, + "step": 68920 + }, + { + "epoch": 183.81333333333333, + "grad_norm": 0.515625, + "learning_rate": 0.00029387200138435447, + "loss": 0.464, + "step": 68930 + }, + { + "epoch": 183.84, + "grad_norm": 0.44921875, + "learning_rate": 0.0002938702225007716, + "loss": 0.4696, + "step": 68940 + }, + { + "epoch": 183.86666666666667, + "grad_norm": 0.359375, + "learning_rate": 0.00029386844336441763, + "loss": 0.4687, + "step": 68950 + }, + { + "epoch": 183.89333333333335, + "grad_norm": 0.455078125, + "learning_rate": 0.00029386666397529575, + "loss": 0.4593, + "step": 68960 + }, + { + "epoch": 183.92, + "grad_norm": 0.3515625, + "learning_rate": 0.000293864884333409, + "loss": 0.4704, + "step": 68970 + }, + { + "epoch": 183.94666666666666, + "grad_norm": 0.259765625, + "learning_rate": 0.0002938631044387606, + "loss": 0.4625, + "step": 68980 + }, + { + "epoch": 183.97333333333333, + "grad_norm": 0.251953125, + "learning_rate": 0.00029386132429135356, + "loss": 0.4744, + "step": 68990 + }, + { + "epoch": 184.0, + "grad_norm": 0.318359375, + "learning_rate": 0.0002938595438911911, + "loss": 0.4631, + "step": 69000 + }, + { + "epoch": 184.0, + "eval_loss": 0.47846052050590515, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.162, + "eval_samples_per_second": 1.574, + "eval_steps_per_second": 0.098, + "step": 69000 + }, + { + "epoch": 184.02666666666667, + "grad_norm": 0.357421875, + "learning_rate": 0.00029385776323827625, + "loss": 0.4831, + "step": 69010 + }, + { + "epoch": 184.05333333333334, + "grad_norm": 0.2412109375, + "learning_rate": 0.0002938559823326123, + "loss": 0.4893, + "step": 69020 + }, + { + "epoch": 184.08, + "grad_norm": 0.267578125, + "learning_rate": 0.00029385420117420227, + "loss": 0.4752, + "step": 69030 + }, + { + "epoch": 184.10666666666665, + "grad_norm": 0.3515625, + "learning_rate": 0.00029385241976304934, + "loss": 0.4707, + "step": 69040 + }, + { + "epoch": 184.13333333333333, + "grad_norm": 0.3984375, + "learning_rate": 0.00029385063809915654, + "loss": 0.4719, + "step": 69050 + }, + { + "epoch": 184.16, + "grad_norm": 0.328125, + "learning_rate": 0.0002938488561825271, + "loss": 0.4767, + "step": 69060 + }, + { + "epoch": 184.18666666666667, + "grad_norm": 0.251953125, + "learning_rate": 0.0002938470740131641, + "loss": 0.4691, + "step": 69070 + }, + { + "epoch": 184.21333333333334, + "grad_norm": 0.39453125, + "learning_rate": 0.0002938452915910707, + "loss": 0.4635, + "step": 69080 + }, + { + "epoch": 184.24, + "grad_norm": 0.298828125, + "learning_rate": 0.00029384350891625003, + "loss": 0.4677, + "step": 69090 + }, + { + "epoch": 184.26666666666668, + "grad_norm": 0.318359375, + "learning_rate": 0.0002938417259887052, + "loss": 0.4719, + "step": 69100 + }, + { + "epoch": 184.29333333333332, + "grad_norm": 0.365234375, + "learning_rate": 0.00029383994280843934, + "loss": 0.4656, + "step": 69110 + }, + { + "epoch": 184.32, + "grad_norm": 0.283203125, + "learning_rate": 0.00029383815937545564, + "loss": 0.4689, + "step": 69120 + }, + { + "epoch": 184.34666666666666, + "grad_norm": 0.369140625, + "learning_rate": 0.00029383637568975715, + "loss": 0.4769, + "step": 69130 + }, + { + "epoch": 184.37333333333333, + "grad_norm": 0.3359375, + "learning_rate": 0.00029383459175134707, + "loss": 0.4733, + "step": 69140 + }, + { + "epoch": 184.4, + "grad_norm": 0.294921875, + "learning_rate": 0.0002938328075602285, + "loss": 0.4699, + "step": 69150 + }, + { + "epoch": 184.42666666666668, + "grad_norm": 0.466796875, + "learning_rate": 0.0002938310231164046, + "loss": 0.4758, + "step": 69160 + }, + { + "epoch": 184.45333333333335, + "grad_norm": 0.35546875, + "learning_rate": 0.00029382923841987847, + "loss": 0.4782, + "step": 69170 + }, + { + "epoch": 184.48, + "grad_norm": 0.3203125, + "learning_rate": 0.00029382745347065326, + "loss": 0.4844, + "step": 69180 + }, + { + "epoch": 184.50666666666666, + "grad_norm": 0.35546875, + "learning_rate": 0.0002938256682687322, + "loss": 0.4743, + "step": 69190 + }, + { + "epoch": 184.53333333333333, + "grad_norm": 0.255859375, + "learning_rate": 0.0002938238828141182, + "loss": 0.4676, + "step": 69200 + }, + { + "epoch": 184.56, + "grad_norm": 0.3671875, + "learning_rate": 0.00029382209710681457, + "loss": 0.4692, + "step": 69210 + }, + { + "epoch": 184.58666666666667, + "grad_norm": 0.333984375, + "learning_rate": 0.0002938203111468245, + "loss": 0.4645, + "step": 69220 + }, + { + "epoch": 184.61333333333334, + "grad_norm": 0.267578125, + "learning_rate": 0.00029381852493415094, + "loss": 0.4509, + "step": 69230 + }, + { + "epoch": 184.64, + "grad_norm": 0.2333984375, + "learning_rate": 0.0002938167384687972, + "loss": 0.4557, + "step": 69240 + }, + { + "epoch": 184.66666666666666, + "grad_norm": 0.330078125, + "learning_rate": 0.0002938149517507663, + "loss": 0.4717, + "step": 69250 + }, + { + "epoch": 184.69333333333333, + "grad_norm": 0.376953125, + "learning_rate": 0.0002938131647800614, + "loss": 0.4543, + "step": 69260 + }, + { + "epoch": 184.72, + "grad_norm": 0.35546875, + "learning_rate": 0.00029381137755668573, + "loss": 0.4713, + "step": 69270 + }, + { + "epoch": 184.74666666666667, + "grad_norm": 0.2353515625, + "learning_rate": 0.00029380959008064235, + "loss": 0.4758, + "step": 69280 + }, + { + "epoch": 184.77333333333334, + "grad_norm": 0.47265625, + "learning_rate": 0.0002938078023519344, + "loss": 0.4827, + "step": 69290 + }, + { + "epoch": 184.8, + "grad_norm": 0.302734375, + "learning_rate": 0.0002938060143705651, + "loss": 0.4702, + "step": 69300 + }, + { + "epoch": 184.82666666666665, + "grad_norm": 0.36328125, + "learning_rate": 0.00029380422613653744, + "loss": 0.4647, + "step": 69310 + }, + { + "epoch": 184.85333333333332, + "grad_norm": 0.28125, + "learning_rate": 0.0002938024376498547, + "loss": 0.4733, + "step": 69320 + }, + { + "epoch": 184.88, + "grad_norm": 0.41015625, + "learning_rate": 0.0002938006489105199, + "loss": 0.4616, + "step": 69330 + }, + { + "epoch": 184.90666666666667, + "grad_norm": 0.376953125, + "learning_rate": 0.00029379885991853634, + "loss": 0.4641, + "step": 69340 + }, + { + "epoch": 184.93333333333334, + "grad_norm": 0.294921875, + "learning_rate": 0.00029379707067390704, + "loss": 0.4656, + "step": 69350 + }, + { + "epoch": 184.96, + "grad_norm": 0.298828125, + "learning_rate": 0.0002937952811766352, + "loss": 0.4643, + "step": 69360 + }, + { + "epoch": 184.98666666666668, + "grad_norm": 0.361328125, + "learning_rate": 0.00029379349142672395, + "loss": 0.4784, + "step": 69370 + }, + { + "epoch": 185.0, + "eval_loss": 0.47779580950737, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.7285, + "eval_samples_per_second": 1.491, + "eval_steps_per_second": 0.093, + "step": 69375 + }, + { + "epoch": 185.01333333333332, + "grad_norm": 0.326171875, + "learning_rate": 0.0002937917014241764, + "loss": 0.4669, + "step": 69380 + }, + { + "epoch": 185.04, + "grad_norm": 0.30078125, + "learning_rate": 0.00029378991116899575, + "loss": 0.491, + "step": 69390 + }, + { + "epoch": 185.06666666666666, + "grad_norm": 0.46875, + "learning_rate": 0.0002937881206611851, + "loss": 0.4783, + "step": 69400 + }, + { + "epoch": 185.09333333333333, + "grad_norm": 0.29296875, + "learning_rate": 0.0002937863299007477, + "loss": 0.4734, + "step": 69410 + }, + { + "epoch": 185.12, + "grad_norm": 0.251953125, + "learning_rate": 0.0002937845388876865, + "loss": 0.4696, + "step": 69420 + }, + { + "epoch": 185.14666666666668, + "grad_norm": 0.33203125, + "learning_rate": 0.0002937827476220048, + "loss": 0.4788, + "step": 69430 + }, + { + "epoch": 185.17333333333335, + "grad_norm": 0.341796875, + "learning_rate": 0.00029378095610370575, + "loss": 0.4688, + "step": 69440 + }, + { + "epoch": 185.2, + "grad_norm": 0.306640625, + "learning_rate": 0.0002937791643327924, + "loss": 0.4681, + "step": 69450 + }, + { + "epoch": 185.22666666666666, + "grad_norm": 0.302734375, + "learning_rate": 0.00029377737230926795, + "loss": 0.4648, + "step": 69460 + }, + { + "epoch": 185.25333333333333, + "grad_norm": 0.28125, + "learning_rate": 0.00029377558003313553, + "loss": 0.4652, + "step": 69470 + }, + { + "epoch": 185.28, + "grad_norm": 0.369140625, + "learning_rate": 0.0002937737875043984, + "loss": 0.4791, + "step": 69480 + }, + { + "epoch": 185.30666666666667, + "grad_norm": 0.328125, + "learning_rate": 0.0002937719947230596, + "loss": 0.4597, + "step": 69490 + }, + { + "epoch": 185.33333333333334, + "grad_norm": 0.31640625, + "learning_rate": 0.0002937702016891222, + "loss": 0.4753, + "step": 69500 + }, + { + "epoch": 185.36, + "grad_norm": 0.294921875, + "learning_rate": 0.00029376840840258955, + "loss": 0.4766, + "step": 69510 + }, + { + "epoch": 185.38666666666666, + "grad_norm": 0.318359375, + "learning_rate": 0.00029376661486346466, + "loss": 0.4689, + "step": 69520 + }, + { + "epoch": 185.41333333333333, + "grad_norm": 0.263671875, + "learning_rate": 0.0002937648210717507, + "loss": 0.4728, + "step": 69530 + }, + { + "epoch": 185.44, + "grad_norm": 0.2578125, + "learning_rate": 0.0002937630270274509, + "loss": 0.476, + "step": 69540 + }, + { + "epoch": 185.46666666666667, + "grad_norm": 0.31640625, + "learning_rate": 0.0002937612327305683, + "loss": 0.4857, + "step": 69550 + }, + { + "epoch": 185.49333333333334, + "grad_norm": 0.376953125, + "learning_rate": 0.00029375943818110614, + "loss": 0.477, + "step": 69560 + }, + { + "epoch": 185.52, + "grad_norm": 0.376953125, + "learning_rate": 0.00029375764337906754, + "loss": 0.4717, + "step": 69570 + }, + { + "epoch": 185.54666666666665, + "grad_norm": 0.345703125, + "learning_rate": 0.00029375584832445564, + "loss": 0.4686, + "step": 69580 + }, + { + "epoch": 185.57333333333332, + "grad_norm": 0.345703125, + "learning_rate": 0.0002937540530172736, + "loss": 0.4677, + "step": 69590 + }, + { + "epoch": 185.6, + "grad_norm": 0.376953125, + "learning_rate": 0.0002937522574575246, + "loss": 0.4605, + "step": 69600 + }, + { + "epoch": 185.62666666666667, + "grad_norm": 0.419921875, + "learning_rate": 0.00029375046164521176, + "loss": 0.4481, + "step": 69610 + }, + { + "epoch": 185.65333333333334, + "grad_norm": 0.33984375, + "learning_rate": 0.0002937486655803382, + "loss": 0.468, + "step": 69620 + }, + { + "epoch": 185.68, + "grad_norm": 0.32421875, + "learning_rate": 0.0002937468692629072, + "loss": 0.4587, + "step": 69630 + }, + { + "epoch": 185.70666666666668, + "grad_norm": 0.34765625, + "learning_rate": 0.0002937450726929218, + "loss": 0.4594, + "step": 69640 + }, + { + "epoch": 185.73333333333332, + "grad_norm": 0.375, + "learning_rate": 0.0002937432758703853, + "loss": 0.4789, + "step": 69650 + }, + { + "epoch": 185.76, + "grad_norm": 0.404296875, + "learning_rate": 0.0002937414787953007, + "loss": 0.4802, + "step": 69660 + }, + { + "epoch": 185.78666666666666, + "grad_norm": 0.34375, + "learning_rate": 0.00029373968146767114, + "loss": 0.478, + "step": 69670 + }, + { + "epoch": 185.81333333333333, + "grad_norm": 0.373046875, + "learning_rate": 0.00029373788388749995, + "loss": 0.464, + "step": 69680 + }, + { + "epoch": 185.84, + "grad_norm": 0.349609375, + "learning_rate": 0.00029373608605479015, + "loss": 0.4693, + "step": 69690 + }, + { + "epoch": 185.86666666666667, + "grad_norm": 0.373046875, + "learning_rate": 0.0002937342879695449, + "loss": 0.4685, + "step": 69700 + }, + { + "epoch": 185.89333333333335, + "grad_norm": 0.28515625, + "learning_rate": 0.0002937324896317674, + "loss": 0.4595, + "step": 69710 + }, + { + "epoch": 185.92, + "grad_norm": 0.3125, + "learning_rate": 0.0002937306910414609, + "loss": 0.4701, + "step": 69720 + }, + { + "epoch": 185.94666666666666, + "grad_norm": 0.330078125, + "learning_rate": 0.0002937288921986284, + "loss": 0.4626, + "step": 69730 + }, + { + "epoch": 185.97333333333333, + "grad_norm": 0.37109375, + "learning_rate": 0.0002937270931032731, + "loss": 0.4744, + "step": 69740 + }, + { + "epoch": 186.0, + "grad_norm": 0.310546875, + "learning_rate": 0.00029372529375539826, + "loss": 0.463, + "step": 69750 + }, + { + "epoch": 186.0, + "eval_loss": 0.47842052578926086, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.8196, + "eval_samples_per_second": 1.629, + "eval_steps_per_second": 0.102, + "step": 69750 + }, + { + "epoch": 186.02666666666667, + "grad_norm": 0.357421875, + "learning_rate": 0.0002937234941550069, + "loss": 0.4828, + "step": 69760 + }, + { + "epoch": 186.05333333333334, + "grad_norm": 0.310546875, + "learning_rate": 0.0002937216943021023, + "loss": 0.4886, + "step": 69770 + }, + { + "epoch": 186.08, + "grad_norm": 0.40234375, + "learning_rate": 0.00029371989419668757, + "loss": 0.476, + "step": 69780 + }, + { + "epoch": 186.10666666666665, + "grad_norm": 0.33984375, + "learning_rate": 0.00029371809383876585, + "loss": 0.4705, + "step": 69790 + }, + { + "epoch": 186.13333333333333, + "grad_norm": 0.35546875, + "learning_rate": 0.00029371629322834034, + "loss": 0.4727, + "step": 69800 + }, + { + "epoch": 186.16, + "grad_norm": 0.36328125, + "learning_rate": 0.0002937144923654142, + "loss": 0.4761, + "step": 69810 + }, + { + "epoch": 186.18666666666667, + "grad_norm": 0.32421875, + "learning_rate": 0.0002937126912499906, + "loss": 0.4683, + "step": 69820 + }, + { + "epoch": 186.21333333333334, + "grad_norm": 0.328125, + "learning_rate": 0.00029371088988207263, + "loss": 0.4634, + "step": 69830 + }, + { + "epoch": 186.24, + "grad_norm": 0.353515625, + "learning_rate": 0.00029370908826166357, + "loss": 0.4675, + "step": 69840 + }, + { + "epoch": 186.26666666666668, + "grad_norm": 0.2890625, + "learning_rate": 0.00029370728638876653, + "loss": 0.4717, + "step": 69850 + }, + { + "epoch": 186.29333333333332, + "grad_norm": 0.376953125, + "learning_rate": 0.0002937054842633847, + "loss": 0.4655, + "step": 69860 + }, + { + "epoch": 186.32, + "grad_norm": 0.310546875, + "learning_rate": 0.00029370368188552117, + "loss": 0.4687, + "step": 69870 + }, + { + "epoch": 186.34666666666666, + "grad_norm": 0.314453125, + "learning_rate": 0.0002937018792551792, + "loss": 0.4771, + "step": 69880 + }, + { + "epoch": 186.37333333333333, + "grad_norm": 0.34765625, + "learning_rate": 0.00029370007637236187, + "loss": 0.4733, + "step": 69890 + }, + { + "epoch": 186.4, + "grad_norm": 0.314453125, + "learning_rate": 0.0002936982732370724, + "loss": 0.4699, + "step": 69900 + }, + { + "epoch": 186.42666666666668, + "grad_norm": 0.330078125, + "learning_rate": 0.00029369646984931405, + "loss": 0.4758, + "step": 69910 + }, + { + "epoch": 186.45333333333335, + "grad_norm": 0.341796875, + "learning_rate": 0.0002936946662090898, + "loss": 0.4779, + "step": 69920 + }, + { + "epoch": 186.48, + "grad_norm": 0.322265625, + "learning_rate": 0.0002936928623164029, + "loss": 0.4843, + "step": 69930 + }, + { + "epoch": 186.50666666666666, + "grad_norm": 0.482421875, + "learning_rate": 0.00029369105817125655, + "loss": 0.4745, + "step": 69940 + }, + { + "epoch": 186.53333333333333, + "grad_norm": 0.333984375, + "learning_rate": 0.0002936892537736539, + "loss": 0.4679, + "step": 69950 + }, + { + "epoch": 186.56, + "grad_norm": 0.255859375, + "learning_rate": 0.00029368744912359817, + "loss": 0.4693, + "step": 69960 + }, + { + "epoch": 186.58666666666667, + "grad_norm": 0.271484375, + "learning_rate": 0.00029368564422109245, + "loss": 0.465, + "step": 69970 + }, + { + "epoch": 186.61333333333334, + "grad_norm": 0.314453125, + "learning_rate": 0.0002936838390661399, + "loss": 0.4512, + "step": 69980 + }, + { + "epoch": 186.64, + "grad_norm": 0.3359375, + "learning_rate": 0.00029368203365874373, + "loss": 0.456, + "step": 69990 + }, + { + "epoch": 186.66666666666666, + "grad_norm": 0.3046875, + "learning_rate": 0.0002936802279989072, + "loss": 0.4711, + "step": 70000 + }, + { + "epoch": 186.69333333333333, + "grad_norm": 0.2734375, + "learning_rate": 0.0002936784220866333, + "loss": 0.4541, + "step": 70010 + }, + { + "epoch": 186.72, + "grad_norm": 0.39453125, + "learning_rate": 0.00029367661592192537, + "loss": 0.471, + "step": 70020 + }, + { + "epoch": 186.74666666666667, + "grad_norm": 0.287109375, + "learning_rate": 0.0002936748095047865, + "loss": 0.4752, + "step": 70030 + }, + { + "epoch": 186.77333333333334, + "grad_norm": 0.373046875, + "learning_rate": 0.00029367300283521984, + "loss": 0.4829, + "step": 70040 + }, + { + "epoch": 186.8, + "grad_norm": 0.494140625, + "learning_rate": 0.00029367119591322863, + "loss": 0.4707, + "step": 70050 + }, + { + "epoch": 186.82666666666665, + "grad_norm": 0.39453125, + "learning_rate": 0.000293669388738816, + "loss": 0.4642, + "step": 70060 + }, + { + "epoch": 186.85333333333332, + "grad_norm": 0.34765625, + "learning_rate": 0.00029366758131198515, + "loss": 0.4735, + "step": 70070 + }, + { + "epoch": 186.88, + "grad_norm": 0.33984375, + "learning_rate": 0.0002936657736327393, + "loss": 0.4614, + "step": 70080 + }, + { + "epoch": 186.90666666666667, + "grad_norm": 0.3359375, + "learning_rate": 0.0002936639657010815, + "loss": 0.4648, + "step": 70090 + }, + { + "epoch": 186.93333333333334, + "grad_norm": 0.2578125, + "learning_rate": 0.00029366215751701504, + "loss": 0.4664, + "step": 70100 + }, + { + "epoch": 186.96, + "grad_norm": 0.4609375, + "learning_rate": 0.000293660349080543, + "loss": 0.4638, + "step": 70110 + }, + { + "epoch": 186.98666666666668, + "grad_norm": 0.318359375, + "learning_rate": 0.00029365854039166867, + "loss": 0.4775, + "step": 70120 + }, + { + "epoch": 187.0, + "eval_loss": 0.4807330071926117, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.6059, + "eval_samples_per_second": 1.509, + "eval_steps_per_second": 0.094, + "step": 70125 + }, + { + "epoch": 187.01333333333332, + "grad_norm": 0.423828125, + "learning_rate": 0.00029365673145039515, + "loss": 0.4674, + "step": 70130 + }, + { + "epoch": 187.04, + "grad_norm": 0.248046875, + "learning_rate": 0.00029365492225672565, + "loss": 0.4909, + "step": 70140 + }, + { + "epoch": 187.06666666666666, + "grad_norm": 0.3671875, + "learning_rate": 0.0002936531128106633, + "loss": 0.4785, + "step": 70150 + }, + { + "epoch": 187.09333333333333, + "grad_norm": 0.384765625, + "learning_rate": 0.00029365130311221135, + "loss": 0.4726, + "step": 70160 + }, + { + "epoch": 187.12, + "grad_norm": 0.294921875, + "learning_rate": 0.00029364949316137295, + "loss": 0.4699, + "step": 70170 + }, + { + "epoch": 187.14666666666668, + "grad_norm": 0.392578125, + "learning_rate": 0.0002936476829581513, + "loss": 0.4781, + "step": 70180 + }, + { + "epoch": 187.17333333333335, + "grad_norm": 0.291015625, + "learning_rate": 0.0002936458725025495, + "loss": 0.4691, + "step": 70190 + }, + { + "epoch": 187.2, + "grad_norm": 0.279296875, + "learning_rate": 0.00029364406179457084, + "loss": 0.4671, + "step": 70200 + }, + { + "epoch": 187.22666666666666, + "grad_norm": 0.419921875, + "learning_rate": 0.0002936422508342184, + "loss": 0.4652, + "step": 70210 + }, + { + "epoch": 187.25333333333333, + "grad_norm": 0.31640625, + "learning_rate": 0.00029364043962149547, + "loss": 0.4648, + "step": 70220 + }, + { + "epoch": 187.28, + "grad_norm": 0.416015625, + "learning_rate": 0.00029363862815640513, + "loss": 0.4785, + "step": 70230 + }, + { + "epoch": 187.30666666666667, + "grad_norm": 0.314453125, + "learning_rate": 0.00029363681643895063, + "loss": 0.4594, + "step": 70240 + }, + { + "epoch": 187.33333333333334, + "grad_norm": 0.349609375, + "learning_rate": 0.0002936350044691351, + "loss": 0.4751, + "step": 70250 + }, + { + "epoch": 187.36, + "grad_norm": 0.302734375, + "learning_rate": 0.0002936331922469618, + "loss": 0.4773, + "step": 70260 + }, + { + "epoch": 187.38666666666666, + "grad_norm": 0.416015625, + "learning_rate": 0.0002936313797724338, + "loss": 0.4689, + "step": 70270 + }, + { + "epoch": 187.41333333333333, + "grad_norm": 0.349609375, + "learning_rate": 0.0002936295670455544, + "loss": 0.4733, + "step": 70280 + }, + { + "epoch": 187.44, + "grad_norm": 0.296875, + "learning_rate": 0.0002936277540663267, + "loss": 0.476, + "step": 70290 + }, + { + "epoch": 187.46666666666667, + "grad_norm": 0.486328125, + "learning_rate": 0.00029362594083475396, + "loss": 0.486, + "step": 70300 + }, + { + "epoch": 187.49333333333334, + "grad_norm": 0.39453125, + "learning_rate": 0.00029362412735083927, + "loss": 0.4773, + "step": 70310 + }, + { + "epoch": 187.52, + "grad_norm": 0.310546875, + "learning_rate": 0.0002936223136145859, + "loss": 0.4716, + "step": 70320 + }, + { + "epoch": 187.54666666666665, + "grad_norm": 0.32421875, + "learning_rate": 0.000293620499625997, + "loss": 0.4681, + "step": 70330 + }, + { + "epoch": 187.57333333333332, + "grad_norm": 0.310546875, + "learning_rate": 0.00029361868538507584, + "loss": 0.4677, + "step": 70340 + }, + { + "epoch": 187.6, + "grad_norm": 0.32421875, + "learning_rate": 0.0002936168708918254, + "loss": 0.4608, + "step": 70350 + }, + { + "epoch": 187.62666666666667, + "grad_norm": 0.267578125, + "learning_rate": 0.0002936150561462491, + "loss": 0.4482, + "step": 70360 + }, + { + "epoch": 187.65333333333334, + "grad_norm": 0.54296875, + "learning_rate": 0.00029361324114835006, + "loss": 0.4683, + "step": 70370 + }, + { + "epoch": 187.68, + "grad_norm": 0.4296875, + "learning_rate": 0.00029361142589813137, + "loss": 0.4585, + "step": 70380 + }, + { + "epoch": 187.70666666666668, + "grad_norm": 0.328125, + "learning_rate": 0.00029360961039559633, + "loss": 0.4595, + "step": 70390 + }, + { + "epoch": 187.73333333333332, + "grad_norm": 0.298828125, + "learning_rate": 0.00029360779464074804, + "loss": 0.4783, + "step": 70400 + }, + { + "epoch": 187.76, + "grad_norm": 0.54296875, + "learning_rate": 0.00029360597863358975, + "loss": 0.4803, + "step": 70410 + }, + { + "epoch": 187.78666666666666, + "grad_norm": 0.380859375, + "learning_rate": 0.00029360416237412466, + "loss": 0.4778, + "step": 70420 + }, + { + "epoch": 187.81333333333333, + "grad_norm": 0.482421875, + "learning_rate": 0.0002936023458623559, + "loss": 0.4639, + "step": 70430 + }, + { + "epoch": 187.84, + "grad_norm": 0.345703125, + "learning_rate": 0.00029360052909828676, + "loss": 0.4691, + "step": 70440 + }, + { + "epoch": 187.86666666666667, + "grad_norm": 0.30078125, + "learning_rate": 0.00029359871208192034, + "loss": 0.4685, + "step": 70450 + }, + { + "epoch": 187.89333333333335, + "grad_norm": 0.248046875, + "learning_rate": 0.00029359689481325986, + "loss": 0.4598, + "step": 70460 + }, + { + "epoch": 187.92, + "grad_norm": 0.30859375, + "learning_rate": 0.0002935950772923085, + "loss": 0.4704, + "step": 70470 + }, + { + "epoch": 187.94666666666666, + "grad_norm": 0.39453125, + "learning_rate": 0.0002935932595190695, + "loss": 0.463, + "step": 70480 + }, + { + "epoch": 187.97333333333333, + "grad_norm": 0.4375, + "learning_rate": 0.0002935914414935461, + "loss": 0.4743, + "step": 70490 + }, + { + "epoch": 188.0, + "grad_norm": 0.318359375, + "learning_rate": 0.00029358962321574135, + "loss": 0.4627, + "step": 70500 + }, + { + "epoch": 188.0, + "eval_loss": 0.4792870581150055, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.6616, + "eval_samples_per_second": 1.501, + "eval_steps_per_second": 0.094, + "step": 70500 + }, + { + "epoch": 188.02666666666667, + "grad_norm": 0.46875, + "learning_rate": 0.0002935878046856585, + "loss": 0.4831, + "step": 70510 + }, + { + "epoch": 188.05333333333334, + "grad_norm": 0.451171875, + "learning_rate": 0.0002935859859033008, + "loss": 0.4885, + "step": 70520 + }, + { + "epoch": 188.08, + "grad_norm": 0.2890625, + "learning_rate": 0.00029358416686867133, + "loss": 0.4757, + "step": 70530 + }, + { + "epoch": 188.10666666666665, + "grad_norm": 0.3515625, + "learning_rate": 0.00029358234758177344, + "loss": 0.4705, + "step": 70540 + }, + { + "epoch": 188.13333333333333, + "grad_norm": 0.3125, + "learning_rate": 0.00029358052804261017, + "loss": 0.4726, + "step": 70550 + }, + { + "epoch": 188.16, + "grad_norm": 0.27734375, + "learning_rate": 0.0002935787082511849, + "loss": 0.4763, + "step": 70560 + }, + { + "epoch": 188.18666666666667, + "grad_norm": 0.271484375, + "learning_rate": 0.0002935768882075006, + "loss": 0.4684, + "step": 70570 + }, + { + "epoch": 188.21333333333334, + "grad_norm": 0.33203125, + "learning_rate": 0.0002935750679115607, + "loss": 0.4633, + "step": 70580 + }, + { + "epoch": 188.24, + "grad_norm": 0.376953125, + "learning_rate": 0.0002935732473633682, + "loss": 0.4677, + "step": 70590 + }, + { + "epoch": 188.26666666666668, + "grad_norm": 0.341796875, + "learning_rate": 0.0002935714265629264, + "loss": 0.4717, + "step": 70600 + }, + { + "epoch": 188.29333333333332, + "grad_norm": 0.263671875, + "learning_rate": 0.0002935696055102385, + "loss": 0.4656, + "step": 70610 + }, + { + "epoch": 188.32, + "grad_norm": 0.279296875, + "learning_rate": 0.00029356778420530774, + "loss": 0.4689, + "step": 70620 + }, + { + "epoch": 188.34666666666666, + "grad_norm": 0.322265625, + "learning_rate": 0.0002935659626481372, + "loss": 0.4769, + "step": 70630 + }, + { + "epoch": 188.37333333333333, + "grad_norm": 0.380859375, + "learning_rate": 0.0002935641408387302, + "loss": 0.473, + "step": 70640 + }, + { + "epoch": 188.4, + "grad_norm": 0.302734375, + "learning_rate": 0.00029356231877708983, + "loss": 0.4701, + "step": 70650 + }, + { + "epoch": 188.42666666666668, + "grad_norm": 0.265625, + "learning_rate": 0.00029356049646321933, + "loss": 0.4765, + "step": 70660 + }, + { + "epoch": 188.45333333333335, + "grad_norm": 0.314453125, + "learning_rate": 0.00029355867389712194, + "loss": 0.4778, + "step": 70670 + }, + { + "epoch": 188.48, + "grad_norm": 0.365234375, + "learning_rate": 0.00029355685107880085, + "loss": 0.4844, + "step": 70680 + }, + { + "epoch": 188.50666666666666, + "grad_norm": 0.29296875, + "learning_rate": 0.00029355502800825926, + "loss": 0.4741, + "step": 70690 + }, + { + "epoch": 188.53333333333333, + "grad_norm": 0.27734375, + "learning_rate": 0.0002935532046855004, + "loss": 0.4682, + "step": 70700 + }, + { + "epoch": 188.56, + "grad_norm": 0.349609375, + "learning_rate": 0.0002935513811105274, + "loss": 0.4685, + "step": 70710 + }, + { + "epoch": 188.58666666666667, + "grad_norm": 0.326171875, + "learning_rate": 0.00029354955728334343, + "loss": 0.4646, + "step": 70720 + }, + { + "epoch": 188.61333333333334, + "grad_norm": 0.349609375, + "learning_rate": 0.0002935477332039519, + "loss": 0.4513, + "step": 70730 + }, + { + "epoch": 188.64, + "grad_norm": 0.240234375, + "learning_rate": 0.0002935459088723558, + "loss": 0.4563, + "step": 70740 + }, + { + "epoch": 188.66666666666666, + "grad_norm": 0.294921875, + "learning_rate": 0.00029354408428855847, + "loss": 0.4716, + "step": 70750 + }, + { + "epoch": 188.69333333333333, + "grad_norm": 0.361328125, + "learning_rate": 0.000293542259452563, + "loss": 0.4543, + "step": 70760 + }, + { + "epoch": 188.72, + "grad_norm": 0.28515625, + "learning_rate": 0.0002935404343643727, + "loss": 0.4715, + "step": 70770 + }, + { + "epoch": 188.74666666666667, + "grad_norm": 0.33984375, + "learning_rate": 0.0002935386090239907, + "loss": 0.4759, + "step": 70780 + }, + { + "epoch": 188.77333333333334, + "grad_norm": 0.3515625, + "learning_rate": 0.00029353678343142027, + "loss": 0.4834, + "step": 70790 + }, + { + "epoch": 188.8, + "grad_norm": 0.421875, + "learning_rate": 0.0002935349575866646, + "loss": 0.4699, + "step": 70800 + }, + { + "epoch": 188.82666666666665, + "grad_norm": 0.34765625, + "learning_rate": 0.0002935331314897269, + "loss": 0.4645, + "step": 70810 + }, + { + "epoch": 188.85333333333332, + "grad_norm": 0.4296875, + "learning_rate": 0.00029353130514061035, + "loss": 0.4745, + "step": 70820 + }, + { + "epoch": 188.88, + "grad_norm": 0.2890625, + "learning_rate": 0.00029352947853931814, + "loss": 0.4622, + "step": 70830 + }, + { + "epoch": 188.90666666666667, + "grad_norm": 0.322265625, + "learning_rate": 0.0002935276516858535, + "loss": 0.4649, + "step": 70840 + }, + { + "epoch": 188.93333333333334, + "grad_norm": 0.275390625, + "learning_rate": 0.00029352582458021974, + "loss": 0.466, + "step": 70850 + }, + { + "epoch": 188.96, + "grad_norm": 0.376953125, + "learning_rate": 0.00029352399722241994, + "loss": 0.464, + "step": 70860 + }, + { + "epoch": 188.98666666666668, + "grad_norm": 0.337890625, + "learning_rate": 0.0002935221696124574, + "loss": 0.4774, + "step": 70870 + }, + { + "epoch": 189.0, + "eval_loss": 0.4771125018596649, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.8842, + "eval_samples_per_second": 1.619, + "eval_steps_per_second": 0.101, + "step": 70875 + }, + { + "epoch": 189.01333333333332, + "grad_norm": 0.275390625, + "learning_rate": 0.0002935203417503352, + "loss": 0.4674, + "step": 70880 + }, + { + "epoch": 189.04, + "grad_norm": 0.416015625, + "learning_rate": 0.0002935185136360567, + "loss": 0.4918, + "step": 70890 + }, + { + "epoch": 189.06666666666666, + "grad_norm": 0.333984375, + "learning_rate": 0.000293516685269625, + "loss": 0.4791, + "step": 70900 + }, + { + "epoch": 189.09333333333333, + "grad_norm": 0.298828125, + "learning_rate": 0.00029351485665104343, + "loss": 0.4733, + "step": 70910 + }, + { + "epoch": 189.12, + "grad_norm": 0.291015625, + "learning_rate": 0.00029351302778031507, + "loss": 0.4701, + "step": 70920 + }, + { + "epoch": 189.14666666666668, + "grad_norm": 0.416015625, + "learning_rate": 0.00029351119865744324, + "loss": 0.4776, + "step": 70930 + }, + { + "epoch": 189.17333333333335, + "grad_norm": 0.4296875, + "learning_rate": 0.00029350936928243114, + "loss": 0.4685, + "step": 70940 + }, + { + "epoch": 189.2, + "grad_norm": 0.357421875, + "learning_rate": 0.0002935075396552819, + "loss": 0.4671, + "step": 70950 + }, + { + "epoch": 189.22666666666666, + "grad_norm": 0.3671875, + "learning_rate": 0.0002935057097759988, + "loss": 0.4654, + "step": 70960 + }, + { + "epoch": 189.25333333333333, + "grad_norm": 0.40625, + "learning_rate": 0.00029350387964458506, + "loss": 0.4646, + "step": 70970 + }, + { + "epoch": 189.28, + "grad_norm": 0.498046875, + "learning_rate": 0.0002935020492610439, + "loss": 0.4783, + "step": 70980 + }, + { + "epoch": 189.30666666666667, + "grad_norm": 0.306640625, + "learning_rate": 0.00029350021862537847, + "loss": 0.4595, + "step": 70990 + }, + { + "epoch": 189.33333333333334, + "grad_norm": 0.49609375, + "learning_rate": 0.00029349838773759203, + "loss": 0.4753, + "step": 71000 + }, + { + "epoch": 189.36, + "grad_norm": 0.3515625, + "learning_rate": 0.00029349655659768783, + "loss": 0.4767, + "step": 71010 + }, + { + "epoch": 189.38666666666666, + "grad_norm": 0.26953125, + "learning_rate": 0.00029349472520566905, + "loss": 0.4685, + "step": 71020 + }, + { + "epoch": 189.41333333333333, + "grad_norm": 0.45703125, + "learning_rate": 0.0002934928935615389, + "loss": 0.4733, + "step": 71030 + }, + { + "epoch": 189.44, + "grad_norm": 0.361328125, + "learning_rate": 0.00029349106166530063, + "loss": 0.4756, + "step": 71040 + }, + { + "epoch": 189.46666666666667, + "grad_norm": 0.2890625, + "learning_rate": 0.00029348922951695744, + "loss": 0.4856, + "step": 71050 + }, + { + "epoch": 189.49333333333334, + "grad_norm": 0.365234375, + "learning_rate": 0.00029348739711651257, + "loss": 0.4773, + "step": 71060 + }, + { + "epoch": 189.52, + "grad_norm": 0.26171875, + "learning_rate": 0.0002934855644639692, + "loss": 0.4711, + "step": 71070 + }, + { + "epoch": 189.54666666666665, + "grad_norm": 0.306640625, + "learning_rate": 0.0002934837315593305, + "loss": 0.4676, + "step": 71080 + }, + { + "epoch": 189.57333333333332, + "grad_norm": 0.3203125, + "learning_rate": 0.0002934818984025998, + "loss": 0.4676, + "step": 71090 + }, + { + "epoch": 189.6, + "grad_norm": 0.3125, + "learning_rate": 0.0002934800649937803, + "loss": 0.4615, + "step": 71100 + }, + { + "epoch": 189.62666666666667, + "grad_norm": 0.2890625, + "learning_rate": 0.00029347823133287523, + "loss": 0.4481, + "step": 71110 + }, + { + "epoch": 189.65333333333334, + "grad_norm": 0.294921875, + "learning_rate": 0.0002934763974198877, + "loss": 0.4673, + "step": 71120 + }, + { + "epoch": 189.68, + "grad_norm": 0.423828125, + "learning_rate": 0.0002934745632548211, + "loss": 0.4589, + "step": 71130 + }, + { + "epoch": 189.70666666666668, + "grad_norm": 0.3984375, + "learning_rate": 0.0002934727288376786, + "loss": 0.4599, + "step": 71140 + }, + { + "epoch": 189.73333333333332, + "grad_norm": 0.3515625, + "learning_rate": 0.0002934708941684633, + "loss": 0.4789, + "step": 71150 + }, + { + "epoch": 189.76, + "grad_norm": 0.51171875, + "learning_rate": 0.00029346905924717854, + "loss": 0.4793, + "step": 71160 + }, + { + "epoch": 189.78666666666666, + "grad_norm": 0.380859375, + "learning_rate": 0.00029346722407382753, + "loss": 0.4784, + "step": 71170 + }, + { + "epoch": 189.81333333333333, + "grad_norm": 0.30859375, + "learning_rate": 0.00029346538864841344, + "loss": 0.4631, + "step": 71180 + }, + { + "epoch": 189.84, + "grad_norm": 0.37890625, + "learning_rate": 0.0002934635529709396, + "loss": 0.4696, + "step": 71190 + }, + { + "epoch": 189.86666666666667, + "grad_norm": 0.4140625, + "learning_rate": 0.0002934617170414092, + "loss": 0.469, + "step": 71200 + }, + { + "epoch": 189.89333333333335, + "grad_norm": 0.30859375, + "learning_rate": 0.0002934598808598253, + "loss": 0.46, + "step": 71210 + }, + { + "epoch": 189.92, + "grad_norm": 0.296875, + "learning_rate": 0.0002934580444261913, + "loss": 0.47, + "step": 71220 + }, + { + "epoch": 189.94666666666666, + "grad_norm": 0.341796875, + "learning_rate": 0.00029345620774051044, + "loss": 0.4627, + "step": 71230 + }, + { + "epoch": 189.97333333333333, + "grad_norm": 0.361328125, + "learning_rate": 0.00029345437080278595, + "loss": 0.4739, + "step": 71240 + }, + { + "epoch": 190.0, + "grad_norm": 0.294921875, + "learning_rate": 0.00029345253361302094, + "loss": 0.4633, + "step": 71250 + }, + { + "epoch": 190.0, + "eval_loss": 0.47591617703437805, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.0874, + "eval_samples_per_second": 1.586, + "eval_steps_per_second": 0.099, + "step": 71250 + }, + { + "epoch": 190.02666666666667, + "grad_norm": 0.365234375, + "learning_rate": 0.0002934506961712187, + "loss": 0.4825, + "step": 71260 + }, + { + "epoch": 190.05333333333334, + "grad_norm": 0.357421875, + "learning_rate": 0.00029344885847738247, + "loss": 0.4886, + "step": 71270 + }, + { + "epoch": 190.08, + "grad_norm": 0.291015625, + "learning_rate": 0.0002934470205315154, + "loss": 0.4766, + "step": 71280 + }, + { + "epoch": 190.10666666666665, + "grad_norm": 0.29296875, + "learning_rate": 0.0002934451823336209, + "loss": 0.4708, + "step": 71290 + }, + { + "epoch": 190.13333333333333, + "grad_norm": 0.294921875, + "learning_rate": 0.000293443343883702, + "loss": 0.4718, + "step": 71300 + }, + { + "epoch": 190.16, + "grad_norm": 0.380859375, + "learning_rate": 0.0002934415051817621, + "loss": 0.4762, + "step": 71310 + }, + { + "epoch": 190.18666666666667, + "grad_norm": 0.28515625, + "learning_rate": 0.0002934396662278043, + "loss": 0.4684, + "step": 71320 + }, + { + "epoch": 190.21333333333334, + "grad_norm": 0.302734375, + "learning_rate": 0.0002934378270218319, + "loss": 0.4631, + "step": 71330 + }, + { + "epoch": 190.24, + "grad_norm": 0.322265625, + "learning_rate": 0.0002934359875638481, + "loss": 0.4662, + "step": 71340 + }, + { + "epoch": 190.26666666666668, + "grad_norm": 0.310546875, + "learning_rate": 0.00029343414785385613, + "loss": 0.4718, + "step": 71350 + }, + { + "epoch": 190.29333333333332, + "grad_norm": 0.31640625, + "learning_rate": 0.00029343230789185924, + "loss": 0.4656, + "step": 71360 + }, + { + "epoch": 190.32, + "grad_norm": 0.3046875, + "learning_rate": 0.00029343046767786065, + "loss": 0.4687, + "step": 71370 + }, + { + "epoch": 190.34666666666666, + "grad_norm": 0.33203125, + "learning_rate": 0.00029342862721186365, + "loss": 0.4776, + "step": 71380 + }, + { + "epoch": 190.37333333333333, + "grad_norm": 0.34375, + "learning_rate": 0.0002934267864938714, + "loss": 0.4734, + "step": 71390 + }, + { + "epoch": 190.4, + "grad_norm": 0.326171875, + "learning_rate": 0.00029342494552388713, + "loss": 0.4692, + "step": 71400 + }, + { + "epoch": 190.42666666666668, + "grad_norm": 0.392578125, + "learning_rate": 0.0002934231043019141, + "loss": 0.476, + "step": 71410 + }, + { + "epoch": 190.45333333333335, + "grad_norm": 0.341796875, + "learning_rate": 0.00029342126282795556, + "loss": 0.4789, + "step": 71420 + }, + { + "epoch": 190.48, + "grad_norm": 0.322265625, + "learning_rate": 0.00029341942110201475, + "loss": 0.485, + "step": 71430 + }, + { + "epoch": 190.50666666666666, + "grad_norm": 0.3046875, + "learning_rate": 0.0002934175791240949, + "loss": 0.4742, + "step": 71440 + }, + { + "epoch": 190.53333333333333, + "grad_norm": 0.265625, + "learning_rate": 0.0002934157368941992, + "loss": 0.4682, + "step": 71450 + }, + { + "epoch": 190.56, + "grad_norm": 0.41796875, + "learning_rate": 0.00029341389441233095, + "loss": 0.4692, + "step": 71460 + }, + { + "epoch": 190.58666666666667, + "grad_norm": 0.49609375, + "learning_rate": 0.00029341205167849336, + "loss": 0.4642, + "step": 71470 + }, + { + "epoch": 190.61333333333334, + "grad_norm": 0.271484375, + "learning_rate": 0.0002934102086926896, + "loss": 0.4508, + "step": 71480 + }, + { + "epoch": 190.64, + "grad_norm": 0.30078125, + "learning_rate": 0.0002934083654549231, + "loss": 0.4568, + "step": 71490 + }, + { + "epoch": 190.66666666666666, + "grad_norm": 0.2421875, + "learning_rate": 0.0002934065219651969, + "loss": 0.4708, + "step": 71500 + }, + { + "epoch": 190.69333333333333, + "grad_norm": 0.4140625, + "learning_rate": 0.0002934046782235143, + "loss": 0.4543, + "step": 71510 + }, + { + "epoch": 190.72, + "grad_norm": 0.29296875, + "learning_rate": 0.00029340283422987854, + "loss": 0.4712, + "step": 71520 + }, + { + "epoch": 190.74666666666667, + "grad_norm": 0.392578125, + "learning_rate": 0.0002934009899842929, + "loss": 0.4757, + "step": 71530 + }, + { + "epoch": 190.77333333333334, + "grad_norm": 0.294921875, + "learning_rate": 0.0002933991454867606, + "loss": 0.4825, + "step": 71540 + }, + { + "epoch": 190.8, + "grad_norm": 0.27734375, + "learning_rate": 0.00029339730073728483, + "loss": 0.4694, + "step": 71550 + }, + { + "epoch": 190.82666666666665, + "grad_norm": 0.279296875, + "learning_rate": 0.0002933954557358689, + "loss": 0.4643, + "step": 71560 + }, + { + "epoch": 190.85333333333332, + "grad_norm": 0.390625, + "learning_rate": 0.000293393610482516, + "loss": 0.4734, + "step": 71570 + }, + { + "epoch": 190.88, + "grad_norm": 0.359375, + "learning_rate": 0.00029339176497722945, + "loss": 0.4614, + "step": 71580 + }, + { + "epoch": 190.90666666666667, + "grad_norm": 0.361328125, + "learning_rate": 0.0002933899192200124, + "loss": 0.4643, + "step": 71590 + }, + { + "epoch": 190.93333333333334, + "grad_norm": 0.287109375, + "learning_rate": 0.00029338807321086814, + "loss": 0.4658, + "step": 71600 + }, + { + "epoch": 190.96, + "grad_norm": 0.267578125, + "learning_rate": 0.0002933862269497999, + "loss": 0.4639, + "step": 71610 + }, + { + "epoch": 190.98666666666668, + "grad_norm": 0.3828125, + "learning_rate": 0.00029338438043681096, + "loss": 0.4778, + "step": 71620 + }, + { + "epoch": 191.0, + "eval_loss": 0.4782630205154419, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.2059, + "eval_samples_per_second": 1.568, + "eval_steps_per_second": 0.098, + "step": 71625 + }, + { + "epoch": 191.01333333333332, + "grad_norm": 0.498046875, + "learning_rate": 0.00029338253367190454, + "loss": 0.4669, + "step": 71630 + }, + { + "epoch": 191.04, + "grad_norm": 0.423828125, + "learning_rate": 0.00029338068665508385, + "loss": 0.4909, + "step": 71640 + }, + { + "epoch": 191.06666666666666, + "grad_norm": 0.275390625, + "learning_rate": 0.0002933788393863521, + "loss": 0.4784, + "step": 71650 + }, + { + "epoch": 191.09333333333333, + "grad_norm": 0.361328125, + "learning_rate": 0.0002933769918657127, + "loss": 0.4735, + "step": 71660 + }, + { + "epoch": 191.12, + "grad_norm": 0.28515625, + "learning_rate": 0.00029337514409316873, + "loss": 0.4692, + "step": 71670 + }, + { + "epoch": 191.14666666666668, + "grad_norm": 0.4140625, + "learning_rate": 0.0002933732960687235, + "loss": 0.4786, + "step": 71680 + }, + { + "epoch": 191.17333333333335, + "grad_norm": 0.33203125, + "learning_rate": 0.0002933714477923803, + "loss": 0.469, + "step": 71690 + }, + { + "epoch": 191.2, + "grad_norm": 0.36328125, + "learning_rate": 0.00029336959926414235, + "loss": 0.4678, + "step": 71700 + }, + { + "epoch": 191.22666666666666, + "grad_norm": 0.35546875, + "learning_rate": 0.0002933677504840128, + "loss": 0.4646, + "step": 71710 + }, + { + "epoch": 191.25333333333333, + "grad_norm": 0.33203125, + "learning_rate": 0.00029336590145199505, + "loss": 0.4643, + "step": 71720 + }, + { + "epoch": 191.28, + "grad_norm": 0.3046875, + "learning_rate": 0.0002933640521680922, + "loss": 0.4782, + "step": 71730 + }, + { + "epoch": 191.30666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.0002933622026323077, + "loss": 0.4595, + "step": 71740 + }, + { + "epoch": 191.33333333333334, + "grad_norm": 0.296875, + "learning_rate": 0.0002933603528446446, + "loss": 0.4742, + "step": 71750 + }, + { + "epoch": 191.36, + "grad_norm": 0.369140625, + "learning_rate": 0.0002933585028051062, + "loss": 0.4768, + "step": 71760 + }, + { + "epoch": 191.38666666666666, + "grad_norm": 0.431640625, + "learning_rate": 0.0002933566525136959, + "loss": 0.4691, + "step": 71770 + }, + { + "epoch": 191.41333333333333, + "grad_norm": 0.41015625, + "learning_rate": 0.00029335480197041673, + "loss": 0.4726, + "step": 71780 + }, + { + "epoch": 191.44, + "grad_norm": 0.318359375, + "learning_rate": 0.00029335295117527204, + "loss": 0.476, + "step": 71790 + }, + { + "epoch": 191.46666666666667, + "grad_norm": 0.3046875, + "learning_rate": 0.0002933511001282651, + "loss": 0.4857, + "step": 71800 + }, + { + "epoch": 191.49333333333334, + "grad_norm": 0.41015625, + "learning_rate": 0.0002933492488293992, + "loss": 0.477, + "step": 71810 + }, + { + "epoch": 191.52, + "grad_norm": 0.33984375, + "learning_rate": 0.00029334739727867747, + "loss": 0.4708, + "step": 71820 + }, + { + "epoch": 191.54666666666665, + "grad_norm": 0.365234375, + "learning_rate": 0.0002933455454761033, + "loss": 0.4681, + "step": 71830 + }, + { + "epoch": 191.57333333333332, + "grad_norm": 0.291015625, + "learning_rate": 0.00029334369342167983, + "loss": 0.4674, + "step": 71840 + }, + { + "epoch": 191.6, + "grad_norm": 0.451171875, + "learning_rate": 0.0002933418411154103, + "loss": 0.4619, + "step": 71850 + }, + { + "epoch": 191.62666666666667, + "grad_norm": 0.310546875, + "learning_rate": 0.0002933399885572981, + "loss": 0.4487, + "step": 71860 + }, + { + "epoch": 191.65333333333334, + "grad_norm": 0.3828125, + "learning_rate": 0.00029333813574734634, + "loss": 0.4678, + "step": 71870 + }, + { + "epoch": 191.68, + "grad_norm": 0.357421875, + "learning_rate": 0.0002933362826855584, + "loss": 0.4592, + "step": 71880 + }, + { + "epoch": 191.70666666666668, + "grad_norm": 0.380859375, + "learning_rate": 0.0002933344293719375, + "loss": 0.4601, + "step": 71890 + }, + { + "epoch": 191.73333333333332, + "grad_norm": 0.283203125, + "learning_rate": 0.0002933325758064868, + "loss": 0.4786, + "step": 71900 + }, + { + "epoch": 191.76, + "grad_norm": 0.302734375, + "learning_rate": 0.00029333072198920964, + "loss": 0.4803, + "step": 71910 + }, + { + "epoch": 191.78666666666666, + "grad_norm": 0.306640625, + "learning_rate": 0.0002933288679201093, + "loss": 0.4782, + "step": 71920 + }, + { + "epoch": 191.81333333333333, + "grad_norm": 0.359375, + "learning_rate": 0.000293327013599189, + "loss": 0.4639, + "step": 71930 + }, + { + "epoch": 191.84, + "grad_norm": 0.32421875, + "learning_rate": 0.00029332515902645204, + "loss": 0.4692, + "step": 71940 + }, + { + "epoch": 191.86666666666667, + "grad_norm": 0.318359375, + "learning_rate": 0.0002933233042019016, + "loss": 0.4683, + "step": 71950 + }, + { + "epoch": 191.89333333333335, + "grad_norm": 0.294921875, + "learning_rate": 0.00029332144912554094, + "loss": 0.4592, + "step": 71960 + }, + { + "epoch": 191.92, + "grad_norm": 0.3125, + "learning_rate": 0.0002933195937973734, + "loss": 0.47, + "step": 71970 + }, + { + "epoch": 191.94666666666666, + "grad_norm": 0.2392578125, + "learning_rate": 0.0002933177382174022, + "loss": 0.4636, + "step": 71980 + }, + { + "epoch": 191.97333333333333, + "grad_norm": 0.3203125, + "learning_rate": 0.0002933158823856306, + "loss": 0.4733, + "step": 71990 + }, + { + "epoch": 192.0, + "grad_norm": 0.345703125, + "learning_rate": 0.00029331402630206185, + "loss": 0.463, + "step": 72000 + }, + { + "epoch": 192.0, + "eval_loss": 0.47730663418769836, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.9336, + "eval_samples_per_second": 1.611, + "eval_steps_per_second": 0.101, + "step": 72000 + }, + { + "epoch": 192.02666666666667, + "grad_norm": 0.318359375, + "learning_rate": 0.00029331216996669924, + "loss": 0.4827, + "step": 72010 + }, + { + "epoch": 192.05333333333334, + "grad_norm": 0.419921875, + "learning_rate": 0.000293310313379546, + "loss": 0.4883, + "step": 72020 + }, + { + "epoch": 192.08, + "grad_norm": 0.271484375, + "learning_rate": 0.00029330845654060544, + "loss": 0.4756, + "step": 72030 + }, + { + "epoch": 192.10666666666665, + "grad_norm": 0.251953125, + "learning_rate": 0.00029330659944988075, + "loss": 0.4704, + "step": 72040 + }, + { + "epoch": 192.13333333333333, + "grad_norm": 0.341796875, + "learning_rate": 0.0002933047421073752, + "loss": 0.4721, + "step": 72050 + }, + { + "epoch": 192.16, + "grad_norm": 0.42578125, + "learning_rate": 0.00029330288451309217, + "loss": 0.4758, + "step": 72060 + }, + { + "epoch": 192.18666666666667, + "grad_norm": 0.1943359375, + "learning_rate": 0.0002933010266670348, + "loss": 0.469, + "step": 72070 + }, + { + "epoch": 192.21333333333334, + "grad_norm": 0.34375, + "learning_rate": 0.00029329916856920635, + "loss": 0.463, + "step": 72080 + }, + { + "epoch": 192.24, + "grad_norm": 0.306640625, + "learning_rate": 0.0002932973102196101, + "loss": 0.467, + "step": 72090 + }, + { + "epoch": 192.26666666666668, + "grad_norm": 0.25390625, + "learning_rate": 0.0002932954516182494, + "loss": 0.4706, + "step": 72100 + }, + { + "epoch": 192.29333333333332, + "grad_norm": 0.3359375, + "learning_rate": 0.00029329359276512743, + "loss": 0.4658, + "step": 72110 + }, + { + "epoch": 192.32, + "grad_norm": 0.296875, + "learning_rate": 0.00029329173366024757, + "loss": 0.4696, + "step": 72120 + }, + { + "epoch": 192.34666666666666, + "grad_norm": 0.30859375, + "learning_rate": 0.00029328987430361287, + "loss": 0.4771, + "step": 72130 + }, + { + "epoch": 192.37333333333333, + "grad_norm": 0.34765625, + "learning_rate": 0.0002932880146952268, + "loss": 0.4733, + "step": 72140 + }, + { + "epoch": 192.4, + "grad_norm": 0.357421875, + "learning_rate": 0.0002932861548350925, + "loss": 0.4699, + "step": 72150 + }, + { + "epoch": 192.42666666666668, + "grad_norm": 0.318359375, + "learning_rate": 0.00029328429472321333, + "loss": 0.4758, + "step": 72160 + }, + { + "epoch": 192.45333333333335, + "grad_norm": 0.302734375, + "learning_rate": 0.0002932824343595926, + "loss": 0.4781, + "step": 72170 + }, + { + "epoch": 192.48, + "grad_norm": 0.36328125, + "learning_rate": 0.0002932805737442333, + "loss": 0.4846, + "step": 72180 + }, + { + "epoch": 192.50666666666666, + "grad_norm": 0.30859375, + "learning_rate": 0.000293278712877139, + "loss": 0.4738, + "step": 72190 + }, + { + "epoch": 192.53333333333333, + "grad_norm": 0.30859375, + "learning_rate": 0.0002932768517583129, + "loss": 0.4675, + "step": 72200 + }, + { + "epoch": 192.56, + "grad_norm": 0.357421875, + "learning_rate": 0.00029327499038775824, + "loss": 0.4687, + "step": 72210 + }, + { + "epoch": 192.58666666666667, + "grad_norm": 0.314453125, + "learning_rate": 0.00029327312876547824, + "loss": 0.4643, + "step": 72220 + }, + { + "epoch": 192.61333333333334, + "grad_norm": 0.3125, + "learning_rate": 0.00029327126689147616, + "loss": 0.4508, + "step": 72230 + }, + { + "epoch": 192.64, + "grad_norm": 0.30859375, + "learning_rate": 0.00029326940476575545, + "loss": 0.4564, + "step": 72240 + }, + { + "epoch": 192.66666666666666, + "grad_norm": 0.4375, + "learning_rate": 0.00029326754238831915, + "loss": 0.472, + "step": 72250 + }, + { + "epoch": 192.69333333333333, + "grad_norm": 0.333984375, + "learning_rate": 0.0002932656797591707, + "loss": 0.4548, + "step": 72260 + }, + { + "epoch": 192.72, + "grad_norm": 0.322265625, + "learning_rate": 0.00029326381687831324, + "loss": 0.4717, + "step": 72270 + }, + { + "epoch": 192.74666666666667, + "grad_norm": 0.318359375, + "learning_rate": 0.00029326195374575025, + "loss": 0.475, + "step": 72280 + }, + { + "epoch": 192.77333333333334, + "grad_norm": 0.341796875, + "learning_rate": 0.00029326009036148473, + "loss": 0.4826, + "step": 72290 + }, + { + "epoch": 192.8, + "grad_norm": 0.373046875, + "learning_rate": 0.0002932582267255202, + "loss": 0.4698, + "step": 72300 + }, + { + "epoch": 192.82666666666665, + "grad_norm": 0.51953125, + "learning_rate": 0.0002932563628378598, + "loss": 0.4648, + "step": 72310 + }, + { + "epoch": 192.85333333333332, + "grad_norm": 0.447265625, + "learning_rate": 0.00029325449869850676, + "loss": 0.4731, + "step": 72320 + }, + { + "epoch": 192.88, + "grad_norm": 0.31640625, + "learning_rate": 0.0002932526343074645, + "loss": 0.4608, + "step": 72330 + }, + { + "epoch": 192.90666666666667, + "grad_norm": 0.3671875, + "learning_rate": 0.0002932507696647362, + "loss": 0.4646, + "step": 72340 + }, + { + "epoch": 192.93333333333334, + "grad_norm": 0.318359375, + "learning_rate": 0.00029324890477032514, + "loss": 0.4655, + "step": 72350 + }, + { + "epoch": 192.96, + "grad_norm": 0.34765625, + "learning_rate": 0.00029324703962423467, + "loss": 0.4639, + "step": 72360 + }, + { + "epoch": 192.98666666666668, + "grad_norm": 0.326171875, + "learning_rate": 0.000293245174226468, + "loss": 0.4784, + "step": 72370 + }, + { + "epoch": 193.0, + "eval_loss": 0.47962862253189087, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.096, + "eval_samples_per_second": 1.585, + "eval_steps_per_second": 0.099, + "step": 72375 + }, + { + "epoch": 193.01333333333332, + "grad_norm": 0.279296875, + "learning_rate": 0.0002932433085770284, + "loss": 0.4667, + "step": 72380 + }, + { + "epoch": 193.04, + "grad_norm": 0.32421875, + "learning_rate": 0.00029324144267591916, + "loss": 0.4909, + "step": 72390 + }, + { + "epoch": 193.06666666666666, + "grad_norm": 0.322265625, + "learning_rate": 0.00029323957652314356, + "loss": 0.4788, + "step": 72400 + }, + { + "epoch": 193.09333333333333, + "grad_norm": 0.26171875, + "learning_rate": 0.00029323771011870495, + "loss": 0.4733, + "step": 72410 + }, + { + "epoch": 193.12, + "grad_norm": 0.337890625, + "learning_rate": 0.00029323584346260643, + "loss": 0.4699, + "step": 72420 + }, + { + "epoch": 193.14666666666668, + "grad_norm": 0.265625, + "learning_rate": 0.00029323397655485147, + "loss": 0.4782, + "step": 72430 + }, + { + "epoch": 193.17333333333335, + "grad_norm": 0.34765625, + "learning_rate": 0.0002932321093954433, + "loss": 0.4695, + "step": 72440 + }, + { + "epoch": 193.2, + "grad_norm": 0.36328125, + "learning_rate": 0.0002932302419843851, + "loss": 0.467, + "step": 72450 + }, + { + "epoch": 193.22666666666666, + "grad_norm": 0.421875, + "learning_rate": 0.0002932283743216803, + "loss": 0.4652, + "step": 72460 + }, + { + "epoch": 193.25333333333333, + "grad_norm": 0.3125, + "learning_rate": 0.00029322650640733203, + "loss": 0.4645, + "step": 72470 + }, + { + "epoch": 193.28, + "grad_norm": 0.44140625, + "learning_rate": 0.0002932246382413437, + "loss": 0.4787, + "step": 72480 + }, + { + "epoch": 193.30666666666667, + "grad_norm": 0.63671875, + "learning_rate": 0.0002932227698237185, + "loss": 0.4599, + "step": 72490 + }, + { + "epoch": 193.33333333333334, + "grad_norm": 0.404296875, + "learning_rate": 0.0002932209011544598, + "loss": 0.475, + "step": 72500 + }, + { + "epoch": 193.36, + "grad_norm": 0.27734375, + "learning_rate": 0.00029321903223357085, + "loss": 0.4775, + "step": 72510 + }, + { + "epoch": 193.38666666666666, + "grad_norm": 0.390625, + "learning_rate": 0.00029321716306105486, + "loss": 0.4684, + "step": 72520 + }, + { + "epoch": 193.41333333333333, + "grad_norm": 0.4140625, + "learning_rate": 0.00029321529363691523, + "loss": 0.4731, + "step": 72530 + }, + { + "epoch": 193.44, + "grad_norm": 0.29296875, + "learning_rate": 0.00029321342396115515, + "loss": 0.4753, + "step": 72540 + }, + { + "epoch": 193.46666666666667, + "grad_norm": 0.50390625, + "learning_rate": 0.00029321155403377793, + "loss": 0.4861, + "step": 72550 + }, + { + "epoch": 193.49333333333334, + "grad_norm": 0.33203125, + "learning_rate": 0.0002932096838547869, + "loss": 0.477, + "step": 72560 + }, + { + "epoch": 193.52, + "grad_norm": 0.318359375, + "learning_rate": 0.0002932078134241853, + "loss": 0.4717, + "step": 72570 + }, + { + "epoch": 193.54666666666665, + "grad_norm": 0.361328125, + "learning_rate": 0.0002932059427419764, + "loss": 0.4683, + "step": 72580 + }, + { + "epoch": 193.57333333333332, + "grad_norm": 0.294921875, + "learning_rate": 0.00029320407180816356, + "loss": 0.4676, + "step": 72590 + }, + { + "epoch": 193.6, + "grad_norm": 0.466796875, + "learning_rate": 0.00029320220062275, + "loss": 0.4609, + "step": 72600 + }, + { + "epoch": 193.62666666666667, + "grad_norm": 0.345703125, + "learning_rate": 0.0002932003291857391, + "loss": 0.4478, + "step": 72610 + }, + { + "epoch": 193.65333333333334, + "grad_norm": 0.3046875, + "learning_rate": 0.000293198457497134, + "loss": 0.4681, + "step": 72620 + }, + { + "epoch": 193.68, + "grad_norm": 0.318359375, + "learning_rate": 0.0002931965855569381, + "loss": 0.4593, + "step": 72630 + }, + { + "epoch": 193.70666666666668, + "grad_norm": 0.47265625, + "learning_rate": 0.00029319471336515464, + "loss": 0.4589, + "step": 72640 + }, + { + "epoch": 193.73333333333332, + "grad_norm": 0.41015625, + "learning_rate": 0.00029319284092178696, + "loss": 0.4783, + "step": 72650 + }, + { + "epoch": 193.76, + "grad_norm": 0.53125, + "learning_rate": 0.00029319096822683825, + "loss": 0.4794, + "step": 72660 + }, + { + "epoch": 193.78666666666666, + "grad_norm": 0.330078125, + "learning_rate": 0.0002931890952803119, + "loss": 0.4785, + "step": 72670 + }, + { + "epoch": 193.81333333333333, + "grad_norm": 0.388671875, + "learning_rate": 0.0002931872220822112, + "loss": 0.4634, + "step": 72680 + }, + { + "epoch": 193.84, + "grad_norm": 0.427734375, + "learning_rate": 0.0002931853486325394, + "loss": 0.4689, + "step": 72690 + }, + { + "epoch": 193.86666666666667, + "grad_norm": 0.291015625, + "learning_rate": 0.0002931834749312998, + "loss": 0.4685, + "step": 72700 + }, + { + "epoch": 193.89333333333335, + "grad_norm": 0.251953125, + "learning_rate": 0.00029318160097849564, + "loss": 0.4595, + "step": 72710 + }, + { + "epoch": 193.92, + "grad_norm": 0.365234375, + "learning_rate": 0.0002931797267741303, + "loss": 0.4706, + "step": 72720 + }, + { + "epoch": 193.94666666666666, + "grad_norm": 0.37109375, + "learning_rate": 0.00029317785231820705, + "loss": 0.4625, + "step": 72730 + }, + { + "epoch": 193.97333333333333, + "grad_norm": 0.365234375, + "learning_rate": 0.00029317597761072914, + "loss": 0.4745, + "step": 72740 + }, + { + "epoch": 194.0, + "grad_norm": 0.275390625, + "learning_rate": 0.0002931741026516999, + "loss": 0.463, + "step": 72750 + }, + { + "epoch": 194.0, + "eval_loss": 0.4789677858352661, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.3169, + "eval_samples_per_second": 1.717, + "eval_steps_per_second": 0.107, + "step": 72750 + }, + { + "epoch": 194.02666666666667, + "grad_norm": 0.33203125, + "learning_rate": 0.0002931722274411227, + "loss": 0.4826, + "step": 72760 + }, + { + "epoch": 194.05333333333334, + "grad_norm": 0.271484375, + "learning_rate": 0.0002931703519790007, + "loss": 0.4883, + "step": 72770 + }, + { + "epoch": 194.08, + "grad_norm": 0.34765625, + "learning_rate": 0.0002931684762653372, + "loss": 0.4752, + "step": 72780 + }, + { + "epoch": 194.10666666666665, + "grad_norm": 0.359375, + "learning_rate": 0.0002931666003001356, + "loss": 0.471, + "step": 72790 + }, + { + "epoch": 194.13333333333333, + "grad_norm": 0.33984375, + "learning_rate": 0.00029316472408339903, + "loss": 0.4721, + "step": 72800 + }, + { + "epoch": 194.16, + "grad_norm": 0.44140625, + "learning_rate": 0.00029316284761513105, + "loss": 0.4762, + "step": 72810 + }, + { + "epoch": 194.18666666666667, + "grad_norm": 0.23828125, + "learning_rate": 0.0002931609708953347, + "loss": 0.4679, + "step": 72820 + }, + { + "epoch": 194.21333333333334, + "grad_norm": 0.298828125, + "learning_rate": 0.0002931590939240134, + "loss": 0.4637, + "step": 72830 + }, + { + "epoch": 194.24, + "grad_norm": 0.318359375, + "learning_rate": 0.00029315721670117046, + "loss": 0.4671, + "step": 72840 + }, + { + "epoch": 194.26666666666668, + "grad_norm": 0.283203125, + "learning_rate": 0.00029315533922680915, + "loss": 0.471, + "step": 72850 + }, + { + "epoch": 194.29333333333332, + "grad_norm": 0.318359375, + "learning_rate": 0.00029315346150093273, + "loss": 0.4661, + "step": 72860 + }, + { + "epoch": 194.32, + "grad_norm": 0.3046875, + "learning_rate": 0.00029315158352354455, + "loss": 0.4689, + "step": 72870 + }, + { + "epoch": 194.34666666666666, + "grad_norm": 0.40234375, + "learning_rate": 0.00029314970529464786, + "loss": 0.477, + "step": 72880 + }, + { + "epoch": 194.37333333333333, + "grad_norm": 0.28125, + "learning_rate": 0.00029314782681424603, + "loss": 0.473, + "step": 72890 + }, + { + "epoch": 194.4, + "grad_norm": 0.236328125, + "learning_rate": 0.0002931459480823423, + "loss": 0.4702, + "step": 72900 + }, + { + "epoch": 194.42666666666668, + "grad_norm": 0.2431640625, + "learning_rate": 0.00029314406909894, + "loss": 0.4762, + "step": 72910 + }, + { + "epoch": 194.45333333333335, + "grad_norm": 0.388671875, + "learning_rate": 0.00029314218986404244, + "loss": 0.4781, + "step": 72920 + }, + { + "epoch": 194.48, + "grad_norm": 0.31640625, + "learning_rate": 0.0002931403103776529, + "loss": 0.4845, + "step": 72930 + }, + { + "epoch": 194.50666666666666, + "grad_norm": 0.298828125, + "learning_rate": 0.0002931384306397747, + "loss": 0.4734, + "step": 72940 + }, + { + "epoch": 194.53333333333333, + "grad_norm": 0.341796875, + "learning_rate": 0.0002931365506504111, + "loss": 0.4684, + "step": 72950 + }, + { + "epoch": 194.56, + "grad_norm": 0.458984375, + "learning_rate": 0.0002931346704095655, + "loss": 0.4688, + "step": 72960 + }, + { + "epoch": 194.58666666666667, + "grad_norm": 0.400390625, + "learning_rate": 0.0002931327899172411, + "loss": 0.4648, + "step": 72970 + }, + { + "epoch": 194.61333333333334, + "grad_norm": 0.353515625, + "learning_rate": 0.0002931309091734412, + "loss": 0.4509, + "step": 72980 + }, + { + "epoch": 194.64, + "grad_norm": 0.287109375, + "learning_rate": 0.0002931290281781692, + "loss": 0.4557, + "step": 72990 + }, + { + "epoch": 194.66666666666666, + "grad_norm": 0.3046875, + "learning_rate": 0.00029312714693142836, + "loss": 0.4714, + "step": 73000 + }, + { + "epoch": 194.69333333333333, + "grad_norm": 0.52734375, + "learning_rate": 0.0002931252654332219, + "loss": 0.4542, + "step": 73010 + }, + { + "epoch": 194.72, + "grad_norm": 0.31640625, + "learning_rate": 0.0002931233836835533, + "loss": 0.471, + "step": 73020 + }, + { + "epoch": 194.74666666666667, + "grad_norm": 0.291015625, + "learning_rate": 0.00029312150168242567, + "loss": 0.4755, + "step": 73030 + }, + { + "epoch": 194.77333333333334, + "grad_norm": 0.353515625, + "learning_rate": 0.0002931196194298425, + "loss": 0.4824, + "step": 73040 + }, + { + "epoch": 194.8, + "grad_norm": 0.291015625, + "learning_rate": 0.00029311773692580696, + "loss": 0.47, + "step": 73050 + }, + { + "epoch": 194.82666666666665, + "grad_norm": 0.28515625, + "learning_rate": 0.00029311585417032246, + "loss": 0.4646, + "step": 73060 + }, + { + "epoch": 194.85333333333332, + "grad_norm": 0.388671875, + "learning_rate": 0.0002931139711633922, + "loss": 0.4733, + "step": 73070 + }, + { + "epoch": 194.88, + "grad_norm": 0.4296875, + "learning_rate": 0.0002931120879050195, + "loss": 0.4619, + "step": 73080 + }, + { + "epoch": 194.90666666666667, + "grad_norm": 0.36328125, + "learning_rate": 0.0002931102043952078, + "loss": 0.464, + "step": 73090 + }, + { + "epoch": 194.93333333333334, + "grad_norm": 0.32421875, + "learning_rate": 0.0002931083206339604, + "loss": 0.4658, + "step": 73100 + }, + { + "epoch": 194.96, + "grad_norm": 0.2041015625, + "learning_rate": 0.0002931064366212804, + "loss": 0.4639, + "step": 73110 + }, + { + "epoch": 194.98666666666668, + "grad_norm": 0.294921875, + "learning_rate": 0.0002931045523571713, + "loss": 0.4778, + "step": 73120 + }, + { + "epoch": 195.0, + "eval_loss": 0.47874346375465393, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.6037, + "eval_samples_per_second": 1.509, + "eval_steps_per_second": 0.094, + "step": 73125 + }, + { + "epoch": 195.01333333333332, + "grad_norm": 0.306640625, + "learning_rate": 0.0002931026678416363, + "loss": 0.4665, + "step": 73130 + }, + { + "epoch": 195.04, + "grad_norm": 0.35546875, + "learning_rate": 0.00029310078307467885, + "loss": 0.4907, + "step": 73140 + }, + { + "epoch": 195.06666666666666, + "grad_norm": 0.318359375, + "learning_rate": 0.0002930988980563021, + "loss": 0.4784, + "step": 73150 + }, + { + "epoch": 195.09333333333333, + "grad_norm": 0.427734375, + "learning_rate": 0.00029309701278650946, + "loss": 0.4726, + "step": 73160 + }, + { + "epoch": 195.12, + "grad_norm": 0.431640625, + "learning_rate": 0.00029309512726530425, + "loss": 0.4691, + "step": 73170 + }, + { + "epoch": 195.14666666666668, + "grad_norm": 0.4140625, + "learning_rate": 0.00029309324149268974, + "loss": 0.4784, + "step": 73180 + }, + { + "epoch": 195.17333333333335, + "grad_norm": 0.390625, + "learning_rate": 0.00029309135546866925, + "loss": 0.4692, + "step": 73190 + }, + { + "epoch": 195.2, + "grad_norm": 0.45703125, + "learning_rate": 0.00029308946919324606, + "loss": 0.4678, + "step": 73200 + }, + { + "epoch": 195.22666666666666, + "grad_norm": 0.396484375, + "learning_rate": 0.00029308758266642355, + "loss": 0.4647, + "step": 73210 + }, + { + "epoch": 195.25333333333333, + "grad_norm": 0.333984375, + "learning_rate": 0.00029308569588820503, + "loss": 0.465, + "step": 73220 + }, + { + "epoch": 195.28, + "grad_norm": 0.337890625, + "learning_rate": 0.0002930838088585938, + "loss": 0.4783, + "step": 73230 + }, + { + "epoch": 195.30666666666667, + "grad_norm": 0.314453125, + "learning_rate": 0.00029308192157759315, + "loss": 0.4592, + "step": 73240 + }, + { + "epoch": 195.33333333333334, + "grad_norm": 0.41015625, + "learning_rate": 0.0002930800340452064, + "loss": 0.4747, + "step": 73250 + }, + { + "epoch": 195.36, + "grad_norm": 0.404296875, + "learning_rate": 0.00029307814626143694, + "loss": 0.477, + "step": 73260 + }, + { + "epoch": 195.38666666666666, + "grad_norm": 0.388671875, + "learning_rate": 0.000293076258226288, + "loss": 0.4689, + "step": 73270 + }, + { + "epoch": 195.41333333333333, + "grad_norm": 0.34765625, + "learning_rate": 0.00029307436993976284, + "loss": 0.4733, + "step": 73280 + }, + { + "epoch": 195.44, + "grad_norm": 0.306640625, + "learning_rate": 0.00029307248140186495, + "loss": 0.4763, + "step": 73290 + }, + { + "epoch": 195.46666666666667, + "grad_norm": 0.453125, + "learning_rate": 0.00029307059261259754, + "loss": 0.4854, + "step": 73300 + }, + { + "epoch": 195.49333333333334, + "grad_norm": 0.353515625, + "learning_rate": 0.00029306870357196393, + "loss": 0.4777, + "step": 73310 + }, + { + "epoch": 195.52, + "grad_norm": 0.390625, + "learning_rate": 0.0002930668142799675, + "loss": 0.4717, + "step": 73320 + }, + { + "epoch": 195.54666666666665, + "grad_norm": 0.337890625, + "learning_rate": 0.0002930649247366115, + "loss": 0.4681, + "step": 73330 + }, + { + "epoch": 195.57333333333332, + "grad_norm": 0.24609375, + "learning_rate": 0.0002930630349418993, + "loss": 0.4673, + "step": 73340 + }, + { + "epoch": 195.6, + "grad_norm": 0.318359375, + "learning_rate": 0.0002930611448958342, + "loss": 0.4608, + "step": 73350 + }, + { + "epoch": 195.62666666666667, + "grad_norm": 0.271484375, + "learning_rate": 0.00029305925459841947, + "loss": 0.4479, + "step": 73360 + }, + { + "epoch": 195.65333333333334, + "grad_norm": 0.34765625, + "learning_rate": 0.0002930573640496585, + "loss": 0.4666, + "step": 73370 + }, + { + "epoch": 195.68, + "grad_norm": 0.345703125, + "learning_rate": 0.00029305547324955464, + "loss": 0.4589, + "step": 73380 + }, + { + "epoch": 195.70666666666668, + "grad_norm": 0.34765625, + "learning_rate": 0.0002930535821981111, + "loss": 0.4599, + "step": 73390 + }, + { + "epoch": 195.73333333333332, + "grad_norm": 0.291015625, + "learning_rate": 0.0002930516908953313, + "loss": 0.4787, + "step": 73400 + }, + { + "epoch": 195.76, + "grad_norm": 0.36328125, + "learning_rate": 0.00029304979934121847, + "loss": 0.4789, + "step": 73410 + }, + { + "epoch": 195.78666666666666, + "grad_norm": 0.3203125, + "learning_rate": 0.000293047907535776, + "loss": 0.4782, + "step": 73420 + }, + { + "epoch": 195.81333333333333, + "grad_norm": 0.4296875, + "learning_rate": 0.00029304601547900733, + "loss": 0.4634, + "step": 73430 + }, + { + "epoch": 195.84, + "grad_norm": 0.47265625, + "learning_rate": 0.0002930441231709156, + "loss": 0.4693, + "step": 73440 + }, + { + "epoch": 195.86666666666667, + "grad_norm": 0.33203125, + "learning_rate": 0.0002930422306115041, + "loss": 0.4684, + "step": 73450 + }, + { + "epoch": 195.89333333333335, + "grad_norm": 0.3828125, + "learning_rate": 0.00029304033780077634, + "loss": 0.4598, + "step": 73460 + }, + { + "epoch": 195.92, + "grad_norm": 0.4140625, + "learning_rate": 0.00029303844473873555, + "loss": 0.4706, + "step": 73470 + }, + { + "epoch": 195.94666666666666, + "grad_norm": 0.3515625, + "learning_rate": 0.000293036551425385, + "loss": 0.4625, + "step": 73480 + }, + { + "epoch": 195.97333333333333, + "grad_norm": 0.369140625, + "learning_rate": 0.00029303465786072815, + "loss": 0.4736, + "step": 73490 + }, + { + "epoch": 196.0, + "grad_norm": 0.251953125, + "learning_rate": 0.0002930327640447682, + "loss": 0.463, + "step": 73500 + }, + { + "epoch": 196.0, + "eval_loss": 0.4790534973144531, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.5986, + "eval_samples_per_second": 1.667, + "eval_steps_per_second": 0.104, + "step": 73500 + }, + { + "epoch": 196.02666666666667, + "grad_norm": 0.37890625, + "learning_rate": 0.00029303086997750855, + "loss": 0.4823, + "step": 73510 + }, + { + "epoch": 196.05333333333334, + "grad_norm": 0.26953125, + "learning_rate": 0.00029302897565895253, + "loss": 0.4882, + "step": 73520 + }, + { + "epoch": 196.08, + "grad_norm": 0.265625, + "learning_rate": 0.00029302708108910343, + "loss": 0.4752, + "step": 73530 + }, + { + "epoch": 196.10666666666665, + "grad_norm": 0.255859375, + "learning_rate": 0.0002930251862679646, + "loss": 0.4704, + "step": 73540 + }, + { + "epoch": 196.13333333333333, + "grad_norm": 0.3515625, + "learning_rate": 0.00029302329119553936, + "loss": 0.4717, + "step": 73550 + }, + { + "epoch": 196.16, + "grad_norm": 0.2890625, + "learning_rate": 0.00029302139587183106, + "loss": 0.4759, + "step": 73560 + }, + { + "epoch": 196.18666666666667, + "grad_norm": 0.2177734375, + "learning_rate": 0.00029301950029684296, + "loss": 0.4691, + "step": 73570 + }, + { + "epoch": 196.21333333333334, + "grad_norm": 0.357421875, + "learning_rate": 0.00029301760447057853, + "loss": 0.4639, + "step": 73580 + }, + { + "epoch": 196.24, + "grad_norm": 0.373046875, + "learning_rate": 0.00029301570839304094, + "loss": 0.4671, + "step": 73590 + }, + { + "epoch": 196.26666666666668, + "grad_norm": 0.345703125, + "learning_rate": 0.00029301381206423363, + "loss": 0.4707, + "step": 73600 + }, + { + "epoch": 196.29333333333332, + "grad_norm": 0.353515625, + "learning_rate": 0.0002930119154841599, + "loss": 0.4663, + "step": 73610 + }, + { + "epoch": 196.32, + "grad_norm": 0.271484375, + "learning_rate": 0.0002930100186528231, + "loss": 0.4694, + "step": 73620 + }, + { + "epoch": 196.34666666666666, + "grad_norm": 0.369140625, + "learning_rate": 0.00029300812157022647, + "loss": 0.4773, + "step": 73630 + }, + { + "epoch": 196.37333333333333, + "grad_norm": 0.24609375, + "learning_rate": 0.0002930062242363735, + "loss": 0.4729, + "step": 73640 + }, + { + "epoch": 196.4, + "grad_norm": 0.2734375, + "learning_rate": 0.0002930043266512674, + "loss": 0.4705, + "step": 73650 + }, + { + "epoch": 196.42666666666668, + "grad_norm": 0.37890625, + "learning_rate": 0.00029300242881491153, + "loss": 0.4761, + "step": 73660 + }, + { + "epoch": 196.45333333333335, + "grad_norm": 0.365234375, + "learning_rate": 0.0002930005307273093, + "loss": 0.478, + "step": 73670 + }, + { + "epoch": 196.48, + "grad_norm": 0.421875, + "learning_rate": 0.0002929986323884639, + "loss": 0.4841, + "step": 73680 + }, + { + "epoch": 196.50666666666666, + "grad_norm": 0.359375, + "learning_rate": 0.00029299673379837884, + "loss": 0.4746, + "step": 73690 + }, + { + "epoch": 196.53333333333333, + "grad_norm": 0.23828125, + "learning_rate": 0.00029299483495705736, + "loss": 0.4678, + "step": 73700 + }, + { + "epoch": 196.56, + "grad_norm": 0.33203125, + "learning_rate": 0.0002929929358645027, + "loss": 0.4689, + "step": 73710 + }, + { + "epoch": 196.58666666666667, + "grad_norm": 0.384765625, + "learning_rate": 0.00029299103652071835, + "loss": 0.465, + "step": 73720 + }, + { + "epoch": 196.61333333333334, + "grad_norm": 0.40234375, + "learning_rate": 0.0002929891369257076, + "loss": 0.451, + "step": 73730 + }, + { + "epoch": 196.64, + "grad_norm": 0.25390625, + "learning_rate": 0.00029298723707947376, + "loss": 0.4557, + "step": 73740 + }, + { + "epoch": 196.66666666666666, + "grad_norm": 0.33203125, + "learning_rate": 0.00029298533698202025, + "loss": 0.4713, + "step": 73750 + }, + { + "epoch": 196.69333333333333, + "grad_norm": 0.2412109375, + "learning_rate": 0.0002929834366333503, + "loss": 0.4543, + "step": 73760 + }, + { + "epoch": 196.72, + "grad_norm": 0.52734375, + "learning_rate": 0.0002929815360334673, + "loss": 0.4713, + "step": 73770 + }, + { + "epoch": 196.74666666666667, + "grad_norm": 0.421875, + "learning_rate": 0.0002929796351823746, + "loss": 0.4757, + "step": 73780 + }, + { + "epoch": 196.77333333333334, + "grad_norm": 0.359375, + "learning_rate": 0.0002929777340800755, + "loss": 0.4838, + "step": 73790 + }, + { + "epoch": 196.8, + "grad_norm": 0.318359375, + "learning_rate": 0.0002929758327265734, + "loss": 0.4702, + "step": 73800 + }, + { + "epoch": 196.82666666666665, + "grad_norm": 0.376953125, + "learning_rate": 0.0002929739311218716, + "loss": 0.465, + "step": 73810 + }, + { + "epoch": 196.85333333333332, + "grad_norm": 0.37109375, + "learning_rate": 0.0002929720292659734, + "loss": 0.4735, + "step": 73820 + }, + { + "epoch": 196.88, + "grad_norm": 0.330078125, + "learning_rate": 0.00029297012715888226, + "loss": 0.4614, + "step": 73830 + }, + { + "epoch": 196.90666666666667, + "grad_norm": 0.265625, + "learning_rate": 0.0002929682248006014, + "loss": 0.465, + "step": 73840 + }, + { + "epoch": 196.93333333333334, + "grad_norm": 0.255859375, + "learning_rate": 0.0002929663221911342, + "loss": 0.4654, + "step": 73850 + }, + { + "epoch": 196.96, + "grad_norm": 0.25390625, + "learning_rate": 0.00029296441933048407, + "loss": 0.4636, + "step": 73860 + }, + { + "epoch": 196.98666666666668, + "grad_norm": 0.32421875, + "learning_rate": 0.00029296251621865427, + "loss": 0.4778, + "step": 73870 + }, + { + "epoch": 197.0, + "eval_loss": 0.47821304202079773, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.7882, + "eval_samples_per_second": 1.635, + "eval_steps_per_second": 0.102, + "step": 73875 + }, + { + "epoch": 197.01333333333332, + "grad_norm": 0.27734375, + "learning_rate": 0.00029296061285564816, + "loss": 0.4665, + "step": 73880 + }, + { + "epoch": 197.04, + "grad_norm": 0.3203125, + "learning_rate": 0.00029295870924146917, + "loss": 0.4918, + "step": 73890 + }, + { + "epoch": 197.06666666666666, + "grad_norm": 0.447265625, + "learning_rate": 0.0002929568053761205, + "loss": 0.478, + "step": 73900 + }, + { + "epoch": 197.09333333333333, + "grad_norm": 0.3671875, + "learning_rate": 0.0002929549012596056, + "loss": 0.4735, + "step": 73910 + }, + { + "epoch": 197.12, + "grad_norm": 0.3359375, + "learning_rate": 0.0002929529968919277, + "loss": 0.4694, + "step": 73920 + }, + { + "epoch": 197.14666666666668, + "grad_norm": 0.330078125, + "learning_rate": 0.0002929510922730903, + "loss": 0.4782, + "step": 73930 + }, + { + "epoch": 197.17333333333335, + "grad_norm": 0.3828125, + "learning_rate": 0.00029294918740309665, + "loss": 0.4687, + "step": 73940 + }, + { + "epoch": 197.2, + "grad_norm": 0.330078125, + "learning_rate": 0.00029294728228195015, + "loss": 0.4667, + "step": 73950 + }, + { + "epoch": 197.22666666666666, + "grad_norm": 0.3359375, + "learning_rate": 0.0002929453769096541, + "loss": 0.4646, + "step": 73960 + }, + { + "epoch": 197.25333333333333, + "grad_norm": 0.4140625, + "learning_rate": 0.00029294347128621187, + "loss": 0.4654, + "step": 73970 + }, + { + "epoch": 197.28, + "grad_norm": 0.369140625, + "learning_rate": 0.0002929415654116268, + "loss": 0.4789, + "step": 73980 + }, + { + "epoch": 197.30666666666667, + "grad_norm": 0.28125, + "learning_rate": 0.0002929396592859022, + "loss": 0.4594, + "step": 73990 + }, + { + "epoch": 197.33333333333334, + "grad_norm": 0.30859375, + "learning_rate": 0.0002929377529090415, + "loss": 0.4752, + "step": 74000 + }, + { + "epoch": 197.36, + "grad_norm": 0.474609375, + "learning_rate": 0.00029293584628104803, + "loss": 0.4767, + "step": 74010 + }, + { + "epoch": 197.38666666666666, + "grad_norm": 0.37109375, + "learning_rate": 0.0002929339394019251, + "loss": 0.4686, + "step": 74020 + }, + { + "epoch": 197.41333333333333, + "grad_norm": 0.404296875, + "learning_rate": 0.0002929320322716761, + "loss": 0.4734, + "step": 74030 + }, + { + "epoch": 197.44, + "grad_norm": 0.2734375, + "learning_rate": 0.0002929301248903043, + "loss": 0.4758, + "step": 74040 + }, + { + "epoch": 197.46666666666667, + "grad_norm": 0.318359375, + "learning_rate": 0.0002929282172578132, + "loss": 0.4853, + "step": 74050 + }, + { + "epoch": 197.49333333333334, + "grad_norm": 0.341796875, + "learning_rate": 0.000292926309374206, + "loss": 0.4766, + "step": 74060 + }, + { + "epoch": 197.52, + "grad_norm": 0.29296875, + "learning_rate": 0.00029292440123948615, + "loss": 0.4707, + "step": 74070 + }, + { + "epoch": 197.54666666666665, + "grad_norm": 0.404296875, + "learning_rate": 0.0002929224928536569, + "loss": 0.4683, + "step": 74080 + }, + { + "epoch": 197.57333333333332, + "grad_norm": 0.28125, + "learning_rate": 0.0002929205842167218, + "loss": 0.4677, + "step": 74090 + }, + { + "epoch": 197.6, + "grad_norm": 0.36328125, + "learning_rate": 0.000292918675328684, + "loss": 0.4606, + "step": 74100 + }, + { + "epoch": 197.62666666666667, + "grad_norm": 0.3203125, + "learning_rate": 0.00029291676618954687, + "loss": 0.4483, + "step": 74110 + }, + { + "epoch": 197.65333333333334, + "grad_norm": 0.375, + "learning_rate": 0.00029291485679931387, + "loss": 0.467, + "step": 74120 + }, + { + "epoch": 197.68, + "grad_norm": 0.3203125, + "learning_rate": 0.00029291294715798837, + "loss": 0.4598, + "step": 74130 + }, + { + "epoch": 197.70666666666668, + "grad_norm": 0.3359375, + "learning_rate": 0.0002929110372655736, + "loss": 0.4596, + "step": 74140 + }, + { + "epoch": 197.73333333333332, + "grad_norm": 0.400390625, + "learning_rate": 0.00029290912712207296, + "loss": 0.4786, + "step": 74150 + }, + { + "epoch": 197.76, + "grad_norm": 0.51171875, + "learning_rate": 0.00029290721672748987, + "loss": 0.4795, + "step": 74160 + }, + { + "epoch": 197.78666666666666, + "grad_norm": 0.458984375, + "learning_rate": 0.0002929053060818276, + "loss": 0.4776, + "step": 74170 + }, + { + "epoch": 197.81333333333333, + "grad_norm": 1.671875, + "learning_rate": 0.0002929033951850896, + "loss": 0.465, + "step": 74180 + }, + { + "epoch": 197.84, + "grad_norm": 0.9296875, + "learning_rate": 0.0002929014840372791, + "loss": 0.473, + "step": 74190 + }, + { + "epoch": 197.86666666666667, + "grad_norm": 0.93359375, + "learning_rate": 0.0002928995726383996, + "loss": 0.4711, + "step": 74200 + }, + { + "epoch": 197.89333333333335, + "grad_norm": 0.60546875, + "learning_rate": 0.0002928976609884543, + "loss": 0.4607, + "step": 74210 + }, + { + "epoch": 197.92, + "grad_norm": 0.3359375, + "learning_rate": 0.00029289574908744674, + "loss": 0.4703, + "step": 74220 + }, + { + "epoch": 197.94666666666666, + "grad_norm": 0.328125, + "learning_rate": 0.0002928938369353802, + "loss": 0.4629, + "step": 74230 + }, + { + "epoch": 197.97333333333333, + "grad_norm": 0.330078125, + "learning_rate": 0.000292891924532258, + "loss": 0.4745, + "step": 74240 + }, + { + "epoch": 198.0, + "grad_norm": 0.4140625, + "learning_rate": 0.0002928900118780835, + "loss": 0.4626, + "step": 74250 + }, + { + "epoch": 198.0, + "eval_loss": 0.47928979992866516, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.2462, + "eval_samples_per_second": 1.562, + "eval_steps_per_second": 0.098, + "step": 74250 + }, + { + "epoch": 198.02666666666667, + "grad_norm": 0.3984375, + "learning_rate": 0.00029288809897286006, + "loss": 0.4829, + "step": 74260 + }, + { + "epoch": 198.05333333333334, + "grad_norm": 0.353515625, + "learning_rate": 0.00029288618581659113, + "loss": 0.4887, + "step": 74270 + }, + { + "epoch": 198.08, + "grad_norm": 0.337890625, + "learning_rate": 0.00029288427240928, + "loss": 0.4753, + "step": 74280 + }, + { + "epoch": 198.10666666666665, + "grad_norm": 0.365234375, + "learning_rate": 0.00029288235875093006, + "loss": 0.4704, + "step": 74290 + }, + { + "epoch": 198.13333333333333, + "grad_norm": 0.3359375, + "learning_rate": 0.00029288044484154465, + "loss": 0.472, + "step": 74300 + }, + { + "epoch": 198.16, + "grad_norm": 0.35546875, + "learning_rate": 0.0002928785306811271, + "loss": 0.4765, + "step": 74310 + }, + { + "epoch": 198.18666666666667, + "grad_norm": 0.2333984375, + "learning_rate": 0.0002928766162696808, + "loss": 0.4678, + "step": 74320 + }, + { + "epoch": 198.21333333333334, + "grad_norm": 0.37109375, + "learning_rate": 0.00029287470160720917, + "loss": 0.4629, + "step": 74330 + }, + { + "epoch": 198.24, + "grad_norm": 0.283203125, + "learning_rate": 0.0002928727866937155, + "loss": 0.4674, + "step": 74340 + }, + { + "epoch": 198.26666666666668, + "grad_norm": 0.31640625, + "learning_rate": 0.00029287087152920317, + "loss": 0.4721, + "step": 74350 + }, + { + "epoch": 198.29333333333332, + "grad_norm": 0.361328125, + "learning_rate": 0.0002928689561136756, + "loss": 0.4651, + "step": 74360 + }, + { + "epoch": 198.32, + "grad_norm": 0.294921875, + "learning_rate": 0.0002928670404471361, + "loss": 0.4684, + "step": 74370 + }, + { + "epoch": 198.34666666666666, + "grad_norm": 0.421875, + "learning_rate": 0.00029286512452958804, + "loss": 0.4774, + "step": 74380 + }, + { + "epoch": 198.37333333333333, + "grad_norm": 0.310546875, + "learning_rate": 0.0002928632083610348, + "loss": 0.4731, + "step": 74390 + }, + { + "epoch": 198.4, + "grad_norm": 0.302734375, + "learning_rate": 0.00029286129194147967, + "loss": 0.4694, + "step": 74400 + }, + { + "epoch": 198.42666666666668, + "grad_norm": 0.349609375, + "learning_rate": 0.0002928593752709262, + "loss": 0.4761, + "step": 74410 + }, + { + "epoch": 198.45333333333335, + "grad_norm": 0.3359375, + "learning_rate": 0.00029285745834937754, + "loss": 0.4777, + "step": 74420 + }, + { + "epoch": 198.48, + "grad_norm": 0.30859375, + "learning_rate": 0.00029285554117683724, + "loss": 0.4846, + "step": 74430 + }, + { + "epoch": 198.50666666666666, + "grad_norm": 0.28125, + "learning_rate": 0.0002928536237533086, + "loss": 0.4744, + "step": 74440 + }, + { + "epoch": 198.53333333333333, + "grad_norm": 0.2119140625, + "learning_rate": 0.00029285170607879494, + "loss": 0.4672, + "step": 74450 + }, + { + "epoch": 198.56, + "grad_norm": 0.353515625, + "learning_rate": 0.00029284978815329965, + "loss": 0.4685, + "step": 74460 + }, + { + "epoch": 198.58666666666667, + "grad_norm": 0.333984375, + "learning_rate": 0.00029284786997682614, + "loss": 0.465, + "step": 74470 + }, + { + "epoch": 198.61333333333334, + "grad_norm": 0.2314453125, + "learning_rate": 0.0002928459515493778, + "loss": 0.4499, + "step": 74480 + }, + { + "epoch": 198.64, + "grad_norm": 0.427734375, + "learning_rate": 0.00029284403287095786, + "loss": 0.456, + "step": 74490 + }, + { + "epoch": 198.66666666666666, + "grad_norm": 0.392578125, + "learning_rate": 0.0002928421139415699, + "loss": 0.4716, + "step": 74500 + }, + { + "epoch": 198.69333333333333, + "grad_norm": 0.3828125, + "learning_rate": 0.00029284019476121713, + "loss": 0.4545, + "step": 74510 + }, + { + "epoch": 198.72, + "grad_norm": 0.318359375, + "learning_rate": 0.00029283827532990294, + "loss": 0.4713, + "step": 74520 + }, + { + "epoch": 198.74666666666667, + "grad_norm": 0.404296875, + "learning_rate": 0.0002928363556476308, + "loss": 0.4758, + "step": 74530 + }, + { + "epoch": 198.77333333333334, + "grad_norm": 0.421875, + "learning_rate": 0.00029283443571440396, + "loss": 0.4826, + "step": 74540 + }, + { + "epoch": 198.8, + "grad_norm": 0.4765625, + "learning_rate": 0.0002928325155302259, + "loss": 0.4706, + "step": 74550 + }, + { + "epoch": 198.82666666666665, + "grad_norm": 0.47265625, + "learning_rate": 0.00029283059509509993, + "loss": 0.4646, + "step": 74560 + }, + { + "epoch": 198.85333333333332, + "grad_norm": 0.28125, + "learning_rate": 0.00029282867440902946, + "loss": 0.4736, + "step": 74570 + }, + { + "epoch": 198.88, + "grad_norm": 0.330078125, + "learning_rate": 0.00029282675347201784, + "loss": 0.4613, + "step": 74580 + }, + { + "epoch": 198.90666666666667, + "grad_norm": 0.322265625, + "learning_rate": 0.0002928248322840684, + "loss": 0.4638, + "step": 74590 + }, + { + "epoch": 198.93333333333334, + "grad_norm": 0.33203125, + "learning_rate": 0.0002928229108451846, + "loss": 0.4662, + "step": 74600 + }, + { + "epoch": 198.96, + "grad_norm": 0.328125, + "learning_rate": 0.00029282098915536976, + "loss": 0.4646, + "step": 74610 + }, + { + "epoch": 198.98666666666668, + "grad_norm": 0.455078125, + "learning_rate": 0.0002928190672146273, + "loss": 0.4773, + "step": 74620 + }, + { + "epoch": 199.0, + "eval_loss": 0.47776076197624207, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.9108, + "eval_samples_per_second": 1.614, + "eval_steps_per_second": 0.101, + "step": 74625 + }, + { + "epoch": 199.01333333333332, + "grad_norm": 0.298828125, + "learning_rate": 0.0002928171450229606, + "loss": 0.4669, + "step": 74630 + }, + { + "epoch": 199.04, + "grad_norm": 0.30078125, + "learning_rate": 0.00029281522258037295, + "loss": 0.4913, + "step": 74640 + }, + { + "epoch": 199.06666666666666, + "grad_norm": 0.482421875, + "learning_rate": 0.00029281329988686784, + "loss": 0.4783, + "step": 74650 + }, + { + "epoch": 199.09333333333333, + "grad_norm": 0.37890625, + "learning_rate": 0.0002928113769424486, + "loss": 0.4737, + "step": 74660 + }, + { + "epoch": 199.12, + "grad_norm": 0.296875, + "learning_rate": 0.00029280945374711854, + "loss": 0.47, + "step": 74670 + }, + { + "epoch": 199.14666666666668, + "grad_norm": 0.357421875, + "learning_rate": 0.00029280753030088113, + "loss": 0.4777, + "step": 74680 + }, + { + "epoch": 199.17333333333335, + "grad_norm": 0.3984375, + "learning_rate": 0.00029280560660373977, + "loss": 0.4689, + "step": 74690 + }, + { + "epoch": 199.2, + "grad_norm": 0.30078125, + "learning_rate": 0.00029280368265569777, + "loss": 0.4675, + "step": 74700 + }, + { + "epoch": 199.22666666666666, + "grad_norm": 0.330078125, + "learning_rate": 0.00029280175845675853, + "loss": 0.4645, + "step": 74710 + }, + { + "epoch": 199.25333333333333, + "grad_norm": 0.318359375, + "learning_rate": 0.00029279983400692537, + "loss": 0.4649, + "step": 74720 + }, + { + "epoch": 199.28, + "grad_norm": 0.28125, + "learning_rate": 0.0002927979093062018, + "loss": 0.4784, + "step": 74730 + }, + { + "epoch": 199.30666666666667, + "grad_norm": 0.26953125, + "learning_rate": 0.00029279598435459116, + "loss": 0.4593, + "step": 74740 + }, + { + "epoch": 199.33333333333334, + "grad_norm": 0.287109375, + "learning_rate": 0.00029279405915209677, + "loss": 0.4742, + "step": 74750 + }, + { + "epoch": 199.36, + "grad_norm": 0.37109375, + "learning_rate": 0.00029279213369872207, + "loss": 0.4768, + "step": 74760 + }, + { + "epoch": 199.38666666666666, + "grad_norm": 0.3359375, + "learning_rate": 0.0002927902079944704, + "loss": 0.4682, + "step": 74770 + }, + { + "epoch": 199.41333333333333, + "grad_norm": 0.376953125, + "learning_rate": 0.00029278828203934516, + "loss": 0.4733, + "step": 74780 + }, + { + "epoch": 199.44, + "grad_norm": 0.3125, + "learning_rate": 0.0002927863558333498, + "loss": 0.4756, + "step": 74790 + }, + { + "epoch": 199.46666666666667, + "grad_norm": 0.267578125, + "learning_rate": 0.0002927844293764876, + "loss": 0.4861, + "step": 74800 + }, + { + "epoch": 199.49333333333334, + "grad_norm": 0.34765625, + "learning_rate": 0.000292782502668762, + "loss": 0.476, + "step": 74810 + }, + { + "epoch": 199.52, + "grad_norm": 0.30859375, + "learning_rate": 0.00029278057571017633, + "loss": 0.471, + "step": 74820 + }, + { + "epoch": 199.54666666666665, + "grad_norm": 0.267578125, + "learning_rate": 0.00029277864850073406, + "loss": 0.4683, + "step": 74830 + }, + { + "epoch": 199.57333333333332, + "grad_norm": 0.23046875, + "learning_rate": 0.0002927767210404386, + "loss": 0.4676, + "step": 74840 + }, + { + "epoch": 199.6, + "grad_norm": 0.3984375, + "learning_rate": 0.00029277479332929314, + "loss": 0.4602, + "step": 74850 + }, + { + "epoch": 199.62666666666667, + "grad_norm": 0.322265625, + "learning_rate": 0.0002927728653673013, + "loss": 0.448, + "step": 74860 + }, + { + "epoch": 199.65333333333334, + "grad_norm": 0.322265625, + "learning_rate": 0.0002927709371544663, + "loss": 0.4674, + "step": 74870 + }, + { + "epoch": 199.68, + "grad_norm": 0.255859375, + "learning_rate": 0.00029276900869079165, + "loss": 0.459, + "step": 74880 + }, + { + "epoch": 199.70666666666668, + "grad_norm": 0.345703125, + "learning_rate": 0.0002927670799762807, + "loss": 0.4599, + "step": 74890 + }, + { + "epoch": 199.73333333333332, + "grad_norm": 0.27734375, + "learning_rate": 0.0002927651510109368, + "loss": 0.4786, + "step": 74900 + }, + { + "epoch": 199.76, + "grad_norm": 0.333984375, + "learning_rate": 0.00029276322179476336, + "loss": 0.4789, + "step": 74910 + }, + { + "epoch": 199.78666666666666, + "grad_norm": 0.412109375, + "learning_rate": 0.0002927612923277637, + "loss": 0.4784, + "step": 74920 + }, + { + "epoch": 199.81333333333333, + "grad_norm": 0.3359375, + "learning_rate": 0.0002927593626099414, + "loss": 0.4634, + "step": 74930 + }, + { + "epoch": 199.84, + "grad_norm": 0.345703125, + "learning_rate": 0.0002927574326412996, + "loss": 0.4694, + "step": 74940 + }, + { + "epoch": 199.86666666666667, + "grad_norm": 0.357421875, + "learning_rate": 0.00029275550242184193, + "loss": 0.4685, + "step": 74950 + }, + { + "epoch": 199.89333333333335, + "grad_norm": 0.26953125, + "learning_rate": 0.00029275357195157164, + "loss": 0.4598, + "step": 74960 + }, + { + "epoch": 199.92, + "grad_norm": 0.296875, + "learning_rate": 0.00029275164123049216, + "loss": 0.4703, + "step": 74970 + }, + { + "epoch": 199.94666666666666, + "grad_norm": 0.375, + "learning_rate": 0.00029274971025860684, + "loss": 0.4625, + "step": 74980 + }, + { + "epoch": 199.97333333333333, + "grad_norm": 0.416015625, + "learning_rate": 0.00029274777903591916, + "loss": 0.4737, + "step": 74990 + }, + { + "epoch": 200.0, + "grad_norm": 0.31640625, + "learning_rate": 0.0002927458475624324, + "loss": 0.4624, + "step": 75000 + }, + { + "epoch": 200.0, + "eval_loss": 0.47762927412986755, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.3295, + "eval_samples_per_second": 1.549, + "eval_steps_per_second": 0.097, + "step": 75000 + }, + { + "epoch": 200.02666666666667, + "grad_norm": 0.28125, + "learning_rate": 0.0002927439158381501, + "loss": 0.483, + "step": 75010 + }, + { + "epoch": 200.05333333333334, + "grad_norm": 0.341796875, + "learning_rate": 0.00029274198386307554, + "loss": 0.4882, + "step": 75020 + }, + { + "epoch": 200.08, + "grad_norm": 0.29296875, + "learning_rate": 0.00029274005163721213, + "loss": 0.4755, + "step": 75030 + }, + { + "epoch": 200.10666666666665, + "grad_norm": 0.28515625, + "learning_rate": 0.00029273811916056327, + "loss": 0.471, + "step": 75040 + }, + { + "epoch": 200.13333333333333, + "grad_norm": 0.37109375, + "learning_rate": 0.00029273618643313237, + "loss": 0.4726, + "step": 75050 + }, + { + "epoch": 200.16, + "grad_norm": 0.26953125, + "learning_rate": 0.0002927342534549228, + "loss": 0.4768, + "step": 75060 + }, + { + "epoch": 200.18666666666667, + "grad_norm": 0.24609375, + "learning_rate": 0.000292732320225938, + "loss": 0.4684, + "step": 75070 + }, + { + "epoch": 200.21333333333334, + "grad_norm": 0.26953125, + "learning_rate": 0.00029273038674618136, + "loss": 0.4631, + "step": 75080 + }, + { + "epoch": 200.24, + "grad_norm": 0.375, + "learning_rate": 0.00029272845301565626, + "loss": 0.4672, + "step": 75090 + }, + { + "epoch": 200.26666666666668, + "grad_norm": 0.373046875, + "learning_rate": 0.0002927265190343661, + "loss": 0.472, + "step": 75100 + }, + { + "epoch": 200.29333333333332, + "grad_norm": 0.330078125, + "learning_rate": 0.0002927245848023142, + "loss": 0.4651, + "step": 75110 + }, + { + "epoch": 200.32, + "grad_norm": 0.330078125, + "learning_rate": 0.0002927226503195041, + "loss": 0.469, + "step": 75120 + }, + { + "epoch": 200.34666666666666, + "grad_norm": 0.283203125, + "learning_rate": 0.00029272071558593914, + "loss": 0.4771, + "step": 75130 + }, + { + "epoch": 200.37333333333333, + "grad_norm": 0.376953125, + "learning_rate": 0.00029271878060162265, + "loss": 0.4726, + "step": 75140 + }, + { + "epoch": 200.4, + "grad_norm": 0.3203125, + "learning_rate": 0.00029271684536655816, + "loss": 0.4694, + "step": 75150 + }, + { + "epoch": 200.42666666666668, + "grad_norm": 0.38671875, + "learning_rate": 0.00029271490988074894, + "loss": 0.4759, + "step": 75160 + }, + { + "epoch": 200.45333333333335, + "grad_norm": 0.37109375, + "learning_rate": 0.0002927129741441985, + "loss": 0.4783, + "step": 75170 + }, + { + "epoch": 200.48, + "grad_norm": 0.31640625, + "learning_rate": 0.00029271103815691016, + "loss": 0.4843, + "step": 75180 + }, + { + "epoch": 200.50666666666666, + "grad_norm": 0.3984375, + "learning_rate": 0.0002927091019188874, + "loss": 0.4742, + "step": 75190 + }, + { + "epoch": 200.53333333333333, + "grad_norm": 0.37109375, + "learning_rate": 0.00029270716543013353, + "loss": 0.4685, + "step": 75200 + }, + { + "epoch": 200.56, + "grad_norm": 0.392578125, + "learning_rate": 0.000292705228690652, + "loss": 0.4693, + "step": 75210 + }, + { + "epoch": 200.58666666666667, + "grad_norm": 0.3203125, + "learning_rate": 0.00029270329170044625, + "loss": 0.4647, + "step": 75220 + }, + { + "epoch": 200.61333333333334, + "grad_norm": 0.28125, + "learning_rate": 0.0002927013544595196, + "loss": 0.4507, + "step": 75230 + }, + { + "epoch": 200.64, + "grad_norm": 0.31640625, + "learning_rate": 0.00029269941696787553, + "loss": 0.4557, + "step": 75240 + }, + { + "epoch": 200.66666666666666, + "grad_norm": 0.283203125, + "learning_rate": 0.0002926974792255174, + "loss": 0.471, + "step": 75250 + }, + { + "epoch": 200.69333333333333, + "grad_norm": 0.263671875, + "learning_rate": 0.00029269554123244866, + "loss": 0.4542, + "step": 75260 + }, + { + "epoch": 200.72, + "grad_norm": 0.333984375, + "learning_rate": 0.0002926936029886726, + "loss": 0.4716, + "step": 75270 + }, + { + "epoch": 200.74666666666667, + "grad_norm": 0.279296875, + "learning_rate": 0.0002926916644941928, + "loss": 0.4756, + "step": 75280 + }, + { + "epoch": 200.77333333333334, + "grad_norm": 0.3515625, + "learning_rate": 0.0002926897257490125, + "loss": 0.4825, + "step": 75290 + }, + { + "epoch": 200.8, + "grad_norm": 0.275390625, + "learning_rate": 0.0002926877867531352, + "loss": 0.4702, + "step": 75300 + }, + { + "epoch": 200.82666666666665, + "grad_norm": 0.255859375, + "learning_rate": 0.00029268584750656427, + "loss": 0.4645, + "step": 75310 + }, + { + "epoch": 200.85333333333332, + "grad_norm": 0.322265625, + "learning_rate": 0.0002926839080093031, + "loss": 0.4732, + "step": 75320 + }, + { + "epoch": 200.88, + "grad_norm": 0.34375, + "learning_rate": 0.00029268196826135525, + "loss": 0.4612, + "step": 75330 + }, + { + "epoch": 200.90666666666667, + "grad_norm": 0.296875, + "learning_rate": 0.00029268002826272394, + "loss": 0.464, + "step": 75340 + }, + { + "epoch": 200.93333333333334, + "grad_norm": 0.255859375, + "learning_rate": 0.0002926780880134127, + "loss": 0.4661, + "step": 75350 + }, + { + "epoch": 200.96, + "grad_norm": 0.2431640625, + "learning_rate": 0.0002926761475134248, + "loss": 0.4644, + "step": 75360 + }, + { + "epoch": 200.98666666666668, + "grad_norm": 0.546875, + "learning_rate": 0.00029267420676276374, + "loss": 0.4775, + "step": 75370 + }, + { + "epoch": 201.0, + "eval_loss": 0.4787846803665161, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 11.2928, + "eval_samples_per_second": 1.417, + "eval_steps_per_second": 0.089, + "step": 75375 + }, + { + "epoch": 201.01333333333332, + "grad_norm": 0.357421875, + "learning_rate": 0.00029267226576143294, + "loss": 0.4674, + "step": 75380 + }, + { + "epoch": 201.04, + "grad_norm": 0.3515625, + "learning_rate": 0.0002926703245094358, + "loss": 0.4915, + "step": 75390 + }, + { + "epoch": 201.06666666666666, + "grad_norm": 0.53125, + "learning_rate": 0.0002926683830067757, + "loss": 0.4789, + "step": 75400 + }, + { + "epoch": 201.09333333333333, + "grad_norm": 0.3203125, + "learning_rate": 0.0002926664412534561, + "loss": 0.4734, + "step": 75410 + }, + { + "epoch": 201.12, + "grad_norm": 0.38671875, + "learning_rate": 0.00029266449924948045, + "loss": 0.47, + "step": 75420 + }, + { + "epoch": 201.14666666666668, + "grad_norm": 0.30078125, + "learning_rate": 0.00029266255699485205, + "loss": 0.4779, + "step": 75430 + }, + { + "epoch": 201.17333333333335, + "grad_norm": 0.38671875, + "learning_rate": 0.00029266061448957433, + "loss": 0.4689, + "step": 75440 + }, + { + "epoch": 201.2, + "grad_norm": 0.287109375, + "learning_rate": 0.00029265867173365075, + "loss": 0.4671, + "step": 75450 + }, + { + "epoch": 201.22666666666666, + "grad_norm": 0.30078125, + "learning_rate": 0.0002926567287270847, + "loss": 0.4653, + "step": 75460 + }, + { + "epoch": 201.25333333333333, + "grad_norm": 0.38671875, + "learning_rate": 0.00029265478546987967, + "loss": 0.4645, + "step": 75470 + }, + { + "epoch": 201.28, + "grad_norm": 0.359375, + "learning_rate": 0.00029265284196203895, + "loss": 0.4787, + "step": 75480 + }, + { + "epoch": 201.30666666666667, + "grad_norm": 0.3671875, + "learning_rate": 0.00029265089820356603, + "loss": 0.4588, + "step": 75490 + }, + { + "epoch": 201.33333333333334, + "grad_norm": 0.3125, + "learning_rate": 0.0002926489541944643, + "loss": 0.4753, + "step": 75500 + }, + { + "epoch": 201.36, + "grad_norm": 0.470703125, + "learning_rate": 0.0002926470099347371, + "loss": 0.4768, + "step": 75510 + }, + { + "epoch": 201.38666666666666, + "grad_norm": 0.478515625, + "learning_rate": 0.00029264506542438804, + "loss": 0.4689, + "step": 75520 + }, + { + "epoch": 201.41333333333333, + "grad_norm": 0.6640625, + "learning_rate": 0.0002926431206634204, + "loss": 0.4733, + "step": 75530 + }, + { + "epoch": 201.44, + "grad_norm": 0.38671875, + "learning_rate": 0.0002926411756518376, + "loss": 0.4765, + "step": 75540 + }, + { + "epoch": 201.46666666666667, + "grad_norm": 0.392578125, + "learning_rate": 0.0002926392303896431, + "loss": 0.4855, + "step": 75550 + }, + { + "epoch": 201.49333333333334, + "grad_norm": 0.35546875, + "learning_rate": 0.00029263728487684027, + "loss": 0.4767, + "step": 75560 + }, + { + "epoch": 201.52, + "grad_norm": 0.2578125, + "learning_rate": 0.00029263533911343256, + "loss": 0.4712, + "step": 75570 + }, + { + "epoch": 201.54666666666665, + "grad_norm": 0.296875, + "learning_rate": 0.00029263339309942344, + "loss": 0.4683, + "step": 75580 + }, + { + "epoch": 201.57333333333332, + "grad_norm": 0.3203125, + "learning_rate": 0.0002926314468348162, + "loss": 0.4672, + "step": 75590 + }, + { + "epoch": 201.6, + "grad_norm": 0.48046875, + "learning_rate": 0.00029262950031961433, + "loss": 0.4607, + "step": 75600 + }, + { + "epoch": 201.62666666666667, + "grad_norm": 0.244140625, + "learning_rate": 0.00029262755355382127, + "loss": 0.4481, + "step": 75610 + }, + { + "epoch": 201.65333333333334, + "grad_norm": 0.26171875, + "learning_rate": 0.0002926256065374404, + "loss": 0.4674, + "step": 75620 + }, + { + "epoch": 201.68, + "grad_norm": 0.390625, + "learning_rate": 0.00029262365927047523, + "loss": 0.4583, + "step": 75630 + }, + { + "epoch": 201.70666666666668, + "grad_norm": 0.365234375, + "learning_rate": 0.00029262171175292907, + "loss": 0.4601, + "step": 75640 + }, + { + "epoch": 201.73333333333332, + "grad_norm": 0.30078125, + "learning_rate": 0.0002926197639848053, + "loss": 0.4784, + "step": 75650 + }, + { + "epoch": 201.76, + "grad_norm": 0.431640625, + "learning_rate": 0.00029261781596610757, + "loss": 0.4801, + "step": 75660 + }, + { + "epoch": 201.78666666666666, + "grad_norm": 0.267578125, + "learning_rate": 0.0002926158676968391, + "loss": 0.478, + "step": 75670 + }, + { + "epoch": 201.81333333333333, + "grad_norm": 0.419921875, + "learning_rate": 0.0002926139191770034, + "loss": 0.4641, + "step": 75680 + }, + { + "epoch": 201.84, + "grad_norm": 0.40625, + "learning_rate": 0.0002926119704066038, + "loss": 0.4696, + "step": 75690 + }, + { + "epoch": 201.86666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.00029261002138564386, + "loss": 0.4687, + "step": 75700 + }, + { + "epoch": 201.89333333333335, + "grad_norm": 0.333984375, + "learning_rate": 0.00029260807211412687, + "loss": 0.4593, + "step": 75710 + }, + { + "epoch": 201.92, + "grad_norm": 0.359375, + "learning_rate": 0.00029260612259205635, + "loss": 0.4706, + "step": 75720 + }, + { + "epoch": 201.94666666666666, + "grad_norm": 0.3359375, + "learning_rate": 0.0002926041728194357, + "loss": 0.4622, + "step": 75730 + }, + { + "epoch": 201.97333333333333, + "grad_norm": 0.35546875, + "learning_rate": 0.00029260222279626835, + "loss": 0.4738, + "step": 75740 + }, + { + "epoch": 202.0, + "grad_norm": 0.283203125, + "learning_rate": 0.0002926002725225577, + "loss": 0.4626, + "step": 75750 + }, + { + "epoch": 202.0, + "eval_loss": 0.4782838225364685, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.7972, + "eval_samples_per_second": 1.482, + "eval_steps_per_second": 0.093, + "step": 75750 + }, + { + "epoch": 202.02666666666667, + "grad_norm": 0.31640625, + "learning_rate": 0.0002925983219983072, + "loss": 0.483, + "step": 75760 + }, + { + "epoch": 202.05333333333334, + "grad_norm": 0.30859375, + "learning_rate": 0.00029259637122352024, + "loss": 0.4883, + "step": 75770 + }, + { + "epoch": 202.08, + "grad_norm": 0.302734375, + "learning_rate": 0.0002925944201982003, + "loss": 0.4755, + "step": 75780 + }, + { + "epoch": 202.10666666666665, + "grad_norm": 0.3359375, + "learning_rate": 0.0002925924689223508, + "loss": 0.4707, + "step": 75790 + }, + { + "epoch": 202.13333333333333, + "grad_norm": 0.28515625, + "learning_rate": 0.00029259051739597515, + "loss": 0.472, + "step": 75800 + }, + { + "epoch": 202.16, + "grad_norm": 0.400390625, + "learning_rate": 0.00029258856561907673, + "loss": 0.4762, + "step": 75810 + }, + { + "epoch": 202.18666666666667, + "grad_norm": 0.279296875, + "learning_rate": 0.00029258661359165904, + "loss": 0.4682, + "step": 75820 + }, + { + "epoch": 202.21333333333334, + "grad_norm": 0.30859375, + "learning_rate": 0.00029258466131372554, + "loss": 0.4632, + "step": 75830 + }, + { + "epoch": 202.24, + "grad_norm": 0.44140625, + "learning_rate": 0.0002925827087852796, + "loss": 0.4678, + "step": 75840 + }, + { + "epoch": 202.26666666666668, + "grad_norm": 0.306640625, + "learning_rate": 0.0002925807560063246, + "loss": 0.472, + "step": 75850 + }, + { + "epoch": 202.29333333333332, + "grad_norm": 0.2451171875, + "learning_rate": 0.0002925788029768641, + "loss": 0.4659, + "step": 75860 + }, + { + "epoch": 202.32, + "grad_norm": 0.2412109375, + "learning_rate": 0.0002925768496969014, + "loss": 0.469, + "step": 75870 + }, + { + "epoch": 202.34666666666666, + "grad_norm": 0.28125, + "learning_rate": 0.00029257489616644003, + "loss": 0.4774, + "step": 75880 + }, + { + "epoch": 202.37333333333333, + "grad_norm": 0.392578125, + "learning_rate": 0.0002925729423854834, + "loss": 0.4736, + "step": 75890 + }, + { + "epoch": 202.4, + "grad_norm": 0.33203125, + "learning_rate": 0.0002925709883540349, + "loss": 0.4697, + "step": 75900 + }, + { + "epoch": 202.42666666666668, + "grad_norm": 0.271484375, + "learning_rate": 0.000292569034072098, + "loss": 0.4755, + "step": 75910 + }, + { + "epoch": 202.45333333333335, + "grad_norm": 0.31640625, + "learning_rate": 0.00029256707953967615, + "loss": 0.4776, + "step": 75920 + }, + { + "epoch": 202.48, + "grad_norm": 0.388671875, + "learning_rate": 0.00029256512475677273, + "loss": 0.4843, + "step": 75930 + }, + { + "epoch": 202.50666666666666, + "grad_norm": 0.34375, + "learning_rate": 0.00029256316972339124, + "loss": 0.474, + "step": 75940 + }, + { + "epoch": 202.53333333333333, + "grad_norm": 0.267578125, + "learning_rate": 0.0002925612144395351, + "loss": 0.4684, + "step": 75950 + }, + { + "epoch": 202.56, + "grad_norm": 0.310546875, + "learning_rate": 0.0002925592589052076, + "loss": 0.4688, + "step": 75960 + }, + { + "epoch": 202.58666666666667, + "grad_norm": 0.388671875, + "learning_rate": 0.00029255730312041244, + "loss": 0.4647, + "step": 75970 + }, + { + "epoch": 202.61333333333334, + "grad_norm": 0.232421875, + "learning_rate": 0.00029255534708515283, + "loss": 0.4511, + "step": 75980 + }, + { + "epoch": 202.64, + "grad_norm": 0.267578125, + "learning_rate": 0.00029255339079943234, + "loss": 0.4562, + "step": 75990 + }, + { + "epoch": 202.66666666666666, + "grad_norm": 0.3359375, + "learning_rate": 0.00029255143426325437, + "loss": 0.4718, + "step": 76000 + }, + { + "epoch": 202.69333333333333, + "grad_norm": 0.365234375, + "learning_rate": 0.0002925494774766223, + "loss": 0.4546, + "step": 76010 + }, + { + "epoch": 202.72, + "grad_norm": 0.3515625, + "learning_rate": 0.00029254752043953965, + "loss": 0.4711, + "step": 76020 + }, + { + "epoch": 202.74666666666667, + "grad_norm": 0.37890625, + "learning_rate": 0.0002925455631520098, + "loss": 0.4752, + "step": 76030 + }, + { + "epoch": 202.77333333333334, + "grad_norm": 0.53125, + "learning_rate": 0.0002925436056140362, + "loss": 0.4828, + "step": 76040 + }, + { + "epoch": 202.8, + "grad_norm": 0.263671875, + "learning_rate": 0.00029254164782562236, + "loss": 0.4701, + "step": 76050 + }, + { + "epoch": 202.82666666666665, + "grad_norm": 0.3359375, + "learning_rate": 0.0002925396897867716, + "loss": 0.4646, + "step": 76060 + }, + { + "epoch": 202.85333333333332, + "grad_norm": 0.443359375, + "learning_rate": 0.00029253773149748747, + "loss": 0.4736, + "step": 76070 + }, + { + "epoch": 202.88, + "grad_norm": 0.328125, + "learning_rate": 0.0002925357729577733, + "loss": 0.4611, + "step": 76080 + }, + { + "epoch": 202.90666666666667, + "grad_norm": 0.306640625, + "learning_rate": 0.0002925338141676327, + "loss": 0.4641, + "step": 76090 + }, + { + "epoch": 202.93333333333334, + "grad_norm": 0.287109375, + "learning_rate": 0.00029253185512706894, + "loss": 0.466, + "step": 76100 + }, + { + "epoch": 202.96, + "grad_norm": 0.28515625, + "learning_rate": 0.0002925298958360855, + "loss": 0.4636, + "step": 76110 + }, + { + "epoch": 202.98666666666668, + "grad_norm": 0.31640625, + "learning_rate": 0.0002925279362946859, + "loss": 0.478, + "step": 76120 + }, + { + "epoch": 203.0, + "eval_loss": 0.4781941771507263, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.5103, + "eval_samples_per_second": 1.522, + "eval_steps_per_second": 0.095, + "step": 76125 + }, + { + "epoch": 203.01333333333332, + "grad_norm": 0.255859375, + "learning_rate": 0.00029252597650287354, + "loss": 0.4664, + "step": 76130 + }, + { + "epoch": 203.04, + "grad_norm": 0.3515625, + "learning_rate": 0.0002925240164606518, + "loss": 0.4904, + "step": 76140 + }, + { + "epoch": 203.06666666666666, + "grad_norm": 0.46875, + "learning_rate": 0.00029252205616802425, + "loss": 0.4791, + "step": 76150 + }, + { + "epoch": 203.09333333333333, + "grad_norm": 0.416015625, + "learning_rate": 0.0002925200956249942, + "loss": 0.4733, + "step": 76160 + }, + { + "epoch": 203.12, + "grad_norm": 0.314453125, + "learning_rate": 0.0002925181348315652, + "loss": 0.4697, + "step": 76170 + }, + { + "epoch": 203.14666666666668, + "grad_norm": 0.28125, + "learning_rate": 0.00029251617378774064, + "loss": 0.4775, + "step": 76180 + }, + { + "epoch": 203.17333333333335, + "grad_norm": 0.34765625, + "learning_rate": 0.00029251421249352393, + "loss": 0.4685, + "step": 76190 + }, + { + "epoch": 203.2, + "grad_norm": 0.30078125, + "learning_rate": 0.00029251225094891864, + "loss": 0.467, + "step": 76200 + }, + { + "epoch": 203.22666666666666, + "grad_norm": 0.341796875, + "learning_rate": 0.0002925102891539281, + "loss": 0.4645, + "step": 76210 + }, + { + "epoch": 203.25333333333333, + "grad_norm": 0.359375, + "learning_rate": 0.0002925083271085558, + "loss": 0.4651, + "step": 76220 + }, + { + "epoch": 203.28, + "grad_norm": 0.35546875, + "learning_rate": 0.00029250636481280523, + "loss": 0.4787, + "step": 76230 + }, + { + "epoch": 203.30666666666667, + "grad_norm": 0.2490234375, + "learning_rate": 0.00029250440226667973, + "loss": 0.4601, + "step": 76240 + }, + { + "epoch": 203.33333333333334, + "grad_norm": 0.341796875, + "learning_rate": 0.00029250243947018283, + "loss": 0.4743, + "step": 76250 + }, + { + "epoch": 203.36, + "grad_norm": 0.34765625, + "learning_rate": 0.000292500476423318, + "loss": 0.4769, + "step": 76260 + }, + { + "epoch": 203.38666666666666, + "grad_norm": 0.466796875, + "learning_rate": 0.00029249851312608863, + "loss": 0.4686, + "step": 76270 + }, + { + "epoch": 203.41333333333333, + "grad_norm": 0.3671875, + "learning_rate": 0.0002924965495784981, + "loss": 0.4727, + "step": 76280 + }, + { + "epoch": 203.44, + "grad_norm": 0.2421875, + "learning_rate": 0.00029249458578055, + "loss": 0.4764, + "step": 76290 + }, + { + "epoch": 203.46666666666667, + "grad_norm": 0.328125, + "learning_rate": 0.00029249262173224776, + "loss": 0.4856, + "step": 76300 + }, + { + "epoch": 203.49333333333334, + "grad_norm": 0.3359375, + "learning_rate": 0.0002924906574335948, + "loss": 0.4769, + "step": 76310 + }, + { + "epoch": 203.52, + "grad_norm": 0.326171875, + "learning_rate": 0.00029248869288459457, + "loss": 0.4712, + "step": 76320 + }, + { + "epoch": 203.54666666666665, + "grad_norm": 0.3515625, + "learning_rate": 0.00029248672808525046, + "loss": 0.4685, + "step": 76330 + }, + { + "epoch": 203.57333333333332, + "grad_norm": 0.3125, + "learning_rate": 0.000292484763035566, + "loss": 0.467, + "step": 76340 + }, + { + "epoch": 203.6, + "grad_norm": 0.345703125, + "learning_rate": 0.0002924827977355447, + "loss": 0.4602, + "step": 76350 + }, + { + "epoch": 203.62666666666667, + "grad_norm": 0.259765625, + "learning_rate": 0.0002924808321851899, + "loss": 0.4484, + "step": 76360 + }, + { + "epoch": 203.65333333333334, + "grad_norm": 0.287109375, + "learning_rate": 0.0002924788663845051, + "loss": 0.4676, + "step": 76370 + }, + { + "epoch": 203.68, + "grad_norm": 0.314453125, + "learning_rate": 0.0002924769003334937, + "loss": 0.4592, + "step": 76380 + }, + { + "epoch": 203.70666666666668, + "grad_norm": 0.435546875, + "learning_rate": 0.0002924749340321592, + "loss": 0.4601, + "step": 76390 + }, + { + "epoch": 203.73333333333332, + "grad_norm": 0.259765625, + "learning_rate": 0.0002924729674805051, + "loss": 0.4785, + "step": 76400 + }, + { + "epoch": 203.76, + "grad_norm": 0.3046875, + "learning_rate": 0.0002924710006785348, + "loss": 0.4796, + "step": 76410 + }, + { + "epoch": 203.78666666666666, + "grad_norm": 0.267578125, + "learning_rate": 0.0002924690336262517, + "loss": 0.4782, + "step": 76420 + }, + { + "epoch": 203.81333333333333, + "grad_norm": 0.474609375, + "learning_rate": 0.00029246706632365943, + "loss": 0.4634, + "step": 76430 + }, + { + "epoch": 203.84, + "grad_norm": 0.33203125, + "learning_rate": 0.00029246509877076126, + "loss": 0.4696, + "step": 76440 + }, + { + "epoch": 203.86666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.00029246313096756077, + "loss": 0.4683, + "step": 76450 + }, + { + "epoch": 203.89333333333335, + "grad_norm": 0.30078125, + "learning_rate": 0.0002924611629140613, + "loss": 0.4601, + "step": 76460 + }, + { + "epoch": 203.92, + "grad_norm": 0.400390625, + "learning_rate": 0.00029245919461026645, + "loss": 0.4704, + "step": 76470 + }, + { + "epoch": 203.94666666666666, + "grad_norm": 0.396484375, + "learning_rate": 0.00029245722605617956, + "loss": 0.4624, + "step": 76480 + }, + { + "epoch": 203.97333333333333, + "grad_norm": 0.271484375, + "learning_rate": 0.0002924552572518042, + "loss": 0.474, + "step": 76490 + }, + { + "epoch": 204.0, + "grad_norm": 0.408203125, + "learning_rate": 0.0002924532881971437, + "loss": 0.4632, + "step": 76500 + }, + { + "epoch": 204.0, + "eval_loss": 0.4801044166088104, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.9231, + "eval_samples_per_second": 1.612, + "eval_steps_per_second": 0.101, + "step": 76500 + }, + { + "epoch": 204.02666666666667, + "grad_norm": 0.375, + "learning_rate": 0.0002924513188922016, + "loss": 0.4826, + "step": 76510 + }, + { + "epoch": 204.05333333333334, + "grad_norm": 0.34765625, + "learning_rate": 0.00029244934933698134, + "loss": 0.4887, + "step": 76520 + }, + { + "epoch": 204.08, + "grad_norm": 0.419921875, + "learning_rate": 0.0002924473795314864, + "loss": 0.4756, + "step": 76530 + }, + { + "epoch": 204.10666666666665, + "grad_norm": 0.28125, + "learning_rate": 0.0002924454094757202, + "loss": 0.4697, + "step": 76540 + }, + { + "epoch": 204.13333333333333, + "grad_norm": 0.357421875, + "learning_rate": 0.0002924434391696863, + "loss": 0.4713, + "step": 76550 + }, + { + "epoch": 204.16, + "grad_norm": 0.396484375, + "learning_rate": 0.00029244146861338806, + "loss": 0.4767, + "step": 76560 + }, + { + "epoch": 204.18666666666667, + "grad_norm": 0.302734375, + "learning_rate": 0.00029243949780682893, + "loss": 0.4683, + "step": 76570 + }, + { + "epoch": 204.21333333333334, + "grad_norm": 0.2490234375, + "learning_rate": 0.0002924375267500124, + "loss": 0.4637, + "step": 76580 + }, + { + "epoch": 204.24, + "grad_norm": 0.3984375, + "learning_rate": 0.00029243555544294204, + "loss": 0.4679, + "step": 76590 + }, + { + "epoch": 204.26666666666668, + "grad_norm": 0.427734375, + "learning_rate": 0.00029243358388562115, + "loss": 0.4718, + "step": 76600 + }, + { + "epoch": 204.29333333333332, + "grad_norm": 0.3359375, + "learning_rate": 0.00029243161207805323, + "loss": 0.4654, + "step": 76610 + }, + { + "epoch": 204.32, + "grad_norm": 0.3671875, + "learning_rate": 0.00029242964002024186, + "loss": 0.4683, + "step": 76620 + }, + { + "epoch": 204.34666666666666, + "grad_norm": 0.380859375, + "learning_rate": 0.0002924276677121904, + "loss": 0.4771, + "step": 76630 + }, + { + "epoch": 204.37333333333333, + "grad_norm": 0.439453125, + "learning_rate": 0.00029242569515390234, + "loss": 0.4725, + "step": 76640 + }, + { + "epoch": 204.4, + "grad_norm": 0.337890625, + "learning_rate": 0.0002924237223453811, + "loss": 0.4703, + "step": 76650 + }, + { + "epoch": 204.42666666666668, + "grad_norm": 0.2578125, + "learning_rate": 0.0002924217492866302, + "loss": 0.4754, + "step": 76660 + }, + { + "epoch": 204.45333333333335, + "grad_norm": 0.28125, + "learning_rate": 0.00029241977597765315, + "loss": 0.4781, + "step": 76670 + }, + { + "epoch": 204.48, + "grad_norm": 0.44140625, + "learning_rate": 0.0002924178024184533, + "loss": 0.4838, + "step": 76680 + }, + { + "epoch": 204.50666666666666, + "grad_norm": 0.30078125, + "learning_rate": 0.0002924158286090342, + "loss": 0.4737, + "step": 76690 + }, + { + "epoch": 204.53333333333333, + "grad_norm": 0.365234375, + "learning_rate": 0.00029241385454939934, + "loss": 0.4676, + "step": 76700 + }, + { + "epoch": 204.56, + "grad_norm": 0.28515625, + "learning_rate": 0.0002924118802395521, + "loss": 0.4679, + "step": 76710 + }, + { + "epoch": 204.58666666666667, + "grad_norm": 0.349609375, + "learning_rate": 0.000292409905679496, + "loss": 0.4651, + "step": 76720 + }, + { + "epoch": 204.61333333333334, + "grad_norm": 0.25, + "learning_rate": 0.00029240793086923457, + "loss": 0.4506, + "step": 76730 + }, + { + "epoch": 204.64, + "grad_norm": 0.1943359375, + "learning_rate": 0.0002924059558087711, + "loss": 0.456, + "step": 76740 + }, + { + "epoch": 204.66666666666666, + "grad_norm": 0.388671875, + "learning_rate": 0.00029240398049810924, + "loss": 0.471, + "step": 76750 + }, + { + "epoch": 204.69333333333333, + "grad_norm": 0.373046875, + "learning_rate": 0.0002924020049372524, + "loss": 0.4546, + "step": 76760 + }, + { + "epoch": 204.72, + "grad_norm": 0.384765625, + "learning_rate": 0.00029240002912620406, + "loss": 0.4711, + "step": 76770 + }, + { + "epoch": 204.74666666666667, + "grad_norm": 0.291015625, + "learning_rate": 0.00029239805306496765, + "loss": 0.4751, + "step": 76780 + }, + { + "epoch": 204.77333333333334, + "grad_norm": 0.318359375, + "learning_rate": 0.00029239607675354666, + "loss": 0.4825, + "step": 76790 + }, + { + "epoch": 204.8, + "grad_norm": 0.419921875, + "learning_rate": 0.0002923941001919446, + "loss": 0.4697, + "step": 76800 + }, + { + "epoch": 204.82666666666665, + "grad_norm": 0.353515625, + "learning_rate": 0.0002923921233801649, + "loss": 0.465, + "step": 76810 + }, + { + "epoch": 204.85333333333332, + "grad_norm": 0.29296875, + "learning_rate": 0.00029239014631821103, + "loss": 0.4733, + "step": 76820 + }, + { + "epoch": 204.88, + "grad_norm": 0.443359375, + "learning_rate": 0.0002923881690060865, + "loss": 0.4615, + "step": 76830 + }, + { + "epoch": 204.90666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.0002923861914437948, + "loss": 0.464, + "step": 76840 + }, + { + "epoch": 204.93333333333334, + "grad_norm": 0.2470703125, + "learning_rate": 0.0002923842136313393, + "loss": 0.4658, + "step": 76850 + }, + { + "epoch": 204.96, + "grad_norm": 0.291015625, + "learning_rate": 0.0002923822355687236, + "loss": 0.4642, + "step": 76860 + }, + { + "epoch": 204.98666666666668, + "grad_norm": 0.30078125, + "learning_rate": 0.0002923802572559511, + "loss": 0.4777, + "step": 76870 + }, + { + "epoch": 205.0, + "eval_loss": 0.4777953624725342, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.4051, + "eval_samples_per_second": 1.538, + "eval_steps_per_second": 0.096, + "step": 76875 + }, + { + "epoch": 205.01333333333332, + "grad_norm": 0.294921875, + "learning_rate": 0.00029237827869302524, + "loss": 0.4664, + "step": 76880 + }, + { + "epoch": 205.04, + "grad_norm": 0.302734375, + "learning_rate": 0.00029237629987994966, + "loss": 0.4905, + "step": 76890 + }, + { + "epoch": 205.06666666666666, + "grad_norm": 0.357421875, + "learning_rate": 0.00029237432081672765, + "loss": 0.4783, + "step": 76900 + }, + { + "epoch": 205.09333333333333, + "grad_norm": 0.29296875, + "learning_rate": 0.0002923723415033628, + "loss": 0.4725, + "step": 76910 + }, + { + "epoch": 205.12, + "grad_norm": 0.291015625, + "learning_rate": 0.00029237036193985853, + "loss": 0.4696, + "step": 76920 + }, + { + "epoch": 205.14666666666668, + "grad_norm": 0.357421875, + "learning_rate": 0.00029236838212621835, + "loss": 0.4788, + "step": 76930 + }, + { + "epoch": 205.17333333333335, + "grad_norm": 0.28515625, + "learning_rate": 0.00029236640206244574, + "loss": 0.4689, + "step": 76940 + }, + { + "epoch": 205.2, + "grad_norm": 0.3203125, + "learning_rate": 0.00029236442174854416, + "loss": 0.4672, + "step": 76950 + }, + { + "epoch": 205.22666666666666, + "grad_norm": 0.37890625, + "learning_rate": 0.0002923624411845171, + "loss": 0.4655, + "step": 76960 + }, + { + "epoch": 205.25333333333333, + "grad_norm": 0.40234375, + "learning_rate": 0.00029236046037036805, + "loss": 0.465, + "step": 76970 + }, + { + "epoch": 205.28, + "grad_norm": 0.345703125, + "learning_rate": 0.00029235847930610045, + "loss": 0.4785, + "step": 76980 + }, + { + "epoch": 205.30666666666667, + "grad_norm": 0.318359375, + "learning_rate": 0.0002923564979917178, + "loss": 0.4592, + "step": 76990 + }, + { + "epoch": 205.33333333333334, + "grad_norm": 0.341796875, + "learning_rate": 0.0002923545164272236, + "loss": 0.4754, + "step": 77000 + }, + { + "epoch": 205.36, + "grad_norm": 0.38671875, + "learning_rate": 0.0002923525346126213, + "loss": 0.4771, + "step": 77010 + }, + { + "epoch": 205.38666666666666, + "grad_norm": 0.419921875, + "learning_rate": 0.0002923505525479145, + "loss": 0.4689, + "step": 77020 + }, + { + "epoch": 205.41333333333333, + "grad_norm": 0.353515625, + "learning_rate": 0.0002923485702331065, + "loss": 0.4732, + "step": 77030 + }, + { + "epoch": 205.44, + "grad_norm": 0.26171875, + "learning_rate": 0.0002923465876682009, + "loss": 0.4758, + "step": 77040 + }, + { + "epoch": 205.46666666666667, + "grad_norm": 0.37109375, + "learning_rate": 0.0002923446048532011, + "loss": 0.4848, + "step": 77050 + }, + { + "epoch": 205.49333333333334, + "grad_norm": 0.416015625, + "learning_rate": 0.0002923426217881107, + "loss": 0.477, + "step": 77060 + }, + { + "epoch": 205.52, + "grad_norm": 0.33203125, + "learning_rate": 0.0002923406384729331, + "loss": 0.471, + "step": 77070 + }, + { + "epoch": 205.54666666666665, + "grad_norm": 0.384765625, + "learning_rate": 0.00029233865490767177, + "loss": 0.4677, + "step": 77080 + }, + { + "epoch": 205.57333333333332, + "grad_norm": 0.26953125, + "learning_rate": 0.0002923366710923302, + "loss": 0.4673, + "step": 77090 + }, + { + "epoch": 205.6, + "grad_norm": 0.33984375, + "learning_rate": 0.00029233468702691203, + "loss": 0.461, + "step": 77100 + }, + { + "epoch": 205.62666666666667, + "grad_norm": 0.359375, + "learning_rate": 0.00029233270271142054, + "loss": 0.4477, + "step": 77110 + }, + { + "epoch": 205.65333333333334, + "grad_norm": 0.3671875, + "learning_rate": 0.0002923307181458593, + "loss": 0.4675, + "step": 77120 + }, + { + "epoch": 205.68, + "grad_norm": 0.318359375, + "learning_rate": 0.0002923287333302318, + "loss": 0.4589, + "step": 77130 + }, + { + "epoch": 205.70666666666668, + "grad_norm": 0.326171875, + "learning_rate": 0.0002923267482645415, + "loss": 0.4595, + "step": 77140 + }, + { + "epoch": 205.73333333333332, + "grad_norm": 0.4609375, + "learning_rate": 0.00029232476294879193, + "loss": 0.4778, + "step": 77150 + }, + { + "epoch": 205.76, + "grad_norm": 0.345703125, + "learning_rate": 0.0002923227773829865, + "loss": 0.4792, + "step": 77160 + }, + { + "epoch": 205.78666666666666, + "grad_norm": 0.3125, + "learning_rate": 0.0002923207915671288, + "loss": 0.4774, + "step": 77170 + }, + { + "epoch": 205.81333333333333, + "grad_norm": 0.392578125, + "learning_rate": 0.00029231880550122227, + "loss": 0.4634, + "step": 77180 + }, + { + "epoch": 205.84, + "grad_norm": 0.369140625, + "learning_rate": 0.00029231681918527044, + "loss": 0.4692, + "step": 77190 + }, + { + "epoch": 205.86666666666667, + "grad_norm": 0.314453125, + "learning_rate": 0.0002923148326192767, + "loss": 0.4681, + "step": 77200 + }, + { + "epoch": 205.89333333333335, + "grad_norm": 0.3515625, + "learning_rate": 0.00029231284580324464, + "loss": 0.4599, + "step": 77210 + }, + { + "epoch": 205.92, + "grad_norm": 0.400390625, + "learning_rate": 0.0002923108587371777, + "loss": 0.4704, + "step": 77220 + }, + { + "epoch": 205.94666666666666, + "grad_norm": 0.3828125, + "learning_rate": 0.00029230887142107936, + "loss": 0.4624, + "step": 77230 + }, + { + "epoch": 205.97333333333333, + "grad_norm": 0.32421875, + "learning_rate": 0.00029230688385495325, + "loss": 0.4739, + "step": 77240 + }, + { + "epoch": 206.0, + "grad_norm": 0.3828125, + "learning_rate": 0.00029230489603880263, + "loss": 0.4626, + "step": 77250 + }, + { + "epoch": 206.0, + "eval_loss": 0.47875362634658813, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.8448, + "eval_samples_per_second": 1.625, + "eval_steps_per_second": 0.102, + "step": 77250 + }, + { + "epoch": 206.02666666666667, + "grad_norm": 0.26171875, + "learning_rate": 0.00029230290797263114, + "loss": 0.4827, + "step": 77260 + }, + { + "epoch": 206.05333333333334, + "grad_norm": 0.39453125, + "learning_rate": 0.0002923009196564422, + "loss": 0.488, + "step": 77270 + }, + { + "epoch": 206.08, + "grad_norm": 0.34375, + "learning_rate": 0.00029229893109023944, + "loss": 0.4754, + "step": 77280 + }, + { + "epoch": 206.10666666666665, + "grad_norm": 0.41015625, + "learning_rate": 0.0002922969422740262, + "loss": 0.4707, + "step": 77290 + }, + { + "epoch": 206.13333333333333, + "grad_norm": 0.35546875, + "learning_rate": 0.00029229495320780605, + "loss": 0.4717, + "step": 77300 + }, + { + "epoch": 206.16, + "grad_norm": 0.439453125, + "learning_rate": 0.0002922929638915825, + "loss": 0.4768, + "step": 77310 + }, + { + "epoch": 206.18666666666667, + "grad_norm": 0.287109375, + "learning_rate": 0.00029229097432535895, + "loss": 0.4683, + "step": 77320 + }, + { + "epoch": 206.21333333333334, + "grad_norm": 0.421875, + "learning_rate": 0.00029228898450913896, + "loss": 0.4633, + "step": 77330 + }, + { + "epoch": 206.24, + "grad_norm": 0.404296875, + "learning_rate": 0.00029228699444292606, + "loss": 0.467, + "step": 77340 + }, + { + "epoch": 206.26666666666668, + "grad_norm": 0.400390625, + "learning_rate": 0.00029228500412672374, + "loss": 0.4712, + "step": 77350 + }, + { + "epoch": 206.29333333333332, + "grad_norm": 0.341796875, + "learning_rate": 0.0002922830135605354, + "loss": 0.466, + "step": 77360 + }, + { + "epoch": 206.32, + "grad_norm": 0.306640625, + "learning_rate": 0.00029228102274436464, + "loss": 0.4692, + "step": 77370 + }, + { + "epoch": 206.34666666666666, + "grad_norm": 0.337890625, + "learning_rate": 0.00029227903167821495, + "loss": 0.4771, + "step": 77380 + }, + { + "epoch": 206.37333333333333, + "grad_norm": 0.33984375, + "learning_rate": 0.00029227704036208983, + "loss": 0.4729, + "step": 77390 + }, + { + "epoch": 206.4, + "grad_norm": 0.30078125, + "learning_rate": 0.0002922750487959926, + "loss": 0.4699, + "step": 77400 + }, + { + "epoch": 206.42666666666668, + "grad_norm": 0.388671875, + "learning_rate": 0.0002922730569799271, + "loss": 0.476, + "step": 77410 + }, + { + "epoch": 206.45333333333335, + "grad_norm": 0.3359375, + "learning_rate": 0.0002922710649138965, + "loss": 0.4777, + "step": 77420 + }, + { + "epoch": 206.48, + "grad_norm": 0.451171875, + "learning_rate": 0.0002922690725979045, + "loss": 0.485, + "step": 77430 + }, + { + "epoch": 206.50666666666666, + "grad_norm": 0.34375, + "learning_rate": 0.00029226708003195456, + "loss": 0.4745, + "step": 77440 + }, + { + "epoch": 206.53333333333333, + "grad_norm": 0.451171875, + "learning_rate": 0.00029226508721605013, + "loss": 0.4676, + "step": 77450 + }, + { + "epoch": 206.56, + "grad_norm": 0.404296875, + "learning_rate": 0.00029226309415019476, + "loss": 0.4687, + "step": 77460 + }, + { + "epoch": 206.58666666666667, + "grad_norm": 0.33203125, + "learning_rate": 0.00029226110083439193, + "loss": 0.4649, + "step": 77470 + }, + { + "epoch": 206.61333333333334, + "grad_norm": 0.25, + "learning_rate": 0.00029225910726864515, + "loss": 0.4507, + "step": 77480 + }, + { + "epoch": 206.64, + "grad_norm": 0.296875, + "learning_rate": 0.0002922571134529579, + "loss": 0.4555, + "step": 77490 + }, + { + "epoch": 206.66666666666666, + "grad_norm": 0.2490234375, + "learning_rate": 0.0002922551193873337, + "loss": 0.4719, + "step": 77500 + }, + { + "epoch": 206.69333333333333, + "grad_norm": 0.42578125, + "learning_rate": 0.00029225312507177604, + "loss": 0.4543, + "step": 77510 + }, + { + "epoch": 206.72, + "grad_norm": 0.294921875, + "learning_rate": 0.0002922511305062885, + "loss": 0.4715, + "step": 77520 + }, + { + "epoch": 206.74666666666667, + "grad_norm": 0.2890625, + "learning_rate": 0.0002922491356908744, + "loss": 0.4756, + "step": 77530 + }, + { + "epoch": 206.77333333333334, + "grad_norm": 0.3515625, + "learning_rate": 0.0002922471406255375, + "loss": 0.4832, + "step": 77540 + }, + { + "epoch": 206.8, + "grad_norm": 0.38671875, + "learning_rate": 0.0002922451453102811, + "loss": 0.4698, + "step": 77550 + }, + { + "epoch": 206.82666666666665, + "grad_norm": 0.34375, + "learning_rate": 0.0002922431497451088, + "loss": 0.4648, + "step": 77560 + }, + { + "epoch": 206.85333333333332, + "grad_norm": 0.408203125, + "learning_rate": 0.0002922411539300241, + "loss": 0.4732, + "step": 77570 + }, + { + "epoch": 206.88, + "grad_norm": 0.3984375, + "learning_rate": 0.0002922391578650305, + "loss": 0.4615, + "step": 77580 + }, + { + "epoch": 206.90666666666667, + "grad_norm": 0.267578125, + "learning_rate": 0.0002922371615501315, + "loss": 0.4643, + "step": 77590 + }, + { + "epoch": 206.93333333333334, + "grad_norm": 0.271484375, + "learning_rate": 0.00029223516498533053, + "loss": 0.4663, + "step": 77600 + }, + { + "epoch": 206.96, + "grad_norm": 0.30859375, + "learning_rate": 0.00029223316817063126, + "loss": 0.4634, + "step": 77610 + }, + { + "epoch": 206.98666666666668, + "grad_norm": 0.3125, + "learning_rate": 0.00029223117110603706, + "loss": 0.4772, + "step": 77620 + }, + { + "epoch": 207.0, + "eval_loss": 0.4780822694301605, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.47, + "eval_samples_per_second": 1.69, + "eval_steps_per_second": 0.106, + "step": 77625 + }, + { + "epoch": 207.01333333333332, + "grad_norm": 0.271484375, + "learning_rate": 0.0002922291737915515, + "loss": 0.4666, + "step": 77630 + }, + { + "epoch": 207.04, + "grad_norm": 0.38671875, + "learning_rate": 0.00029222717622717813, + "loss": 0.4908, + "step": 77640 + }, + { + "epoch": 207.06666666666666, + "grad_norm": 0.34765625, + "learning_rate": 0.00029222517841292036, + "loss": 0.4788, + "step": 77650 + }, + { + "epoch": 207.09333333333333, + "grad_norm": 0.31640625, + "learning_rate": 0.00029222318034878174, + "loss": 0.4723, + "step": 77660 + }, + { + "epoch": 207.12, + "grad_norm": 0.326171875, + "learning_rate": 0.00029222118203476585, + "loss": 0.4699, + "step": 77670 + }, + { + "epoch": 207.14666666666668, + "grad_norm": 0.478515625, + "learning_rate": 0.00029221918347087605, + "loss": 0.4777, + "step": 77680 + }, + { + "epoch": 207.17333333333335, + "grad_norm": 0.345703125, + "learning_rate": 0.000292217184657116, + "loss": 0.4685, + "step": 77690 + }, + { + "epoch": 207.2, + "grad_norm": 0.306640625, + "learning_rate": 0.00029221518559348917, + "loss": 0.4667, + "step": 77700 + }, + { + "epoch": 207.22666666666666, + "grad_norm": 0.32421875, + "learning_rate": 0.000292213186279999, + "loss": 0.4651, + "step": 77710 + }, + { + "epoch": 207.25333333333333, + "grad_norm": 0.353515625, + "learning_rate": 0.0002922111867166491, + "loss": 0.4655, + "step": 77720 + }, + { + "epoch": 207.28, + "grad_norm": 0.359375, + "learning_rate": 0.00029220918690344295, + "loss": 0.4781, + "step": 77730 + }, + { + "epoch": 207.30666666666667, + "grad_norm": 0.3125, + "learning_rate": 0.00029220718684038404, + "loss": 0.4597, + "step": 77740 + }, + { + "epoch": 207.33333333333334, + "grad_norm": 0.29296875, + "learning_rate": 0.0002922051865274759, + "loss": 0.4747, + "step": 77750 + }, + { + "epoch": 207.36, + "grad_norm": 0.30859375, + "learning_rate": 0.000292203185964722, + "loss": 0.4767, + "step": 77760 + }, + { + "epoch": 207.38666666666666, + "grad_norm": 0.4375, + "learning_rate": 0.00029220118515212596, + "loss": 0.4689, + "step": 77770 + }, + { + "epoch": 207.41333333333333, + "grad_norm": 0.431640625, + "learning_rate": 0.00029219918408969123, + "loss": 0.4729, + "step": 77780 + }, + { + "epoch": 207.44, + "grad_norm": 0.271484375, + "learning_rate": 0.0002921971827774213, + "loss": 0.4759, + "step": 77790 + }, + { + "epoch": 207.46666666666667, + "grad_norm": 0.376953125, + "learning_rate": 0.00029219518121531974, + "loss": 0.4857, + "step": 77800 + }, + { + "epoch": 207.49333333333334, + "grad_norm": 0.41015625, + "learning_rate": 0.00029219317940339004, + "loss": 0.4769, + "step": 77810 + }, + { + "epoch": 207.52, + "grad_norm": 0.283203125, + "learning_rate": 0.0002921911773416357, + "loss": 0.4718, + "step": 77820 + }, + { + "epoch": 207.54666666666665, + "grad_norm": 0.396484375, + "learning_rate": 0.00029218917503006026, + "loss": 0.4678, + "step": 77830 + }, + { + "epoch": 207.57333333333332, + "grad_norm": 0.306640625, + "learning_rate": 0.00029218717246866724, + "loss": 0.4672, + "step": 77840 + }, + { + "epoch": 207.6, + "grad_norm": 0.3203125, + "learning_rate": 0.00029218516965746015, + "loss": 0.46, + "step": 77850 + }, + { + "epoch": 207.62666666666667, + "grad_norm": 0.220703125, + "learning_rate": 0.00029218316659644254, + "loss": 0.4483, + "step": 77860 + }, + { + "epoch": 207.65333333333334, + "grad_norm": 0.466796875, + "learning_rate": 0.00029218116328561786, + "loss": 0.4678, + "step": 77870 + }, + { + "epoch": 207.68, + "grad_norm": 0.44140625, + "learning_rate": 0.00029217915972498974, + "loss": 0.4591, + "step": 77880 + }, + { + "epoch": 207.70666666666668, + "grad_norm": 0.4609375, + "learning_rate": 0.00029217715591456155, + "loss": 0.4587, + "step": 77890 + }, + { + "epoch": 207.73333333333332, + "grad_norm": 0.279296875, + "learning_rate": 0.0002921751518543369, + "loss": 0.4782, + "step": 77900 + }, + { + "epoch": 207.76, + "grad_norm": 0.484375, + "learning_rate": 0.00029217314754431933, + "loss": 0.4789, + "step": 77910 + }, + { + "epoch": 207.78666666666666, + "grad_norm": 0.34375, + "learning_rate": 0.0002921711429845124, + "loss": 0.4776, + "step": 77920 + }, + { + "epoch": 207.81333333333333, + "grad_norm": 0.42578125, + "learning_rate": 0.0002921691381749195, + "loss": 0.4634, + "step": 77930 + }, + { + "epoch": 207.84, + "grad_norm": 0.3828125, + "learning_rate": 0.0002921671331155442, + "loss": 0.4698, + "step": 77940 + }, + { + "epoch": 207.86666666666667, + "grad_norm": 0.31640625, + "learning_rate": 0.0002921651278063901, + "loss": 0.4691, + "step": 77950 + }, + { + "epoch": 207.89333333333335, + "grad_norm": 0.4609375, + "learning_rate": 0.0002921631222474606, + "loss": 0.4591, + "step": 77960 + }, + { + "epoch": 207.92, + "grad_norm": 0.46484375, + "learning_rate": 0.0002921611164387593, + "loss": 0.4699, + "step": 77970 + }, + { + "epoch": 207.94666666666666, + "grad_norm": 0.287109375, + "learning_rate": 0.00029215911038028977, + "loss": 0.4631, + "step": 77980 + }, + { + "epoch": 207.97333333333333, + "grad_norm": 0.283203125, + "learning_rate": 0.0002921571040720554, + "loss": 0.4742, + "step": 77990 + }, + { + "epoch": 208.0, + "grad_norm": 0.439453125, + "learning_rate": 0.0002921550975140598, + "loss": 0.4633, + "step": 78000 + }, + { + "epoch": 208.0, + "eval_loss": 0.4784125089645386, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 9.5043, + "eval_samples_per_second": 1.683, + "eval_steps_per_second": 0.105, + "step": 78000 + }, + { + "epoch": 208.02666666666667, + "grad_norm": 0.42578125, + "learning_rate": 0.0002921530907063065, + "loss": 0.4831, + "step": 78010 + }, + { + "epoch": 208.05333333333334, + "grad_norm": 0.34765625, + "learning_rate": 0.0002921510836487991, + "loss": 0.4887, + "step": 78020 + }, + { + "epoch": 208.08, + "grad_norm": 0.3203125, + "learning_rate": 0.0002921490763415409, + "loss": 0.4754, + "step": 78030 + }, + { + "epoch": 208.10666666666665, + "grad_norm": 0.306640625, + "learning_rate": 0.00029214706878453566, + "loss": 0.4708, + "step": 78040 + }, + { + "epoch": 208.13333333333333, + "grad_norm": 0.34765625, + "learning_rate": 0.0002921450609777868, + "loss": 0.4719, + "step": 78050 + }, + { + "epoch": 208.16, + "grad_norm": 0.412109375, + "learning_rate": 0.0002921430529212978, + "loss": 0.477, + "step": 78060 + }, + { + "epoch": 208.18666666666667, + "grad_norm": 0.357421875, + "learning_rate": 0.0002921410446150723, + "loss": 0.4683, + "step": 78070 + }, + { + "epoch": 208.21333333333334, + "grad_norm": 0.36328125, + "learning_rate": 0.0002921390360591138, + "loss": 0.4636, + "step": 78080 + }, + { + "epoch": 208.24, + "grad_norm": 0.5078125, + "learning_rate": 0.00029213702725342574, + "loss": 0.467, + "step": 78090 + }, + { + "epoch": 208.26666666666668, + "grad_norm": 0.3125, + "learning_rate": 0.0002921350181980118, + "loss": 0.4718, + "step": 78100 + }, + { + "epoch": 208.29333333333332, + "grad_norm": 0.310546875, + "learning_rate": 0.00029213300889287534, + "loss": 0.4657, + "step": 78110 + }, + { + "epoch": 208.32, + "grad_norm": 0.34765625, + "learning_rate": 0.00029213099933802003, + "loss": 0.4696, + "step": 78120 + }, + { + "epoch": 208.34666666666666, + "grad_norm": 0.25, + "learning_rate": 0.0002921289895334493, + "loss": 0.477, + "step": 78130 + }, + { + "epoch": 208.37333333333333, + "grad_norm": 0.310546875, + "learning_rate": 0.0002921269794791668, + "loss": 0.4725, + "step": 78140 + }, + { + "epoch": 208.4, + "grad_norm": 0.375, + "learning_rate": 0.00029212496917517593, + "loss": 0.4697, + "step": 78150 + }, + { + "epoch": 208.42666666666668, + "grad_norm": 0.33984375, + "learning_rate": 0.00029212295862148034, + "loss": 0.4755, + "step": 78160 + }, + { + "epoch": 208.45333333333335, + "grad_norm": 0.306640625, + "learning_rate": 0.0002921209478180834, + "loss": 0.4786, + "step": 78170 + }, + { + "epoch": 208.48, + "grad_norm": 0.4765625, + "learning_rate": 0.00029211893676498883, + "loss": 0.485, + "step": 78180 + }, + { + "epoch": 208.50666666666666, + "grad_norm": 0.27734375, + "learning_rate": 0.0002921169254622, + "loss": 0.4737, + "step": 78190 + }, + { + "epoch": 208.53333333333333, + "grad_norm": 0.279296875, + "learning_rate": 0.00029211491390972064, + "loss": 0.4679, + "step": 78200 + }, + { + "epoch": 208.56, + "grad_norm": 0.287109375, + "learning_rate": 0.0002921129021075541, + "loss": 0.4692, + "step": 78210 + }, + { + "epoch": 208.58666666666667, + "grad_norm": 0.267578125, + "learning_rate": 0.000292110890055704, + "loss": 0.4646, + "step": 78220 + }, + { + "epoch": 208.61333333333334, + "grad_norm": 0.296875, + "learning_rate": 0.00029210887775417383, + "loss": 0.4506, + "step": 78230 + }, + { + "epoch": 208.64, + "grad_norm": 0.28125, + "learning_rate": 0.00029210686520296714, + "loss": 0.4564, + "step": 78240 + }, + { + "epoch": 208.66666666666666, + "grad_norm": 0.298828125, + "learning_rate": 0.0002921048524020875, + "loss": 0.4708, + "step": 78250 + }, + { + "epoch": 208.69333333333333, + "grad_norm": 0.400390625, + "learning_rate": 0.00029210283935153844, + "loss": 0.4551, + "step": 78260 + }, + { + "epoch": 208.72, + "grad_norm": 0.380859375, + "learning_rate": 0.0002921008260513235, + "loss": 0.4712, + "step": 78270 + }, + { + "epoch": 208.74666666666667, + "grad_norm": 0.40234375, + "learning_rate": 0.00029209881250144614, + "loss": 0.4752, + "step": 78280 + }, + { + "epoch": 208.77333333333334, + "grad_norm": 0.447265625, + "learning_rate": 0.00029209679870191005, + "loss": 0.4824, + "step": 78290 + }, + { + "epoch": 208.8, + "grad_norm": 0.3203125, + "learning_rate": 0.00029209478465271857, + "loss": 0.4701, + "step": 78300 + }, + { + "epoch": 208.82666666666665, + "grad_norm": 0.3828125, + "learning_rate": 0.0002920927703538754, + "loss": 0.4646, + "step": 78310 + }, + { + "epoch": 208.85333333333332, + "grad_norm": 0.333984375, + "learning_rate": 0.000292090755805384, + "loss": 0.4729, + "step": 78320 + }, + { + "epoch": 208.88, + "grad_norm": 0.294921875, + "learning_rate": 0.00029208874100724794, + "loss": 0.4617, + "step": 78330 + }, + { + "epoch": 208.90666666666667, + "grad_norm": 0.419921875, + "learning_rate": 0.00029208672595947076, + "loss": 0.4643, + "step": 78340 + }, + { + "epoch": 208.93333333333334, + "grad_norm": 0.259765625, + "learning_rate": 0.00029208471066205597, + "loss": 0.4659, + "step": 78350 + }, + { + "epoch": 208.96, + "grad_norm": 0.2490234375, + "learning_rate": 0.00029208269511500715, + "loss": 0.4637, + "step": 78360 + }, + { + "epoch": 208.98666666666668, + "grad_norm": 0.3359375, + "learning_rate": 0.00029208067931832784, + "loss": 0.4776, + "step": 78370 + }, + { + "epoch": 209.0, + "eval_loss": 0.47980669140815735, + "eval_model_preparation_time": 0.0016, + "eval_runtime": 10.2353, + "eval_samples_per_second": 1.563, + "eval_steps_per_second": 0.098, + "step": 78375 + } + ], + "logging_steps": 10, + "max_steps": 750000, + "num_input_tokens_seen": 0, + "num_train_epochs": 2000, + "save_steps": 500, + "stateful_callbacks": { + "TrainerControl": { + "args": { + "should_epoch_stop": false, + "should_evaluate": false, + "should_log": false, + "should_save": true, + "should_training_stop": false + }, + "attributes": {} + } + }, + "total_flos": 0.0, + "train_batch_size": 64, + "trial_name": null, + "trial_params": null +}