| { |
| "best_global_step": null, |
| "best_metric": null, |
| "best_model_checkpoint": null, |
| "epoch": 3.0, |
| "eval_steps": 500, |
| "global_step": 1800, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.016666666666666666, |
| "grad_norm": 0.0, |
| "learning_rate": 5.000000000000001e-07, |
| "loss": 2.9877, |
| "step": 10 |
| }, |
| { |
| "epoch": 0.03333333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 1.0555555555555557e-06, |
| "loss": 3.129, |
| "step": 20 |
| }, |
| { |
| "epoch": 0.05, |
| "grad_norm": 0.0, |
| "learning_rate": 1.6111111111111113e-06, |
| "loss": 2.9101, |
| "step": 30 |
| }, |
| { |
| "epoch": 0.06666666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 2.166666666666667e-06, |
| "loss": 3.0569, |
| "step": 40 |
| }, |
| { |
| "epoch": 0.08333333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 2.7222222222222224e-06, |
| "loss": 2.8046, |
| "step": 50 |
| }, |
| { |
| "epoch": 0.1, |
| "grad_norm": 0.0, |
| "learning_rate": 3.277777777777778e-06, |
| "loss": 2.9602, |
| "step": 60 |
| }, |
| { |
| "epoch": 0.11666666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 3.833333333333334e-06, |
| "loss": 2.8895, |
| "step": 70 |
| }, |
| { |
| "epoch": 0.13333333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 4.388888888888889e-06, |
| "loss": 2.7079, |
| "step": 80 |
| }, |
| { |
| "epoch": 0.15, |
| "grad_norm": 0.0, |
| "learning_rate": 4.944444444444445e-06, |
| "loss": 2.7067, |
| "step": 90 |
| }, |
| { |
| "epoch": 0.16666666666666666, |
| "grad_norm": 0.0, |
| "learning_rate": 5.500000000000001e-06, |
| "loss": 2.635, |
| "step": 100 |
| }, |
| { |
| "epoch": 0.18333333333333332, |
| "grad_norm": 0.0, |
| "learning_rate": 6.055555555555555e-06, |
| "loss": 2.6457, |
| "step": 110 |
| }, |
| { |
| "epoch": 0.2, |
| "grad_norm": 0.0, |
| "learning_rate": 6.6111111111111115e-06, |
| "loss": 2.6298, |
| "step": 120 |
| }, |
| { |
| "epoch": 0.21666666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 7.166666666666667e-06, |
| "loss": 2.3245, |
| "step": 130 |
| }, |
| { |
| "epoch": 0.23333333333333334, |
| "grad_norm": 0.0, |
| "learning_rate": 7.722222222222223e-06, |
| "loss": 2.642, |
| "step": 140 |
| }, |
| { |
| "epoch": 0.25, |
| "grad_norm": 0.0, |
| "learning_rate": 8.277777777777778e-06, |
| "loss": 2.3726, |
| "step": 150 |
| }, |
| { |
| "epoch": 0.26666666666666666, |
| "grad_norm": 0.0, |
| "learning_rate": 8.833333333333334e-06, |
| "loss": 2.306, |
| "step": 160 |
| }, |
| { |
| "epoch": 0.2833333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 9.38888888888889e-06, |
| "loss": 2.3847, |
| "step": 170 |
| }, |
| { |
| "epoch": 0.3, |
| "grad_norm": 0.0, |
| "learning_rate": 9.944444444444445e-06, |
| "loss": 2.1908, |
| "step": 180 |
| }, |
| { |
| "epoch": 0.31666666666666665, |
| "grad_norm": 0.0, |
| "learning_rate": 9.999238475781957e-06, |
| "loss": 2.1863, |
| "step": 190 |
| }, |
| { |
| "epoch": 0.3333333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 9.996606344196312e-06, |
| "loss": 2.0846, |
| "step": 200 |
| }, |
| { |
| "epoch": 0.35, |
| "grad_norm": 0.0, |
| "learning_rate": 9.992095193310835e-06, |
| "loss": 2.0281, |
| "step": 210 |
| }, |
| { |
| "epoch": 0.36666666666666664, |
| "grad_norm": 0.0, |
| "learning_rate": 9.985706719584888e-06, |
| "loss": 2.0399, |
| "step": 220 |
| }, |
| { |
| "epoch": 0.38333333333333336, |
| "grad_norm": 0.0, |
| "learning_rate": 9.977443325462166e-06, |
| "loss": 2.1519, |
| "step": 230 |
| }, |
| { |
| "epoch": 0.4, |
| "grad_norm": 0.0, |
| "learning_rate": 9.967308118467252e-06, |
| "loss": 2.123, |
| "step": 240 |
| }, |
| { |
| "epoch": 0.4166666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 9.955304910036993e-06, |
| "loss": 1.8923, |
| "step": 250 |
| }, |
| { |
| "epoch": 0.43333333333333335, |
| "grad_norm": 0.0, |
| "learning_rate": 9.941438214087191e-06, |
| "loss": 1.9138, |
| "step": 260 |
| }, |
| { |
| "epoch": 0.45, |
| "grad_norm": 0.0, |
| "learning_rate": 9.925713245315083e-06, |
| "loss": 1.9404, |
| "step": 270 |
| }, |
| { |
| "epoch": 0.4666666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 9.908135917238321e-06, |
| "loss": 1.9578, |
| "step": 280 |
| }, |
| { |
| "epoch": 0.48333333333333334, |
| "grad_norm": 0.0, |
| "learning_rate": 9.888712839971132e-06, |
| "loss": 1.9495, |
| "step": 290 |
| }, |
| { |
| "epoch": 0.5, |
| "grad_norm": 0.0, |
| "learning_rate": 9.867451317738534e-06, |
| "loss": 1.8824, |
| "step": 300 |
| }, |
| { |
| "epoch": 0.5166666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 9.844359346129504e-06, |
| "loss": 1.8106, |
| "step": 310 |
| }, |
| { |
| "epoch": 0.5333333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 9.819445609090174e-06, |
| "loss": 1.9667, |
| "step": 320 |
| }, |
| { |
| "epoch": 0.55, |
| "grad_norm": 0.0, |
| "learning_rate": 9.792719475658144e-06, |
| "loss": 1.8593, |
| "step": 330 |
| }, |
| { |
| "epoch": 0.5666666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 9.764190996439181e-06, |
| "loss": 1.7163, |
| "step": 340 |
| }, |
| { |
| "epoch": 0.5833333333333334, |
| "grad_norm": 0.0, |
| "learning_rate": 9.73387089982759e-06, |
| "loss": 1.9633, |
| "step": 350 |
| }, |
| { |
| "epoch": 0.6, |
| "grad_norm": 0.0, |
| "learning_rate": 9.701770587971705e-06, |
| "loss": 1.8991, |
| "step": 360 |
| }, |
| { |
| "epoch": 0.6166666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 9.667902132486009e-06, |
| "loss": 1.8535, |
| "step": 370 |
| }, |
| { |
| "epoch": 0.6333333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 9.632278269911493e-06, |
| "loss": 1.757, |
| "step": 380 |
| }, |
| { |
| "epoch": 0.65, |
| "grad_norm": 0.0, |
| "learning_rate": 9.594912396925958e-06, |
| "loss": 1.9015, |
| "step": 390 |
| }, |
| { |
| "epoch": 0.6666666666666666, |
| "grad_norm": 0.0, |
| "learning_rate": 9.555818565306086e-06, |
| "loss": 1.7267, |
| "step": 400 |
| }, |
| { |
| "epoch": 0.6833333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 9.515011476643127e-06, |
| "loss": 1.9967, |
| "step": 410 |
| }, |
| { |
| "epoch": 0.7, |
| "grad_norm": 0.0, |
| "learning_rate": 9.472506476814239e-06, |
| "loss": 1.8159, |
| "step": 420 |
| }, |
| { |
| "epoch": 0.7166666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 9.428319550211531e-06, |
| "loss": 1.8461, |
| "step": 430 |
| }, |
| { |
| "epoch": 0.7333333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 9.382467313730985e-06, |
| "loss": 1.7323, |
| "step": 440 |
| }, |
| { |
| "epoch": 0.75, |
| "grad_norm": 0.0, |
| "learning_rate": 9.334967010523523e-06, |
| "loss": 1.6891, |
| "step": 450 |
| }, |
| { |
| "epoch": 0.7666666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 9.285836503510562e-06, |
| "loss": 1.8658, |
| "step": 460 |
| }, |
| { |
| "epoch": 0.7833333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 9.235094268666499e-06, |
| "loss": 1.9814, |
| "step": 470 |
| }, |
| { |
| "epoch": 0.8, |
| "grad_norm": 0.0, |
| "learning_rate": 9.18275938807065e-06, |
| "loss": 1.7237, |
| "step": 480 |
| }, |
| { |
| "epoch": 0.8166666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 9.128851542731271e-06, |
| "loss": 1.741, |
| "step": 490 |
| }, |
| { |
| "epoch": 0.8333333333333334, |
| "grad_norm": 0.0, |
| "learning_rate": 9.073391005184325e-06, |
| "loss": 1.686, |
| "step": 500 |
| }, |
| { |
| "epoch": 0.85, |
| "grad_norm": 0.0, |
| "learning_rate": 9.016398631869811e-06, |
| "loss": 1.6263, |
| "step": 510 |
| }, |
| { |
| "epoch": 0.8666666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 8.957895855288517e-06, |
| "loss": 1.6579, |
| "step": 520 |
| }, |
| { |
| "epoch": 0.8833333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 8.897904675942129e-06, |
| "loss": 1.8816, |
| "step": 530 |
| }, |
| { |
| "epoch": 0.9, |
| "grad_norm": 0.0, |
| "learning_rate": 8.836447654059734e-06, |
| "loss": 1.6835, |
| "step": 540 |
| }, |
| { |
| "epoch": 0.9166666666666666, |
| "grad_norm": 0.0, |
| "learning_rate": 8.773547901113862e-06, |
| "loss": 1.6284, |
| "step": 550 |
| }, |
| { |
| "epoch": 0.9333333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 8.709229071129177e-06, |
| "loss": 1.7371, |
| "step": 560 |
| }, |
| { |
| "epoch": 0.95, |
| "grad_norm": 0.0, |
| "learning_rate": 8.643515351787193e-06, |
| "loss": 1.7956, |
| "step": 570 |
| }, |
| { |
| "epoch": 0.9666666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 8.576431455330258e-06, |
| "loss": 1.8067, |
| "step": 580 |
| }, |
| { |
| "epoch": 0.9833333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 8.508002609268303e-06, |
| "loss": 1.7246, |
| "step": 590 |
| }, |
| { |
| "epoch": 1.0, |
| "grad_norm": 0.0, |
| "learning_rate": 8.438254546891792e-06, |
| "loss": 1.7543, |
| "step": 600 |
| }, |
| { |
| "epoch": 1.0166666666666666, |
| "grad_norm": 0.0, |
| "learning_rate": 8.367213497594501e-06, |
| "loss": 1.6013, |
| "step": 610 |
| }, |
| { |
| "epoch": 1.0333333333333334, |
| "grad_norm": 0.0, |
| "learning_rate": 8.294906177009707e-06, |
| "loss": 1.7519, |
| "step": 620 |
| }, |
| { |
| "epoch": 1.05, |
| "grad_norm": 0.0, |
| "learning_rate": 8.221359776963526e-06, |
| "loss": 1.7216, |
| "step": 630 |
| }, |
| { |
| "epoch": 1.0666666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 8.146601955249187e-06, |
| "loss": 1.7506, |
| "step": 640 |
| }, |
| { |
| "epoch": 1.0833333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 8.07066082522607e-06, |
| "loss": 1.7006, |
| "step": 650 |
| }, |
| { |
| "epoch": 1.1, |
| "grad_norm": 0.0, |
| "learning_rate": 7.99356494524741e-06, |
| "loss": 1.777, |
| "step": 660 |
| }, |
| { |
| "epoch": 1.1166666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 7.915343307920674e-06, |
| "loss": 1.6408, |
| "step": 670 |
| }, |
| { |
| "epoch": 1.1333333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 7.836025329204635e-06, |
| "loss": 1.6066, |
| "step": 680 |
| }, |
| { |
| "epoch": 1.15, |
| "grad_norm": 0.0, |
| "learning_rate": 7.755640837347215e-06, |
| "loss": 1.7358, |
| "step": 690 |
| }, |
| { |
| "epoch": 1.1666666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 7.674220061668323e-06, |
| "loss": 1.6003, |
| "step": 700 |
| }, |
| { |
| "epoch": 1.1833333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 7.5917936211918194e-06, |
| "loss": 1.7183, |
| "step": 710 |
| }, |
| { |
| "epoch": 1.2, |
| "grad_norm": 0.0, |
| "learning_rate": 7.5083925131309795e-06, |
| "loss": 1.5772, |
| "step": 720 |
| }, |
| { |
| "epoch": 1.2166666666666668, |
| "grad_norm": 0.0, |
| "learning_rate": 7.424048101231687e-06, |
| "loss": 1.6584, |
| "step": 730 |
| }, |
| { |
| "epoch": 1.2333333333333334, |
| "grad_norm": 0.0, |
| "learning_rate": 7.3387921039778205e-06, |
| "loss": 1.6378, |
| "step": 740 |
| }, |
| { |
| "epoch": 1.25, |
| "grad_norm": 0.0, |
| "learning_rate": 7.252656582663236e-06, |
| "loss": 1.6545, |
| "step": 750 |
| }, |
| { |
| "epoch": 1.2666666666666666, |
| "grad_norm": 0.0, |
| "learning_rate": 7.165673929334816e-06, |
| "loss": 1.6854, |
| "step": 760 |
| }, |
| { |
| "epoch": 1.2833333333333332, |
| "grad_norm": 0.0, |
| "learning_rate": 7.077876854611145e-06, |
| "loss": 1.6829, |
| "step": 770 |
| }, |
| { |
| "epoch": 1.3, |
| "grad_norm": 0.0, |
| "learning_rate": 6.98929837538139e-06, |
| "loss": 1.6246, |
| "step": 780 |
| }, |
| { |
| "epoch": 1.3166666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 6.8999718023889965e-06, |
| "loss": 1.4887, |
| "step": 790 |
| }, |
| { |
| "epoch": 1.3333333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 6.8099307277048745e-06, |
| "loss": 1.6448, |
| "step": 800 |
| }, |
| { |
| "epoch": 1.35, |
| "grad_norm": 0.0, |
| "learning_rate": 6.719209012094806e-06, |
| "loss": 1.7657, |
| "step": 810 |
| }, |
| { |
| "epoch": 1.3666666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 6.627840772285784e-06, |
| "loss": 1.7253, |
| "step": 820 |
| }, |
| { |
| "epoch": 1.3833333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 6.535860368136115e-06, |
| "loss": 1.6629, |
| "step": 830 |
| }, |
| { |
| "epoch": 1.4, |
| "grad_norm": 0.0, |
| "learning_rate": 6.443302389714075e-06, |
| "loss": 1.5606, |
| "step": 840 |
| }, |
| { |
| "epoch": 1.4166666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 6.350201644290005e-06, |
| "loss": 1.6424, |
| "step": 850 |
| }, |
| { |
| "epoch": 1.4333333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 6.256593143246718e-06, |
| "loss": 1.5639, |
| "step": 860 |
| }, |
| { |
| "epoch": 1.45, |
| "grad_norm": 0.0, |
| "learning_rate": 6.1625120889131495e-06, |
| "loss": 1.7215, |
| "step": 870 |
| }, |
| { |
| "epoch": 1.4666666666666668, |
| "grad_norm": 0.0, |
| "learning_rate": 6.0679938613262015e-06, |
| "loss": 1.6174, |
| "step": 880 |
| }, |
| { |
| "epoch": 1.4833333333333334, |
| "grad_norm": 0.0, |
| "learning_rate": 5.973074004925755e-06, |
| "loss": 1.5025, |
| "step": 890 |
| }, |
| { |
| "epoch": 1.5, |
| "grad_norm": 0.0, |
| "learning_rate": 5.877788215187868e-06, |
| "loss": 1.4895, |
| "step": 900 |
| }, |
| { |
| "epoch": 1.5166666666666666, |
| "grad_norm": 0.0, |
| "learning_rate": 5.782172325201155e-06, |
| "loss": 1.6854, |
| "step": 910 |
| }, |
| { |
| "epoch": 1.5333333333333332, |
| "grad_norm": 0.0, |
| "learning_rate": 5.686262292191438e-06, |
| "loss": 1.7952, |
| "step": 920 |
| }, |
| { |
| "epoch": 1.55, |
| "grad_norm": 0.0, |
| "learning_rate": 5.590094183999698e-06, |
| "loss": 1.5405, |
| "step": 930 |
| }, |
| { |
| "epoch": 1.5666666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 5.493704165518439e-06, |
| "loss": 1.6868, |
| "step": 940 |
| }, |
| { |
| "epoch": 1.5833333333333335, |
| "grad_norm": 0.0, |
| "learning_rate": 5.397128485091552e-06, |
| "loss": 1.605, |
| "step": 950 |
| }, |
| { |
| "epoch": 1.6, |
| "grad_norm": 0.0, |
| "learning_rate": 5.300403460882784e-06, |
| "loss": 1.5853, |
| "step": 960 |
| }, |
| { |
| "epoch": 1.6166666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 5.20356546721798e-06, |
| "loss": 1.4803, |
| "step": 970 |
| }, |
| { |
| "epoch": 1.6333333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 5.106650920906172e-06, |
| "loss": 1.7047, |
| "step": 980 |
| }, |
| { |
| "epoch": 1.65, |
| "grad_norm": 0.0, |
| "learning_rate": 5.009696267544716e-06, |
| "loss": 1.5844, |
| "step": 990 |
| }, |
| { |
| "epoch": 1.6666666666666665, |
| "grad_norm": 0.0, |
| "learning_rate": 4.9127379678135825e-06, |
| "loss": 1.5758, |
| "step": 1000 |
| }, |
| { |
| "epoch": 1.6833333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 4.815812483764e-06, |
| "loss": 1.5316, |
| "step": 1010 |
| }, |
| { |
| "epoch": 1.7, |
| "grad_norm": 0.0, |
| "learning_rate": 4.718956265106557e-06, |
| "loss": 1.565, |
| "step": 1020 |
| }, |
| { |
| "epoch": 1.7166666666666668, |
| "grad_norm": 0.0, |
| "learning_rate": 4.6222057355039614e-06, |
| "loss": 1.619, |
| "step": 1030 |
| }, |
| { |
| "epoch": 1.7333333333333334, |
| "grad_norm": 0.0, |
| "learning_rate": 4.5255972788735874e-06, |
| "loss": 1.6388, |
| "step": 1040 |
| }, |
| { |
| "epoch": 1.75, |
| "grad_norm": 0.0, |
| "learning_rate": 4.42916722570498e-06, |
| "loss": 1.506, |
| "step": 1050 |
| }, |
| { |
| "epoch": 1.7666666666666666, |
| "grad_norm": 0.0, |
| "learning_rate": 4.3329518393974365e-06, |
| "loss": 1.5511, |
| "step": 1060 |
| }, |
| { |
| "epoch": 1.7833333333333332, |
| "grad_norm": 0.0, |
| "learning_rate": 4.236987302622826e-06, |
| "loss": 1.5129, |
| "step": 1070 |
| }, |
| { |
| "epoch": 1.8, |
| "grad_norm": 0.0, |
| "learning_rate": 4.141309703718766e-06, |
| "loss": 1.649, |
| "step": 1080 |
| }, |
| { |
| "epoch": 1.8166666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 4.045955023117276e-06, |
| "loss": 1.7907, |
| "step": 1090 |
| }, |
| { |
| "epoch": 1.8333333333333335, |
| "grad_norm": 0.0, |
| "learning_rate": 3.9509591198140135e-06, |
| "loss": 1.7186, |
| "step": 1100 |
| }, |
| { |
| "epoch": 1.85, |
| "grad_norm": 0.0, |
| "learning_rate": 3.856357717883161e-06, |
| "loss": 1.6951, |
| "step": 1110 |
| }, |
| { |
| "epoch": 1.8666666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 3.7621863930430715e-06, |
| "loss": 1.6733, |
| "step": 1120 |
| }, |
| { |
| "epoch": 1.8833333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 3.6684805592776896e-06, |
| "loss": 1.669, |
| "step": 1130 |
| }, |
| { |
| "epoch": 1.9, |
| "grad_norm": 0.0, |
| "learning_rate": 3.5752754555188105e-06, |
| "loss": 1.6956, |
| "step": 1140 |
| }, |
| { |
| "epoch": 1.9166666666666665, |
| "grad_norm": 0.0, |
| "learning_rate": 3.4826061323941483e-06, |
| "loss": 1.5749, |
| "step": 1150 |
| }, |
| { |
| "epoch": 1.9333333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 3.39050743904623e-06, |
| "loss": 1.6086, |
| "step": 1160 |
| }, |
| { |
| "epoch": 1.95, |
| "grad_norm": 0.0, |
| "learning_rate": 3.299014010027064e-06, |
| "loss": 1.6783, |
| "step": 1170 |
| }, |
| { |
| "epoch": 1.9666666666666668, |
| "grad_norm": 0.0, |
| "learning_rate": 3.2081602522734987e-06, |
| "loss": 1.6407, |
| "step": 1180 |
| }, |
| { |
| "epoch": 1.9833333333333334, |
| "grad_norm": 0.0, |
| "learning_rate": 3.1179803321681795e-06, |
| "loss": 1.6573, |
| "step": 1190 |
| }, |
| { |
| "epoch": 2.0, |
| "grad_norm": 0.0, |
| "learning_rate": 3.028508162690967e-06, |
| "loss": 1.6174, |
| "step": 1200 |
| }, |
| { |
| "epoch": 2.0166666666666666, |
| "grad_norm": 0.0, |
| "learning_rate": 2.9397773906656584e-06, |
| "loss": 1.5696, |
| "step": 1210 |
| }, |
| { |
| "epoch": 2.033333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 2.851821384106791e-06, |
| "loss": 1.717, |
| "step": 1220 |
| }, |
| { |
| "epoch": 2.05, |
| "grad_norm": 0.0, |
| "learning_rate": 2.7646732196712977e-06, |
| "loss": 1.6154, |
| "step": 1230 |
| }, |
| { |
| "epoch": 2.066666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 2.678365670219716e-06, |
| "loss": 1.5411, |
| "step": 1240 |
| }, |
| { |
| "epoch": 2.0833333333333335, |
| "grad_norm": 0.0, |
| "learning_rate": 2.59293119249168e-06, |
| "loss": 1.5662, |
| "step": 1250 |
| }, |
| { |
| "epoch": 2.1, |
| "grad_norm": 0.0, |
| "learning_rate": 2.508401914900249e-06, |
| "loss": 1.7711, |
| "step": 1260 |
| }, |
| { |
| "epoch": 2.1166666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 2.424809625449729e-06, |
| "loss": 1.5352, |
| "step": 1270 |
| }, |
| { |
| "epoch": 2.1333333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 2.342185759781511e-06, |
| "loss": 1.7226, |
| "step": 1280 |
| }, |
| { |
| "epoch": 2.15, |
| "grad_norm": 0.0, |
| "learning_rate": 2.260561389352401e-06, |
| "loss": 1.6393, |
| "step": 1290 |
| }, |
| { |
| "epoch": 2.1666666666666665, |
| "grad_norm": 0.0, |
| "learning_rate": 2.1799672097499293e-06, |
| "loss": 1.8361, |
| "step": 1300 |
| }, |
| { |
| "epoch": 2.183333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 2.1004335291489793e-06, |
| "loss": 1.5769, |
| "step": 1310 |
| }, |
| { |
| "epoch": 2.2, |
| "grad_norm": 0.0, |
| "learning_rate": 2.0219902569141405e-06, |
| "loss": 1.4862, |
| "step": 1320 |
| }, |
| { |
| "epoch": 2.216666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 1.9446668923520014e-06, |
| "loss": 1.4817, |
| "step": 1330 |
| }, |
| { |
| "epoch": 2.2333333333333334, |
| "grad_norm": 0.0, |
| "learning_rate": 1.8684925136176836e-06, |
| "loss": 1.6156, |
| "step": 1340 |
| }, |
| { |
| "epoch": 2.25, |
| "grad_norm": 0.0, |
| "learning_rate": 1.7934957667797226e-06, |
| "loss": 1.7654, |
| "step": 1350 |
| }, |
| { |
| "epoch": 2.2666666666666666, |
| "grad_norm": 0.0, |
| "learning_rate": 1.7197048550474643e-06, |
| "loss": 1.643, |
| "step": 1360 |
| }, |
| { |
| "epoch": 2.283333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 1.6471475281649818e-06, |
| "loss": 1.6578, |
| "step": 1370 |
| }, |
| { |
| "epoch": 2.3, |
| "grad_norm": 0.0, |
| "learning_rate": 1.575851071975541e-06, |
| "loss": 1.6504, |
| "step": 1380 |
| }, |
| { |
| "epoch": 2.3166666666666664, |
| "grad_norm": 0.0, |
| "learning_rate": 1.5058422981604998e-06, |
| "loss": 1.5817, |
| "step": 1390 |
| }, |
| { |
| "epoch": 2.3333333333333335, |
| "grad_norm": 0.0, |
| "learning_rate": 1.4371475341565455e-06, |
| "loss": 1.5962, |
| "step": 1400 |
| }, |
| { |
| "epoch": 2.35, |
| "grad_norm": 0.0, |
| "learning_rate": 1.3697926132550054e-06, |
| "loss": 1.5721, |
| "step": 1410 |
| }, |
| { |
| "epoch": 2.3666666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 1.3038028648870204e-06, |
| "loss": 1.5445, |
| "step": 1420 |
| }, |
| { |
| "epoch": 2.3833333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 1.239203105098165e-06, |
| "loss": 1.6507, |
| "step": 1430 |
| }, |
| { |
| "epoch": 2.4, |
| "grad_norm": 0.0, |
| "learning_rate": 1.1760176272161627e-06, |
| "loss": 1.6059, |
| "step": 1440 |
| }, |
| { |
| "epoch": 2.4166666666666665, |
| "grad_norm": 0.0, |
| "learning_rate": 1.1142701927151456e-06, |
| "loss": 1.7077, |
| "step": 1450 |
| }, |
| { |
| "epoch": 2.4333333333333336, |
| "grad_norm": 0.0, |
| "learning_rate": 1.0539840222799463e-06, |
| "loss": 1.525, |
| "step": 1460 |
| }, |
| { |
| "epoch": 2.45, |
| "grad_norm": 0.0, |
| "learning_rate": 9.9518178707374e-07, |
| "loss": 1.427, |
| "step": 1470 |
| }, |
| { |
| "epoch": 2.466666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 9.378856002123549e-07, |
| "loss": 1.6869, |
| "step": 1480 |
| }, |
| { |
| "epoch": 2.4833333333333334, |
| "grad_norm": 0.0, |
| "learning_rate": 8.821170084484248e-07, |
| "loss": 1.68, |
| "step": 1490 |
| }, |
| { |
| "epoch": 2.5, |
| "grad_norm": 0.0, |
| "learning_rate": 8.278969840685458e-07, |
| "loss": 1.5864, |
| "step": 1500 |
| }, |
| { |
| "epoch": 2.5166666666666666, |
| "grad_norm": 0.0, |
| "learning_rate": 7.752459170064491e-07, |
| "loss": 1.7251, |
| "step": 1510 |
| }, |
| { |
| "epoch": 2.533333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 7.241836071751878e-07, |
| "loss": 1.6037, |
| "step": 1520 |
| }, |
| { |
| "epoch": 2.55, |
| "grad_norm": 0.0, |
| "learning_rate": 6.747292570211916e-07, |
| "loss": 1.5247, |
| "step": 1530 |
| }, |
| { |
| "epoch": 2.5666666666666664, |
| "grad_norm": 0.0, |
| "learning_rate": 6.269014643030214e-07, |
| "loss": 1.5429, |
| "step": 1540 |
| }, |
| { |
| "epoch": 2.5833333333333335, |
| "grad_norm": 0.0, |
| "learning_rate": 5.807182150975027e-07, |
| "loss": 1.6964, |
| "step": 1550 |
| }, |
| { |
| "epoch": 2.6, |
| "grad_norm": 0.0, |
| "learning_rate": 5.361968770359072e-07, |
| "loss": 1.6829, |
| "step": 1560 |
| }, |
| { |
| "epoch": 2.6166666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 4.933541927726887e-07, |
| "loss": 1.762, |
| "step": 1570 |
| }, |
| { |
| "epoch": 2.6333333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 4.522062736892635e-07, |
| "loss": 1.5168, |
| "step": 1580 |
| }, |
| { |
| "epoch": 2.65, |
| "grad_norm": 0.0, |
| "learning_rate": 4.1276859383516944e-07, |
| "loss": 1.407, |
| "step": 1590 |
| }, |
| { |
| "epoch": 2.6666666666666665, |
| "grad_norm": 0.0, |
| "learning_rate": 3.750559841089196e-07, |
| "loss": 1.5334, |
| "step": 1600 |
| }, |
| { |
| "epoch": 2.6833333333333336, |
| "grad_norm": 0.0, |
| "learning_rate": 3.390826266806985e-07, |
| "loss": 1.4347, |
| "step": 1610 |
| }, |
| { |
| "epoch": 2.7, |
| "grad_norm": 0.0, |
| "learning_rate": 3.0486204965903045e-07, |
| "loss": 1.5814, |
| "step": 1620 |
| }, |
| { |
| "epoch": 2.716666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 2.724071220034158e-07, |
| "loss": 1.5665, |
| "step": 1630 |
| }, |
| { |
| "epoch": 2.7333333333333334, |
| "grad_norm": 0.0, |
| "learning_rate": 2.417300486848373e-07, |
| "loss": 1.632, |
| "step": 1640 |
| }, |
| { |
| "epoch": 2.75, |
| "grad_norm": 0.0, |
| "learning_rate": 2.1284236609596886e-07, |
| "loss": 1.5714, |
| "step": 1650 |
| }, |
| { |
| "epoch": 2.7666666666666666, |
| "grad_norm": 0.0, |
| "learning_rate": 1.8575493771281205e-07, |
| "loss": 1.4994, |
| "step": 1660 |
| }, |
| { |
| "epoch": 2.783333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 1.6047795000938782e-07, |
| "loss": 1.6055, |
| "step": 1670 |
| }, |
| { |
| "epoch": 2.8, |
| "grad_norm": 0.0, |
| "learning_rate": 1.3702090862701855e-07, |
| "loss": 1.5404, |
| "step": 1680 |
| }, |
| { |
| "epoch": 2.8166666666666664, |
| "grad_norm": 0.0, |
| "learning_rate": 1.1539263479964535e-07, |
| "loss": 1.4847, |
| "step": 1690 |
| }, |
| { |
| "epoch": 2.8333333333333335, |
| "grad_norm": 0.0, |
| "learning_rate": 9.560126203652265e-08, |
| "loss": 1.5359, |
| "step": 1700 |
| }, |
| { |
| "epoch": 2.85, |
| "grad_norm": 0.0, |
| "learning_rate": 7.765423306353881e-08, |
| "loss": 1.588, |
| "step": 1710 |
| }, |
| { |
| "epoch": 2.8666666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 6.15582970243117e-08, |
| "loss": 1.6081, |
| "step": 1720 |
| }, |
| { |
| "epoch": 2.8833333333333333, |
| "grad_norm": 0.0, |
| "learning_rate": 4.731950694210896e-08, |
| "loss": 1.547, |
| "step": 1730 |
| }, |
| { |
| "epoch": 2.9, |
| "grad_norm": 0.0, |
| "learning_rate": 3.494321744355767e-08, |
| "loss": 1.6584, |
| "step": 1740 |
| }, |
| { |
| "epoch": 2.9166666666666665, |
| "grad_norm": 0.0, |
| "learning_rate": 2.44340827449846e-08, |
| "loss": 1.6255, |
| "step": 1750 |
| }, |
| { |
| "epoch": 2.9333333333333336, |
| "grad_norm": 0.0, |
| "learning_rate": 1.5796054902157966e-08, |
| "loss": 1.5911, |
| "step": 1760 |
| }, |
| { |
| "epoch": 2.95, |
| "grad_norm": 0.0, |
| "learning_rate": 9.032382324080102e-09, |
| "loss": 1.6901, |
| "step": 1770 |
| }, |
| { |
| "epoch": 2.966666666666667, |
| "grad_norm": 0.0, |
| "learning_rate": 4.145608551393565e-09, |
| "loss": 1.7036, |
| "step": 1780 |
| }, |
| { |
| "epoch": 2.9833333333333334, |
| "grad_norm": 0.0, |
| "learning_rate": 1.1375712998595855e-09, |
| "loss": 1.5603, |
| "step": 1790 |
| }, |
| { |
| "epoch": 3.0, |
| "grad_norm": 0.0, |
| "learning_rate": 9.401769269223871e-12, |
| "loss": 1.4677, |
| "step": 1800 |
| }, |
| { |
| "epoch": 3.0, |
| "step": 1800, |
| "total_flos": 7663847750811648.0, |
| "train_loss": 1.781389741367764, |
| "train_runtime": 1214.2947, |
| "train_samples_per_second": 1.482, |
| "train_steps_per_second": 1.482 |
| } |
| ], |
| "logging_steps": 10, |
| "max_steps": 1800, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 3, |
| "save_steps": 900, |
| "stateful_callbacks": { |
| "TrainerControl": { |
| "args": { |
| "should_epoch_stop": false, |
| "should_evaluate": false, |
| "should_log": false, |
| "should_save": true, |
| "should_training_stop": true |
| }, |
| "attributes": {} |
| } |
| }, |
| "total_flos": 7663847750811648.0, |
| "train_batch_size": 1, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|