{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 770.8333333333334, "eval_steps": 500, "global_step": 18500, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.4166666666666667, "grad_norm": 5.740478992462158, "learning_rate": 1.8e-07, "loss": 0.7951, "step": 10 }, { "epoch": 0.8333333333333334, "grad_norm": 5.862501621246338, "learning_rate": 3.8e-07, "loss": 0.8016, "step": 20 }, { "epoch": 1.25, "grad_norm": 5.068476676940918, "learning_rate": 5.8e-07, "loss": 0.7822, "step": 30 }, { "epoch": 1.6666666666666665, "grad_norm": 5.152017593383789, "learning_rate": 7.8e-07, "loss": 0.7527, "step": 40 }, { "epoch": 2.0833333333333335, "grad_norm": 3.9537129402160645, "learning_rate": 9.8e-07, "loss": 0.6277, "step": 50 }, { "epoch": 2.5, "grad_norm": 2.4307284355163574, "learning_rate": 1.18e-06, "loss": 0.5417, "step": 60 }, { "epoch": 2.9166666666666665, "grad_norm": 1.9529294967651367, "learning_rate": 1.3800000000000001e-06, "loss": 0.4095, "step": 70 }, { "epoch": 3.3333333333333335, "grad_norm": 0.9228199124336243, "learning_rate": 1.5800000000000003e-06, "loss": 0.345, "step": 80 }, { "epoch": 3.75, "grad_norm": 0.5768983364105225, "learning_rate": 1.7800000000000001e-06, "loss": 0.2602, "step": 90 }, { "epoch": 4.166666666666667, "grad_norm": 0.4667142331600189, "learning_rate": 1.98e-06, "loss": 0.2163, "step": 100 }, { "epoch": 4.583333333333333, "grad_norm": 0.36808884143829346, "learning_rate": 2.1800000000000003e-06, "loss": 0.1893, "step": 110 }, { "epoch": 5.0, "grad_norm": 0.28724920749664307, "learning_rate": 2.38e-06, "loss": 0.1635, "step": 120 }, { "epoch": 5.416666666666667, "grad_norm": 0.287069171667099, "learning_rate": 2.5800000000000003e-06, "loss": 0.1502, "step": 130 }, { "epoch": 5.833333333333333, "grad_norm": 0.20702777802944183, "learning_rate": 2.78e-06, "loss": 0.1365, "step": 140 }, { "epoch": 6.25, "grad_norm": 0.2277001589536667, "learning_rate": 2.9800000000000003e-06, "loss": 0.1292, "step": 150 }, { "epoch": 6.666666666666667, "grad_norm": 0.18007512390613556, "learning_rate": 3.1800000000000005e-06, "loss": 0.1201, "step": 160 }, { "epoch": 7.083333333333333, "grad_norm": 0.15249887108802795, "learning_rate": 3.38e-06, "loss": 0.1109, "step": 170 }, { "epoch": 7.5, "grad_norm": 0.14842407405376434, "learning_rate": 3.58e-06, "loss": 0.1013, "step": 180 }, { "epoch": 7.916666666666667, "grad_norm": 0.13299155235290527, "learning_rate": 3.7800000000000002e-06, "loss": 0.0999, "step": 190 }, { "epoch": 8.333333333333334, "grad_norm": 0.13897691667079926, "learning_rate": 3.98e-06, "loss": 0.0933, "step": 200 }, { "epoch": 8.75, "grad_norm": 0.14800435304641724, "learning_rate": 4.18e-06, "loss": 0.0856, "step": 210 }, { "epoch": 9.166666666666666, "grad_norm": 0.1840832233428955, "learning_rate": 4.38e-06, "loss": 0.0849, "step": 220 }, { "epoch": 9.583333333333334, "grad_norm": 0.1340949535369873, "learning_rate": 4.58e-06, "loss": 0.0802, "step": 230 }, { "epoch": 10.0, "grad_norm": 0.15770617127418518, "learning_rate": 4.780000000000001e-06, "loss": 0.0764, "step": 240 }, { "epoch": 10.416666666666666, "grad_norm": 0.16810381412506104, "learning_rate": 4.98e-06, "loss": 0.072, "step": 250 }, { "epoch": 10.833333333333334, "grad_norm": 0.14586704969406128, "learning_rate": 5.18e-06, "loss": 0.0673, "step": 260 }, { "epoch": 11.25, "grad_norm": 0.1528373509645462, "learning_rate": 5.38e-06, "loss": 0.0624, "step": 270 }, { "epoch": 11.666666666666666, "grad_norm": 0.11804750561714172, "learning_rate": 5.580000000000001e-06, "loss": 0.0585, "step": 280 }, { "epoch": 12.083333333333334, "grad_norm": 0.17190444469451904, "learning_rate": 5.78e-06, "loss": 0.0576, "step": 290 }, { "epoch": 12.5, "grad_norm": 0.19890783727169037, "learning_rate": 5.98e-06, "loss": 0.0556, "step": 300 }, { "epoch": 12.916666666666666, "grad_norm": 0.12283707410097122, "learning_rate": 6.18e-06, "loss": 0.0517, "step": 310 }, { "epoch": 13.333333333333334, "grad_norm": 0.15836700797080994, "learning_rate": 6.38e-06, "loss": 0.0492, "step": 320 }, { "epoch": 13.75, "grad_norm": 0.12739057838916779, "learning_rate": 6.58e-06, "loss": 0.0462, "step": 330 }, { "epoch": 14.166666666666666, "grad_norm": 0.10791266709566116, "learning_rate": 6.78e-06, "loss": 0.0471, "step": 340 }, { "epoch": 14.583333333333334, "grad_norm": 0.15455122292041779, "learning_rate": 6.98e-06, "loss": 0.0425, "step": 350 }, { "epoch": 15.0, "grad_norm": 0.18199031054973602, "learning_rate": 7.180000000000001e-06, "loss": 0.0399, "step": 360 }, { "epoch": 15.416666666666666, "grad_norm": 0.187696173787117, "learning_rate": 7.3800000000000005e-06, "loss": 0.0406, "step": 370 }, { "epoch": 15.833333333333334, "grad_norm": 0.16889560222625732, "learning_rate": 7.580000000000001e-06, "loss": 0.0381, "step": 380 }, { "epoch": 16.25, "grad_norm": 0.21637441217899323, "learning_rate": 7.78e-06, "loss": 0.0391, "step": 390 }, { "epoch": 16.666666666666668, "grad_norm": 0.18238098919391632, "learning_rate": 7.98e-06, "loss": 0.0369, "step": 400 }, { "epoch": 17.083333333333332, "grad_norm": 0.14800411462783813, "learning_rate": 8.18e-06, "loss": 0.0333, "step": 410 }, { "epoch": 17.5, "grad_norm": 0.13294579088687897, "learning_rate": 8.380000000000001e-06, "loss": 0.0323, "step": 420 }, { "epoch": 17.916666666666668, "grad_norm": 0.14275342226028442, "learning_rate": 8.580000000000001e-06, "loss": 0.0345, "step": 430 }, { "epoch": 18.333333333333332, "grad_norm": 0.10685659199953079, "learning_rate": 8.78e-06, "loss": 0.0319, "step": 440 }, { "epoch": 18.75, "grad_norm": 0.1303527057170868, "learning_rate": 8.98e-06, "loss": 0.0328, "step": 450 }, { "epoch": 19.166666666666668, "grad_norm": 0.1673213094472885, "learning_rate": 9.180000000000002e-06, "loss": 0.0299, "step": 460 }, { "epoch": 19.583333333333332, "grad_norm": 0.12814009189605713, "learning_rate": 9.38e-06, "loss": 0.0301, "step": 470 }, { "epoch": 20.0, "grad_norm": 0.10341145843267441, "learning_rate": 9.58e-06, "loss": 0.029, "step": 480 }, { "epoch": 20.416666666666668, "grad_norm": 0.17058542370796204, "learning_rate": 9.78e-06, "loss": 0.0281, "step": 490 }, { "epoch": 20.833333333333332, "grad_norm": 0.1650737076997757, "learning_rate": 9.980000000000001e-06, "loss": 0.0284, "step": 500 }, { "epoch": 21.25, "grad_norm": 0.184984028339386, "learning_rate": 1.018e-05, "loss": 0.0271, "step": 510 }, { "epoch": 21.666666666666668, "grad_norm": 0.1688944548368454, "learning_rate": 1.038e-05, "loss": 0.0268, "step": 520 }, { "epoch": 22.083333333333332, "grad_norm": 0.17738111317157745, "learning_rate": 1.058e-05, "loss": 0.0262, "step": 530 }, { "epoch": 22.5, "grad_norm": 0.13795171678066254, "learning_rate": 1.0780000000000002e-05, "loss": 0.0254, "step": 540 }, { "epoch": 22.916666666666668, "grad_norm": 0.20657937228679657, "learning_rate": 1.098e-05, "loss": 0.025, "step": 550 }, { "epoch": 23.333333333333332, "grad_norm": 0.15069110691547394, "learning_rate": 1.118e-05, "loss": 0.025, "step": 560 }, { "epoch": 23.75, "grad_norm": 0.21978998184204102, "learning_rate": 1.1380000000000001e-05, "loss": 0.0245, "step": 570 }, { "epoch": 24.166666666666668, "grad_norm": 0.19124390184879303, "learning_rate": 1.1580000000000001e-05, "loss": 0.0241, "step": 580 }, { "epoch": 24.583333333333332, "grad_norm": 0.21759860217571259, "learning_rate": 1.178e-05, "loss": 0.0251, "step": 590 }, { "epoch": 25.0, "grad_norm": 0.1759680211544037, "learning_rate": 1.198e-05, "loss": 0.023, "step": 600 }, { "epoch": 25.416666666666668, "grad_norm": 0.20193730294704437, "learning_rate": 1.2180000000000002e-05, "loss": 0.024, "step": 610 }, { "epoch": 25.833333333333332, "grad_norm": 0.1646537333726883, "learning_rate": 1.238e-05, "loss": 0.0223, "step": 620 }, { "epoch": 26.25, "grad_norm": 0.18894889950752258, "learning_rate": 1.258e-05, "loss": 0.0232, "step": 630 }, { "epoch": 26.666666666666668, "grad_norm": 0.168576180934906, "learning_rate": 1.278e-05, "loss": 0.0228, "step": 640 }, { "epoch": 27.083333333333332, "grad_norm": 0.1776537448167801, "learning_rate": 1.2980000000000001e-05, "loss": 0.021, "step": 650 }, { "epoch": 27.5, "grad_norm": 0.20477493107318878, "learning_rate": 1.3180000000000001e-05, "loss": 0.0217, "step": 660 }, { "epoch": 27.916666666666668, "grad_norm": 0.21302567422389984, "learning_rate": 1.338e-05, "loss": 0.0212, "step": 670 }, { "epoch": 28.333333333333332, "grad_norm": 0.17719011008739471, "learning_rate": 1.358e-05, "loss": 0.0209, "step": 680 }, { "epoch": 28.75, "grad_norm": 0.17025204002857208, "learning_rate": 1.3780000000000002e-05, "loss": 0.0195, "step": 690 }, { "epoch": 29.166666666666668, "grad_norm": 0.21198809146881104, "learning_rate": 1.3980000000000002e-05, "loss": 0.0204, "step": 700 }, { "epoch": 29.583333333333332, "grad_norm": 0.1842021644115448, "learning_rate": 1.4180000000000001e-05, "loss": 0.0205, "step": 710 }, { "epoch": 30.0, "grad_norm": 0.2081296294927597, "learning_rate": 1.4380000000000001e-05, "loss": 0.0212, "step": 720 }, { "epoch": 30.416666666666668, "grad_norm": 0.15882325172424316, "learning_rate": 1.4580000000000003e-05, "loss": 0.0197, "step": 730 }, { "epoch": 30.833333333333332, "grad_norm": 0.1477033495903015, "learning_rate": 1.4779999999999999e-05, "loss": 0.0213, "step": 740 }, { "epoch": 31.25, "grad_norm": 0.1423533707857132, "learning_rate": 1.4979999999999999e-05, "loss": 0.0182, "step": 750 }, { "epoch": 31.666666666666668, "grad_norm": 0.17726728320121765, "learning_rate": 1.518e-05, "loss": 0.0183, "step": 760 }, { "epoch": 32.083333333333336, "grad_norm": 0.1688736230134964, "learning_rate": 1.538e-05, "loss": 0.0177, "step": 770 }, { "epoch": 32.5, "grad_norm": 0.18151170015335083, "learning_rate": 1.558e-05, "loss": 0.0191, "step": 780 }, { "epoch": 32.916666666666664, "grad_norm": 0.19027568399906158, "learning_rate": 1.578e-05, "loss": 0.0188, "step": 790 }, { "epoch": 33.333333333333336, "grad_norm": 0.16899177432060242, "learning_rate": 1.598e-05, "loss": 0.0179, "step": 800 }, { "epoch": 33.75, "grad_norm": 0.17636163532733917, "learning_rate": 1.618e-05, "loss": 0.0175, "step": 810 }, { "epoch": 34.166666666666664, "grad_norm": 0.20817317068576813, "learning_rate": 1.6380000000000002e-05, "loss": 0.018, "step": 820 }, { "epoch": 34.583333333333336, "grad_norm": 0.18893550336360931, "learning_rate": 1.658e-05, "loss": 0.0193, "step": 830 }, { "epoch": 35.0, "grad_norm": 0.1659182608127594, "learning_rate": 1.6780000000000002e-05, "loss": 0.0171, "step": 840 }, { "epoch": 35.416666666666664, "grad_norm": 0.18773430585861206, "learning_rate": 1.698e-05, "loss": 0.0174, "step": 850 }, { "epoch": 35.833333333333336, "grad_norm": 0.240842804312706, "learning_rate": 1.718e-05, "loss": 0.017, "step": 860 }, { "epoch": 36.25, "grad_norm": 0.1709396094083786, "learning_rate": 1.7380000000000003e-05, "loss": 0.0181, "step": 870 }, { "epoch": 36.666666666666664, "grad_norm": 0.20620118081569672, "learning_rate": 1.758e-05, "loss": 0.017, "step": 880 }, { "epoch": 37.083333333333336, "grad_norm": 0.21357163786888123, "learning_rate": 1.7780000000000003e-05, "loss": 0.017, "step": 890 }, { "epoch": 37.5, "grad_norm": 0.28342193365097046, "learning_rate": 1.798e-05, "loss": 0.0176, "step": 900 }, { "epoch": 37.916666666666664, "grad_norm": 0.17151182889938354, "learning_rate": 1.818e-05, "loss": 0.0156, "step": 910 }, { "epoch": 38.333333333333336, "grad_norm": 0.17745864391326904, "learning_rate": 1.838e-05, "loss": 0.0163, "step": 920 }, { "epoch": 38.75, "grad_norm": 0.21469832956790924, "learning_rate": 1.858e-05, "loss": 0.0166, "step": 930 }, { "epoch": 39.166666666666664, "grad_norm": 0.1828363984823227, "learning_rate": 1.878e-05, "loss": 0.016, "step": 940 }, { "epoch": 39.583333333333336, "grad_norm": 0.18542855978012085, "learning_rate": 1.898e-05, "loss": 0.0162, "step": 950 }, { "epoch": 40.0, "grad_norm": 0.17419277131557465, "learning_rate": 1.918e-05, "loss": 0.0151, "step": 960 }, { "epoch": 40.416666666666664, "grad_norm": 0.14752188324928284, "learning_rate": 1.938e-05, "loss": 0.0152, "step": 970 }, { "epoch": 40.833333333333336, "grad_norm": 0.23858501017093658, "learning_rate": 1.9580000000000002e-05, "loss": 0.0163, "step": 980 }, { "epoch": 41.25, "grad_norm": 0.2217205911874771, "learning_rate": 1.978e-05, "loss": 0.015, "step": 990 }, { "epoch": 41.666666666666664, "grad_norm": 0.23739871382713318, "learning_rate": 1.9980000000000002e-05, "loss": 0.018, "step": 1000 }, { "epoch": 42.083333333333336, "grad_norm": 0.20451177656650543, "learning_rate": 2.0180000000000003e-05, "loss": 0.015, "step": 1010 }, { "epoch": 42.5, "grad_norm": 0.1848699301481247, "learning_rate": 2.038e-05, "loss": 0.0142, "step": 1020 }, { "epoch": 42.916666666666664, "grad_norm": 0.19055324792861938, "learning_rate": 2.0580000000000003e-05, "loss": 0.0152, "step": 1030 }, { "epoch": 43.333333333333336, "grad_norm": 0.2585604190826416, "learning_rate": 2.078e-05, "loss": 0.0153, "step": 1040 }, { "epoch": 43.75, "grad_norm": 0.1528729349374771, "learning_rate": 2.098e-05, "loss": 0.0141, "step": 1050 }, { "epoch": 44.166666666666664, "grad_norm": 0.1598677784204483, "learning_rate": 2.118e-05, "loss": 0.0137, "step": 1060 }, { "epoch": 44.583333333333336, "grad_norm": 0.201243057847023, "learning_rate": 2.138e-05, "loss": 0.0138, "step": 1070 }, { "epoch": 45.0, "grad_norm": 0.14445365965366364, "learning_rate": 2.158e-05, "loss": 0.0142, "step": 1080 }, { "epoch": 45.416666666666664, "grad_norm": 0.18873733282089233, "learning_rate": 2.178e-05, "loss": 0.0142, "step": 1090 }, { "epoch": 45.833333333333336, "grad_norm": 0.23692800104618073, "learning_rate": 2.198e-05, "loss": 0.015, "step": 1100 }, { "epoch": 46.25, "grad_norm": 0.176979660987854, "learning_rate": 2.218e-05, "loss": 0.0141, "step": 1110 }, { "epoch": 46.666666666666664, "grad_norm": 0.22854366898536682, "learning_rate": 2.2380000000000003e-05, "loss": 0.0136, "step": 1120 }, { "epoch": 47.083333333333336, "grad_norm": 0.21886944770812988, "learning_rate": 2.258e-05, "loss": 0.0132, "step": 1130 }, { "epoch": 47.5, "grad_norm": 0.17120172083377838, "learning_rate": 2.2780000000000002e-05, "loss": 0.0135, "step": 1140 }, { "epoch": 47.916666666666664, "grad_norm": 0.19678007066249847, "learning_rate": 2.298e-05, "loss": 0.014, "step": 1150 }, { "epoch": 48.333333333333336, "grad_norm": 0.25066035985946655, "learning_rate": 2.318e-05, "loss": 0.0136, "step": 1160 }, { "epoch": 48.75, "grad_norm": 0.17179696261882782, "learning_rate": 2.3380000000000003e-05, "loss": 0.0138, "step": 1170 }, { "epoch": 49.166666666666664, "grad_norm": 0.20168006420135498, "learning_rate": 2.358e-05, "loss": 0.0143, "step": 1180 }, { "epoch": 49.583333333333336, "grad_norm": 0.21389836072921753, "learning_rate": 2.3780000000000003e-05, "loss": 0.0143, "step": 1190 }, { "epoch": 50.0, "grad_norm": 0.22559472918510437, "learning_rate": 2.398e-05, "loss": 0.0142, "step": 1200 }, { "epoch": 50.416666666666664, "grad_norm": 0.20814311504364014, "learning_rate": 2.418e-05, "loss": 0.0143, "step": 1210 }, { "epoch": 50.833333333333336, "grad_norm": 0.24379152059555054, "learning_rate": 2.438e-05, "loss": 0.0134, "step": 1220 }, { "epoch": 51.25, "grad_norm": 0.17206354439258575, "learning_rate": 2.4580000000000002e-05, "loss": 0.0133, "step": 1230 }, { "epoch": 51.666666666666664, "grad_norm": 0.1611321121454239, "learning_rate": 2.478e-05, "loss": 0.0146, "step": 1240 }, { "epoch": 52.083333333333336, "grad_norm": 0.27738988399505615, "learning_rate": 2.498e-05, "loss": 0.0134, "step": 1250 }, { "epoch": 52.5, "grad_norm": 0.1893829107284546, "learning_rate": 2.5180000000000003e-05, "loss": 0.0138, "step": 1260 }, { "epoch": 52.916666666666664, "grad_norm": 0.22861990332603455, "learning_rate": 2.5380000000000004e-05, "loss": 0.0121, "step": 1270 }, { "epoch": 53.333333333333336, "grad_norm": 0.22290071845054626, "learning_rate": 2.5580000000000002e-05, "loss": 0.0126, "step": 1280 }, { "epoch": 53.75, "grad_norm": 0.2247861623764038, "learning_rate": 2.5779999999999997e-05, "loss": 0.0136, "step": 1290 }, { "epoch": 54.166666666666664, "grad_norm": 0.18826651573181152, "learning_rate": 2.598e-05, "loss": 0.0115, "step": 1300 }, { "epoch": 54.583333333333336, "grad_norm": 0.2488093376159668, "learning_rate": 2.618e-05, "loss": 0.0124, "step": 1310 }, { "epoch": 55.0, "grad_norm": 0.2168755829334259, "learning_rate": 2.6379999999999998e-05, "loss": 0.0128, "step": 1320 }, { "epoch": 55.416666666666664, "grad_norm": 0.27732932567596436, "learning_rate": 2.658e-05, "loss": 0.0118, "step": 1330 }, { "epoch": 55.833333333333336, "grad_norm": 0.2315637320280075, "learning_rate": 2.678e-05, "loss": 0.0119, "step": 1340 }, { "epoch": 56.25, "grad_norm": 0.20356470346450806, "learning_rate": 2.698e-05, "loss": 0.0118, "step": 1350 }, { "epoch": 56.666666666666664, "grad_norm": 0.20208381116390228, "learning_rate": 2.718e-05, "loss": 0.012, "step": 1360 }, { "epoch": 57.083333333333336, "grad_norm": 0.290659099817276, "learning_rate": 2.738e-05, "loss": 0.0111, "step": 1370 }, { "epoch": 57.5, "grad_norm": 0.15970231592655182, "learning_rate": 2.758e-05, "loss": 0.0121, "step": 1380 }, { "epoch": 57.916666666666664, "grad_norm": 0.19344311952590942, "learning_rate": 2.778e-05, "loss": 0.0121, "step": 1390 }, { "epoch": 58.333333333333336, "grad_norm": 0.15806475281715393, "learning_rate": 2.798e-05, "loss": 0.0136, "step": 1400 }, { "epoch": 58.75, "grad_norm": 0.15652252733707428, "learning_rate": 2.818e-05, "loss": 0.0122, "step": 1410 }, { "epoch": 59.166666666666664, "grad_norm": 0.1572716236114502, "learning_rate": 2.8380000000000003e-05, "loss": 0.0117, "step": 1420 }, { "epoch": 59.583333333333336, "grad_norm": 0.23824645578861237, "learning_rate": 2.858e-05, "loss": 0.0115, "step": 1430 }, { "epoch": 60.0, "grad_norm": 0.13712768256664276, "learning_rate": 2.8780000000000002e-05, "loss": 0.0121, "step": 1440 }, { "epoch": 60.416666666666664, "grad_norm": 0.16294464468955994, "learning_rate": 2.898e-05, "loss": 0.0112, "step": 1450 }, { "epoch": 60.833333333333336, "grad_norm": 0.186996191740036, "learning_rate": 2.9180000000000002e-05, "loss": 0.0108, "step": 1460 }, { "epoch": 61.25, "grad_norm": 0.1506757140159607, "learning_rate": 2.9380000000000003e-05, "loss": 0.011, "step": 1470 }, { "epoch": 61.666666666666664, "grad_norm": 0.16410888731479645, "learning_rate": 2.958e-05, "loss": 0.0105, "step": 1480 }, { "epoch": 62.083333333333336, "grad_norm": 0.16010266542434692, "learning_rate": 2.9780000000000003e-05, "loss": 0.0122, "step": 1490 }, { "epoch": 62.5, "grad_norm": 0.16817986965179443, "learning_rate": 2.998e-05, "loss": 0.0105, "step": 1500 }, { "epoch": 62.916666666666664, "grad_norm": 0.1670001596212387, "learning_rate": 3.0180000000000002e-05, "loss": 0.0113, "step": 1510 }, { "epoch": 63.333333333333336, "grad_norm": 0.2154121994972229, "learning_rate": 3.0380000000000004e-05, "loss": 0.0115, "step": 1520 }, { "epoch": 63.75, "grad_norm": 0.2379932701587677, "learning_rate": 3.058e-05, "loss": 0.0118, "step": 1530 }, { "epoch": 64.16666666666667, "grad_norm": 0.15870481729507446, "learning_rate": 3.078e-05, "loss": 0.0106, "step": 1540 }, { "epoch": 64.58333333333333, "grad_norm": 0.25364944338798523, "learning_rate": 3.0980000000000005e-05, "loss": 0.0104, "step": 1550 }, { "epoch": 65.0, "grad_norm": 0.1839350014925003, "learning_rate": 3.118e-05, "loss": 0.011, "step": 1560 }, { "epoch": 65.41666666666667, "grad_norm": 0.18599307537078857, "learning_rate": 3.138e-05, "loss": 0.0097, "step": 1570 }, { "epoch": 65.83333333333333, "grad_norm": 0.2250220626592636, "learning_rate": 3.1580000000000006e-05, "loss": 0.0103, "step": 1580 }, { "epoch": 66.25, "grad_norm": 0.17298941314220428, "learning_rate": 3.1780000000000004e-05, "loss": 0.0109, "step": 1590 }, { "epoch": 66.66666666666667, "grad_norm": 0.1613978147506714, "learning_rate": 3.198e-05, "loss": 0.0113, "step": 1600 }, { "epoch": 67.08333333333333, "grad_norm": 0.15270894765853882, "learning_rate": 3.218e-05, "loss": 0.0108, "step": 1610 }, { "epoch": 67.5, "grad_norm": 0.22447533905506134, "learning_rate": 3.238e-05, "loss": 0.0097, "step": 1620 }, { "epoch": 67.91666666666667, "grad_norm": 0.2013256698846817, "learning_rate": 3.2579999999999996e-05, "loss": 0.0111, "step": 1630 }, { "epoch": 68.33333333333333, "grad_norm": 0.21037866175174713, "learning_rate": 3.278e-05, "loss": 0.0101, "step": 1640 }, { "epoch": 68.75, "grad_norm": 0.2443627566099167, "learning_rate": 3.298e-05, "loss": 0.0102, "step": 1650 }, { "epoch": 69.16666666666667, "grad_norm": 0.1794424206018448, "learning_rate": 3.318e-05, "loss": 0.0118, "step": 1660 }, { "epoch": 69.58333333333333, "grad_norm": 0.2451363056898117, "learning_rate": 3.338e-05, "loss": 0.0106, "step": 1670 }, { "epoch": 70.0, "grad_norm": 0.2115487903356552, "learning_rate": 3.358e-05, "loss": 0.0107, "step": 1680 }, { "epoch": 70.41666666666667, "grad_norm": 0.1883118897676468, "learning_rate": 3.378e-05, "loss": 0.0115, "step": 1690 }, { "epoch": 70.83333333333333, "grad_norm": 0.17648133635520935, "learning_rate": 3.398e-05, "loss": 0.0109, "step": 1700 }, { "epoch": 71.25, "grad_norm": 0.15093928575515747, "learning_rate": 3.418e-05, "loss": 0.0105, "step": 1710 }, { "epoch": 71.66666666666667, "grad_norm": 0.20881973206996918, "learning_rate": 3.438e-05, "loss": 0.0103, "step": 1720 }, { "epoch": 72.08333333333333, "grad_norm": 0.2067691683769226, "learning_rate": 3.4580000000000004e-05, "loss": 0.0106, "step": 1730 }, { "epoch": 72.5, "grad_norm": 0.2059769183397293, "learning_rate": 3.478e-05, "loss": 0.0105, "step": 1740 }, { "epoch": 72.91666666666667, "grad_norm": 0.23446431756019592, "learning_rate": 3.498e-05, "loss": 0.0097, "step": 1750 }, { "epoch": 73.33333333333333, "grad_norm": 0.2624446749687195, "learning_rate": 3.518e-05, "loss": 0.0098, "step": 1760 }, { "epoch": 73.75, "grad_norm": 0.28342732787132263, "learning_rate": 3.5380000000000003e-05, "loss": 0.01, "step": 1770 }, { "epoch": 74.16666666666667, "grad_norm": 0.1902991086244583, "learning_rate": 3.558e-05, "loss": 0.0101, "step": 1780 }, { "epoch": 74.58333333333333, "grad_norm": 0.22354111075401306, "learning_rate": 3.578e-05, "loss": 0.0096, "step": 1790 }, { "epoch": 75.0, "grad_norm": 0.21810615062713623, "learning_rate": 3.5980000000000004e-05, "loss": 0.0105, "step": 1800 }, { "epoch": 75.41666666666667, "grad_norm": 0.20923270285129547, "learning_rate": 3.618e-05, "loss": 0.0102, "step": 1810 }, { "epoch": 75.83333333333333, "grad_norm": 0.1625644415616989, "learning_rate": 3.638e-05, "loss": 0.0092, "step": 1820 }, { "epoch": 76.25, "grad_norm": 0.167822003364563, "learning_rate": 3.6580000000000006e-05, "loss": 0.0102, "step": 1830 }, { "epoch": 76.66666666666667, "grad_norm": 0.2364926040172577, "learning_rate": 3.6780000000000004e-05, "loss": 0.0102, "step": 1840 }, { "epoch": 77.08333333333333, "grad_norm": 0.15157677233219147, "learning_rate": 3.698e-05, "loss": 0.0105, "step": 1850 }, { "epoch": 77.5, "grad_norm": 0.22489865124225616, "learning_rate": 3.7180000000000007e-05, "loss": 0.0091, "step": 1860 }, { "epoch": 77.91666666666667, "grad_norm": 0.1740420162677765, "learning_rate": 3.7380000000000005e-05, "loss": 0.0093, "step": 1870 }, { "epoch": 78.33333333333333, "grad_norm": 0.24043633043766022, "learning_rate": 3.758e-05, "loss": 0.009, "step": 1880 }, { "epoch": 78.75, "grad_norm": 0.21535417437553406, "learning_rate": 3.778000000000001e-05, "loss": 0.0098, "step": 1890 }, { "epoch": 79.16666666666667, "grad_norm": 0.24871744215488434, "learning_rate": 3.7980000000000006e-05, "loss": 0.0088, "step": 1900 }, { "epoch": 79.58333333333333, "grad_norm": 0.18446733057498932, "learning_rate": 3.818e-05, "loss": 0.0091, "step": 1910 }, { "epoch": 80.0, "grad_norm": 0.17869393527507782, "learning_rate": 3.838e-05, "loss": 0.0101, "step": 1920 }, { "epoch": 80.41666666666667, "grad_norm": 0.1911090463399887, "learning_rate": 3.858e-05, "loss": 0.0096, "step": 1930 }, { "epoch": 80.83333333333333, "grad_norm": 0.19303295016288757, "learning_rate": 3.878e-05, "loss": 0.0091, "step": 1940 }, { "epoch": 81.25, "grad_norm": 0.11728840321302414, "learning_rate": 3.898e-05, "loss": 0.0096, "step": 1950 }, { "epoch": 81.66666666666667, "grad_norm": 0.18815495073795319, "learning_rate": 3.918e-05, "loss": 0.0089, "step": 1960 }, { "epoch": 82.08333333333333, "grad_norm": 0.23005376756191254, "learning_rate": 3.938e-05, "loss": 0.0092, "step": 1970 }, { "epoch": 82.5, "grad_norm": 0.15335699915885925, "learning_rate": 3.958e-05, "loss": 0.0096, "step": 1980 }, { "epoch": 82.91666666666667, "grad_norm": 0.25958219170570374, "learning_rate": 3.978e-05, "loss": 0.01, "step": 1990 }, { "epoch": 83.33333333333333, "grad_norm": 0.224884033203125, "learning_rate": 3.998e-05, "loss": 0.01, "step": 2000 }, { "epoch": 83.75, "grad_norm": 0.29008984565734863, "learning_rate": 4.018e-05, "loss": 0.0089, "step": 2010 }, { "epoch": 84.16666666666667, "grad_norm": 0.24114347994327545, "learning_rate": 4.038e-05, "loss": 0.0096, "step": 2020 }, { "epoch": 84.58333333333333, "grad_norm": 0.28484517335891724, "learning_rate": 4.058e-05, "loss": 0.0099, "step": 2030 }, { "epoch": 85.0, "grad_norm": 0.24023380875587463, "learning_rate": 4.078e-05, "loss": 0.0094, "step": 2040 }, { "epoch": 85.41666666666667, "grad_norm": 0.2668271064758301, "learning_rate": 4.0980000000000004e-05, "loss": 0.0098, "step": 2050 }, { "epoch": 85.83333333333333, "grad_norm": 0.325340211391449, "learning_rate": 4.118e-05, "loss": 0.0088, "step": 2060 }, { "epoch": 86.25, "grad_norm": 0.24416424334049225, "learning_rate": 4.138e-05, "loss": 0.0089, "step": 2070 }, { "epoch": 86.66666666666667, "grad_norm": 0.3302622139453888, "learning_rate": 4.1580000000000005e-05, "loss": 0.0091, "step": 2080 }, { "epoch": 87.08333333333333, "grad_norm": 0.25496706366539, "learning_rate": 4.178e-05, "loss": 0.0091, "step": 2090 }, { "epoch": 87.5, "grad_norm": 0.16009566187858582, "learning_rate": 4.198e-05, "loss": 0.0083, "step": 2100 }, { "epoch": 87.91666666666667, "grad_norm": 0.2367081493139267, "learning_rate": 4.2180000000000006e-05, "loss": 0.0089, "step": 2110 }, { "epoch": 88.33333333333333, "grad_norm": 0.26486316323280334, "learning_rate": 4.2380000000000004e-05, "loss": 0.0096, "step": 2120 }, { "epoch": 88.75, "grad_norm": 0.1817268580198288, "learning_rate": 4.258e-05, "loss": 0.0094, "step": 2130 }, { "epoch": 89.16666666666667, "grad_norm": 0.2488689124584198, "learning_rate": 4.278e-05, "loss": 0.009, "step": 2140 }, { "epoch": 89.58333333333333, "grad_norm": 0.18652436137199402, "learning_rate": 4.2980000000000005e-05, "loss": 0.0094, "step": 2150 }, { "epoch": 90.0, "grad_norm": 0.2301529049873352, "learning_rate": 4.318e-05, "loss": 0.0095, "step": 2160 }, { "epoch": 90.41666666666667, "grad_norm": 0.1594817340373993, "learning_rate": 4.338e-05, "loss": 0.0094, "step": 2170 }, { "epoch": 90.83333333333333, "grad_norm": 0.1745724081993103, "learning_rate": 4.3580000000000006e-05, "loss": 0.0081, "step": 2180 }, { "epoch": 91.25, "grad_norm": 0.16256092488765717, "learning_rate": 4.3780000000000004e-05, "loss": 0.0078, "step": 2190 }, { "epoch": 91.66666666666667, "grad_norm": 0.1830437183380127, "learning_rate": 4.398e-05, "loss": 0.0091, "step": 2200 }, { "epoch": 92.08333333333333, "grad_norm": 0.17422914505004883, "learning_rate": 4.418000000000001e-05, "loss": 0.009, "step": 2210 }, { "epoch": 92.5, "grad_norm": 0.22951523959636688, "learning_rate": 4.438e-05, "loss": 0.0092, "step": 2220 }, { "epoch": 92.91666666666667, "grad_norm": 0.22624121606349945, "learning_rate": 4.458e-05, "loss": 0.0095, "step": 2230 }, { "epoch": 93.33333333333333, "grad_norm": 0.22815005481243134, "learning_rate": 4.478e-05, "loss": 0.0097, "step": 2240 }, { "epoch": 93.75, "grad_norm": 0.18650349974632263, "learning_rate": 4.498e-05, "loss": 0.01, "step": 2250 }, { "epoch": 94.16666666666667, "grad_norm": 0.22563070058822632, "learning_rate": 4.518e-05, "loss": 0.0101, "step": 2260 }, { "epoch": 94.58333333333333, "grad_norm": 0.2895682156085968, "learning_rate": 4.538e-05, "loss": 0.0088, "step": 2270 }, { "epoch": 95.0, "grad_norm": 0.20045766234397888, "learning_rate": 4.558e-05, "loss": 0.0085, "step": 2280 }, { "epoch": 95.41666666666667, "grad_norm": 0.19027568399906158, "learning_rate": 4.578e-05, "loss": 0.0084, "step": 2290 }, { "epoch": 95.83333333333333, "grad_norm": 0.17418259382247925, "learning_rate": 4.5980000000000004e-05, "loss": 0.0086, "step": 2300 }, { "epoch": 96.25, "grad_norm": 0.1789906769990921, "learning_rate": 4.618e-05, "loss": 0.0085, "step": 2310 }, { "epoch": 96.66666666666667, "grad_norm": 0.25159135460853577, "learning_rate": 4.638e-05, "loss": 0.0101, "step": 2320 }, { "epoch": 97.08333333333333, "grad_norm": 0.22706331312656403, "learning_rate": 4.6580000000000005e-05, "loss": 0.0083, "step": 2330 }, { "epoch": 97.5, "grad_norm": 0.1563338041305542, "learning_rate": 4.678e-05, "loss": 0.0098, "step": 2340 }, { "epoch": 97.91666666666667, "grad_norm": 0.14228181540966034, "learning_rate": 4.698e-05, "loss": 0.0078, "step": 2350 }, { "epoch": 98.33333333333333, "grad_norm": 0.2133481800556183, "learning_rate": 4.718e-05, "loss": 0.0077, "step": 2360 }, { "epoch": 98.75, "grad_norm": 0.20052015781402588, "learning_rate": 4.7380000000000004e-05, "loss": 0.0081, "step": 2370 }, { "epoch": 99.16666666666667, "grad_norm": 0.17274659872055054, "learning_rate": 4.758e-05, "loss": 0.0071, "step": 2380 }, { "epoch": 99.58333333333333, "grad_norm": 0.15264283120632172, "learning_rate": 4.778e-05, "loss": 0.007, "step": 2390 }, { "epoch": 100.0, "grad_norm": 0.12332489341497421, "learning_rate": 4.7980000000000005e-05, "loss": 0.0082, "step": 2400 }, { "epoch": 100.41666666666667, "grad_norm": 0.2144673615694046, "learning_rate": 4.818e-05, "loss": 0.0077, "step": 2410 }, { "epoch": 100.83333333333333, "grad_norm": 0.1319793313741684, "learning_rate": 4.838e-05, "loss": 0.0075, "step": 2420 }, { "epoch": 101.25, "grad_norm": 0.24087993800640106, "learning_rate": 4.8580000000000006e-05, "loss": 0.0079, "step": 2430 }, { "epoch": 101.66666666666667, "grad_norm": 0.19357575476169586, "learning_rate": 4.8780000000000004e-05, "loss": 0.0087, "step": 2440 }, { "epoch": 102.08333333333333, "grad_norm": 0.2164645493030548, "learning_rate": 4.898e-05, "loss": 0.0088, "step": 2450 }, { "epoch": 102.5, "grad_norm": 0.12975268065929413, "learning_rate": 4.918000000000001e-05, "loss": 0.0071, "step": 2460 }, { "epoch": 102.91666666666667, "grad_norm": 0.17152546346187592, "learning_rate": 4.9380000000000005e-05, "loss": 0.0087, "step": 2470 }, { "epoch": 103.33333333333333, "grad_norm": 0.17035475373268127, "learning_rate": 4.958e-05, "loss": 0.009, "step": 2480 }, { "epoch": 103.75, "grad_norm": 0.18948142230510712, "learning_rate": 4.978e-05, "loss": 0.0085, "step": 2490 }, { "epoch": 104.16666666666667, "grad_norm": 0.21009233593940735, "learning_rate": 4.9980000000000006e-05, "loss": 0.0076, "step": 2500 }, { "epoch": 104.58333333333333, "grad_norm": 0.17144152522087097, "learning_rate": 5.0180000000000004e-05, "loss": 0.0078, "step": 2510 }, { "epoch": 105.0, "grad_norm": 0.24402448534965515, "learning_rate": 5.038e-05, "loss": 0.008, "step": 2520 }, { "epoch": 105.41666666666667, "grad_norm": 0.23603250086307526, "learning_rate": 5.058000000000001e-05, "loss": 0.0088, "step": 2530 }, { "epoch": 105.83333333333333, "grad_norm": 0.17597493529319763, "learning_rate": 5.0780000000000005e-05, "loss": 0.007, "step": 2540 }, { "epoch": 106.25, "grad_norm": 0.2043466567993164, "learning_rate": 5.098e-05, "loss": 0.008, "step": 2550 }, { "epoch": 106.66666666666667, "grad_norm": 0.21623364090919495, "learning_rate": 5.118000000000001e-05, "loss": 0.008, "step": 2560 }, { "epoch": 107.08333333333333, "grad_norm": 0.24860866367816925, "learning_rate": 5.1380000000000006e-05, "loss": 0.0081, "step": 2570 }, { "epoch": 107.5, "grad_norm": 0.2527785301208496, "learning_rate": 5.1580000000000004e-05, "loss": 0.0078, "step": 2580 }, { "epoch": 107.91666666666667, "grad_norm": 0.21451309323310852, "learning_rate": 5.178000000000001e-05, "loss": 0.0079, "step": 2590 }, { "epoch": 108.33333333333333, "grad_norm": 0.16031818091869354, "learning_rate": 5.198000000000001e-05, "loss": 0.0077, "step": 2600 }, { "epoch": 108.75, "grad_norm": 0.14552700519561768, "learning_rate": 5.2180000000000005e-05, "loss": 0.0069, "step": 2610 }, { "epoch": 109.16666666666667, "grad_norm": 0.1762808859348297, "learning_rate": 5.238000000000001e-05, "loss": 0.0076, "step": 2620 }, { "epoch": 109.58333333333333, "grad_norm": 0.2462327629327774, "learning_rate": 5.258000000000001e-05, "loss": 0.0082, "step": 2630 }, { "epoch": 110.0, "grad_norm": 0.1734815239906311, "learning_rate": 5.2780000000000006e-05, "loss": 0.0081, "step": 2640 }, { "epoch": 110.41666666666667, "grad_norm": 0.17939020693302155, "learning_rate": 5.2980000000000004e-05, "loss": 0.0073, "step": 2650 }, { "epoch": 110.83333333333333, "grad_norm": 0.20626117289066315, "learning_rate": 5.318000000000001e-05, "loss": 0.0082, "step": 2660 }, { "epoch": 111.25, "grad_norm": 0.22848577797412872, "learning_rate": 5.338000000000001e-05, "loss": 0.0075, "step": 2670 }, { "epoch": 111.66666666666667, "grad_norm": 0.18880313634872437, "learning_rate": 5.3580000000000005e-05, "loss": 0.008, "step": 2680 }, { "epoch": 112.08333333333333, "grad_norm": 0.17519648373126984, "learning_rate": 5.378e-05, "loss": 0.0079, "step": 2690 }, { "epoch": 112.5, "grad_norm": 0.13889218866825104, "learning_rate": 5.3979999999999995e-05, "loss": 0.0067, "step": 2700 }, { "epoch": 112.91666666666667, "grad_norm": 0.2040589600801468, "learning_rate": 5.418e-05, "loss": 0.0072, "step": 2710 }, { "epoch": 113.33333333333333, "grad_norm": 0.21994876861572266, "learning_rate": 5.438e-05, "loss": 0.0076, "step": 2720 }, { "epoch": 113.75, "grad_norm": 0.16140806674957275, "learning_rate": 5.4579999999999996e-05, "loss": 0.0073, "step": 2730 }, { "epoch": 114.16666666666667, "grad_norm": 0.14723409712314606, "learning_rate": 5.478e-05, "loss": 0.0069, "step": 2740 }, { "epoch": 114.58333333333333, "grad_norm": 0.18447290360927582, "learning_rate": 5.498e-05, "loss": 0.0081, "step": 2750 }, { "epoch": 115.0, "grad_norm": 0.18456244468688965, "learning_rate": 5.518e-05, "loss": 0.0072, "step": 2760 }, { "epoch": 115.41666666666667, "grad_norm": 0.13253265619277954, "learning_rate": 5.538e-05, "loss": 0.0074, "step": 2770 }, { "epoch": 115.83333333333333, "grad_norm": 0.15993036329746246, "learning_rate": 5.558e-05, "loss": 0.0072, "step": 2780 }, { "epoch": 116.25, "grad_norm": 0.18222597241401672, "learning_rate": 5.578e-05, "loss": 0.007, "step": 2790 }, { "epoch": 116.66666666666667, "grad_norm": 0.17877179384231567, "learning_rate": 5.5979999999999996e-05, "loss": 0.008, "step": 2800 }, { "epoch": 117.08333333333333, "grad_norm": 0.12289310246706009, "learning_rate": 5.618e-05, "loss": 0.008, "step": 2810 }, { "epoch": 117.5, "grad_norm": 0.17177152633666992, "learning_rate": 5.638e-05, "loss": 0.0067, "step": 2820 }, { "epoch": 117.91666666666667, "grad_norm": 0.16069914400577545, "learning_rate": 5.658e-05, "loss": 0.0065, "step": 2830 }, { "epoch": 118.33333333333333, "grad_norm": 0.23866569995880127, "learning_rate": 5.678e-05, "loss": 0.0077, "step": 2840 }, { "epoch": 118.75, "grad_norm": 0.18656224012374878, "learning_rate": 5.698e-05, "loss": 0.0081, "step": 2850 }, { "epoch": 119.16666666666667, "grad_norm": 0.22130683064460754, "learning_rate": 5.718e-05, "loss": 0.0071, "step": 2860 }, { "epoch": 119.58333333333333, "grad_norm": 0.1557311713695526, "learning_rate": 5.738e-05, "loss": 0.0072, "step": 2870 }, { "epoch": 120.0, "grad_norm": 0.22230800986289978, "learning_rate": 5.758e-05, "loss": 0.0074, "step": 2880 }, { "epoch": 120.41666666666667, "grad_norm": 0.1978546380996704, "learning_rate": 5.778e-05, "loss": 0.0087, "step": 2890 }, { "epoch": 120.83333333333333, "grad_norm": 0.2273327112197876, "learning_rate": 5.7980000000000004e-05, "loss": 0.0077, "step": 2900 }, { "epoch": 121.25, "grad_norm": 0.1947774589061737, "learning_rate": 5.818e-05, "loss": 0.0098, "step": 2910 }, { "epoch": 121.66666666666667, "grad_norm": 0.18751360476016998, "learning_rate": 5.838e-05, "loss": 0.0077, "step": 2920 }, { "epoch": 122.08333333333333, "grad_norm": 0.20986883342266083, "learning_rate": 5.858e-05, "loss": 0.0079, "step": 2930 }, { "epoch": 122.5, "grad_norm": 0.2044714391231537, "learning_rate": 5.878e-05, "loss": 0.0081, "step": 2940 }, { "epoch": 122.91666666666667, "grad_norm": 0.14918272197246552, "learning_rate": 5.898e-05, "loss": 0.007, "step": 2950 }, { "epoch": 123.33333333333333, "grad_norm": 0.24532806873321533, "learning_rate": 5.918e-05, "loss": 0.008, "step": 2960 }, { "epoch": 123.75, "grad_norm": 0.17864932119846344, "learning_rate": 5.9380000000000004e-05, "loss": 0.0078, "step": 2970 }, { "epoch": 124.16666666666667, "grad_norm": 0.12814876437187195, "learning_rate": 5.958e-05, "loss": 0.0075, "step": 2980 }, { "epoch": 124.58333333333333, "grad_norm": 0.1637454479932785, "learning_rate": 5.978e-05, "loss": 0.0088, "step": 2990 }, { "epoch": 125.0, "grad_norm": 0.18728049099445343, "learning_rate": 5.9980000000000005e-05, "loss": 0.0074, "step": 3000 }, { "epoch": 125.41666666666667, "grad_norm": 0.20178140699863434, "learning_rate": 6.018e-05, "loss": 0.0075, "step": 3010 }, { "epoch": 125.83333333333333, "grad_norm": 0.1387498378753662, "learning_rate": 6.038e-05, "loss": 0.007, "step": 3020 }, { "epoch": 126.25, "grad_norm": 0.14355792105197906, "learning_rate": 6.0580000000000006e-05, "loss": 0.007, "step": 3030 }, { "epoch": 126.66666666666667, "grad_norm": 0.1336318552494049, "learning_rate": 6.0780000000000004e-05, "loss": 0.0072, "step": 3040 }, { "epoch": 127.08333333333333, "grad_norm": 0.213431715965271, "learning_rate": 6.098e-05, "loss": 0.007, "step": 3050 }, { "epoch": 127.5, "grad_norm": 0.1666814386844635, "learning_rate": 6.118000000000001e-05, "loss": 0.0074, "step": 3060 }, { "epoch": 127.91666666666667, "grad_norm": 0.1659451127052307, "learning_rate": 6.138e-05, "loss": 0.0068, "step": 3070 }, { "epoch": 128.33333333333334, "grad_norm": 0.2075555920600891, "learning_rate": 6.158e-05, "loss": 0.0072, "step": 3080 }, { "epoch": 128.75, "grad_norm": 0.2251797467470169, "learning_rate": 6.178000000000001e-05, "loss": 0.0072, "step": 3090 }, { "epoch": 129.16666666666666, "grad_norm": 0.15474362671375275, "learning_rate": 6.198e-05, "loss": 0.0065, "step": 3100 }, { "epoch": 129.58333333333334, "grad_norm": 0.19146452844142914, "learning_rate": 6.218e-05, "loss": 0.0066, "step": 3110 }, { "epoch": 130.0, "grad_norm": 0.1466844230890274, "learning_rate": 6.238000000000001e-05, "loss": 0.0063, "step": 3120 }, { "epoch": 130.41666666666666, "grad_norm": 0.1239146888256073, "learning_rate": 6.258e-05, "loss": 0.0071, "step": 3130 }, { "epoch": 130.83333333333334, "grad_norm": 0.14874042570590973, "learning_rate": 6.278e-05, "loss": 0.007, "step": 3140 }, { "epoch": 131.25, "grad_norm": 0.18060943484306335, "learning_rate": 6.298000000000001e-05, "loss": 0.0069, "step": 3150 }, { "epoch": 131.66666666666666, "grad_norm": 0.15210163593292236, "learning_rate": 6.318e-05, "loss": 0.0064, "step": 3160 }, { "epoch": 132.08333333333334, "grad_norm": 0.11614862084388733, "learning_rate": 6.338e-05, "loss": 0.0064, "step": 3170 }, { "epoch": 132.5, "grad_norm": 0.13109014928340912, "learning_rate": 6.358000000000001e-05, "loss": 0.0077, "step": 3180 }, { "epoch": 132.91666666666666, "grad_norm": 0.16877128183841705, "learning_rate": 6.378e-05, "loss": 0.0076, "step": 3190 }, { "epoch": 133.33333333333334, "grad_norm": 0.20397360622882843, "learning_rate": 6.398000000000001e-05, "loss": 0.0075, "step": 3200 }, { "epoch": 133.75, "grad_norm": 0.1086825430393219, "learning_rate": 6.418000000000001e-05, "loss": 0.0068, "step": 3210 }, { "epoch": 134.16666666666666, "grad_norm": 0.12602239847183228, "learning_rate": 6.438e-05, "loss": 0.007, "step": 3220 }, { "epoch": 134.58333333333334, "grad_norm": 0.13396048545837402, "learning_rate": 6.458000000000001e-05, "loss": 0.0066, "step": 3230 }, { "epoch": 135.0, "grad_norm": 0.18708762526512146, "learning_rate": 6.478000000000001e-05, "loss": 0.0074, "step": 3240 }, { "epoch": 135.41666666666666, "grad_norm": 0.20203463733196259, "learning_rate": 6.498e-05, "loss": 0.007, "step": 3250 }, { "epoch": 135.83333333333334, "grad_norm": 0.16985490918159485, "learning_rate": 6.518000000000001e-05, "loss": 0.0068, "step": 3260 }, { "epoch": 136.25, "grad_norm": 0.15686997771263123, "learning_rate": 6.538000000000001e-05, "loss": 0.007, "step": 3270 }, { "epoch": 136.66666666666666, "grad_norm": 0.1728532761335373, "learning_rate": 6.558e-05, "loss": 0.0069, "step": 3280 }, { "epoch": 137.08333333333334, "grad_norm": 0.12987065315246582, "learning_rate": 6.578000000000001e-05, "loss": 0.0063, "step": 3290 }, { "epoch": 137.5, "grad_norm": 0.13611459732055664, "learning_rate": 6.598e-05, "loss": 0.0066, "step": 3300 }, { "epoch": 137.91666666666666, "grad_norm": 0.1027214303612709, "learning_rate": 6.618e-05, "loss": 0.0065, "step": 3310 }, { "epoch": 138.33333333333334, "grad_norm": 0.22064761817455292, "learning_rate": 6.638e-05, "loss": 0.0067, "step": 3320 }, { "epoch": 138.75, "grad_norm": 0.19550807774066925, "learning_rate": 6.658e-05, "loss": 0.008, "step": 3330 }, { "epoch": 139.16666666666666, "grad_norm": 0.18332967162132263, "learning_rate": 6.678e-05, "loss": 0.0071, "step": 3340 }, { "epoch": 139.58333333333334, "grad_norm": 0.20197263360023499, "learning_rate": 6.698e-05, "loss": 0.007, "step": 3350 }, { "epoch": 140.0, "grad_norm": 0.153098925948143, "learning_rate": 6.718e-05, "loss": 0.0076, "step": 3360 }, { "epoch": 140.41666666666666, "grad_norm": 0.22711525857448578, "learning_rate": 6.738e-05, "loss": 0.007, "step": 3370 }, { "epoch": 140.83333333333334, "grad_norm": 0.1543828845024109, "learning_rate": 6.758e-05, "loss": 0.0068, "step": 3380 }, { "epoch": 141.25, "grad_norm": 0.16114719212055206, "learning_rate": 6.778e-05, "loss": 0.0075, "step": 3390 }, { "epoch": 141.66666666666666, "grad_norm": 0.1389165073633194, "learning_rate": 6.798e-05, "loss": 0.0076, "step": 3400 }, { "epoch": 142.08333333333334, "grad_norm": 0.159349724650383, "learning_rate": 6.818e-05, "loss": 0.0063, "step": 3410 }, { "epoch": 142.5, "grad_norm": 0.2074020802974701, "learning_rate": 6.838e-05, "loss": 0.0076, "step": 3420 }, { "epoch": 142.91666666666666, "grad_norm": 0.16942881047725677, "learning_rate": 6.858e-05, "loss": 0.007, "step": 3430 }, { "epoch": 143.33333333333334, "grad_norm": 0.1848846822977066, "learning_rate": 6.878e-05, "loss": 0.0081, "step": 3440 }, { "epoch": 143.75, "grad_norm": 0.1636960208415985, "learning_rate": 6.898e-05, "loss": 0.006, "step": 3450 }, { "epoch": 144.16666666666666, "grad_norm": 0.15726636350154877, "learning_rate": 6.918e-05, "loss": 0.007, "step": 3460 }, { "epoch": 144.58333333333334, "grad_norm": 0.12168573588132858, "learning_rate": 6.938e-05, "loss": 0.0067, "step": 3470 }, { "epoch": 145.0, "grad_norm": 0.16192162036895752, "learning_rate": 6.958e-05, "loss": 0.0068, "step": 3480 }, { "epoch": 145.41666666666666, "grad_norm": 0.14459803700447083, "learning_rate": 6.978e-05, "loss": 0.0062, "step": 3490 }, { "epoch": 145.83333333333334, "grad_norm": 0.1755836308002472, "learning_rate": 6.998e-05, "loss": 0.0068, "step": 3500 }, { "epoch": 146.25, "grad_norm": 0.15056484937667847, "learning_rate": 7.018e-05, "loss": 0.0064, "step": 3510 }, { "epoch": 146.66666666666666, "grad_norm": 0.16937018930912018, "learning_rate": 7.038e-05, "loss": 0.0058, "step": 3520 }, { "epoch": 147.08333333333334, "grad_norm": 0.16217051446437836, "learning_rate": 7.058e-05, "loss": 0.0064, "step": 3530 }, { "epoch": 147.5, "grad_norm": 0.1714458018541336, "learning_rate": 7.078e-05, "loss": 0.0058, "step": 3540 }, { "epoch": 147.91666666666666, "grad_norm": 0.16516265273094177, "learning_rate": 7.098e-05, "loss": 0.0066, "step": 3550 }, { "epoch": 148.33333333333334, "grad_norm": 0.1821070909500122, "learning_rate": 7.118e-05, "loss": 0.0071, "step": 3560 }, { "epoch": 148.75, "grad_norm": 0.18544380366802216, "learning_rate": 7.138e-05, "loss": 0.0066, "step": 3570 }, { "epoch": 149.16666666666666, "grad_norm": 0.1926877200603485, "learning_rate": 7.158e-05, "loss": 0.0069, "step": 3580 }, { "epoch": 149.58333333333334, "grad_norm": 0.15056046843528748, "learning_rate": 7.178000000000001e-05, "loss": 0.0058, "step": 3590 }, { "epoch": 150.0, "grad_norm": 0.1702464073896408, "learning_rate": 7.198e-05, "loss": 0.0062, "step": 3600 }, { "epoch": 150.41666666666666, "grad_norm": 0.1779957115650177, "learning_rate": 7.218e-05, "loss": 0.0059, "step": 3610 }, { "epoch": 150.83333333333334, "grad_norm": 0.1469232589006424, "learning_rate": 7.238000000000001e-05, "loss": 0.006, "step": 3620 }, { "epoch": 151.25, "grad_norm": 0.19102685153484344, "learning_rate": 7.258e-05, "loss": 0.0065, "step": 3630 }, { "epoch": 151.66666666666666, "grad_norm": 0.12274257093667984, "learning_rate": 7.278e-05, "loss": 0.0066, "step": 3640 }, { "epoch": 152.08333333333334, "grad_norm": 0.17841854691505432, "learning_rate": 7.298000000000001e-05, "loss": 0.006, "step": 3650 }, { "epoch": 152.5, "grad_norm": 0.1403592824935913, "learning_rate": 7.318e-05, "loss": 0.0061, "step": 3660 }, { "epoch": 152.91666666666666, "grad_norm": 0.1595129519701004, "learning_rate": 7.338e-05, "loss": 0.006, "step": 3670 }, { "epoch": 153.33333333333334, "grad_norm": 0.1896585375070572, "learning_rate": 7.358000000000001e-05, "loss": 0.0062, "step": 3680 }, { "epoch": 153.75, "grad_norm": 0.14588584005832672, "learning_rate": 7.378e-05, "loss": 0.0066, "step": 3690 }, { "epoch": 154.16666666666666, "grad_norm": 0.1336863785982132, "learning_rate": 7.398e-05, "loss": 0.0061, "step": 3700 }, { "epoch": 154.58333333333334, "grad_norm": 0.12185238301753998, "learning_rate": 7.418000000000001e-05, "loss": 0.0059, "step": 3710 }, { "epoch": 155.0, "grad_norm": 0.15351136028766632, "learning_rate": 7.438e-05, "loss": 0.0059, "step": 3720 }, { "epoch": 155.41666666666666, "grad_norm": 0.15761293470859528, "learning_rate": 7.458000000000001e-05, "loss": 0.0067, "step": 3730 }, { "epoch": 155.83333333333334, "grad_norm": 0.1410437971353531, "learning_rate": 7.478e-05, "loss": 0.0062, "step": 3740 }, { "epoch": 156.25, "grad_norm": 0.12761998176574707, "learning_rate": 7.498e-05, "loss": 0.0059, "step": 3750 }, { "epoch": 156.66666666666666, "grad_norm": 0.13997313380241394, "learning_rate": 7.518000000000001e-05, "loss": 0.0063, "step": 3760 }, { "epoch": 157.08333333333334, "grad_norm": 0.13054318726062775, "learning_rate": 7.538e-05, "loss": 0.0074, "step": 3770 }, { "epoch": 157.5, "grad_norm": 0.14620289206504822, "learning_rate": 7.558e-05, "loss": 0.0072, "step": 3780 }, { "epoch": 157.91666666666666, "grad_norm": 0.11337517946958542, "learning_rate": 7.578000000000001e-05, "loss": 0.0056, "step": 3790 }, { "epoch": 158.33333333333334, "grad_norm": 0.13877074420452118, "learning_rate": 7.598e-05, "loss": 0.0064, "step": 3800 }, { "epoch": 158.75, "grad_norm": 0.12261153012514114, "learning_rate": 7.618e-05, "loss": 0.0059, "step": 3810 }, { "epoch": 159.16666666666666, "grad_norm": 0.15796855092048645, "learning_rate": 7.638000000000001e-05, "loss": 0.0067, "step": 3820 }, { "epoch": 159.58333333333334, "grad_norm": 0.1562647521495819, "learning_rate": 7.658e-05, "loss": 0.0064, "step": 3830 }, { "epoch": 160.0, "grad_norm": 0.14825725555419922, "learning_rate": 7.678000000000001e-05, "loss": 0.0065, "step": 3840 }, { "epoch": 160.41666666666666, "grad_norm": 0.12721119821071625, "learning_rate": 7.698000000000001e-05, "loss": 0.0072, "step": 3850 }, { "epoch": 160.83333333333334, "grad_norm": 0.16097262501716614, "learning_rate": 7.718e-05, "loss": 0.0069, "step": 3860 }, { "epoch": 161.25, "grad_norm": 0.12408965826034546, "learning_rate": 7.738000000000001e-05, "loss": 0.0061, "step": 3870 }, { "epoch": 161.66666666666666, "grad_norm": 0.18694916367530823, "learning_rate": 7.758000000000001e-05, "loss": 0.0074, "step": 3880 }, { "epoch": 162.08333333333334, "grad_norm": 0.167327418923378, "learning_rate": 7.778e-05, "loss": 0.0068, "step": 3890 }, { "epoch": 162.5, "grad_norm": 0.1144690290093422, "learning_rate": 7.798000000000001e-05, "loss": 0.0066, "step": 3900 }, { "epoch": 162.91666666666666, "grad_norm": 0.13986288011074066, "learning_rate": 7.818000000000001e-05, "loss": 0.0057, "step": 3910 }, { "epoch": 163.33333333333334, "grad_norm": 0.12129707634449005, "learning_rate": 7.838e-05, "loss": 0.0059, "step": 3920 }, { "epoch": 163.75, "grad_norm": 0.22065584361553192, "learning_rate": 7.858000000000001e-05, "loss": 0.0061, "step": 3930 }, { "epoch": 164.16666666666666, "grad_norm": 0.17814569175243378, "learning_rate": 7.878e-05, "loss": 0.0066, "step": 3940 }, { "epoch": 164.58333333333334, "grad_norm": 0.20271456241607666, "learning_rate": 7.897999999999999e-05, "loss": 0.0073, "step": 3950 }, { "epoch": 165.0, "grad_norm": 0.11929100006818771, "learning_rate": 7.918e-05, "loss": 0.0063, "step": 3960 }, { "epoch": 165.41666666666666, "grad_norm": 0.11075644195079803, "learning_rate": 7.938e-05, "loss": 0.0068, "step": 3970 }, { "epoch": 165.83333333333334, "grad_norm": 0.17730268836021423, "learning_rate": 7.958e-05, "loss": 0.0067, "step": 3980 }, { "epoch": 166.25, "grad_norm": 0.11429597437381744, "learning_rate": 7.978e-05, "loss": 0.0062, "step": 3990 }, { "epoch": 166.66666666666666, "grad_norm": 0.14831195771694183, "learning_rate": 7.998e-05, "loss": 0.0069, "step": 4000 }, { "epoch": 167.08333333333334, "grad_norm": 0.15197299420833588, "learning_rate": 8.018e-05, "loss": 0.0061, "step": 4010 }, { "epoch": 167.5, "grad_norm": 0.16516992449760437, "learning_rate": 8.038e-05, "loss": 0.0065, "step": 4020 }, { "epoch": 167.91666666666666, "grad_norm": 0.13019244372844696, "learning_rate": 8.058e-05, "loss": 0.0063, "step": 4030 }, { "epoch": 168.33333333333334, "grad_norm": 0.13418515026569366, "learning_rate": 8.078e-05, "loss": 0.0062, "step": 4040 }, { "epoch": 168.75, "grad_norm": 0.16955378651618958, "learning_rate": 8.098e-05, "loss": 0.0071, "step": 4050 }, { "epoch": 169.16666666666666, "grad_norm": 0.17851562798023224, "learning_rate": 8.118e-05, "loss": 0.0061, "step": 4060 }, { "epoch": 169.58333333333334, "grad_norm": 0.11601920425891876, "learning_rate": 8.138e-05, "loss": 0.0071, "step": 4070 }, { "epoch": 170.0, "grad_norm": 0.21088585257530212, "learning_rate": 8.158e-05, "loss": 0.0074, "step": 4080 }, { "epoch": 170.41666666666666, "grad_norm": 0.20658394694328308, "learning_rate": 8.178e-05, "loss": 0.0068, "step": 4090 }, { "epoch": 170.83333333333334, "grad_norm": 0.14799509942531586, "learning_rate": 8.198e-05, "loss": 0.0066, "step": 4100 }, { "epoch": 171.25, "grad_norm": 0.1523575335741043, "learning_rate": 8.218e-05, "loss": 0.006, "step": 4110 }, { "epoch": 171.66666666666666, "grad_norm": 0.157556414604187, "learning_rate": 8.238000000000001e-05, "loss": 0.0062, "step": 4120 }, { "epoch": 172.08333333333334, "grad_norm": 0.11830971390008926, "learning_rate": 8.258e-05, "loss": 0.0059, "step": 4130 }, { "epoch": 172.5, "grad_norm": 0.1681690216064453, "learning_rate": 8.278e-05, "loss": 0.0057, "step": 4140 }, { "epoch": 172.91666666666666, "grad_norm": 0.17875048518180847, "learning_rate": 8.298000000000001e-05, "loss": 0.0069, "step": 4150 }, { "epoch": 173.33333333333334, "grad_norm": 0.19436916708946228, "learning_rate": 8.318e-05, "loss": 0.0062, "step": 4160 }, { "epoch": 173.75, "grad_norm": 0.1836426705121994, "learning_rate": 8.338e-05, "loss": 0.0065, "step": 4170 }, { "epoch": 174.16666666666666, "grad_norm": 0.137340247631073, "learning_rate": 8.358e-05, "loss": 0.0068, "step": 4180 }, { "epoch": 174.58333333333334, "grad_norm": 0.1409585028886795, "learning_rate": 8.378e-05, "loss": 0.0061, "step": 4190 }, { "epoch": 175.0, "grad_norm": 0.16803981363773346, "learning_rate": 8.398e-05, "loss": 0.0064, "step": 4200 }, { "epoch": 175.41666666666666, "grad_norm": 0.17205767333507538, "learning_rate": 8.418e-05, "loss": 0.0068, "step": 4210 }, { "epoch": 175.83333333333334, "grad_norm": 0.16817401349544525, "learning_rate": 8.438e-05, "loss": 0.006, "step": 4220 }, { "epoch": 176.25, "grad_norm": 0.13214799761772156, "learning_rate": 8.458e-05, "loss": 0.0061, "step": 4230 }, { "epoch": 176.66666666666666, "grad_norm": 0.17839834094047546, "learning_rate": 8.478e-05, "loss": 0.0054, "step": 4240 }, { "epoch": 177.08333333333334, "grad_norm": 0.14533919095993042, "learning_rate": 8.498e-05, "loss": 0.0065, "step": 4250 }, { "epoch": 177.5, "grad_norm": 0.09480784088373184, "learning_rate": 8.518000000000001e-05, "loss": 0.0062, "step": 4260 }, { "epoch": 177.91666666666666, "grad_norm": 0.10386110842227936, "learning_rate": 8.538e-05, "loss": 0.0058, "step": 4270 }, { "epoch": 178.33333333333334, "grad_norm": 0.13533426821231842, "learning_rate": 8.558e-05, "loss": 0.0058, "step": 4280 }, { "epoch": 178.75, "grad_norm": 0.14866448938846588, "learning_rate": 8.578000000000001e-05, "loss": 0.0063, "step": 4290 }, { "epoch": 179.16666666666666, "grad_norm": 0.15606483817100525, "learning_rate": 8.598e-05, "loss": 0.0059, "step": 4300 }, { "epoch": 179.58333333333334, "grad_norm": 0.15031108260154724, "learning_rate": 8.618e-05, "loss": 0.0062, "step": 4310 }, { "epoch": 180.0, "grad_norm": 0.12498246133327484, "learning_rate": 8.638000000000001e-05, "loss": 0.0057, "step": 4320 }, { "epoch": 180.41666666666666, "grad_norm": 0.16187025606632233, "learning_rate": 8.658e-05, "loss": 0.0063, "step": 4330 }, { "epoch": 180.83333333333334, "grad_norm": 0.1412809044122696, "learning_rate": 8.678e-05, "loss": 0.0056, "step": 4340 }, { "epoch": 181.25, "grad_norm": 0.1581466645002365, "learning_rate": 8.698000000000001e-05, "loss": 0.0069, "step": 4350 }, { "epoch": 181.66666666666666, "grad_norm": 0.13669398427009583, "learning_rate": 8.718e-05, "loss": 0.0053, "step": 4360 }, { "epoch": 182.08333333333334, "grad_norm": 0.08482494205236435, "learning_rate": 8.738000000000001e-05, "loss": 0.0058, "step": 4370 }, { "epoch": 182.5, "grad_norm": 0.1644105166196823, "learning_rate": 8.758000000000001e-05, "loss": 0.0059, "step": 4380 }, { "epoch": 182.91666666666666, "grad_norm": 0.18237049877643585, "learning_rate": 8.778e-05, "loss": 0.0066, "step": 4390 }, { "epoch": 183.33333333333334, "grad_norm": 0.1247100755572319, "learning_rate": 8.798000000000001e-05, "loss": 0.0069, "step": 4400 }, { "epoch": 183.75, "grad_norm": 0.12994325160980225, "learning_rate": 8.818000000000001e-05, "loss": 0.0059, "step": 4410 }, { "epoch": 184.16666666666666, "grad_norm": 0.1662340611219406, "learning_rate": 8.838e-05, "loss": 0.0058, "step": 4420 }, { "epoch": 184.58333333333334, "grad_norm": 0.13877913355827332, "learning_rate": 8.858000000000001e-05, "loss": 0.0058, "step": 4430 }, { "epoch": 185.0, "grad_norm": 0.10551275312900543, "learning_rate": 8.878000000000001e-05, "loss": 0.005, "step": 4440 }, { "epoch": 185.41666666666666, "grad_norm": 0.13375602662563324, "learning_rate": 8.898e-05, "loss": 0.0054, "step": 4450 }, { "epoch": 185.83333333333334, "grad_norm": 0.13975368440151215, "learning_rate": 8.918000000000001e-05, "loss": 0.0059, "step": 4460 }, { "epoch": 186.25, "grad_norm": 0.17825853824615479, "learning_rate": 8.938e-05, "loss": 0.0058, "step": 4470 }, { "epoch": 186.66666666666666, "grad_norm": 0.11950747668743134, "learning_rate": 8.958e-05, "loss": 0.0057, "step": 4480 }, { "epoch": 187.08333333333334, "grad_norm": 0.12254545092582703, "learning_rate": 8.978000000000001e-05, "loss": 0.0052, "step": 4490 }, { "epoch": 187.5, "grad_norm": 0.1314597874879837, "learning_rate": 8.998e-05, "loss": 0.0055, "step": 4500 }, { "epoch": 187.91666666666666, "grad_norm": 0.1693519502878189, "learning_rate": 9.018000000000001e-05, "loss": 0.0059, "step": 4510 }, { "epoch": 188.33333333333334, "grad_norm": 0.16044768691062927, "learning_rate": 9.038000000000001e-05, "loss": 0.0059, "step": 4520 }, { "epoch": 188.75, "grad_norm": 0.22269323468208313, "learning_rate": 9.058e-05, "loss": 0.0058, "step": 4530 }, { "epoch": 189.16666666666666, "grad_norm": 0.2026430070400238, "learning_rate": 9.078000000000001e-05, "loss": 0.0061, "step": 4540 }, { "epoch": 189.58333333333334, "grad_norm": 0.16257041692733765, "learning_rate": 9.098000000000001e-05, "loss": 0.0066, "step": 4550 }, { "epoch": 190.0, "grad_norm": 0.15807846188545227, "learning_rate": 9.118e-05, "loss": 0.0067, "step": 4560 }, { "epoch": 190.41666666666666, "grad_norm": 0.11026103049516678, "learning_rate": 9.138e-05, "loss": 0.0061, "step": 4570 }, { "epoch": 190.83333333333334, "grad_norm": 0.13263285160064697, "learning_rate": 9.158e-05, "loss": 0.0059, "step": 4580 }, { "epoch": 191.25, "grad_norm": 0.1339322179555893, "learning_rate": 9.178e-05, "loss": 0.0058, "step": 4590 }, { "epoch": 191.66666666666666, "grad_norm": 0.15240217745304108, "learning_rate": 9.198e-05, "loss": 0.0064, "step": 4600 }, { "epoch": 192.08333333333334, "grad_norm": 0.1395491659641266, "learning_rate": 9.218e-05, "loss": 0.0065, "step": 4610 }, { "epoch": 192.5, "grad_norm": 0.15630580484867096, "learning_rate": 9.238e-05, "loss": 0.0059, "step": 4620 }, { "epoch": 192.91666666666666, "grad_norm": 0.1492137759923935, "learning_rate": 9.258e-05, "loss": 0.0065, "step": 4630 }, { "epoch": 193.33333333333334, "grad_norm": 0.12667983770370483, "learning_rate": 9.278e-05, "loss": 0.0058, "step": 4640 }, { "epoch": 193.75, "grad_norm": 0.14224766194820404, "learning_rate": 9.298e-05, "loss": 0.0061, "step": 4650 }, { "epoch": 194.16666666666666, "grad_norm": 0.09141234308481216, "learning_rate": 9.318e-05, "loss": 0.0057, "step": 4660 }, { "epoch": 194.58333333333334, "grad_norm": 0.14463019371032715, "learning_rate": 9.338e-05, "loss": 0.005, "step": 4670 }, { "epoch": 195.0, "grad_norm": 0.14312709867954254, "learning_rate": 9.358e-05, "loss": 0.0057, "step": 4680 }, { "epoch": 195.41666666666666, "grad_norm": 0.1789955347776413, "learning_rate": 9.378e-05, "loss": 0.006, "step": 4690 }, { "epoch": 195.83333333333334, "grad_norm": 0.20564377307891846, "learning_rate": 9.398e-05, "loss": 0.0063, "step": 4700 }, { "epoch": 196.25, "grad_norm": 0.2387634664773941, "learning_rate": 9.418e-05, "loss": 0.0061, "step": 4710 }, { "epoch": 196.66666666666666, "grad_norm": 0.17711453139781952, "learning_rate": 9.438e-05, "loss": 0.0061, "step": 4720 }, { "epoch": 197.08333333333334, "grad_norm": 0.20594219863414764, "learning_rate": 9.458e-05, "loss": 0.0062, "step": 4730 }, { "epoch": 197.5, "grad_norm": 0.19724787771701813, "learning_rate": 9.478e-05, "loss": 0.0057, "step": 4740 }, { "epoch": 197.91666666666666, "grad_norm": 0.2108042985200882, "learning_rate": 9.498e-05, "loss": 0.0065, "step": 4750 }, { "epoch": 198.33333333333334, "grad_norm": 0.26549044251441956, "learning_rate": 9.518000000000001e-05, "loss": 0.0061, "step": 4760 }, { "epoch": 198.75, "grad_norm": 0.1665596216917038, "learning_rate": 9.538e-05, "loss": 0.007, "step": 4770 }, { "epoch": 199.16666666666666, "grad_norm": 0.17262820899486542, "learning_rate": 9.558e-05, "loss": 0.0071, "step": 4780 }, { "epoch": 199.58333333333334, "grad_norm": 0.18058310449123383, "learning_rate": 9.578000000000001e-05, "loss": 0.0066, "step": 4790 }, { "epoch": 200.0, "grad_norm": 0.21665717661380768, "learning_rate": 9.598e-05, "loss": 0.0064, "step": 4800 }, { "epoch": 200.41666666666666, "grad_norm": 0.16999253630638123, "learning_rate": 9.618e-05, "loss": 0.0059, "step": 4810 }, { "epoch": 200.83333333333334, "grad_norm": 0.1671782284975052, "learning_rate": 9.638000000000001e-05, "loss": 0.0068, "step": 4820 }, { "epoch": 201.25, "grad_norm": 0.1926935762166977, "learning_rate": 9.658e-05, "loss": 0.0069, "step": 4830 }, { "epoch": 201.66666666666666, "grad_norm": 0.1517373025417328, "learning_rate": 9.678e-05, "loss": 0.0056, "step": 4840 }, { "epoch": 202.08333333333334, "grad_norm": 0.12715266644954681, "learning_rate": 9.698000000000001e-05, "loss": 0.0074, "step": 4850 }, { "epoch": 202.5, "grad_norm": 0.15718333423137665, "learning_rate": 9.718e-05, "loss": 0.0066, "step": 4860 }, { "epoch": 202.91666666666666, "grad_norm": 0.19163250923156738, "learning_rate": 9.738e-05, "loss": 0.005, "step": 4870 }, { "epoch": 203.33333333333334, "grad_norm": 0.19274252653121948, "learning_rate": 9.758000000000001e-05, "loss": 0.0057, "step": 4880 }, { "epoch": 203.75, "grad_norm": 0.10335444658994675, "learning_rate": 9.778e-05, "loss": 0.006, "step": 4890 }, { "epoch": 204.16666666666666, "grad_norm": 0.13632066547870636, "learning_rate": 9.798000000000001e-05, "loss": 0.0058, "step": 4900 }, { "epoch": 204.58333333333334, "grad_norm": 0.1537025421857834, "learning_rate": 9.818000000000001e-05, "loss": 0.0059, "step": 4910 }, { "epoch": 205.0, "grad_norm": 0.18061985075473785, "learning_rate": 9.838e-05, "loss": 0.007, "step": 4920 }, { "epoch": 205.41666666666666, "grad_norm": 0.2070983648300171, "learning_rate": 9.858000000000001e-05, "loss": 0.0055, "step": 4930 }, { "epoch": 205.83333333333334, "grad_norm": 0.14516960084438324, "learning_rate": 9.878e-05, "loss": 0.0066, "step": 4940 }, { "epoch": 206.25, "grad_norm": 0.13810251653194427, "learning_rate": 9.898e-05, "loss": 0.0062, "step": 4950 }, { "epoch": 206.66666666666666, "grad_norm": 0.14565569162368774, "learning_rate": 9.918000000000001e-05, "loss": 0.0064, "step": 4960 }, { "epoch": 207.08333333333334, "grad_norm": 0.1039823591709137, "learning_rate": 9.938e-05, "loss": 0.0063, "step": 4970 }, { "epoch": 207.5, "grad_norm": 0.119210384786129, "learning_rate": 9.958e-05, "loss": 0.0066, "step": 4980 }, { "epoch": 207.91666666666666, "grad_norm": 0.1971220225095749, "learning_rate": 9.978000000000001e-05, "loss": 0.0076, "step": 4990 }, { "epoch": 208.33333333333334, "grad_norm": 0.14178116619586945, "learning_rate": 9.998e-05, "loss": 0.0057, "step": 5000 }, { "epoch": 208.75, "grad_norm": 0.13754309713840485, "learning_rate": 9.999999778549045e-05, "loss": 0.0057, "step": 5010 }, { "epoch": 209.16666666666666, "grad_norm": 0.10988844931125641, "learning_rate": 9.999999013039593e-05, "loss": 0.0053, "step": 5020 }, { "epoch": 209.58333333333334, "grad_norm": 0.13697190582752228, "learning_rate": 9.999997700737766e-05, "loss": 0.0055, "step": 5030 }, { "epoch": 210.0, "grad_norm": 0.13928623497486115, "learning_rate": 9.999995841643709e-05, "loss": 0.0058, "step": 5040 }, { "epoch": 210.41666666666666, "grad_norm": 0.14402054250240326, "learning_rate": 9.999993435757623e-05, "loss": 0.0059, "step": 5050 }, { "epoch": 210.83333333333334, "grad_norm": 0.12793254852294922, "learning_rate": 9.999990483079773e-05, "loss": 0.0064, "step": 5060 }, { "epoch": 211.25, "grad_norm": 0.10107038915157318, "learning_rate": 9.999986983610481e-05, "loss": 0.0056, "step": 5070 }, { "epoch": 211.66666666666666, "grad_norm": 0.1222490444779396, "learning_rate": 9.99998293735013e-05, "loss": 0.0058, "step": 5080 }, { "epoch": 212.08333333333334, "grad_norm": 0.17383083701133728, "learning_rate": 9.999978344299161e-05, "loss": 0.0058, "step": 5090 }, { "epoch": 212.5, "grad_norm": 0.11088438332080841, "learning_rate": 9.99997320445808e-05, "loss": 0.0065, "step": 5100 }, { "epoch": 212.91666666666666, "grad_norm": 0.11292830854654312, "learning_rate": 9.999967517827444e-05, "loss": 0.0054, "step": 5110 }, { "epoch": 213.33333333333334, "grad_norm": 0.14797234535217285, "learning_rate": 9.999961284407879e-05, "loss": 0.0063, "step": 5120 }, { "epoch": 213.75, "grad_norm": 0.14242826402187347, "learning_rate": 9.999954504200067e-05, "loss": 0.005, "step": 5130 }, { "epoch": 214.16666666666666, "grad_norm": 0.16123954951763153, "learning_rate": 9.999947177204744e-05, "loss": 0.0059, "step": 5140 }, { "epoch": 214.58333333333334, "grad_norm": 0.18840140104293823, "learning_rate": 9.999939303422718e-05, "loss": 0.0061, "step": 5150 }, { "epoch": 215.0, "grad_norm": 0.17450527846813202, "learning_rate": 9.999930882854847e-05, "loss": 0.0057, "step": 5160 }, { "epoch": 215.41666666666666, "grad_norm": 0.15764234960079193, "learning_rate": 9.999921915502051e-05, "loss": 0.0055, "step": 5170 }, { "epoch": 215.83333333333334, "grad_norm": 0.12761379778385162, "learning_rate": 9.99991240136531e-05, "loss": 0.0069, "step": 5180 }, { "epoch": 216.25, "grad_norm": 0.13106630742549896, "learning_rate": 9.999902340445668e-05, "loss": 0.0053, "step": 5190 }, { "epoch": 216.66666666666666, "grad_norm": 0.11471487581729889, "learning_rate": 9.999891732744224e-05, "loss": 0.0058, "step": 5200 }, { "epoch": 217.08333333333334, "grad_norm": 0.10237571597099304, "learning_rate": 9.999880578262135e-05, "loss": 0.0058, "step": 5210 }, { "epoch": 217.5, "grad_norm": 0.10643874108791351, "learning_rate": 9.999868877000624e-05, "loss": 0.0056, "step": 5220 }, { "epoch": 217.91666666666666, "grad_norm": 0.09671556204557419, "learning_rate": 9.99985662896097e-05, "loss": 0.0057, "step": 5230 }, { "epoch": 218.33333333333334, "grad_norm": 0.15610302984714508, "learning_rate": 9.999843834144513e-05, "loss": 0.0058, "step": 5240 }, { "epoch": 218.75, "grad_norm": 0.1044331043958664, "learning_rate": 9.99983049255265e-05, "loss": 0.0057, "step": 5250 }, { "epoch": 219.16666666666666, "grad_norm": 0.15027715265750885, "learning_rate": 9.999816604186843e-05, "loss": 0.0058, "step": 5260 }, { "epoch": 219.58333333333334, "grad_norm": 0.09964911639690399, "learning_rate": 9.999802169048609e-05, "loss": 0.0051, "step": 5270 }, { "epoch": 220.0, "grad_norm": 0.08211909234523773, "learning_rate": 9.999787187139527e-05, "loss": 0.0048, "step": 5280 }, { "epoch": 220.41666666666666, "grad_norm": 0.09284090250730515, "learning_rate": 9.999771658461234e-05, "loss": 0.0055, "step": 5290 }, { "epoch": 220.83333333333334, "grad_norm": 0.1281370222568512, "learning_rate": 9.999755583015431e-05, "loss": 0.0051, "step": 5300 }, { "epoch": 221.25, "grad_norm": 0.13863393664360046, "learning_rate": 9.999738960803874e-05, "loss": 0.0057, "step": 5310 }, { "epoch": 221.66666666666666, "grad_norm": 0.11125317215919495, "learning_rate": 9.99972179182838e-05, "loss": 0.0047, "step": 5320 }, { "epoch": 222.08333333333334, "grad_norm": 0.10876584053039551, "learning_rate": 9.99970407609083e-05, "loss": 0.0059, "step": 5330 }, { "epoch": 222.5, "grad_norm": 0.14657898247241974, "learning_rate": 9.999685813593159e-05, "loss": 0.006, "step": 5340 }, { "epoch": 222.91666666666666, "grad_norm": 0.14832523465156555, "learning_rate": 9.999667004337362e-05, "loss": 0.0052, "step": 5350 }, { "epoch": 223.33333333333334, "grad_norm": 0.14543768763542175, "learning_rate": 9.9996476483255e-05, "loss": 0.0058, "step": 5360 }, { "epoch": 223.75, "grad_norm": 0.12789231538772583, "learning_rate": 9.999627745559688e-05, "loss": 0.0055, "step": 5370 }, { "epoch": 224.16666666666666, "grad_norm": 0.10132310539484024, "learning_rate": 9.999607296042101e-05, "loss": 0.0057, "step": 5380 }, { "epoch": 224.58333333333334, "grad_norm": 0.12264691293239594, "learning_rate": 9.99958629977498e-05, "loss": 0.0053, "step": 5390 }, { "epoch": 225.0, "grad_norm": 0.11754363030195236, "learning_rate": 9.999564756760615e-05, "loss": 0.0054, "step": 5400 }, { "epoch": 225.41666666666666, "grad_norm": 0.15454518795013428, "learning_rate": 9.999542667001366e-05, "loss": 0.0056, "step": 5410 }, { "epoch": 225.83333333333334, "grad_norm": 0.12245000153779984, "learning_rate": 9.999520030499647e-05, "loss": 0.0052, "step": 5420 }, { "epoch": 226.25, "grad_norm": 0.12474428117275238, "learning_rate": 9.999496847257936e-05, "loss": 0.0055, "step": 5430 }, { "epoch": 226.66666666666666, "grad_norm": 0.17567852139472961, "learning_rate": 9.999473117278764e-05, "loss": 0.0057, "step": 5440 }, { "epoch": 227.08333333333334, "grad_norm": 0.18508517742156982, "learning_rate": 9.999448840564731e-05, "loss": 0.0052, "step": 5450 }, { "epoch": 227.5, "grad_norm": 0.1446080058813095, "learning_rate": 9.999424017118488e-05, "loss": 0.0053, "step": 5460 }, { "epoch": 227.91666666666666, "grad_norm": 0.12609422206878662, "learning_rate": 9.999398646942751e-05, "loss": 0.0058, "step": 5470 }, { "epoch": 228.33333333333334, "grad_norm": 0.13107451796531677, "learning_rate": 9.999372730040296e-05, "loss": 0.0052, "step": 5480 }, { "epoch": 228.75, "grad_norm": 0.12540730834007263, "learning_rate": 9.999346266413953e-05, "loss": 0.0056, "step": 5490 }, { "epoch": 229.16666666666666, "grad_norm": 0.12764917314052582, "learning_rate": 9.99931925606662e-05, "loss": 0.0057, "step": 5500 }, { "epoch": 229.58333333333334, "grad_norm": 0.11470261961221695, "learning_rate": 9.99929169900125e-05, "loss": 0.0053, "step": 5510 }, { "epoch": 230.0, "grad_norm": 0.12754103541374207, "learning_rate": 9.999263595220855e-05, "loss": 0.0048, "step": 5520 }, { "epoch": 230.41666666666666, "grad_norm": 0.10021167248487473, "learning_rate": 9.99923494472851e-05, "loss": 0.0048, "step": 5530 }, { "epoch": 230.83333333333334, "grad_norm": 0.1457349807024002, "learning_rate": 9.999205747527348e-05, "loss": 0.0058, "step": 5540 }, { "epoch": 231.25, "grad_norm": 0.13851673901081085, "learning_rate": 9.999176003620561e-05, "loss": 0.005, "step": 5550 }, { "epoch": 231.66666666666666, "grad_norm": 0.1064143106341362, "learning_rate": 9.999145713011405e-05, "loss": 0.0053, "step": 5560 }, { "epoch": 232.08333333333334, "grad_norm": 0.09308214485645294, "learning_rate": 9.999114875703186e-05, "loss": 0.0048, "step": 5570 }, { "epoch": 232.5, "grad_norm": 0.09274554252624512, "learning_rate": 9.999083491699281e-05, "loss": 0.0054, "step": 5580 }, { "epoch": 232.91666666666666, "grad_norm": 0.19110387563705444, "learning_rate": 9.999051561003123e-05, "loss": 0.0055, "step": 5590 }, { "epoch": 233.33333333333334, "grad_norm": 0.16302378475666046, "learning_rate": 9.999019083618202e-05, "loss": 0.0056, "step": 5600 }, { "epoch": 233.75, "grad_norm": 0.10771001130342484, "learning_rate": 9.99898605954807e-05, "loss": 0.0059, "step": 5610 }, { "epoch": 234.16666666666666, "grad_norm": 0.1401968151330948, "learning_rate": 9.998952488796338e-05, "loss": 0.0053, "step": 5620 }, { "epoch": 234.58333333333334, "grad_norm": 0.1124897450208664, "learning_rate": 9.998918371366676e-05, "loss": 0.0053, "step": 5630 }, { "epoch": 235.0, "grad_norm": 0.11903649568557739, "learning_rate": 9.99888370726282e-05, "loss": 0.005, "step": 5640 }, { "epoch": 235.41666666666666, "grad_norm": 0.1291043907403946, "learning_rate": 9.998848496488556e-05, "loss": 0.0051, "step": 5650 }, { "epoch": 235.83333333333334, "grad_norm": 0.10567192733287811, "learning_rate": 9.998812739047736e-05, "loss": 0.0056, "step": 5660 }, { "epoch": 236.25, "grad_norm": 0.11453845351934433, "learning_rate": 9.99877643494427e-05, "loss": 0.0057, "step": 5670 }, { "epoch": 236.66666666666666, "grad_norm": 0.1453195959329605, "learning_rate": 9.998739584182128e-05, "loss": 0.0062, "step": 5680 }, { "epoch": 237.08333333333334, "grad_norm": 0.15899893641471863, "learning_rate": 9.998702186765342e-05, "loss": 0.0051, "step": 5690 }, { "epoch": 237.5, "grad_norm": 0.13600324094295502, "learning_rate": 9.998664242698e-05, "loss": 0.0051, "step": 5700 }, { "epoch": 237.91666666666666, "grad_norm": 0.15198832750320435, "learning_rate": 9.998625751984251e-05, "loss": 0.0043, "step": 5710 }, { "epoch": 238.33333333333334, "grad_norm": 0.1262781322002411, "learning_rate": 9.998586714628307e-05, "loss": 0.005, "step": 5720 }, { "epoch": 238.75, "grad_norm": 0.11821957677602768, "learning_rate": 9.998547130634432e-05, "loss": 0.0055, "step": 5730 }, { "epoch": 239.16666666666666, "grad_norm": 0.15775373578071594, "learning_rate": 9.99850700000696e-05, "loss": 0.0055, "step": 5740 }, { "epoch": 239.58333333333334, "grad_norm": 0.1196817085146904, "learning_rate": 9.998466322750278e-05, "loss": 0.0054, "step": 5750 }, { "epoch": 240.0, "grad_norm": 0.13181756436824799, "learning_rate": 9.998425098868834e-05, "loss": 0.0053, "step": 5760 }, { "epoch": 240.41666666666666, "grad_norm": 0.14716093242168427, "learning_rate": 9.998383328367136e-05, "loss": 0.0053, "step": 5770 }, { "epoch": 240.83333333333334, "grad_norm": 0.21142233908176422, "learning_rate": 9.99834101124975e-05, "loss": 0.0058, "step": 5780 }, { "epoch": 241.25, "grad_norm": 0.1942637413740158, "learning_rate": 9.998298147521309e-05, "loss": 0.006, "step": 5790 }, { "epoch": 241.66666666666666, "grad_norm": 0.1616276353597641, "learning_rate": 9.998254737186496e-05, "loss": 0.0052, "step": 5800 }, { "epoch": 242.08333333333334, "grad_norm": 0.20986974239349365, "learning_rate": 9.99821078025006e-05, "loss": 0.0051, "step": 5810 }, { "epoch": 242.5, "grad_norm": 0.19705943763256073, "learning_rate": 9.998166276716807e-05, "loss": 0.0056, "step": 5820 }, { "epoch": 242.91666666666666, "grad_norm": 0.17773722112178802, "learning_rate": 9.998121226591606e-05, "loss": 0.0052, "step": 5830 }, { "epoch": 243.33333333333334, "grad_norm": 0.1288110762834549, "learning_rate": 9.998075629879382e-05, "loss": 0.005, "step": 5840 }, { "epoch": 243.75, "grad_norm": 0.21423500776290894, "learning_rate": 9.99802948658512e-05, "loss": 0.005, "step": 5850 }, { "epoch": 244.16666666666666, "grad_norm": 0.21125933527946472, "learning_rate": 9.99798279671387e-05, "loss": 0.0058, "step": 5860 }, { "epoch": 244.58333333333334, "grad_norm": 0.16400934755802155, "learning_rate": 9.997935560270734e-05, "loss": 0.0059, "step": 5870 }, { "epoch": 245.0, "grad_norm": 0.1405540108680725, "learning_rate": 9.997887777260879e-05, "loss": 0.005, "step": 5880 }, { "epoch": 245.41666666666666, "grad_norm": 0.1347767412662506, "learning_rate": 9.997839447689532e-05, "loss": 0.0058, "step": 5890 }, { "epoch": 245.83333333333334, "grad_norm": 0.1317623257637024, "learning_rate": 9.997790571561978e-05, "loss": 0.0055, "step": 5900 }, { "epoch": 246.25, "grad_norm": 0.11853981018066406, "learning_rate": 9.99774114888356e-05, "loss": 0.005, "step": 5910 }, { "epoch": 246.66666666666666, "grad_norm": 0.1309017390012741, "learning_rate": 9.997691179659684e-05, "loss": 0.0053, "step": 5920 }, { "epoch": 247.08333333333334, "grad_norm": 0.09687075018882751, "learning_rate": 9.997640663895815e-05, "loss": 0.0046, "step": 5930 }, { "epoch": 247.5, "grad_norm": 0.12706094980239868, "learning_rate": 9.997589601597477e-05, "loss": 0.0056, "step": 5940 }, { "epoch": 247.91666666666666, "grad_norm": 0.1313796043395996, "learning_rate": 9.997537992770252e-05, "loss": 0.0043, "step": 5950 }, { "epoch": 248.33333333333334, "grad_norm": 0.14183409512043, "learning_rate": 9.997485837419788e-05, "loss": 0.0048, "step": 5960 }, { "epoch": 248.75, "grad_norm": 0.11085675656795502, "learning_rate": 9.997433135551786e-05, "loss": 0.0047, "step": 5970 }, { "epoch": 249.16666666666666, "grad_norm": 0.11608074605464935, "learning_rate": 9.997379887172009e-05, "loss": 0.004, "step": 5980 }, { "epoch": 249.58333333333334, "grad_norm": 0.1747543066740036, "learning_rate": 9.997326092286281e-05, "loss": 0.005, "step": 5990 }, { "epoch": 250.0, "grad_norm": 0.10896489769220352, "learning_rate": 9.997271750900486e-05, "loss": 0.0049, "step": 6000 }, { "epoch": 250.41666666666666, "grad_norm": 0.10930837690830231, "learning_rate": 9.997216863020565e-05, "loss": 0.0043, "step": 6010 }, { "epoch": 250.83333333333334, "grad_norm": 0.1236208900809288, "learning_rate": 9.99716142865252e-05, "loss": 0.0045, "step": 6020 }, { "epoch": 251.25, "grad_norm": 0.12069859355688095, "learning_rate": 9.997105447802415e-05, "loss": 0.0046, "step": 6030 }, { "epoch": 251.66666666666666, "grad_norm": 0.11808211356401443, "learning_rate": 9.997048920476373e-05, "loss": 0.0048, "step": 6040 }, { "epoch": 252.08333333333334, "grad_norm": 0.12422982603311539, "learning_rate": 9.996991846680572e-05, "loss": 0.005, "step": 6050 }, { "epoch": 252.5, "grad_norm": 0.10562683641910553, "learning_rate": 9.996934226421257e-05, "loss": 0.0044, "step": 6060 }, { "epoch": 252.91666666666666, "grad_norm": 0.12849707901477814, "learning_rate": 9.996876059704726e-05, "loss": 0.0045, "step": 6070 }, { "epoch": 253.33333333333334, "grad_norm": 0.135928213596344, "learning_rate": 9.996817346537343e-05, "loss": 0.0057, "step": 6080 }, { "epoch": 253.75, "grad_norm": 0.15098553895950317, "learning_rate": 9.996758086925526e-05, "loss": 0.0052, "step": 6090 }, { "epoch": 254.16666666666666, "grad_norm": 0.14218060672283173, "learning_rate": 9.996698280875759e-05, "loss": 0.0048, "step": 6100 }, { "epoch": 254.58333333333334, "grad_norm": 0.16662926971912384, "learning_rate": 9.99663792839458e-05, "loss": 0.0054, "step": 6110 }, { "epoch": 255.0, "grad_norm": 0.18162113428115845, "learning_rate": 9.99657702948859e-05, "loss": 0.0049, "step": 6120 }, { "epoch": 255.41666666666666, "grad_norm": 0.11008312553167343, "learning_rate": 9.996515584164448e-05, "loss": 0.0048, "step": 6130 }, { "epoch": 255.83333333333334, "grad_norm": 0.10102929919958115, "learning_rate": 9.996453592428873e-05, "loss": 0.0044, "step": 6140 }, { "epoch": 256.25, "grad_norm": 0.08904779702425003, "learning_rate": 9.996391054288646e-05, "loss": 0.0044, "step": 6150 }, { "epoch": 256.6666666666667, "grad_norm": 0.08655121177434921, "learning_rate": 9.996327969750605e-05, "loss": 0.0045, "step": 6160 }, { "epoch": 257.0833333333333, "grad_norm": 0.08348435163497925, "learning_rate": 9.996264338821649e-05, "loss": 0.0039, "step": 6170 }, { "epoch": 257.5, "grad_norm": 0.10162127763032913, "learning_rate": 9.996200161508735e-05, "loss": 0.0046, "step": 6180 }, { "epoch": 257.9166666666667, "grad_norm": 0.10024549812078476, "learning_rate": 9.996135437818885e-05, "loss": 0.0046, "step": 6190 }, { "epoch": 258.3333333333333, "grad_norm": 0.16559067368507385, "learning_rate": 9.996070167759175e-05, "loss": 0.0053, "step": 6200 }, { "epoch": 258.75, "grad_norm": 0.12597109377384186, "learning_rate": 9.996004351336743e-05, "loss": 0.0053, "step": 6210 }, { "epoch": 259.1666666666667, "grad_norm": 0.18726883828639984, "learning_rate": 9.995937988558785e-05, "loss": 0.0055, "step": 6220 }, { "epoch": 259.5833333333333, "grad_norm": 0.1719699501991272, "learning_rate": 9.995871079432561e-05, "loss": 0.0053, "step": 6230 }, { "epoch": 260.0, "grad_norm": 0.1668844223022461, "learning_rate": 9.995803623965389e-05, "loss": 0.0054, "step": 6240 }, { "epoch": 260.4166666666667, "grad_norm": 0.1949554830789566, "learning_rate": 9.995735622164641e-05, "loss": 0.0053, "step": 6250 }, { "epoch": 260.8333333333333, "grad_norm": 0.1238698735833168, "learning_rate": 9.995667074037758e-05, "loss": 0.0049, "step": 6260 }, { "epoch": 261.25, "grad_norm": 0.1263723075389862, "learning_rate": 9.995597979592232e-05, "loss": 0.0052, "step": 6270 }, { "epoch": 261.6666666666667, "grad_norm": 0.17042489349842072, "learning_rate": 9.995528338835625e-05, "loss": 0.0046, "step": 6280 }, { "epoch": 262.0833333333333, "grad_norm": 0.17051970958709717, "learning_rate": 9.995458151775547e-05, "loss": 0.0051, "step": 6290 }, { "epoch": 262.5, "grad_norm": 0.15910972654819489, "learning_rate": 9.995387418419677e-05, "loss": 0.0048, "step": 6300 }, { "epoch": 262.9166666666667, "grad_norm": 0.1297980546951294, "learning_rate": 9.99531613877575e-05, "loss": 0.0052, "step": 6310 }, { "epoch": 263.3333333333333, "grad_norm": 0.15835662186145782, "learning_rate": 9.995244312851559e-05, "loss": 0.0049, "step": 6320 }, { "epoch": 263.75, "grad_norm": 0.12955565750598907, "learning_rate": 9.995171940654961e-05, "loss": 0.0046, "step": 6330 }, { "epoch": 264.1666666666667, "grad_norm": 0.15236791968345642, "learning_rate": 9.995099022193871e-05, "loss": 0.0049, "step": 6340 }, { "epoch": 264.5833333333333, "grad_norm": 0.12144199013710022, "learning_rate": 9.995025557476261e-05, "loss": 0.0045, "step": 6350 }, { "epoch": 265.0, "grad_norm": 0.12430723756551743, "learning_rate": 9.994951546510165e-05, "loss": 0.0047, "step": 6360 }, { "epoch": 265.4166666666667, "grad_norm": 0.1441819965839386, "learning_rate": 9.994876989303679e-05, "loss": 0.0053, "step": 6370 }, { "epoch": 265.8333333333333, "grad_norm": 0.1443672776222229, "learning_rate": 9.994801885864955e-05, "loss": 0.0049, "step": 6380 }, { "epoch": 266.25, "grad_norm": 0.1273130178451538, "learning_rate": 9.994726236202205e-05, "loss": 0.0053, "step": 6390 }, { "epoch": 266.6666666666667, "grad_norm": 0.15126177668571472, "learning_rate": 9.994650040323704e-05, "loss": 0.0052, "step": 6400 }, { "epoch": 267.0833333333333, "grad_norm": 0.15337695181369781, "learning_rate": 9.994573298237784e-05, "loss": 0.0043, "step": 6410 }, { "epoch": 267.5, "grad_norm": 0.13140271604061127, "learning_rate": 9.994496009952837e-05, "loss": 0.0044, "step": 6420 }, { "epoch": 267.9166666666667, "grad_norm": 0.11993836611509323, "learning_rate": 9.994418175477316e-05, "loss": 0.0052, "step": 6430 }, { "epoch": 268.3333333333333, "grad_norm": 0.10362964123487473, "learning_rate": 9.994339794819733e-05, "loss": 0.0043, "step": 6440 }, { "epoch": 268.75, "grad_norm": 0.15694847702980042, "learning_rate": 9.994260867988658e-05, "loss": 0.0051, "step": 6450 }, { "epoch": 269.1666666666667, "grad_norm": 0.11513049155473709, "learning_rate": 9.994181394992723e-05, "loss": 0.0043, "step": 6460 }, { "epoch": 269.5833333333333, "grad_norm": 0.11524345725774765, "learning_rate": 9.994101375840618e-05, "loss": 0.0044, "step": 6470 }, { "epoch": 270.0, "grad_norm": 0.11268263310194016, "learning_rate": 9.994020810541098e-05, "loss": 0.0047, "step": 6480 }, { "epoch": 270.4166666666667, "grad_norm": 0.09579937160015106, "learning_rate": 9.99393969910297e-05, "loss": 0.0047, "step": 6490 }, { "epoch": 270.8333333333333, "grad_norm": 0.12213350832462311, "learning_rate": 9.993858041535104e-05, "loss": 0.0052, "step": 6500 }, { "epoch": 271.25, "grad_norm": 0.14001256227493286, "learning_rate": 9.99377583784643e-05, "loss": 0.0049, "step": 6510 }, { "epoch": 271.6666666666667, "grad_norm": 0.17013396322727203, "learning_rate": 9.993693088045939e-05, "loss": 0.0048, "step": 6520 }, { "epoch": 272.0833333333333, "grad_norm": 0.15610048174858093, "learning_rate": 9.99360979214268e-05, "loss": 0.0046, "step": 6530 }, { "epoch": 272.5, "grad_norm": 0.12036527693271637, "learning_rate": 9.99352595014576e-05, "loss": 0.0045, "step": 6540 }, { "epoch": 272.9166666666667, "grad_norm": 0.10226179659366608, "learning_rate": 9.993441562064354e-05, "loss": 0.0046, "step": 6550 }, { "epoch": 273.3333333333333, "grad_norm": 0.16857501864433289, "learning_rate": 9.993356627907685e-05, "loss": 0.0047, "step": 6560 }, { "epoch": 273.75, "grad_norm": 0.1712261289358139, "learning_rate": 9.99327114768504e-05, "loss": 0.0055, "step": 6570 }, { "epoch": 274.1666666666667, "grad_norm": 0.15459144115447998, "learning_rate": 9.99318512140577e-05, "loss": 0.0052, "step": 6580 }, { "epoch": 274.5833333333333, "grad_norm": 0.15619909763336182, "learning_rate": 9.993098549079284e-05, "loss": 0.0052, "step": 6590 }, { "epoch": 275.0, "grad_norm": 0.1743602156639099, "learning_rate": 9.993011430715047e-05, "loss": 0.0058, "step": 6600 }, { "epoch": 275.4166666666667, "grad_norm": 0.16246981918811798, "learning_rate": 9.992923766322586e-05, "loss": 0.0048, "step": 6610 }, { "epoch": 275.8333333333333, "grad_norm": 0.12016802281141281, "learning_rate": 9.99283555591149e-05, "loss": 0.0047, "step": 6620 }, { "epoch": 276.25, "grad_norm": 0.13204741477966309, "learning_rate": 9.992746799491404e-05, "loss": 0.0054, "step": 6630 }, { "epoch": 276.6666666666667, "grad_norm": 0.23816685378551483, "learning_rate": 9.992657497072033e-05, "loss": 0.0057, "step": 6640 }, { "epoch": 277.0833333333333, "grad_norm": 0.24726250767707825, "learning_rate": 9.992567648663147e-05, "loss": 0.0069, "step": 6650 }, { "epoch": 277.5, "grad_norm": 0.16538064181804657, "learning_rate": 9.992477254274568e-05, "loss": 0.0059, "step": 6660 }, { "epoch": 277.9166666666667, "grad_norm": 0.1307203620672226, "learning_rate": 9.992386313916183e-05, "loss": 0.0051, "step": 6670 }, { "epoch": 278.3333333333333, "grad_norm": 0.1574225276708603, "learning_rate": 9.992294827597934e-05, "loss": 0.0052, "step": 6680 }, { "epoch": 278.75, "grad_norm": 0.10229196399450302, "learning_rate": 9.992202795329831e-05, "loss": 0.0057, "step": 6690 }, { "epoch": 279.1666666666667, "grad_norm": 0.12754936516284943, "learning_rate": 9.992110217121936e-05, "loss": 0.0059, "step": 6700 }, { "epoch": 279.5833333333333, "grad_norm": 0.09526214748620987, "learning_rate": 9.992017092984372e-05, "loss": 0.0043, "step": 6710 }, { "epoch": 280.0, "grad_norm": 0.11835139989852905, "learning_rate": 9.991923422927326e-05, "loss": 0.0047, "step": 6720 }, { "epoch": 280.4166666666667, "grad_norm": 0.09350073337554932, "learning_rate": 9.991829206961037e-05, "loss": 0.0042, "step": 6730 }, { "epoch": 280.8333333333333, "grad_norm": 0.07778962701559067, "learning_rate": 9.991734445095813e-05, "loss": 0.0043, "step": 6740 }, { "epoch": 281.25, "grad_norm": 0.06951020658016205, "learning_rate": 9.991639137342015e-05, "loss": 0.0045, "step": 6750 }, { "epoch": 281.6666666666667, "grad_norm": 0.07709138095378876, "learning_rate": 9.991543283710064e-05, "loss": 0.0049, "step": 6760 }, { "epoch": 282.0833333333333, "grad_norm": 0.08774907141923904, "learning_rate": 9.991446884210445e-05, "loss": 0.0047, "step": 6770 }, { "epoch": 282.5, "grad_norm": 0.06779070943593979, "learning_rate": 9.9913499388537e-05, "loss": 0.0037, "step": 6780 }, { "epoch": 282.9166666666667, "grad_norm": 0.09178661555051804, "learning_rate": 9.99125244765043e-05, "loss": 0.0037, "step": 6790 }, { "epoch": 283.3333333333333, "grad_norm": 0.16708247363567352, "learning_rate": 9.991154410611296e-05, "loss": 0.0046, "step": 6800 }, { "epoch": 283.75, "grad_norm": 0.11082737147808075, "learning_rate": 9.99105582774702e-05, "loss": 0.0044, "step": 6810 }, { "epoch": 284.1666666666667, "grad_norm": 0.10988204181194305, "learning_rate": 9.990956699068384e-05, "loss": 0.0048, "step": 6820 }, { "epoch": 284.5833333333333, "grad_norm": 0.13214054703712463, "learning_rate": 9.990857024586224e-05, "loss": 0.0046, "step": 6830 }, { "epoch": 285.0, "grad_norm": 0.1896415501832962, "learning_rate": 9.990756804311446e-05, "loss": 0.0044, "step": 6840 }, { "epoch": 285.4166666666667, "grad_norm": 0.12993671000003815, "learning_rate": 9.990656038255006e-05, "loss": 0.0039, "step": 6850 }, { "epoch": 285.8333333333333, "grad_norm": 0.09515203535556793, "learning_rate": 9.990554726427926e-05, "loss": 0.0046, "step": 6860 }, { "epoch": 286.25, "grad_norm": 0.12371863424777985, "learning_rate": 9.990452868841284e-05, "loss": 0.005, "step": 6870 }, { "epoch": 286.6666666666667, "grad_norm": 0.09346974641084671, "learning_rate": 9.99035046550622e-05, "loss": 0.0048, "step": 6880 }, { "epoch": 287.0833333333333, "grad_norm": 0.09582419693470001, "learning_rate": 9.99024751643393e-05, "loss": 0.0048, "step": 6890 }, { "epoch": 287.5, "grad_norm": 0.15767666697502136, "learning_rate": 9.990144021635677e-05, "loss": 0.0046, "step": 6900 }, { "epoch": 287.9166666666667, "grad_norm": 0.12612128257751465, "learning_rate": 9.990039981122775e-05, "loss": 0.0052, "step": 6910 }, { "epoch": 288.3333333333333, "grad_norm": 0.14673636853694916, "learning_rate": 9.989935394906602e-05, "loss": 0.0047, "step": 6920 }, { "epoch": 288.75, "grad_norm": 0.14484018087387085, "learning_rate": 9.989830262998598e-05, "loss": 0.0062, "step": 6930 }, { "epoch": 289.1666666666667, "grad_norm": 0.11745455116033554, "learning_rate": 9.989724585410259e-05, "loss": 0.005, "step": 6940 }, { "epoch": 289.5833333333333, "grad_norm": 0.1369314193725586, "learning_rate": 9.989618362153139e-05, "loss": 0.0055, "step": 6950 }, { "epoch": 290.0, "grad_norm": 0.18110264837741852, "learning_rate": 9.989511593238859e-05, "loss": 0.0049, "step": 6960 }, { "epoch": 290.4166666666667, "grad_norm": 0.11699528247117996, "learning_rate": 9.98940427867909e-05, "loss": 0.0052, "step": 6970 }, { "epoch": 290.8333333333333, "grad_norm": 0.14689414203166962, "learning_rate": 9.989296418485573e-05, "loss": 0.0066, "step": 6980 }, { "epoch": 291.25, "grad_norm": 0.1961538940668106, "learning_rate": 9.989188012670101e-05, "loss": 0.0051, "step": 6990 }, { "epoch": 291.6666666666667, "grad_norm": 0.1647917628288269, "learning_rate": 9.989079061244528e-05, "loss": 0.0058, "step": 7000 }, { "epoch": 292.0833333333333, "grad_norm": 0.1045827567577362, "learning_rate": 9.988969564220769e-05, "loss": 0.0055, "step": 7010 }, { "epoch": 292.5, "grad_norm": 0.12635643780231476, "learning_rate": 9.988859521610801e-05, "loss": 0.0055, "step": 7020 }, { "epoch": 292.9166666666667, "grad_norm": 0.19510164856910706, "learning_rate": 9.988748933426656e-05, "loss": 0.0058, "step": 7030 }, { "epoch": 293.3333333333333, "grad_norm": 0.1735028326511383, "learning_rate": 9.988637799680428e-05, "loss": 0.0059, "step": 7040 }, { "epoch": 293.75, "grad_norm": 0.14176231622695923, "learning_rate": 9.98852612038427e-05, "loss": 0.005, "step": 7050 }, { "epoch": 294.1666666666667, "grad_norm": 0.13678041100502014, "learning_rate": 9.988413895550397e-05, "loss": 0.0047, "step": 7060 }, { "epoch": 294.5833333333333, "grad_norm": 0.15860621631145477, "learning_rate": 9.98830112519108e-05, "loss": 0.0061, "step": 7070 }, { "epoch": 295.0, "grad_norm": 0.14852792024612427, "learning_rate": 9.98818780931865e-05, "loss": 0.0048, "step": 7080 }, { "epoch": 295.4166666666667, "grad_norm": 0.1434585452079773, "learning_rate": 9.988073947945502e-05, "loss": 0.005, "step": 7090 }, { "epoch": 295.8333333333333, "grad_norm": 0.1257006675004959, "learning_rate": 9.987959541084087e-05, "loss": 0.0046, "step": 7100 }, { "epoch": 296.25, "grad_norm": 0.11002438515424728, "learning_rate": 9.987844588746915e-05, "loss": 0.004, "step": 7110 }, { "epoch": 296.6666666666667, "grad_norm": 0.09967727959156036, "learning_rate": 9.987729090946558e-05, "loss": 0.0045, "step": 7120 }, { "epoch": 297.0833333333333, "grad_norm": 0.09940212219953537, "learning_rate": 9.987613047695647e-05, "loss": 0.0045, "step": 7130 }, { "epoch": 297.5, "grad_norm": 0.0967329666018486, "learning_rate": 9.987496459006871e-05, "loss": 0.0044, "step": 7140 }, { "epoch": 297.9166666666667, "grad_norm": 0.10547561943531036, "learning_rate": 9.987379324892982e-05, "loss": 0.0055, "step": 7150 }, { "epoch": 298.3333333333333, "grad_norm": 0.1220831498503685, "learning_rate": 9.987261645366788e-05, "loss": 0.0046, "step": 7160 }, { "epoch": 298.75, "grad_norm": 0.11212349683046341, "learning_rate": 9.987143420441158e-05, "loss": 0.0045, "step": 7170 }, { "epoch": 299.1666666666667, "grad_norm": 0.12887440621852875, "learning_rate": 9.987024650129022e-05, "loss": 0.0045, "step": 7180 }, { "epoch": 299.5833333333333, "grad_norm": 0.12225796282291412, "learning_rate": 9.986905334443368e-05, "loss": 0.0053, "step": 7190 }, { "epoch": 300.0, "grad_norm": 0.11045951396226883, "learning_rate": 9.986785473397245e-05, "loss": 0.0044, "step": 7200 }, { "epoch": 300.4166666666667, "grad_norm": 0.1087583675980568, "learning_rate": 9.98666506700376e-05, "loss": 0.0048, "step": 7210 }, { "epoch": 300.8333333333333, "grad_norm": 0.10241054743528366, "learning_rate": 9.986544115276081e-05, "loss": 0.0057, "step": 7220 }, { "epoch": 301.25, "grad_norm": 0.09420517086982727, "learning_rate": 9.986422618227433e-05, "loss": 0.0046, "step": 7230 }, { "epoch": 301.6666666666667, "grad_norm": 0.09656592458486557, "learning_rate": 9.986300575871106e-05, "loss": 0.005, "step": 7240 }, { "epoch": 302.0833333333333, "grad_norm": 0.12057753652334213, "learning_rate": 9.986177988220444e-05, "loss": 0.0046, "step": 7250 }, { "epoch": 302.5, "grad_norm": 0.10071869939565659, "learning_rate": 9.986054855288856e-05, "loss": 0.0049, "step": 7260 }, { "epoch": 302.9166666666667, "grad_norm": 0.15288659930229187, "learning_rate": 9.985931177089802e-05, "loss": 0.0054, "step": 7270 }, { "epoch": 303.3333333333333, "grad_norm": 0.12131143361330032, "learning_rate": 9.985806953636814e-05, "loss": 0.0049, "step": 7280 }, { "epoch": 303.75, "grad_norm": 0.10508738458156586, "learning_rate": 9.985682184943471e-05, "loss": 0.0057, "step": 7290 }, { "epoch": 304.1666666666667, "grad_norm": 0.12052532285451889, "learning_rate": 9.98555687102342e-05, "loss": 0.0048, "step": 7300 }, { "epoch": 304.5833333333333, "grad_norm": 0.1486717313528061, "learning_rate": 9.985431011890367e-05, "loss": 0.0056, "step": 7310 }, { "epoch": 305.0, "grad_norm": 0.0959363505244255, "learning_rate": 9.985304607558075e-05, "loss": 0.0054, "step": 7320 }, { "epoch": 305.4166666666667, "grad_norm": 0.09922641515731812, "learning_rate": 9.985177658040364e-05, "loss": 0.0052, "step": 7330 }, { "epoch": 305.8333333333333, "grad_norm": 0.12285380810499191, "learning_rate": 9.985050163351119e-05, "loss": 0.0051, "step": 7340 }, { "epoch": 306.25, "grad_norm": 0.1119961142539978, "learning_rate": 9.984922123504286e-05, "loss": 0.0043, "step": 7350 }, { "epoch": 306.6666666666667, "grad_norm": 0.09312762320041656, "learning_rate": 9.984793538513862e-05, "loss": 0.0049, "step": 7360 }, { "epoch": 307.0833333333333, "grad_norm": 0.0919753909111023, "learning_rate": 9.984664408393912e-05, "loss": 0.0051, "step": 7370 }, { "epoch": 307.5, "grad_norm": 0.0843859538435936, "learning_rate": 9.984534733158556e-05, "loss": 0.0051, "step": 7380 }, { "epoch": 307.9166666666667, "grad_norm": 0.08733656257390976, "learning_rate": 9.984404512821977e-05, "loss": 0.0042, "step": 7390 }, { "epoch": 308.3333333333333, "grad_norm": 0.08540377765893936, "learning_rate": 9.984273747398411e-05, "loss": 0.0048, "step": 7400 }, { "epoch": 308.75, "grad_norm": 0.0909489244222641, "learning_rate": 9.984142436902165e-05, "loss": 0.005, "step": 7410 }, { "epoch": 309.1666666666667, "grad_norm": 0.09608003497123718, "learning_rate": 9.984010581347596e-05, "loss": 0.004, "step": 7420 }, { "epoch": 309.5833333333333, "grad_norm": 0.134505033493042, "learning_rate": 9.983878180749121e-05, "loss": 0.0049, "step": 7430 }, { "epoch": 310.0, "grad_norm": 0.08804059028625488, "learning_rate": 9.983745235121222e-05, "loss": 0.0045, "step": 7440 }, { "epoch": 310.4166666666667, "grad_norm": 0.12609632313251495, "learning_rate": 9.983611744478438e-05, "loss": 0.0051, "step": 7450 }, { "epoch": 310.8333333333333, "grad_norm": 0.10242592543363571, "learning_rate": 9.983477708835365e-05, "loss": 0.0053, "step": 7460 }, { "epoch": 311.25, "grad_norm": 0.11705455929040909, "learning_rate": 9.983343128206664e-05, "loss": 0.0052, "step": 7470 }, { "epoch": 311.6666666666667, "grad_norm": 0.09372298419475555, "learning_rate": 9.983208002607049e-05, "loss": 0.005, "step": 7480 }, { "epoch": 312.0833333333333, "grad_norm": 0.1090073511004448, "learning_rate": 9.9830723320513e-05, "loss": 0.0052, "step": 7490 }, { "epoch": 312.5, "grad_norm": 0.1145918220281601, "learning_rate": 9.982936116554254e-05, "loss": 0.0043, "step": 7500 }, { "epoch": 312.9166666666667, "grad_norm": 0.10050176829099655, "learning_rate": 9.982799356130803e-05, "loss": 0.0053, "step": 7510 }, { "epoch": 313.3333333333333, "grad_norm": 0.08489737659692764, "learning_rate": 9.982662050795908e-05, "loss": 0.005, "step": 7520 }, { "epoch": 313.75, "grad_norm": 0.11068572103977203, "learning_rate": 9.982524200564583e-05, "loss": 0.0056, "step": 7530 }, { "epoch": 314.1666666666667, "grad_norm": 0.10158177465200424, "learning_rate": 9.982385805451901e-05, "loss": 0.0047, "step": 7540 }, { "epoch": 314.5833333333333, "grad_norm": 0.09357882291078568, "learning_rate": 9.982246865472998e-05, "loss": 0.0043, "step": 7550 }, { "epoch": 315.0, "grad_norm": 0.09772352129220963, "learning_rate": 9.982107380643069e-05, "loss": 0.0046, "step": 7560 }, { "epoch": 315.4166666666667, "grad_norm": 0.0958951860666275, "learning_rate": 9.981967350977368e-05, "loss": 0.0048, "step": 7570 }, { "epoch": 315.8333333333333, "grad_norm": 0.1358063519001007, "learning_rate": 9.981826776491208e-05, "loss": 0.004, "step": 7580 }, { "epoch": 316.25, "grad_norm": 0.11320551484823227, "learning_rate": 9.98168565719996e-05, "loss": 0.0049, "step": 7590 }, { "epoch": 316.6666666666667, "grad_norm": 0.07951241731643677, "learning_rate": 9.98154399311906e-05, "loss": 0.0045, "step": 7600 }, { "epoch": 317.0833333333333, "grad_norm": 0.1159769669175148, "learning_rate": 9.981401784263997e-05, "loss": 0.0046, "step": 7610 }, { "epoch": 317.5, "grad_norm": 0.12146436423063278, "learning_rate": 9.981259030650326e-05, "loss": 0.0039, "step": 7620 }, { "epoch": 317.9166666666667, "grad_norm": 0.1087755486369133, "learning_rate": 9.981115732293655e-05, "loss": 0.0039, "step": 7630 }, { "epoch": 318.3333333333333, "grad_norm": 0.08879053592681885, "learning_rate": 9.980971889209659e-05, "loss": 0.0043, "step": 7640 }, { "epoch": 318.75, "grad_norm": 0.11337761580944061, "learning_rate": 9.980827501414064e-05, "loss": 0.0044, "step": 7650 }, { "epoch": 319.1666666666667, "grad_norm": 0.09964904189109802, "learning_rate": 9.980682568922663e-05, "loss": 0.0039, "step": 7660 }, { "epoch": 319.5833333333333, "grad_norm": 0.13774026930332184, "learning_rate": 9.980537091751304e-05, "loss": 0.0041, "step": 7670 }, { "epoch": 320.0, "grad_norm": 0.08799025416374207, "learning_rate": 9.980391069915897e-05, "loss": 0.0042, "step": 7680 }, { "epoch": 320.4166666666667, "grad_norm": 0.10417547821998596, "learning_rate": 9.98024450343241e-05, "loss": 0.0048, "step": 7690 }, { "epoch": 320.8333333333333, "grad_norm": 0.10590766370296478, "learning_rate": 9.980097392316872e-05, "loss": 0.0037, "step": 7700 }, { "epoch": 321.25, "grad_norm": 0.11534250527620316, "learning_rate": 9.97994973658537e-05, "loss": 0.0038, "step": 7710 }, { "epoch": 321.6666666666667, "grad_norm": 0.12898367643356323, "learning_rate": 9.979801536254054e-05, "loss": 0.0035, "step": 7720 }, { "epoch": 322.0833333333333, "grad_norm": 0.08558499068021774, "learning_rate": 9.979652791339127e-05, "loss": 0.0047, "step": 7730 }, { "epoch": 322.5, "grad_norm": 0.12663473188877106, "learning_rate": 9.97950350185686e-05, "loss": 0.0051, "step": 7740 }, { "epoch": 322.9166666666667, "grad_norm": 0.09440498799085617, "learning_rate": 9.979353667823574e-05, "loss": 0.0039, "step": 7750 }, { "epoch": 323.3333333333333, "grad_norm": 0.12270927429199219, "learning_rate": 9.979203289255658e-05, "loss": 0.0042, "step": 7760 }, { "epoch": 323.75, "grad_norm": 0.10109508037567139, "learning_rate": 9.979052366169557e-05, "loss": 0.0046, "step": 7770 }, { "epoch": 324.1666666666667, "grad_norm": 0.12516513466835022, "learning_rate": 9.978900898581775e-05, "loss": 0.0046, "step": 7780 }, { "epoch": 324.5833333333333, "grad_norm": 0.12938840687274933, "learning_rate": 9.978748886508875e-05, "loss": 0.004, "step": 7790 }, { "epoch": 325.0, "grad_norm": 0.08983978629112244, "learning_rate": 9.978596329967484e-05, "loss": 0.0048, "step": 7800 }, { "epoch": 325.4166666666667, "grad_norm": 0.07915401458740234, "learning_rate": 9.978443228974284e-05, "loss": 0.0038, "step": 7810 }, { "epoch": 325.8333333333333, "grad_norm": 0.09347696602344513, "learning_rate": 9.978289583546015e-05, "loss": 0.0041, "step": 7820 }, { "epoch": 326.25, "grad_norm": 0.10750871896743774, "learning_rate": 9.978135393699484e-05, "loss": 0.0041, "step": 7830 }, { "epoch": 326.6666666666667, "grad_norm": 0.12603649497032166, "learning_rate": 9.977980659451548e-05, "loss": 0.0045, "step": 7840 }, { "epoch": 327.0833333333333, "grad_norm": 0.08846884220838547, "learning_rate": 9.977825380819135e-05, "loss": 0.0045, "step": 7850 }, { "epoch": 327.5, "grad_norm": 0.10960958898067474, "learning_rate": 9.97766955781922e-05, "loss": 0.0047, "step": 7860 }, { "epoch": 327.9166666666667, "grad_norm": 0.12861238420009613, "learning_rate": 9.977513190468848e-05, "loss": 0.0039, "step": 7870 }, { "epoch": 328.3333333333333, "grad_norm": 0.1584414839744568, "learning_rate": 9.977356278785116e-05, "loss": 0.0042, "step": 7880 }, { "epoch": 328.75, "grad_norm": 0.1665051132440567, "learning_rate": 9.977198822785184e-05, "loss": 0.0045, "step": 7890 }, { "epoch": 329.1666666666667, "grad_norm": 0.11464737355709076, "learning_rate": 9.977040822486273e-05, "loss": 0.0042, "step": 7900 }, { "epoch": 329.5833333333333, "grad_norm": 0.12846484780311584, "learning_rate": 9.97688227790566e-05, "loss": 0.0046, "step": 7910 }, { "epoch": 330.0, "grad_norm": 0.16824305057525635, "learning_rate": 9.976723189060684e-05, "loss": 0.0044, "step": 7920 }, { "epoch": 330.4166666666667, "grad_norm": 0.13036669790744781, "learning_rate": 9.976563555968742e-05, "loss": 0.0043, "step": 7930 }, { "epoch": 330.8333333333333, "grad_norm": 0.14703775942325592, "learning_rate": 9.976403378647292e-05, "loss": 0.0048, "step": 7940 }, { "epoch": 331.25, "grad_norm": 0.10763925313949585, "learning_rate": 9.97624265711385e-05, "loss": 0.0051, "step": 7950 }, { "epoch": 331.6666666666667, "grad_norm": 0.09510891884565353, "learning_rate": 9.976081391385993e-05, "loss": 0.005, "step": 7960 }, { "epoch": 332.0833333333333, "grad_norm": 0.11100398004055023, "learning_rate": 9.975919581481356e-05, "loss": 0.0048, "step": 7970 }, { "epoch": 332.5, "grad_norm": 0.07780829071998596, "learning_rate": 9.975757227417634e-05, "loss": 0.0046, "step": 7980 }, { "epoch": 332.9166666666667, "grad_norm": 0.0952257439494133, "learning_rate": 9.975594329212586e-05, "loss": 0.0049, "step": 7990 }, { "epoch": 333.3333333333333, "grad_norm": 0.10366453975439072, "learning_rate": 9.97543088688402e-05, "loss": 0.0048, "step": 8000 }, { "epoch": 333.75, "grad_norm": 0.14135554432868958, "learning_rate": 9.975266900449814e-05, "loss": 0.0055, "step": 8010 }, { "epoch": 334.1666666666667, "grad_norm": 0.1485716551542282, "learning_rate": 9.975102369927898e-05, "loss": 0.0045, "step": 8020 }, { "epoch": 334.5833333333333, "grad_norm": 0.1287054717540741, "learning_rate": 9.974937295336269e-05, "loss": 0.0049, "step": 8030 }, { "epoch": 335.0, "grad_norm": 0.14976036548614502, "learning_rate": 9.974771676692975e-05, "loss": 0.0048, "step": 8040 }, { "epoch": 335.4166666666667, "grad_norm": 0.13905514776706696, "learning_rate": 9.974605514016131e-05, "loss": 0.0043, "step": 8050 }, { "epoch": 335.8333333333333, "grad_norm": 0.14987531304359436, "learning_rate": 9.974438807323907e-05, "loss": 0.0043, "step": 8060 }, { "epoch": 336.25, "grad_norm": 0.14048869907855988, "learning_rate": 9.974271556634535e-05, "loss": 0.004, "step": 8070 }, { "epoch": 336.6666666666667, "grad_norm": 0.11849784106016159, "learning_rate": 9.974103761966302e-05, "loss": 0.0049, "step": 8080 }, { "epoch": 337.0833333333333, "grad_norm": 0.10585099458694458, "learning_rate": 9.973935423337563e-05, "loss": 0.0043, "step": 8090 }, { "epoch": 337.5, "grad_norm": 0.1127004623413086, "learning_rate": 9.973766540766722e-05, "loss": 0.004, "step": 8100 }, { "epoch": 337.9166666666667, "grad_norm": 0.12122908979654312, "learning_rate": 9.97359711427225e-05, "loss": 0.0052, "step": 8110 }, { "epoch": 338.3333333333333, "grad_norm": 0.09937847405672073, "learning_rate": 9.973427143872677e-05, "loss": 0.0037, "step": 8120 }, { "epoch": 338.75, "grad_norm": 0.08371976763010025, "learning_rate": 9.973256629586589e-05, "loss": 0.0046, "step": 8130 }, { "epoch": 339.1666666666667, "grad_norm": 0.09868938475847244, "learning_rate": 9.973085571432632e-05, "loss": 0.0045, "step": 8140 }, { "epoch": 339.5833333333333, "grad_norm": 0.08053574711084366, "learning_rate": 9.972913969429513e-05, "loss": 0.0045, "step": 8150 }, { "epoch": 340.0, "grad_norm": 0.10995567589998245, "learning_rate": 9.972741823596e-05, "loss": 0.004, "step": 8160 }, { "epoch": 340.4166666666667, "grad_norm": 0.06566479057073593, "learning_rate": 9.972569133950917e-05, "loss": 0.0038, "step": 8170 }, { "epoch": 340.8333333333333, "grad_norm": 0.11531204730272293, "learning_rate": 9.972395900513151e-05, "loss": 0.0038, "step": 8180 }, { "epoch": 341.25, "grad_norm": 0.09397494792938232, "learning_rate": 9.972222123301645e-05, "loss": 0.0044, "step": 8190 }, { "epoch": 341.6666666666667, "grad_norm": 0.06742551177740097, "learning_rate": 9.972047802335403e-05, "loss": 0.0044, "step": 8200 }, { "epoch": 342.0833333333333, "grad_norm": 0.1017729640007019, "learning_rate": 9.971872937633488e-05, "loss": 0.0038, "step": 8210 }, { "epoch": 342.5, "grad_norm": 0.1255517452955246, "learning_rate": 9.971697529215024e-05, "loss": 0.0044, "step": 8220 }, { "epoch": 342.9166666666667, "grad_norm": 0.1309041827917099, "learning_rate": 9.971521577099192e-05, "loss": 0.0045, "step": 8230 }, { "epoch": 343.3333333333333, "grad_norm": 0.10694211721420288, "learning_rate": 9.971345081305236e-05, "loss": 0.0044, "step": 8240 }, { "epoch": 343.75, "grad_norm": 0.1011698842048645, "learning_rate": 9.971168041852456e-05, "loss": 0.0042, "step": 8250 }, { "epoch": 344.1666666666667, "grad_norm": 0.079165019094944, "learning_rate": 9.970990458760215e-05, "loss": 0.0035, "step": 8260 }, { "epoch": 344.5833333333333, "grad_norm": 0.10284318029880524, "learning_rate": 9.970812332047929e-05, "loss": 0.0036, "step": 8270 }, { "epoch": 345.0, "grad_norm": 0.09320607781410217, "learning_rate": 9.97063366173508e-05, "loss": 0.0036, "step": 8280 }, { "epoch": 345.4166666666667, "grad_norm": 0.08311288058757782, "learning_rate": 9.970454447841207e-05, "loss": 0.0037, "step": 8290 }, { "epoch": 345.8333333333333, "grad_norm": 0.10625971853733063, "learning_rate": 9.970274690385909e-05, "loss": 0.0041, "step": 8300 }, { "epoch": 346.25, "grad_norm": 0.09896545857191086, "learning_rate": 9.970094389388844e-05, "loss": 0.0044, "step": 8310 }, { "epoch": 346.6666666666667, "grad_norm": 0.09631496667861938, "learning_rate": 9.969913544869728e-05, "loss": 0.0041, "step": 8320 }, { "epoch": 347.0833333333333, "grad_norm": 0.07955865561962128, "learning_rate": 9.96973215684834e-05, "loss": 0.0042, "step": 8330 }, { "epoch": 347.5, "grad_norm": 0.12550555169582367, "learning_rate": 9.969550225344513e-05, "loss": 0.0048, "step": 8340 }, { "epoch": 347.9166666666667, "grad_norm": 0.13670527935028076, "learning_rate": 9.969367750378147e-05, "loss": 0.0032, "step": 8350 }, { "epoch": 348.3333333333333, "grad_norm": 0.13369613885879517, "learning_rate": 9.969184731969194e-05, "loss": 0.0048, "step": 8360 }, { "epoch": 348.75, "grad_norm": 0.09069468826055527, "learning_rate": 9.96900117013767e-05, "loss": 0.0043, "step": 8370 }, { "epoch": 349.1666666666667, "grad_norm": 0.10144931823015213, "learning_rate": 9.96881706490365e-05, "loss": 0.0042, "step": 8380 }, { "epoch": 349.5833333333333, "grad_norm": 0.1121351346373558, "learning_rate": 9.968632416287265e-05, "loss": 0.0042, "step": 8390 }, { "epoch": 350.0, "grad_norm": 0.11978503316640854, "learning_rate": 9.96844722430871e-05, "loss": 0.0037, "step": 8400 }, { "epoch": 350.4166666666667, "grad_norm": 0.07304184883832932, "learning_rate": 9.968261488988235e-05, "loss": 0.0047, "step": 8410 }, { "epoch": 350.8333333333333, "grad_norm": 0.07877543568611145, "learning_rate": 9.968075210346155e-05, "loss": 0.004, "step": 8420 }, { "epoch": 351.25, "grad_norm": 0.09579011797904968, "learning_rate": 9.967888388402839e-05, "loss": 0.0045, "step": 8430 }, { "epoch": 351.6666666666667, "grad_norm": 0.0932951346039772, "learning_rate": 9.967701023178717e-05, "loss": 0.0041, "step": 8440 }, { "epoch": 352.0833333333333, "grad_norm": 0.07334499061107635, "learning_rate": 9.967513114694282e-05, "loss": 0.0044, "step": 8450 }, { "epoch": 352.5, "grad_norm": 0.07270235568284988, "learning_rate": 9.967324662970079e-05, "loss": 0.0041, "step": 8460 }, { "epoch": 352.9166666666667, "grad_norm": 0.09223426878452301, "learning_rate": 9.96713566802672e-05, "loss": 0.0044, "step": 8470 }, { "epoch": 353.3333333333333, "grad_norm": 0.08596701920032501, "learning_rate": 9.966946129884873e-05, "loss": 0.0042, "step": 8480 }, { "epoch": 353.75, "grad_norm": 0.11497976630926132, "learning_rate": 9.966756048565265e-05, "loss": 0.0047, "step": 8490 }, { "epoch": 354.1666666666667, "grad_norm": 0.10091616958379745, "learning_rate": 9.966565424088681e-05, "loss": 0.0039, "step": 8500 }, { "epoch": 354.5833333333333, "grad_norm": 0.10951415449380875, "learning_rate": 9.96637425647597e-05, "loss": 0.0043, "step": 8510 }, { "epoch": 355.0, "grad_norm": 0.11066165566444397, "learning_rate": 9.966182545748038e-05, "loss": 0.0042, "step": 8520 }, { "epoch": 355.4166666666667, "grad_norm": 0.11821749061346054, "learning_rate": 9.96599029192585e-05, "loss": 0.0044, "step": 8530 }, { "epoch": 355.8333333333333, "grad_norm": 0.12053976207971573, "learning_rate": 9.965797495030428e-05, "loss": 0.0044, "step": 8540 }, { "epoch": 356.25, "grad_norm": 0.09505538642406464, "learning_rate": 9.96560415508286e-05, "loss": 0.0047, "step": 8550 }, { "epoch": 356.6666666666667, "grad_norm": 0.09293318539857864, "learning_rate": 9.965410272104286e-05, "loss": 0.004, "step": 8560 }, { "epoch": 357.0833333333333, "grad_norm": 0.1499198079109192, "learning_rate": 9.96521584611591e-05, "loss": 0.0044, "step": 8570 }, { "epoch": 357.5, "grad_norm": 0.11137448996305466, "learning_rate": 9.965020877138994e-05, "loss": 0.0052, "step": 8580 }, { "epoch": 357.9166666666667, "grad_norm": 0.08789495378732681, "learning_rate": 9.964825365194861e-05, "loss": 0.0056, "step": 8590 }, { "epoch": 358.3333333333333, "grad_norm": 0.12017376720905304, "learning_rate": 9.96462931030489e-05, "loss": 0.0046, "step": 8600 }, { "epoch": 358.75, "grad_norm": 0.12745951116085052, "learning_rate": 9.96443271249052e-05, "loss": 0.0049, "step": 8610 }, { "epoch": 359.1666666666667, "grad_norm": 0.11045093089342117, "learning_rate": 9.964235571773255e-05, "loss": 0.0041, "step": 8620 }, { "epoch": 359.5833333333333, "grad_norm": 0.0850444957613945, "learning_rate": 9.96403788817465e-05, "loss": 0.0044, "step": 8630 }, { "epoch": 360.0, "grad_norm": 0.1100035235285759, "learning_rate": 9.963839661716325e-05, "loss": 0.0053, "step": 8640 }, { "epoch": 360.4166666666667, "grad_norm": 0.10374406725168228, "learning_rate": 9.963640892419958e-05, "loss": 0.0049, "step": 8650 }, { "epoch": 360.8333333333333, "grad_norm": 0.1267644762992859, "learning_rate": 9.963441580307286e-05, "loss": 0.0039, "step": 8660 }, { "epoch": 361.25, "grad_norm": 0.10629259049892426, "learning_rate": 9.963241725400104e-05, "loss": 0.0038, "step": 8670 }, { "epoch": 361.6666666666667, "grad_norm": 0.09747405350208282, "learning_rate": 9.963041327720271e-05, "loss": 0.0035, "step": 8680 }, { "epoch": 362.0833333333333, "grad_norm": 0.08525574952363968, "learning_rate": 9.962840387289697e-05, "loss": 0.0048, "step": 8690 }, { "epoch": 362.5, "grad_norm": 0.12176018208265305, "learning_rate": 9.962638904130363e-05, "loss": 0.004, "step": 8700 }, { "epoch": 362.9166666666667, "grad_norm": 0.09270407259464264, "learning_rate": 9.962436878264298e-05, "loss": 0.0042, "step": 8710 }, { "epoch": 363.3333333333333, "grad_norm": 0.06729912757873535, "learning_rate": 9.962234309713598e-05, "loss": 0.004, "step": 8720 }, { "epoch": 363.75, "grad_norm": 0.11416386067867279, "learning_rate": 9.962031198500414e-05, "loss": 0.0039, "step": 8730 }, { "epoch": 364.1666666666667, "grad_norm": 0.07319957762956619, "learning_rate": 9.961827544646958e-05, "loss": 0.0038, "step": 8740 }, { "epoch": 364.5833333333333, "grad_norm": 0.10637792944908142, "learning_rate": 9.961623348175501e-05, "loss": 0.0042, "step": 8750 }, { "epoch": 365.0, "grad_norm": 0.11167652904987335, "learning_rate": 9.961418609108377e-05, "loss": 0.0043, "step": 8760 }, { "epoch": 365.4166666666667, "grad_norm": 0.09101232886314392, "learning_rate": 9.961213327467971e-05, "loss": 0.004, "step": 8770 }, { "epoch": 365.8333333333333, "grad_norm": 0.09487753361463547, "learning_rate": 9.961007503276736e-05, "loss": 0.0039, "step": 8780 }, { "epoch": 366.25, "grad_norm": 0.09970489144325256, "learning_rate": 9.960801136557179e-05, "loss": 0.0035, "step": 8790 }, { "epoch": 366.6666666666667, "grad_norm": 0.10241381824016571, "learning_rate": 9.960594227331866e-05, "loss": 0.0032, "step": 8800 }, { "epoch": 367.0833333333333, "grad_norm": 0.10181789100170135, "learning_rate": 9.960386775623429e-05, "loss": 0.0044, "step": 8810 }, { "epoch": 367.5, "grad_norm": 0.08383289724588394, "learning_rate": 9.96017878145455e-05, "loss": 0.0037, "step": 8820 }, { "epoch": 367.9166666666667, "grad_norm": 0.09273013472557068, "learning_rate": 9.959970244847977e-05, "loss": 0.0037, "step": 8830 }, { "epoch": 368.3333333333333, "grad_norm": 0.13973002135753632, "learning_rate": 9.959761165826518e-05, "loss": 0.0043, "step": 8840 }, { "epoch": 368.75, "grad_norm": 0.09909787774085999, "learning_rate": 9.959551544413033e-05, "loss": 0.0045, "step": 8850 }, { "epoch": 369.1666666666667, "grad_norm": 0.10608567297458649, "learning_rate": 9.959341380630448e-05, "loss": 0.0043, "step": 8860 }, { "epoch": 369.5833333333333, "grad_norm": 0.10664168745279312, "learning_rate": 9.959130674501746e-05, "loss": 0.004, "step": 8870 }, { "epoch": 370.0, "grad_norm": 0.08770376443862915, "learning_rate": 9.958919426049968e-05, "loss": 0.0042, "step": 8880 }, { "epoch": 370.4166666666667, "grad_norm": 0.15539298951625824, "learning_rate": 9.958707635298219e-05, "loss": 0.0044, "step": 8890 }, { "epoch": 370.8333333333333, "grad_norm": 0.1246904507279396, "learning_rate": 9.958495302269657e-05, "loss": 0.0043, "step": 8900 }, { "epoch": 371.25, "grad_norm": 0.11191416531801224, "learning_rate": 9.958282426987503e-05, "loss": 0.004, "step": 8910 }, { "epoch": 371.6666666666667, "grad_norm": 0.12833833694458008, "learning_rate": 9.95806900947504e-05, "loss": 0.0041, "step": 8920 }, { "epoch": 372.0833333333333, "grad_norm": 0.09547431021928787, "learning_rate": 9.957855049755604e-05, "loss": 0.0042, "step": 8930 }, { "epoch": 372.5, "grad_norm": 0.06954290717840195, "learning_rate": 9.957640547852593e-05, "loss": 0.0036, "step": 8940 }, { "epoch": 372.9166666666667, "grad_norm": 0.0812893658876419, "learning_rate": 9.957425503789466e-05, "loss": 0.0035, "step": 8950 }, { "epoch": 373.3333333333333, "grad_norm": 0.08846446126699448, "learning_rate": 9.957209917589738e-05, "loss": 0.0041, "step": 8960 }, { "epoch": 373.75, "grad_norm": 0.09227568656206131, "learning_rate": 9.956993789276987e-05, "loss": 0.0039, "step": 8970 }, { "epoch": 374.1666666666667, "grad_norm": 0.11010949313640594, "learning_rate": 9.956777118874847e-05, "loss": 0.0043, "step": 8980 }, { "epoch": 374.5833333333333, "grad_norm": 0.1240907683968544, "learning_rate": 9.956559906407016e-05, "loss": 0.0038, "step": 8990 }, { "epoch": 375.0, "grad_norm": 0.09288130700588226, "learning_rate": 9.956342151897245e-05, "loss": 0.0049, "step": 9000 }, { "epoch": 375.4166666666667, "grad_norm": 0.08770018815994263, "learning_rate": 9.956123855369346e-05, "loss": 0.0035, "step": 9010 }, { "epoch": 375.8333333333333, "grad_norm": 0.09478199481964111, "learning_rate": 9.955905016847196e-05, "loss": 0.0041, "step": 9020 }, { "epoch": 376.25, "grad_norm": 0.10163368284702301, "learning_rate": 9.955685636354723e-05, "loss": 0.0037, "step": 9030 }, { "epoch": 376.6666666666667, "grad_norm": 0.13312369585037231, "learning_rate": 9.95546571391592e-05, "loss": 0.0036, "step": 9040 }, { "epoch": 377.0833333333333, "grad_norm": 0.16340649127960205, "learning_rate": 9.955245249554837e-05, "loss": 0.0045, "step": 9050 }, { "epoch": 377.5, "grad_norm": 0.12218417972326279, "learning_rate": 9.955024243295582e-05, "loss": 0.0046, "step": 9060 }, { "epoch": 377.9166666666667, "grad_norm": 0.11567141860723495, "learning_rate": 9.954802695162328e-05, "loss": 0.0045, "step": 9070 }, { "epoch": 378.3333333333333, "grad_norm": 0.10107464343309402, "learning_rate": 9.954580605179302e-05, "loss": 0.0041, "step": 9080 }, { "epoch": 378.75, "grad_norm": 0.11622480303049088, "learning_rate": 9.954357973370788e-05, "loss": 0.0041, "step": 9090 }, { "epoch": 379.1666666666667, "grad_norm": 0.13332372903823853, "learning_rate": 9.954134799761135e-05, "loss": 0.0057, "step": 9100 }, { "epoch": 379.5833333333333, "grad_norm": 0.15021178126335144, "learning_rate": 9.953911084374748e-05, "loss": 0.0043, "step": 9110 }, { "epoch": 380.0, "grad_norm": 0.11214983463287354, "learning_rate": 9.953686827236093e-05, "loss": 0.0044, "step": 9120 }, { "epoch": 380.4166666666667, "grad_norm": 0.11493271589279175, "learning_rate": 9.953462028369695e-05, "loss": 0.0046, "step": 9130 }, { "epoch": 380.8333333333333, "grad_norm": 0.10381603240966797, "learning_rate": 9.953236687800136e-05, "loss": 0.0046, "step": 9140 }, { "epoch": 381.25, "grad_norm": 0.14857909083366394, "learning_rate": 9.95301080555206e-05, "loss": 0.0044, "step": 9150 }, { "epoch": 381.6666666666667, "grad_norm": 0.16115660965442657, "learning_rate": 9.952784381650171e-05, "loss": 0.0053, "step": 9160 }, { "epoch": 382.0833333333333, "grad_norm": 0.12854917347431183, "learning_rate": 9.952557416119226e-05, "loss": 0.0043, "step": 9170 }, { "epoch": 382.5, "grad_norm": 0.16298599541187286, "learning_rate": 9.95232990898405e-05, "loss": 0.0044, "step": 9180 }, { "epoch": 382.9166666666667, "grad_norm": 0.17434704303741455, "learning_rate": 9.95210186026952e-05, "loss": 0.0046, "step": 9190 }, { "epoch": 383.3333333333333, "grad_norm": 0.1969769448041916, "learning_rate": 9.951873270000576e-05, "loss": 0.0045, "step": 9200 }, { "epoch": 383.75, "grad_norm": 0.13236774504184723, "learning_rate": 9.951644138202216e-05, "loss": 0.0051, "step": 9210 }, { "epoch": 384.1666666666667, "grad_norm": 0.16796381771564484, "learning_rate": 9.951414464899498e-05, "loss": 0.0045, "step": 9220 }, { "epoch": 384.5833333333333, "grad_norm": 0.13759028911590576, "learning_rate": 9.951184250117538e-05, "loss": 0.0047, "step": 9230 }, { "epoch": 385.0, "grad_norm": 0.09784498065710068, "learning_rate": 9.950953493881513e-05, "loss": 0.0043, "step": 9240 }, { "epoch": 385.4166666666667, "grad_norm": 0.10310713946819305, "learning_rate": 9.950722196216658e-05, "loss": 0.0039, "step": 9250 }, { "epoch": 385.8333333333333, "grad_norm": 0.08317440003156662, "learning_rate": 9.950490357148265e-05, "loss": 0.0043, "step": 9260 }, { "epoch": 386.25, "grad_norm": 0.09057890623807907, "learning_rate": 9.950257976701692e-05, "loss": 0.0045, "step": 9270 }, { "epoch": 386.6666666666667, "grad_norm": 0.10801182687282562, "learning_rate": 9.950025054902348e-05, "loss": 0.0038, "step": 9280 }, { "epoch": 387.0833333333333, "grad_norm": 0.10198135673999786, "learning_rate": 9.949791591775706e-05, "loss": 0.0038, "step": 9290 }, { "epoch": 387.5, "grad_norm": 0.11226287484169006, "learning_rate": 9.949557587347298e-05, "loss": 0.005, "step": 9300 }, { "epoch": 387.9166666666667, "grad_norm": 0.08811821788549423, "learning_rate": 9.949323041642713e-05, "loss": 0.004, "step": 9310 }, { "epoch": 388.3333333333333, "grad_norm": 0.09206374734640121, "learning_rate": 9.949087954687602e-05, "loss": 0.0046, "step": 9320 }, { "epoch": 388.75, "grad_norm": 0.12279454618692398, "learning_rate": 9.948852326507672e-05, "loss": 0.0049, "step": 9330 }, { "epoch": 389.1666666666667, "grad_norm": 0.11782899498939514, "learning_rate": 9.948616157128694e-05, "loss": 0.0041, "step": 9340 }, { "epoch": 389.5833333333333, "grad_norm": 0.08752698451280594, "learning_rate": 9.948379446576493e-05, "loss": 0.0043, "step": 9350 }, { "epoch": 390.0, "grad_norm": 0.10246609896421432, "learning_rate": 9.948142194876952e-05, "loss": 0.0043, "step": 9360 }, { "epoch": 390.4166666666667, "grad_norm": 0.0966259092092514, "learning_rate": 9.947904402056024e-05, "loss": 0.0046, "step": 9370 }, { "epoch": 390.8333333333333, "grad_norm": 0.12042932212352753, "learning_rate": 9.947666068139708e-05, "loss": 0.0056, "step": 9380 }, { "epoch": 391.25, "grad_norm": 0.10192351043224335, "learning_rate": 9.947427193154071e-05, "loss": 0.0043, "step": 9390 }, { "epoch": 391.6666666666667, "grad_norm": 0.09198202192783356, "learning_rate": 9.947187777125233e-05, "loss": 0.0054, "step": 9400 }, { "epoch": 392.0833333333333, "grad_norm": 0.11878731101751328, "learning_rate": 9.946947820079377e-05, "loss": 0.0042, "step": 9410 }, { "epoch": 392.5, "grad_norm": 0.09639948606491089, "learning_rate": 9.946707322042747e-05, "loss": 0.0038, "step": 9420 }, { "epoch": 392.9166666666667, "grad_norm": 0.08374354243278503, "learning_rate": 9.94646628304164e-05, "loss": 0.0044, "step": 9430 }, { "epoch": 393.3333333333333, "grad_norm": 0.08690326660871506, "learning_rate": 9.946224703102418e-05, "loss": 0.0041, "step": 9440 }, { "epoch": 393.75, "grad_norm": 0.09747915714979172, "learning_rate": 9.945982582251498e-05, "loss": 0.004, "step": 9450 }, { "epoch": 394.1666666666667, "grad_norm": 0.10022018849849701, "learning_rate": 9.94573992051536e-05, "loss": 0.0041, "step": 9460 }, { "epoch": 394.5833333333333, "grad_norm": 0.10391699522733688, "learning_rate": 9.94549671792054e-05, "loss": 0.0047, "step": 9470 }, { "epoch": 395.0, "grad_norm": 0.11963122338056564, "learning_rate": 9.945252974493635e-05, "loss": 0.0039, "step": 9480 }, { "epoch": 395.4166666666667, "grad_norm": 0.12551800906658173, "learning_rate": 9.9450086902613e-05, "loss": 0.0042, "step": 9490 }, { "epoch": 395.8333333333333, "grad_norm": 0.0973820611834526, "learning_rate": 9.944763865250248e-05, "loss": 0.004, "step": 9500 }, { "epoch": 396.25, "grad_norm": 0.09712453931570053, "learning_rate": 9.944518499487254e-05, "loss": 0.0036, "step": 9510 }, { "epoch": 396.6666666666667, "grad_norm": 0.10002030432224274, "learning_rate": 9.944272592999151e-05, "loss": 0.0043, "step": 9520 }, { "epoch": 397.0833333333333, "grad_norm": 0.10563188791275024, "learning_rate": 9.94402614581283e-05, "loss": 0.0036, "step": 9530 }, { "epoch": 397.5, "grad_norm": 0.1195378378033638, "learning_rate": 9.943779157955244e-05, "loss": 0.0047, "step": 9540 }, { "epoch": 397.9166666666667, "grad_norm": 0.13264186680316925, "learning_rate": 9.943531629453403e-05, "loss": 0.0045, "step": 9550 }, { "epoch": 398.3333333333333, "grad_norm": 0.10609892755746841, "learning_rate": 9.943283560334375e-05, "loss": 0.0037, "step": 9560 }, { "epoch": 398.75, "grad_norm": 0.1102728545665741, "learning_rate": 9.943034950625288e-05, "loss": 0.0037, "step": 9570 }, { "epoch": 399.1666666666667, "grad_norm": 0.1057669073343277, "learning_rate": 9.942785800353332e-05, "loss": 0.0047, "step": 9580 }, { "epoch": 399.5833333333333, "grad_norm": 0.14544981718063354, "learning_rate": 9.942536109545751e-05, "loss": 0.0043, "step": 9590 }, { "epoch": 400.0, "grad_norm": 0.07998864352703094, "learning_rate": 9.942285878229853e-05, "loss": 0.0041, "step": 9600 }, { "epoch": 400.4166666666667, "grad_norm": 0.1300923377275467, "learning_rate": 9.942035106433001e-05, "loss": 0.0042, "step": 9610 }, { "epoch": 400.8333333333333, "grad_norm": 0.1260555237531662, "learning_rate": 9.94178379418262e-05, "loss": 0.005, "step": 9620 }, { "epoch": 401.25, "grad_norm": 0.09739554673433304, "learning_rate": 9.941531941506194e-05, "loss": 0.0042, "step": 9630 }, { "epoch": 401.6666666666667, "grad_norm": 0.12851941585540771, "learning_rate": 9.941279548431263e-05, "loss": 0.0045, "step": 9640 }, { "epoch": 402.0833333333333, "grad_norm": 0.09293787181377411, "learning_rate": 9.941026614985431e-05, "loss": 0.0045, "step": 9650 }, { "epoch": 402.5, "grad_norm": 0.10894204676151276, "learning_rate": 9.940773141196357e-05, "loss": 0.0039, "step": 9660 }, { "epoch": 402.9166666666667, "grad_norm": 0.10032802820205688, "learning_rate": 9.94051912709176e-05, "loss": 0.004, "step": 9670 }, { "epoch": 403.3333333333333, "grad_norm": 0.10002783685922623, "learning_rate": 9.940264572699421e-05, "loss": 0.0034, "step": 9680 }, { "epoch": 403.75, "grad_norm": 0.09023704379796982, "learning_rate": 9.940009478047174e-05, "loss": 0.0045, "step": 9690 }, { "epoch": 404.1666666666667, "grad_norm": 0.07384379208087921, "learning_rate": 9.939753843162918e-05, "loss": 0.0033, "step": 9700 }, { "epoch": 404.5833333333333, "grad_norm": 0.06276316195726395, "learning_rate": 9.939497668074609e-05, "loss": 0.0041, "step": 9710 }, { "epoch": 405.0, "grad_norm": 0.09616144746541977, "learning_rate": 9.93924095281026e-05, "loss": 0.0045, "step": 9720 }, { "epoch": 405.4166666666667, "grad_norm": 0.10862520337104797, "learning_rate": 9.938983697397948e-05, "loss": 0.0037, "step": 9730 }, { "epoch": 405.8333333333333, "grad_norm": 0.09893123060464859, "learning_rate": 9.938725901865805e-05, "loss": 0.0038, "step": 9740 }, { "epoch": 406.25, "grad_norm": 0.05950108543038368, "learning_rate": 9.93846756624202e-05, "loss": 0.0038, "step": 9750 }, { "epoch": 406.6666666666667, "grad_norm": 0.08425424247980118, "learning_rate": 9.938208690554849e-05, "loss": 0.0035, "step": 9760 }, { "epoch": 407.0833333333333, "grad_norm": 0.08352963626384735, "learning_rate": 9.9379492748326e-05, "loss": 0.0035, "step": 9770 }, { "epoch": 407.5, "grad_norm": 0.07567104697227478, "learning_rate": 9.937689319103641e-05, "loss": 0.0033, "step": 9780 }, { "epoch": 407.9166666666667, "grad_norm": 0.0762801393866539, "learning_rate": 9.937428823396404e-05, "loss": 0.0037, "step": 9790 }, { "epoch": 408.3333333333333, "grad_norm": 0.11240056902170181, "learning_rate": 9.937167787739372e-05, "loss": 0.004, "step": 9800 }, { "epoch": 408.75, "grad_norm": 0.08319995552301407, "learning_rate": 9.936906212161095e-05, "loss": 0.0043, "step": 9810 }, { "epoch": 409.1666666666667, "grad_norm": 0.08035468310117722, "learning_rate": 9.936644096690176e-05, "loss": 0.0041, "step": 9820 }, { "epoch": 409.5833333333333, "grad_norm": 0.09101664274930954, "learning_rate": 9.936381441355282e-05, "loss": 0.0048, "step": 9830 }, { "epoch": 410.0, "grad_norm": 0.10120275616645813, "learning_rate": 9.936118246185136e-05, "loss": 0.005, "step": 9840 }, { "epoch": 410.4166666666667, "grad_norm": 0.09576469659805298, "learning_rate": 9.935854511208518e-05, "loss": 0.0046, "step": 9850 }, { "epoch": 410.8333333333333, "grad_norm": 0.1147511750459671, "learning_rate": 9.935590236454272e-05, "loss": 0.0042, "step": 9860 }, { "epoch": 411.25, "grad_norm": 0.10546503961086273, "learning_rate": 9.935325421951298e-05, "loss": 0.004, "step": 9870 }, { "epoch": 411.6666666666667, "grad_norm": 0.09662436693906784, "learning_rate": 9.935060067728557e-05, "loss": 0.0036, "step": 9880 }, { "epoch": 412.0833333333333, "grad_norm": 0.12900696694850922, "learning_rate": 9.934794173815067e-05, "loss": 0.0045, "step": 9890 }, { "epoch": 412.5, "grad_norm": 0.09481488168239594, "learning_rate": 9.934527740239906e-05, "loss": 0.0047, "step": 9900 }, { "epoch": 412.9166666666667, "grad_norm": 0.12619662284851074, "learning_rate": 9.934260767032209e-05, "loss": 0.0047, "step": 9910 }, { "epoch": 413.3333333333333, "grad_norm": 0.1060824915766716, "learning_rate": 9.933993254221172e-05, "loss": 0.0047, "step": 9920 }, { "epoch": 413.75, "grad_norm": 0.09239202737808228, "learning_rate": 9.933725201836053e-05, "loss": 0.0051, "step": 9930 }, { "epoch": 414.1666666666667, "grad_norm": 0.10354840755462646, "learning_rate": 9.933456609906162e-05, "loss": 0.0042, "step": 9940 }, { "epoch": 414.5833333333333, "grad_norm": 0.11607809364795685, "learning_rate": 9.933187478460875e-05, "loss": 0.0048, "step": 9950 }, { "epoch": 415.0, "grad_norm": 0.08606523275375366, "learning_rate": 9.93291780752962e-05, "loss": 0.0047, "step": 9960 }, { "epoch": 415.4166666666667, "grad_norm": 0.11707747727632523, "learning_rate": 9.932647597141893e-05, "loss": 0.0041, "step": 9970 }, { "epoch": 415.8333333333333, "grad_norm": 0.12225224077701569, "learning_rate": 9.932376847327239e-05, "loss": 0.0039, "step": 9980 }, { "epoch": 416.25, "grad_norm": 0.07509057968854904, "learning_rate": 9.932105558115268e-05, "loss": 0.0034, "step": 9990 }, { "epoch": 416.6666666666667, "grad_norm": 0.09823188185691833, "learning_rate": 9.931833729535651e-05, "loss": 0.0047, "step": 10000 }, { "epoch": 417.0833333333333, "grad_norm": 0.12079868465662003, "learning_rate": 9.931561361618111e-05, "loss": 0.0044, "step": 10010 }, { "epoch": 417.5, "grad_norm": 0.12085773050785065, "learning_rate": 9.931288454392435e-05, "loss": 0.0049, "step": 10020 }, { "epoch": 417.9166666666667, "grad_norm": 0.12279326468706131, "learning_rate": 9.931015007888467e-05, "loss": 0.0041, "step": 10030 }, { "epoch": 418.3333333333333, "grad_norm": 0.12003277987241745, "learning_rate": 9.930741022136112e-05, "loss": 0.0045, "step": 10040 }, { "epoch": 418.75, "grad_norm": 0.1204148530960083, "learning_rate": 9.930466497165333e-05, "loss": 0.0041, "step": 10050 }, { "epoch": 419.1666666666667, "grad_norm": 0.10315011441707611, "learning_rate": 9.93019143300615e-05, "loss": 0.0043, "step": 10060 }, { "epoch": 419.5833333333333, "grad_norm": 0.14480559527873993, "learning_rate": 9.929915829688644e-05, "loss": 0.0041, "step": 10070 }, { "epoch": 420.0, "grad_norm": 0.12419790774583817, "learning_rate": 9.929639687242955e-05, "loss": 0.0047, "step": 10080 }, { "epoch": 420.4166666666667, "grad_norm": 0.12732654809951782, "learning_rate": 9.929363005699281e-05, "loss": 0.0042, "step": 10090 }, { "epoch": 420.8333333333333, "grad_norm": 0.13113731145858765, "learning_rate": 9.92908578508788e-05, "loss": 0.0042, "step": 10100 }, { "epoch": 421.25, "grad_norm": 0.11407961696386337, "learning_rate": 9.928808025439069e-05, "loss": 0.0046, "step": 10110 }, { "epoch": 421.6666666666667, "grad_norm": 0.11070751398801804, "learning_rate": 9.928529726783223e-05, "loss": 0.0036, "step": 10120 }, { "epoch": 422.0833333333333, "grad_norm": 0.1477161943912506, "learning_rate": 9.928250889150774e-05, "loss": 0.0039, "step": 10130 }, { "epoch": 422.5, "grad_norm": 0.1510334610939026, "learning_rate": 9.92797151257222e-05, "loss": 0.0041, "step": 10140 }, { "epoch": 422.9166666666667, "grad_norm": 0.12191915512084961, "learning_rate": 9.927691597078108e-05, "loss": 0.0041, "step": 10150 }, { "epoch": 423.3333333333333, "grad_norm": 0.15034198760986328, "learning_rate": 9.927411142699053e-05, "loss": 0.0043, "step": 10160 }, { "epoch": 423.75, "grad_norm": 0.14685529470443726, "learning_rate": 9.927130149465725e-05, "loss": 0.004, "step": 10170 }, { "epoch": 424.1666666666667, "grad_norm": 0.12331810593605042, "learning_rate": 9.92684861740885e-05, "loss": 0.0044, "step": 10180 }, { "epoch": 424.5833333333333, "grad_norm": 0.15897181630134583, "learning_rate": 9.926566546559217e-05, "loss": 0.0053, "step": 10190 }, { "epoch": 425.0, "grad_norm": 0.21817532181739807, "learning_rate": 9.926283936947673e-05, "loss": 0.0044, "step": 10200 }, { "epoch": 425.4166666666667, "grad_norm": 0.167066752910614, "learning_rate": 9.926000788605126e-05, "loss": 0.0047, "step": 10210 }, { "epoch": 425.8333333333333, "grad_norm": 0.11333850771188736, "learning_rate": 9.92571710156254e-05, "loss": 0.0049, "step": 10220 }, { "epoch": 426.25, "grad_norm": 0.15028424561023712, "learning_rate": 9.925432875850936e-05, "loss": 0.0048, "step": 10230 }, { "epoch": 426.6666666666667, "grad_norm": 0.2264849990606308, "learning_rate": 9.925148111501396e-05, "loss": 0.0055, "step": 10240 }, { "epoch": 427.0833333333333, "grad_norm": 0.23517003655433655, "learning_rate": 9.924862808545066e-05, "loss": 0.0054, "step": 10250 }, { "epoch": 427.5, "grad_norm": 0.1566646546125412, "learning_rate": 9.924576967013141e-05, "loss": 0.0049, "step": 10260 }, { "epoch": 427.9166666666667, "grad_norm": 0.124155692756176, "learning_rate": 9.924290586936887e-05, "loss": 0.0043, "step": 10270 }, { "epoch": 428.3333333333333, "grad_norm": 0.0863252729177475, "learning_rate": 9.924003668347614e-05, "loss": 0.0051, "step": 10280 }, { "epoch": 428.75, "grad_norm": 0.09056645631790161, "learning_rate": 9.923716211276704e-05, "loss": 0.0038, "step": 10290 }, { "epoch": 429.1666666666667, "grad_norm": 0.10736532509326935, "learning_rate": 9.923428215755594e-05, "loss": 0.0044, "step": 10300 }, { "epoch": 429.5833333333333, "grad_norm": 0.09287239611148834, "learning_rate": 9.923139681815775e-05, "loss": 0.0037, "step": 10310 }, { "epoch": 430.0, "grad_norm": 0.10801868885755539, "learning_rate": 9.922850609488801e-05, "loss": 0.0041, "step": 10320 }, { "epoch": 430.4166666666667, "grad_norm": 0.07553853839635849, "learning_rate": 9.922560998806287e-05, "loss": 0.0042, "step": 10330 }, { "epoch": 430.8333333333333, "grad_norm": 0.09664177149534225, "learning_rate": 9.922270849799905e-05, "loss": 0.0042, "step": 10340 }, { "epoch": 431.25, "grad_norm": 0.10094338655471802, "learning_rate": 9.92198016250138e-05, "loss": 0.0049, "step": 10350 }, { "epoch": 431.6666666666667, "grad_norm": 0.11196860671043396, "learning_rate": 9.921688936942506e-05, "loss": 0.0038, "step": 10360 }, { "epoch": 432.0833333333333, "grad_norm": 0.08672846853733063, "learning_rate": 9.921397173155129e-05, "loss": 0.0041, "step": 10370 }, { "epoch": 432.5, "grad_norm": 0.0887010470032692, "learning_rate": 9.921104871171157e-05, "loss": 0.0039, "step": 10380 }, { "epoch": 432.9166666666667, "grad_norm": 0.09023377299308777, "learning_rate": 9.920812031022554e-05, "loss": 0.0039, "step": 10390 }, { "epoch": 433.3333333333333, "grad_norm": 0.10489501804113388, "learning_rate": 9.920518652741348e-05, "loss": 0.0035, "step": 10400 }, { "epoch": 433.75, "grad_norm": 0.0965268537402153, "learning_rate": 9.920224736359618e-05, "loss": 0.0037, "step": 10410 }, { "epoch": 434.1666666666667, "grad_norm": 0.116358682513237, "learning_rate": 9.91993028190951e-05, "loss": 0.0035, "step": 10420 }, { "epoch": 434.5833333333333, "grad_norm": 0.1039993017911911, "learning_rate": 9.919635289423222e-05, "loss": 0.0038, "step": 10430 }, { "epoch": 435.0, "grad_norm": 0.09161507338285446, "learning_rate": 9.919339758933015e-05, "loss": 0.0039, "step": 10440 }, { "epoch": 435.4166666666667, "grad_norm": 0.11872512102127075, "learning_rate": 9.919043690471209e-05, "loss": 0.004, "step": 10450 }, { "epoch": 435.8333333333333, "grad_norm": 0.10544626414775848, "learning_rate": 9.91874708407018e-05, "loss": 0.0037, "step": 10460 }, { "epoch": 436.25, "grad_norm": 0.09829921275377274, "learning_rate": 9.918449939762367e-05, "loss": 0.004, "step": 10470 }, { "epoch": 436.6666666666667, "grad_norm": 0.10069053620100021, "learning_rate": 9.91815225758026e-05, "loss": 0.0036, "step": 10480 }, { "epoch": 437.0833333333333, "grad_norm": 0.13267122209072113, "learning_rate": 9.917854037556419e-05, "loss": 0.0039, "step": 10490 }, { "epoch": 437.5, "grad_norm": 0.09897082298994064, "learning_rate": 9.917555279723454e-05, "loss": 0.0035, "step": 10500 }, { "epoch": 437.9166666666667, "grad_norm": 0.11807168275117874, "learning_rate": 9.917255984114036e-05, "loss": 0.0036, "step": 10510 }, { "epoch": 438.3333333333333, "grad_norm": 0.12979933619499207, "learning_rate": 9.916956150760896e-05, "loss": 0.005, "step": 10520 }, { "epoch": 438.75, "grad_norm": 0.08665391802787781, "learning_rate": 9.916655779696826e-05, "loss": 0.0035, "step": 10530 }, { "epoch": 439.1666666666667, "grad_norm": 0.08571343868970871, "learning_rate": 9.916354870954671e-05, "loss": 0.0038, "step": 10540 }, { "epoch": 439.5833333333333, "grad_norm": 0.0924324318766594, "learning_rate": 9.91605342456734e-05, "loss": 0.004, "step": 10550 }, { "epoch": 440.0, "grad_norm": 0.12037337571382523, "learning_rate": 9.915751440567795e-05, "loss": 0.0037, "step": 10560 }, { "epoch": 440.4166666666667, "grad_norm": 0.10871128737926483, "learning_rate": 9.915448918989066e-05, "loss": 0.0039, "step": 10570 }, { "epoch": 440.8333333333333, "grad_norm": 0.07261893898248672, "learning_rate": 9.915145859864232e-05, "loss": 0.0037, "step": 10580 }, { "epoch": 441.25, "grad_norm": 0.08283744007349014, "learning_rate": 9.914842263226437e-05, "loss": 0.0036, "step": 10590 }, { "epoch": 441.6666666666667, "grad_norm": 0.0988301932811737, "learning_rate": 9.914538129108882e-05, "loss": 0.0042, "step": 10600 }, { "epoch": 442.0833333333333, "grad_norm": 0.1066170260310173, "learning_rate": 9.914233457544825e-05, "loss": 0.0046, "step": 10610 }, { "epoch": 442.5, "grad_norm": 0.0862477570772171, "learning_rate": 9.913928248567586e-05, "loss": 0.0039, "step": 10620 }, { "epoch": 442.9166666666667, "grad_norm": 0.08342065662145615, "learning_rate": 9.913622502210542e-05, "loss": 0.004, "step": 10630 }, { "epoch": 443.3333333333333, "grad_norm": 0.08489974588155746, "learning_rate": 9.913316218507128e-05, "loss": 0.0042, "step": 10640 }, { "epoch": 443.75, "grad_norm": 0.06955144554376602, "learning_rate": 9.91300939749084e-05, "loss": 0.0036, "step": 10650 }, { "epoch": 444.1666666666667, "grad_norm": 0.08487077802419662, "learning_rate": 9.91270203919523e-05, "loss": 0.0037, "step": 10660 }, { "epoch": 444.5833333333333, "grad_norm": 0.0748491957783699, "learning_rate": 9.912394143653912e-05, "loss": 0.0039, "step": 10670 }, { "epoch": 445.0, "grad_norm": 0.09491728246212006, "learning_rate": 9.912085710900555e-05, "loss": 0.004, "step": 10680 }, { "epoch": 445.4166666666667, "grad_norm": 0.08924998342990875, "learning_rate": 9.911776740968892e-05, "loss": 0.0036, "step": 10690 }, { "epoch": 445.8333333333333, "grad_norm": 0.07508710026741028, "learning_rate": 9.911467233892709e-05, "loss": 0.0039, "step": 10700 }, { "epoch": 446.25, "grad_norm": 0.08007321506738663, "learning_rate": 9.911157189705853e-05, "loss": 0.0032, "step": 10710 }, { "epoch": 446.6666666666667, "grad_norm": 0.09138563275337219, "learning_rate": 9.910846608442229e-05, "loss": 0.0034, "step": 10720 }, { "epoch": 447.0833333333333, "grad_norm": 0.0510508269071579, "learning_rate": 9.910535490135805e-05, "loss": 0.004, "step": 10730 }, { "epoch": 447.5, "grad_norm": 0.08095870912075043, "learning_rate": 9.910223834820603e-05, "loss": 0.003, "step": 10740 }, { "epoch": 447.9166666666667, "grad_norm": 0.08433461934328079, "learning_rate": 9.909911642530703e-05, "loss": 0.0034, "step": 10750 }, { "epoch": 448.3333333333333, "grad_norm": 0.10061673074960709, "learning_rate": 9.909598913300249e-05, "loss": 0.0038, "step": 10760 }, { "epoch": 448.75, "grad_norm": 0.08088356256484985, "learning_rate": 9.909285647163438e-05, "loss": 0.0038, "step": 10770 }, { "epoch": 449.1666666666667, "grad_norm": 0.08456769585609436, "learning_rate": 9.908971844154531e-05, "loss": 0.0036, "step": 10780 }, { "epoch": 449.5833333333333, "grad_norm": 0.08922433108091354, "learning_rate": 9.908657504307843e-05, "loss": 0.0039, "step": 10790 }, { "epoch": 450.0, "grad_norm": 0.13051661849021912, "learning_rate": 9.908342627657751e-05, "loss": 0.0043, "step": 10800 }, { "epoch": 450.4166666666667, "grad_norm": 0.13122959434986115, "learning_rate": 9.908027214238689e-05, "loss": 0.0045, "step": 10810 }, { "epoch": 450.8333333333333, "grad_norm": 0.09778977185487747, "learning_rate": 9.90771126408515e-05, "loss": 0.004, "step": 10820 }, { "epoch": 451.25, "grad_norm": 0.11275980621576309, "learning_rate": 9.907394777231685e-05, "loss": 0.0037, "step": 10830 }, { "epoch": 451.6666666666667, "grad_norm": 0.08293096721172333, "learning_rate": 9.907077753712905e-05, "loss": 0.0037, "step": 10840 }, { "epoch": 452.0833333333333, "grad_norm": 0.09088166803121567, "learning_rate": 9.906760193563482e-05, "loss": 0.0036, "step": 10850 }, { "epoch": 452.5, "grad_norm": 0.08637181669473648, "learning_rate": 9.906442096818139e-05, "loss": 0.0032, "step": 10860 }, { "epoch": 452.9166666666667, "grad_norm": 0.08828583359718323, "learning_rate": 9.906123463511665e-05, "loss": 0.0034, "step": 10870 }, { "epoch": 453.3333333333333, "grad_norm": 0.08470380306243896, "learning_rate": 9.905804293678907e-05, "loss": 0.0035, "step": 10880 }, { "epoch": 453.75, "grad_norm": 0.10888062417507172, "learning_rate": 9.905484587354766e-05, "loss": 0.0044, "step": 10890 }, { "epoch": 454.1666666666667, "grad_norm": 0.08033917099237442, "learning_rate": 9.905164344574205e-05, "loss": 0.004, "step": 10900 }, { "epoch": 454.5833333333333, "grad_norm": 0.09500189125537872, "learning_rate": 9.904843565372248e-05, "loss": 0.0038, "step": 10910 }, { "epoch": 455.0, "grad_norm": 0.12442927807569504, "learning_rate": 9.904522249783972e-05, "loss": 0.0037, "step": 10920 }, { "epoch": 455.4166666666667, "grad_norm": 0.09931124746799469, "learning_rate": 9.904200397844517e-05, "loss": 0.0039, "step": 10930 }, { "epoch": 455.8333333333333, "grad_norm": 0.07679108530282974, "learning_rate": 9.903878009589078e-05, "loss": 0.0037, "step": 10940 }, { "epoch": 456.25, "grad_norm": 0.10405528545379639, "learning_rate": 9.903555085052915e-05, "loss": 0.0039, "step": 10950 }, { "epoch": 456.6666666666667, "grad_norm": 0.07541889697313309, "learning_rate": 9.903231624271338e-05, "loss": 0.0036, "step": 10960 }, { "epoch": 457.0833333333333, "grad_norm": 0.10670921951532364, "learning_rate": 9.902907627279724e-05, "loss": 0.0037, "step": 10970 }, { "epoch": 457.5, "grad_norm": 0.11016707122325897, "learning_rate": 9.902583094113504e-05, "loss": 0.0042, "step": 10980 }, { "epoch": 457.9166666666667, "grad_norm": 0.14827565848827362, "learning_rate": 9.902258024808168e-05, "loss": 0.0038, "step": 10990 }, { "epoch": 458.3333333333333, "grad_norm": 0.12842178344726562, "learning_rate": 9.901932419399264e-05, "loss": 0.004, "step": 11000 }, { "epoch": 458.75, "grad_norm": 0.0881970226764679, "learning_rate": 9.9016062779224e-05, "loss": 0.0034, "step": 11010 }, { "epoch": 459.1666666666667, "grad_norm": 0.12484860420227051, "learning_rate": 9.901279600413242e-05, "loss": 0.004, "step": 11020 }, { "epoch": 459.5833333333333, "grad_norm": 0.12659862637519836, "learning_rate": 9.900952386907518e-05, "loss": 0.0048, "step": 11030 }, { "epoch": 460.0, "grad_norm": 0.0906234011054039, "learning_rate": 9.90062463744101e-05, "loss": 0.0047, "step": 11040 }, { "epoch": 460.4166666666667, "grad_norm": 0.10437983274459839, "learning_rate": 9.900296352049558e-05, "loss": 0.0039, "step": 11050 }, { "epoch": 460.8333333333333, "grad_norm": 0.1338634341955185, "learning_rate": 9.899967530769065e-05, "loss": 0.005, "step": 11060 }, { "epoch": 461.25, "grad_norm": 0.10535284876823425, "learning_rate": 9.899638173635489e-05, "loss": 0.0046, "step": 11070 }, { "epoch": 461.6666666666667, "grad_norm": 0.14755086600780487, "learning_rate": 9.899308280684849e-05, "loss": 0.0036, "step": 11080 }, { "epoch": 462.0833333333333, "grad_norm": 0.07974482327699661, "learning_rate": 9.898977851953222e-05, "loss": 0.0038, "step": 11090 }, { "epoch": 462.5, "grad_norm": 0.10139638185501099, "learning_rate": 9.898646887476741e-05, "loss": 0.0036, "step": 11100 }, { "epoch": 462.9166666666667, "grad_norm": 0.09552652388811111, "learning_rate": 9.898315387291603e-05, "loss": 0.0038, "step": 11110 }, { "epoch": 463.3333333333333, "grad_norm": 0.09747743606567383, "learning_rate": 9.89798335143406e-05, "loss": 0.0038, "step": 11120 }, { "epoch": 463.75, "grad_norm": 0.09271486103534698, "learning_rate": 9.897650779940419e-05, "loss": 0.0035, "step": 11130 }, { "epoch": 464.1666666666667, "grad_norm": 0.10556924343109131, "learning_rate": 9.897317672847054e-05, "loss": 0.0045, "step": 11140 }, { "epoch": 464.5833333333333, "grad_norm": 0.17824368178844452, "learning_rate": 9.89698403019039e-05, "loss": 0.0039, "step": 11150 }, { "epoch": 465.0, "grad_norm": 0.13825613260269165, "learning_rate": 9.896649852006917e-05, "loss": 0.0035, "step": 11160 }, { "epoch": 465.4166666666667, "grad_norm": 0.12407506257295609, "learning_rate": 9.896315138333177e-05, "loss": 0.0045, "step": 11170 }, { "epoch": 465.8333333333333, "grad_norm": 0.2112722098827362, "learning_rate": 9.895979889205774e-05, "loss": 0.005, "step": 11180 }, { "epoch": 466.25, "grad_norm": 0.17929191887378693, "learning_rate": 9.895644104661372e-05, "loss": 0.0039, "step": 11190 }, { "epoch": 466.6666666666667, "grad_norm": 0.13565151393413544, "learning_rate": 9.895307784736691e-05, "loss": 0.0036, "step": 11200 }, { "epoch": 467.0833333333333, "grad_norm": 0.11411851644515991, "learning_rate": 9.894970929468512e-05, "loss": 0.0043, "step": 11210 }, { "epoch": 467.5, "grad_norm": 0.12828722596168518, "learning_rate": 9.89463353889367e-05, "loss": 0.0036, "step": 11220 }, { "epoch": 467.9166666666667, "grad_norm": 0.1855047196149826, "learning_rate": 9.894295613049065e-05, "loss": 0.0049, "step": 11230 }, { "epoch": 468.3333333333333, "grad_norm": 0.16292288899421692, "learning_rate": 9.893957151971649e-05, "loss": 0.004, "step": 11240 }, { "epoch": 468.75, "grad_norm": 0.11774910986423492, "learning_rate": 9.893618155698436e-05, "loss": 0.0038, "step": 11250 }, { "epoch": 469.1666666666667, "grad_norm": 0.09924355894327164, "learning_rate": 9.8932786242665e-05, "loss": 0.0051, "step": 11260 }, { "epoch": 469.5833333333333, "grad_norm": 0.08980730921030045, "learning_rate": 9.89293855771297e-05, "loss": 0.0039, "step": 11270 }, { "epoch": 470.0, "grad_norm": 0.10464251041412354, "learning_rate": 9.892597956075036e-05, "loss": 0.0039, "step": 11280 }, { "epoch": 470.4166666666667, "grad_norm": 0.08208368718624115, "learning_rate": 9.892256819389947e-05, "loss": 0.0035, "step": 11290 }, { "epoch": 470.8333333333333, "grad_norm": 0.06962558627128601, "learning_rate": 9.891915147695006e-05, "loss": 0.0032, "step": 11300 }, { "epoch": 471.25, "grad_norm": 0.05728301778435707, "learning_rate": 9.891572941027577e-05, "loss": 0.0033, "step": 11310 }, { "epoch": 471.6666666666667, "grad_norm": 0.0769607424736023, "learning_rate": 9.89123019942509e-05, "loss": 0.0039, "step": 11320 }, { "epoch": 472.0833333333333, "grad_norm": 0.07393300533294678, "learning_rate": 9.89088692292502e-05, "loss": 0.0041, "step": 11330 }, { "epoch": 472.5, "grad_norm": 0.10526654869318008, "learning_rate": 9.89054311156491e-05, "loss": 0.0032, "step": 11340 }, { "epoch": 472.9166666666667, "grad_norm": 0.06484732031822205, "learning_rate": 9.890198765382357e-05, "loss": 0.0029, "step": 11350 }, { "epoch": 473.3333333333333, "grad_norm": 0.0734255313873291, "learning_rate": 9.889853884415021e-05, "loss": 0.0032, "step": 11360 }, { "epoch": 473.75, "grad_norm": 0.08256218582391739, "learning_rate": 9.889508468700614e-05, "loss": 0.004, "step": 11370 }, { "epoch": 474.1666666666667, "grad_norm": 0.10829289257526398, "learning_rate": 9.889162518276915e-05, "loss": 0.0038, "step": 11380 }, { "epoch": 474.5833333333333, "grad_norm": 0.08664372563362122, "learning_rate": 9.888816033181752e-05, "loss": 0.0037, "step": 11390 }, { "epoch": 475.0, "grad_norm": 0.07363325357437134, "learning_rate": 9.888469013453018e-05, "loss": 0.0029, "step": 11400 }, { "epoch": 475.4166666666667, "grad_norm": 0.10628020763397217, "learning_rate": 9.888121459128663e-05, "loss": 0.0035, "step": 11410 }, { "epoch": 475.8333333333333, "grad_norm": 0.10256238281726837, "learning_rate": 9.887773370246693e-05, "loss": 0.0033, "step": 11420 }, { "epoch": 476.25, "grad_norm": 0.07566937059164047, "learning_rate": 9.887424746845177e-05, "loss": 0.003, "step": 11430 }, { "epoch": 476.6666666666667, "grad_norm": 0.0762556865811348, "learning_rate": 9.887075588962239e-05, "loss": 0.0037, "step": 11440 }, { "epoch": 477.0833333333333, "grad_norm": 0.10118591040372849, "learning_rate": 9.88672589663606e-05, "loss": 0.0032, "step": 11450 }, { "epoch": 477.5, "grad_norm": 0.08999904245138168, "learning_rate": 9.886375669904886e-05, "loss": 0.003, "step": 11460 }, { "epoch": 477.9166666666667, "grad_norm": 0.07670998573303223, "learning_rate": 9.886024908807014e-05, "loss": 0.0031, "step": 11470 }, { "epoch": 478.3333333333333, "grad_norm": 0.08603225648403168, "learning_rate": 9.885673613380806e-05, "loss": 0.0037, "step": 11480 }, { "epoch": 478.75, "grad_norm": 0.10305050760507584, "learning_rate": 9.885321783664676e-05, "loss": 0.0032, "step": 11490 }, { "epoch": 479.1666666666667, "grad_norm": 0.1032215803861618, "learning_rate": 9.884969419697101e-05, "loss": 0.0042, "step": 11500 }, { "epoch": 479.5833333333333, "grad_norm": 0.11156143993139267, "learning_rate": 9.884616521516614e-05, "loss": 0.0041, "step": 11510 }, { "epoch": 480.0, "grad_norm": 0.09761017560958862, "learning_rate": 9.88426308916181e-05, "loss": 0.0037, "step": 11520 }, { "epoch": 480.4166666666667, "grad_norm": 0.10424119234085083, "learning_rate": 9.883909122671335e-05, "loss": 0.0032, "step": 11530 }, { "epoch": 480.8333333333333, "grad_norm": 0.0893351286649704, "learning_rate": 9.883554622083904e-05, "loss": 0.0037, "step": 11540 }, { "epoch": 481.25, "grad_norm": 0.07963421195745468, "learning_rate": 9.88319958743828e-05, "loss": 0.0037, "step": 11550 }, { "epoch": 481.6666666666667, "grad_norm": 0.08347111195325851, "learning_rate": 9.882844018773291e-05, "loss": 0.0036, "step": 11560 }, { "epoch": 482.0833333333333, "grad_norm": 0.072117380797863, "learning_rate": 9.882487916127823e-05, "loss": 0.0032, "step": 11570 }, { "epoch": 482.5, "grad_norm": 0.0966108962893486, "learning_rate": 9.882131279540815e-05, "loss": 0.0039, "step": 11580 }, { "epoch": 482.9166666666667, "grad_norm": 0.08016738295555115, "learning_rate": 9.881774109051271e-05, "loss": 0.0033, "step": 11590 }, { "epoch": 483.3333333333333, "grad_norm": 0.07447019219398499, "learning_rate": 9.881416404698252e-05, "loss": 0.0037, "step": 11600 }, { "epoch": 483.75, "grad_norm": 0.06973928958177567, "learning_rate": 9.881058166520873e-05, "loss": 0.0039, "step": 11610 }, { "epoch": 484.1666666666667, "grad_norm": 0.1242867037653923, "learning_rate": 9.880699394558311e-05, "loss": 0.0047, "step": 11620 }, { "epoch": 484.5833333333333, "grad_norm": 0.10876384377479553, "learning_rate": 9.880340088849801e-05, "loss": 0.0032, "step": 11630 }, { "epoch": 485.0, "grad_norm": 0.08617822080850601, "learning_rate": 9.879980249434637e-05, "loss": 0.0041, "step": 11640 }, { "epoch": 485.4166666666667, "grad_norm": 0.10124532878398895, "learning_rate": 9.879619876352168e-05, "loss": 0.0037, "step": 11650 }, { "epoch": 485.8333333333333, "grad_norm": 0.06344731152057648, "learning_rate": 9.879258969641809e-05, "loss": 0.0036, "step": 11660 }, { "epoch": 486.25, "grad_norm": 0.11273007839918137, "learning_rate": 9.878897529343023e-05, "loss": 0.0038, "step": 11670 }, { "epoch": 486.6666666666667, "grad_norm": 0.10382881760597229, "learning_rate": 9.878535555495338e-05, "loss": 0.0032, "step": 11680 }, { "epoch": 487.0833333333333, "grad_norm": 0.10095907747745514, "learning_rate": 9.87817304813834e-05, "loss": 0.0038, "step": 11690 }, { "epoch": 487.5, "grad_norm": 0.0939096063375473, "learning_rate": 9.877810007311671e-05, "loss": 0.0039, "step": 11700 }, { "epoch": 487.9166666666667, "grad_norm": 0.07175392657518387, "learning_rate": 9.877446433055035e-05, "loss": 0.0036, "step": 11710 }, { "epoch": 488.3333333333333, "grad_norm": 0.06394996494054794, "learning_rate": 9.877082325408191e-05, "loss": 0.0038, "step": 11720 }, { "epoch": 488.75, "grad_norm": 0.07150324434041977, "learning_rate": 9.876717684410954e-05, "loss": 0.004, "step": 11730 }, { "epoch": 489.1666666666667, "grad_norm": 0.05723027139902115, "learning_rate": 9.876352510103204e-05, "loss": 0.0034, "step": 11740 }, { "epoch": 489.5833333333333, "grad_norm": 0.05796140059828758, "learning_rate": 9.875986802524875e-05, "loss": 0.0034, "step": 11750 }, { "epoch": 490.0, "grad_norm": 0.07643600553274155, "learning_rate": 9.87562056171596e-05, "loss": 0.003, "step": 11760 }, { "epoch": 490.4166666666667, "grad_norm": 0.07474087923765182, "learning_rate": 9.875253787716511e-05, "loss": 0.0032, "step": 11770 }, { "epoch": 490.8333333333333, "grad_norm": 0.06530317664146423, "learning_rate": 9.874886480566637e-05, "loss": 0.003, "step": 11780 }, { "epoch": 491.25, "grad_norm": 0.08281642198562622, "learning_rate": 9.874518640306507e-05, "loss": 0.0035, "step": 11790 }, { "epoch": 491.6666666666667, "grad_norm": 0.10174426436424255, "learning_rate": 9.874150266976347e-05, "loss": 0.0039, "step": 11800 }, { "epoch": 492.0833333333333, "grad_norm": 0.11878566443920135, "learning_rate": 9.873781360616443e-05, "loss": 0.0036, "step": 11810 }, { "epoch": 492.5, "grad_norm": 0.0661291554570198, "learning_rate": 9.873411921267137e-05, "loss": 0.0035, "step": 11820 }, { "epoch": 492.9166666666667, "grad_norm": 0.08212991803884506, "learning_rate": 9.873041948968829e-05, "loss": 0.0029, "step": 11830 }, { "epoch": 493.3333333333333, "grad_norm": 0.09318826347589493, "learning_rate": 9.872671443761981e-05, "loss": 0.003, "step": 11840 }, { "epoch": 493.75, "grad_norm": 0.08930675685405731, "learning_rate": 9.872300405687109e-05, "loss": 0.0039, "step": 11850 }, { "epoch": 494.1666666666667, "grad_norm": 0.08903839439153671, "learning_rate": 9.871928834784792e-05, "loss": 0.0038, "step": 11860 }, { "epoch": 494.5833333333333, "grad_norm": 0.069949209690094, "learning_rate": 9.871556731095661e-05, "loss": 0.0031, "step": 11870 }, { "epoch": 495.0, "grad_norm": 0.06035257503390312, "learning_rate": 9.871184094660411e-05, "loss": 0.004, "step": 11880 }, { "epoch": 495.4166666666667, "grad_norm": 0.10391762852668762, "learning_rate": 9.870810925519791e-05, "loss": 0.0038, "step": 11890 }, { "epoch": 495.8333333333333, "grad_norm": 0.08811695873737335, "learning_rate": 9.870437223714612e-05, "loss": 0.0041, "step": 11900 }, { "epoch": 496.25, "grad_norm": 0.08314010500907898, "learning_rate": 9.87006298928574e-05, "loss": 0.004, "step": 11910 }, { "epoch": 496.6666666666667, "grad_norm": 0.08162593096494675, "learning_rate": 9.869688222274103e-05, "loss": 0.0035, "step": 11920 }, { "epoch": 497.0833333333333, "grad_norm": 0.06319741904735565, "learning_rate": 9.869312922720681e-05, "loss": 0.0032, "step": 11930 }, { "epoch": 497.5, "grad_norm": 0.08134827762842178, "learning_rate": 9.868937090666521e-05, "loss": 0.0033, "step": 11940 }, { "epoch": 497.9166666666667, "grad_norm": 0.08871913701295853, "learning_rate": 9.86856072615272e-05, "loss": 0.0035, "step": 11950 }, { "epoch": 498.3333333333333, "grad_norm": 0.06658639758825302, "learning_rate": 9.868183829220438e-05, "loss": 0.0034, "step": 11960 }, { "epoch": 498.75, "grad_norm": 0.08035262674093246, "learning_rate": 9.867806399910893e-05, "loss": 0.0031, "step": 11970 }, { "epoch": 499.1666666666667, "grad_norm": 0.09225038439035416, "learning_rate": 9.867428438265356e-05, "loss": 0.0042, "step": 11980 }, { "epoch": 499.5833333333333, "grad_norm": 0.1076982170343399, "learning_rate": 9.867049944325165e-05, "loss": 0.0037, "step": 11990 }, { "epoch": 500.0, "grad_norm": 0.06706813722848892, "learning_rate": 9.86667091813171e-05, "loss": 0.0036, "step": 12000 }, { "epoch": 500.4166666666667, "grad_norm": 0.0804222822189331, "learning_rate": 9.866291359726438e-05, "loss": 0.0033, "step": 12010 }, { "epoch": 500.8333333333333, "grad_norm": 0.06880912184715271, "learning_rate": 9.865911269150861e-05, "loss": 0.0033, "step": 12020 }, { "epoch": 501.25, "grad_norm": 0.07505902647972107, "learning_rate": 9.865530646446544e-05, "loss": 0.0035, "step": 12030 }, { "epoch": 501.6666666666667, "grad_norm": 0.07451630383729935, "learning_rate": 9.86514949165511e-05, "loss": 0.0033, "step": 12040 }, { "epoch": 502.0833333333333, "grad_norm": 0.10605718195438385, "learning_rate": 9.864767804818243e-05, "loss": 0.0035, "step": 12050 }, { "epoch": 502.5, "grad_norm": 0.09938390552997589, "learning_rate": 9.86438558597768e-05, "loss": 0.0036, "step": 12060 }, { "epoch": 502.9166666666667, "grad_norm": 0.06805272400379181, "learning_rate": 9.864002835175225e-05, "loss": 0.0034, "step": 12070 }, { "epoch": 503.3333333333333, "grad_norm": 0.07867103815078735, "learning_rate": 9.863619552452734e-05, "loss": 0.0042, "step": 12080 }, { "epoch": 503.75, "grad_norm": 0.10982885211706161, "learning_rate": 9.863235737852119e-05, "loss": 0.003, "step": 12090 }, { "epoch": 504.1666666666667, "grad_norm": 0.08903563022613525, "learning_rate": 9.862851391415356e-05, "loss": 0.0031, "step": 12100 }, { "epoch": 504.5833333333333, "grad_norm": 0.08454988151788712, "learning_rate": 9.862466513184477e-05, "loss": 0.0035, "step": 12110 }, { "epoch": 505.0, "grad_norm": 0.0736856758594513, "learning_rate": 9.86208110320157e-05, "loss": 0.0038, "step": 12120 }, { "epoch": 505.4166666666667, "grad_norm": 0.1267719715833664, "learning_rate": 9.861695161508784e-05, "loss": 0.004, "step": 12130 }, { "epoch": 505.8333333333333, "grad_norm": 0.12148255109786987, "learning_rate": 9.861308688148324e-05, "loss": 0.0041, "step": 12140 }, { "epoch": 506.25, "grad_norm": 0.08521001040935516, "learning_rate": 9.860921683162455e-05, "loss": 0.0041, "step": 12150 }, { "epoch": 506.6666666666667, "grad_norm": 0.1023431122303009, "learning_rate": 9.860534146593499e-05, "loss": 0.0043, "step": 12160 }, { "epoch": 507.0833333333333, "grad_norm": 0.09672944247722626, "learning_rate": 9.860146078483836e-05, "loss": 0.0038, "step": 12170 }, { "epoch": 507.5, "grad_norm": 0.09944009780883789, "learning_rate": 9.859757478875905e-05, "loss": 0.0038, "step": 12180 }, { "epoch": 507.9166666666667, "grad_norm": 0.09932313859462738, "learning_rate": 9.859368347812204e-05, "loss": 0.0038, "step": 12190 }, { "epoch": 508.3333333333333, "grad_norm": 0.1245870515704155, "learning_rate": 9.858978685335285e-05, "loss": 0.0049, "step": 12200 }, { "epoch": 508.75, "grad_norm": 0.08994501829147339, "learning_rate": 9.858588491487763e-05, "loss": 0.0038, "step": 12210 }, { "epoch": 509.1666666666667, "grad_norm": 0.07467402517795563, "learning_rate": 9.858197766312308e-05, "loss": 0.0036, "step": 12220 }, { "epoch": 509.5833333333333, "grad_norm": 0.06543485075235367, "learning_rate": 9.857806509851649e-05, "loss": 0.0031, "step": 12230 }, { "epoch": 510.0, "grad_norm": 0.08536311239004135, "learning_rate": 9.857414722148574e-05, "loss": 0.0037, "step": 12240 }, { "epoch": 510.4166666666667, "grad_norm": 0.07602880150079727, "learning_rate": 9.857022403245928e-05, "loss": 0.0034, "step": 12250 }, { "epoch": 510.8333333333333, "grad_norm": 0.08262966573238373, "learning_rate": 9.856629553186615e-05, "loss": 0.0047, "step": 12260 }, { "epoch": 511.25, "grad_norm": 0.0868380144238472, "learning_rate": 9.856236172013595e-05, "loss": 0.0042, "step": 12270 }, { "epoch": 511.6666666666667, "grad_norm": 0.0943221002817154, "learning_rate": 9.85584225976989e-05, "loss": 0.0037, "step": 12280 }, { "epoch": 512.0833333333334, "grad_norm": 0.09167000651359558, "learning_rate": 9.855447816498575e-05, "loss": 0.0036, "step": 12290 }, { "epoch": 512.5, "grad_norm": 0.08371226489543915, "learning_rate": 9.855052842242787e-05, "loss": 0.0044, "step": 12300 }, { "epoch": 512.9166666666666, "grad_norm": 0.0795106366276741, "learning_rate": 9.85465733704572e-05, "loss": 0.004, "step": 12310 }, { "epoch": 513.3333333333334, "grad_norm": 0.12280813604593277, "learning_rate": 9.854261300950624e-05, "loss": 0.0041, "step": 12320 }, { "epoch": 513.75, "grad_norm": 0.09627145528793335, "learning_rate": 9.853864734000813e-05, "loss": 0.0041, "step": 12330 }, { "epoch": 514.1666666666666, "grad_norm": 0.1100190132856369, "learning_rate": 9.85346763623965e-05, "loss": 0.004, "step": 12340 }, { "epoch": 514.5833333333334, "grad_norm": 0.12330792099237442, "learning_rate": 9.853070007710564e-05, "loss": 0.0033, "step": 12350 }, { "epoch": 515.0, "grad_norm": 0.08008944243192673, "learning_rate": 9.85267184845704e-05, "loss": 0.0039, "step": 12360 }, { "epoch": 515.4166666666666, "grad_norm": 0.10374131053686142, "learning_rate": 9.852273158522616e-05, "loss": 0.0035, "step": 12370 }, { "epoch": 515.8333333333334, "grad_norm": 0.10441570729017258, "learning_rate": 9.851873937950896e-05, "loss": 0.0034, "step": 12380 }, { "epoch": 516.25, "grad_norm": 0.08710946887731552, "learning_rate": 9.851474186785537e-05, "loss": 0.0038, "step": 12390 }, { "epoch": 516.6666666666666, "grad_norm": 0.0731898695230484, "learning_rate": 9.851073905070254e-05, "loss": 0.004, "step": 12400 }, { "epoch": 517.0833333333334, "grad_norm": 0.12484550476074219, "learning_rate": 9.850673092848824e-05, "loss": 0.0038, "step": 12410 }, { "epoch": 517.5, "grad_norm": 0.10759884119033813, "learning_rate": 9.850271750165077e-05, "loss": 0.0033, "step": 12420 }, { "epoch": 517.9166666666666, "grad_norm": 0.08286184817552567, "learning_rate": 9.849869877062902e-05, "loss": 0.0037, "step": 12430 }, { "epoch": 518.3333333333334, "grad_norm": 0.1360158771276474, "learning_rate": 9.849467473586252e-05, "loss": 0.0039, "step": 12440 }, { "epoch": 518.75, "grad_norm": 0.12552829086780548, "learning_rate": 9.849064539779127e-05, "loss": 0.0037, "step": 12450 }, { "epoch": 519.1666666666666, "grad_norm": 0.09502868354320526, "learning_rate": 9.848661075685594e-05, "loss": 0.0042, "step": 12460 }, { "epoch": 519.5833333333334, "grad_norm": 0.09581638127565384, "learning_rate": 9.848257081349778e-05, "loss": 0.0041, "step": 12470 }, { "epoch": 520.0, "grad_norm": 0.12807658314704895, "learning_rate": 9.847852556815856e-05, "loss": 0.0036, "step": 12480 }, { "epoch": 520.4166666666666, "grad_norm": 0.09802248328924179, "learning_rate": 9.847447502128067e-05, "loss": 0.0038, "step": 12490 }, { "epoch": 520.8333333333334, "grad_norm": 0.07379398494958878, "learning_rate": 9.847041917330708e-05, "loss": 0.0035, "step": 12500 }, { "epoch": 521.25, "grad_norm": 0.09189765155315399, "learning_rate": 9.846635802468132e-05, "loss": 0.0034, "step": 12510 }, { "epoch": 521.6666666666666, "grad_norm": 0.11550744622945786, "learning_rate": 9.84622915758475e-05, "loss": 0.0044, "step": 12520 }, { "epoch": 522.0833333333334, "grad_norm": 0.09762094169855118, "learning_rate": 9.845821982725034e-05, "loss": 0.0034, "step": 12530 }, { "epoch": 522.5, "grad_norm": 0.06673287600278854, "learning_rate": 9.845414277933514e-05, "loss": 0.0036, "step": 12540 }, { "epoch": 522.9166666666666, "grad_norm": 0.0892348363995552, "learning_rate": 9.845006043254771e-05, "loss": 0.0043, "step": 12550 }, { "epoch": 523.3333333333334, "grad_norm": 0.0763523206114769, "learning_rate": 9.844597278733451e-05, "loss": 0.003, "step": 12560 }, { "epoch": 523.75, "grad_norm": 0.055869802832603455, "learning_rate": 9.844187984414259e-05, "loss": 0.0032, "step": 12570 }, { "epoch": 524.1666666666666, "grad_norm": 0.07008186727762222, "learning_rate": 9.84377816034195e-05, "loss": 0.0032, "step": 12580 }, { "epoch": 524.5833333333334, "grad_norm": 0.10396534204483032, "learning_rate": 9.843367806561345e-05, "loss": 0.0031, "step": 12590 }, { "epoch": 525.0, "grad_norm": 0.05403215438127518, "learning_rate": 9.842956923117317e-05, "loss": 0.0035, "step": 12600 }, { "epoch": 525.4166666666666, "grad_norm": 0.09939452260732651, "learning_rate": 9.842545510054802e-05, "loss": 0.0033, "step": 12610 }, { "epoch": 525.8333333333334, "grad_norm": 0.09339139610528946, "learning_rate": 9.842133567418792e-05, "loss": 0.0044, "step": 12620 }, { "epoch": 526.25, "grad_norm": 0.09810609370470047, "learning_rate": 9.841721095254333e-05, "loss": 0.0033, "step": 12630 }, { "epoch": 526.6666666666666, "grad_norm": 0.08832364529371262, "learning_rate": 9.841308093606537e-05, "loss": 0.0035, "step": 12640 }, { "epoch": 527.0833333333334, "grad_norm": 0.06813167035579681, "learning_rate": 9.840894562520565e-05, "loss": 0.0035, "step": 12650 }, { "epoch": 527.5, "grad_norm": 0.08936004340648651, "learning_rate": 9.840480502041642e-05, "loss": 0.004, "step": 12660 }, { "epoch": 527.9166666666666, "grad_norm": 0.06040869653224945, "learning_rate": 9.840065912215049e-05, "loss": 0.0033, "step": 12670 }, { "epoch": 528.3333333333334, "grad_norm": 0.06647998839616776, "learning_rate": 9.839650793086124e-05, "loss": 0.0035, "step": 12680 }, { "epoch": 528.75, "grad_norm": 0.07443583011627197, "learning_rate": 9.839235144700265e-05, "loss": 0.0038, "step": 12690 }, { "epoch": 529.1666666666666, "grad_norm": 0.09494739770889282, "learning_rate": 9.838818967102926e-05, "loss": 0.0045, "step": 12700 }, { "epoch": 529.5833333333334, "grad_norm": 0.086229108273983, "learning_rate": 9.83840226033962e-05, "loss": 0.0034, "step": 12710 }, { "epoch": 530.0, "grad_norm": 0.09166553616523743, "learning_rate": 9.837985024455918e-05, "loss": 0.0034, "step": 12720 }, { "epoch": 530.4166666666666, "grad_norm": 0.08711498230695724, "learning_rate": 9.837567259497447e-05, "loss": 0.0035, "step": 12730 }, { "epoch": 530.8333333333334, "grad_norm": 0.07563117891550064, "learning_rate": 9.837148965509894e-05, "loss": 0.0038, "step": 12740 }, { "epoch": 531.25, "grad_norm": 0.06485497951507568, "learning_rate": 9.836730142539001e-05, "loss": 0.0037, "step": 12750 }, { "epoch": 531.6666666666666, "grad_norm": 0.06393108516931534, "learning_rate": 9.836310790630574e-05, "loss": 0.003, "step": 12760 }, { "epoch": 532.0833333333334, "grad_norm": 0.10709940642118454, "learning_rate": 9.83589090983047e-05, "loss": 0.0037, "step": 12770 }, { "epoch": 532.5, "grad_norm": 0.08084814250469208, "learning_rate": 9.835470500184605e-05, "loss": 0.0031, "step": 12780 }, { "epoch": 532.9166666666666, "grad_norm": 0.08063402771949768, "learning_rate": 9.835049561738957e-05, "loss": 0.0032, "step": 12790 }, { "epoch": 533.3333333333334, "grad_norm": 0.08433728665113449, "learning_rate": 9.834628094539558e-05, "loss": 0.0036, "step": 12800 }, { "epoch": 533.75, "grad_norm": 0.07420431822538376, "learning_rate": 9.834206098632499e-05, "loss": 0.0036, "step": 12810 }, { "epoch": 534.1666666666666, "grad_norm": 0.08345703035593033, "learning_rate": 9.833783574063931e-05, "loss": 0.0029, "step": 12820 }, { "epoch": 534.5833333333334, "grad_norm": 0.06899064779281616, "learning_rate": 9.833360520880058e-05, "loss": 0.0031, "step": 12830 }, { "epoch": 535.0, "grad_norm": 0.07429498434066772, "learning_rate": 9.832936939127144e-05, "loss": 0.003, "step": 12840 }, { "epoch": 535.4166666666666, "grad_norm": 0.07838916033506393, "learning_rate": 9.832512828851515e-05, "loss": 0.0034, "step": 12850 }, { "epoch": 535.8333333333334, "grad_norm": 0.09044291079044342, "learning_rate": 9.832088190099546e-05, "loss": 0.0032, "step": 12860 }, { "epoch": 536.25, "grad_norm": 0.09166151285171509, "learning_rate": 9.831663022917679e-05, "loss": 0.0035, "step": 12870 }, { "epoch": 536.6666666666666, "grad_norm": 0.06052892655134201, "learning_rate": 9.831237327352407e-05, "loss": 0.0031, "step": 12880 }, { "epoch": 537.0833333333334, "grad_norm": 0.07363637536764145, "learning_rate": 9.830811103450286e-05, "loss": 0.0038, "step": 12890 }, { "epoch": 537.5, "grad_norm": 0.07471868395805359, "learning_rate": 9.830384351257924e-05, "loss": 0.0033, "step": 12900 }, { "epoch": 537.9166666666666, "grad_norm": 0.07392513751983643, "learning_rate": 9.829957070821993e-05, "loss": 0.0047, "step": 12910 }, { "epoch": 538.3333333333334, "grad_norm": 0.07734870165586472, "learning_rate": 9.829529262189218e-05, "loss": 0.0033, "step": 12920 }, { "epoch": 538.75, "grad_norm": 0.062349896878004074, "learning_rate": 9.829100925406385e-05, "loss": 0.0036, "step": 12930 }, { "epoch": 539.1666666666666, "grad_norm": 0.08335275202989578, "learning_rate": 9.828672060520333e-05, "loss": 0.0034, "step": 12940 }, { "epoch": 539.5833333333334, "grad_norm": 0.06094564497470856, "learning_rate": 9.828242667577966e-05, "loss": 0.0031, "step": 12950 }, { "epoch": 540.0, "grad_norm": 0.0879669114947319, "learning_rate": 9.82781274662624e-05, "loss": 0.0031, "step": 12960 }, { "epoch": 540.4166666666666, "grad_norm": 0.08918193727731705, "learning_rate": 9.82738229771217e-05, "loss": 0.0039, "step": 12970 }, { "epoch": 540.8333333333334, "grad_norm": 0.07099597156047821, "learning_rate": 9.826951320882829e-05, "loss": 0.0028, "step": 12980 }, { "epoch": 541.25, "grad_norm": 0.08152104914188385, "learning_rate": 9.826519816185351e-05, "loss": 0.0036, "step": 12990 }, { "epoch": 541.6666666666666, "grad_norm": 0.07895281910896301, "learning_rate": 9.826087783666921e-05, "loss": 0.0039, "step": 13000 }, { "epoch": 542.0833333333334, "grad_norm": 0.07531772553920746, "learning_rate": 9.825655223374787e-05, "loss": 0.0034, "step": 13010 }, { "epoch": 542.5, "grad_norm": 0.06946460902690887, "learning_rate": 9.825222135356253e-05, "loss": 0.0028, "step": 13020 }, { "epoch": 542.9166666666666, "grad_norm": 0.09330227226018906, "learning_rate": 9.82478851965868e-05, "loss": 0.0034, "step": 13030 }, { "epoch": 543.3333333333334, "grad_norm": 0.09444116055965424, "learning_rate": 9.82435437632949e-05, "loss": 0.003, "step": 13040 }, { "epoch": 543.75, "grad_norm": 0.0880584567785263, "learning_rate": 9.823919705416158e-05, "loss": 0.0036, "step": 13050 }, { "epoch": 544.1666666666666, "grad_norm": 0.07023703306913376, "learning_rate": 9.82348450696622e-05, "loss": 0.0038, "step": 13060 }, { "epoch": 544.5833333333334, "grad_norm": 0.10060466080904007, "learning_rate": 9.823048781027268e-05, "loss": 0.0032, "step": 13070 }, { "epoch": 545.0, "grad_norm": 0.0744188204407692, "learning_rate": 9.822612527646953e-05, "loss": 0.0036, "step": 13080 }, { "epoch": 545.4166666666666, "grad_norm": 0.08678875118494034, "learning_rate": 9.822175746872984e-05, "loss": 0.0032, "step": 13090 }, { "epoch": 545.8333333333334, "grad_norm": 0.08907885104417801, "learning_rate": 9.821738438753123e-05, "loss": 0.0037, "step": 13100 }, { "epoch": 546.25, "grad_norm": 0.09011155366897583, "learning_rate": 9.821300603335196e-05, "loss": 0.0034, "step": 13110 }, { "epoch": 546.6666666666666, "grad_norm": 0.10429618507623672, "learning_rate": 9.820862240667085e-05, "loss": 0.0033, "step": 13120 }, { "epoch": 547.0833333333334, "grad_norm": 0.06546129286289215, "learning_rate": 9.820423350796726e-05, "loss": 0.0038, "step": 13130 }, { "epoch": 547.5, "grad_norm": 0.0898284763097763, "learning_rate": 9.819983933772118e-05, "loss": 0.0031, "step": 13140 }, { "epoch": 547.9166666666666, "grad_norm": 0.09339271485805511, "learning_rate": 9.819543989641314e-05, "loss": 0.0037, "step": 13150 }, { "epoch": 548.3333333333334, "grad_norm": 0.11655768752098083, "learning_rate": 9.819103518452423e-05, "loss": 0.0035, "step": 13160 }, { "epoch": 548.75, "grad_norm": 0.07699589431285858, "learning_rate": 9.818662520253618e-05, "loss": 0.0043, "step": 13170 }, { "epoch": 549.1666666666666, "grad_norm": 0.09020993858575821, "learning_rate": 9.818220995093126e-05, "loss": 0.0035, "step": 13180 }, { "epoch": 549.5833333333334, "grad_norm": 0.10036087036132812, "learning_rate": 9.817778943019228e-05, "loss": 0.0034, "step": 13190 }, { "epoch": 550.0, "grad_norm": 0.06929932534694672, "learning_rate": 9.81733636408027e-05, "loss": 0.0032, "step": 13200 }, { "epoch": 550.4166666666666, "grad_norm": 0.10158833116292953, "learning_rate": 9.816893258324649e-05, "loss": 0.0036, "step": 13210 }, { "epoch": 550.8333333333334, "grad_norm": 0.10834167897701263, "learning_rate": 9.816449625800823e-05, "loss": 0.003, "step": 13220 }, { "epoch": 551.25, "grad_norm": 0.1150333359837532, "learning_rate": 9.816005466557308e-05, "loss": 0.0033, "step": 13230 }, { "epoch": 551.6666666666666, "grad_norm": 0.08482635766267776, "learning_rate": 9.815560780642674e-05, "loss": 0.0038, "step": 13240 }, { "epoch": 552.0833333333334, "grad_norm": 0.1128368079662323, "learning_rate": 9.815115568105555e-05, "loss": 0.0032, "step": 13250 }, { "epoch": 552.5, "grad_norm": 0.10916503518819809, "learning_rate": 9.814669828994638e-05, "loss": 0.004, "step": 13260 }, { "epoch": 552.9166666666666, "grad_norm": 0.13541187345981598, "learning_rate": 9.814223563358665e-05, "loss": 0.0038, "step": 13270 }, { "epoch": 553.3333333333334, "grad_norm": 0.11636517941951752, "learning_rate": 9.813776771246443e-05, "loss": 0.0039, "step": 13280 }, { "epoch": 553.75, "grad_norm": 0.09007014334201813, "learning_rate": 9.813329452706829e-05, "loss": 0.0033, "step": 13290 }, { "epoch": 554.1666666666666, "grad_norm": 0.13436631858348846, "learning_rate": 9.812881607788744e-05, "loss": 0.0038, "step": 13300 }, { "epoch": 554.5833333333334, "grad_norm": 0.12975987792015076, "learning_rate": 9.812433236541163e-05, "loss": 0.0038, "step": 13310 }, { "epoch": 555.0, "grad_norm": 0.1283576935529709, "learning_rate": 9.811984339013116e-05, "loss": 0.0038, "step": 13320 }, { "epoch": 555.4166666666666, "grad_norm": 0.14711391925811768, "learning_rate": 9.811534915253698e-05, "loss": 0.005, "step": 13330 }, { "epoch": 555.8333333333334, "grad_norm": 0.1247132197022438, "learning_rate": 9.811084965312056e-05, "loss": 0.0041, "step": 13340 }, { "epoch": 556.25, "grad_norm": 0.1217031478881836, "learning_rate": 9.810634489237396e-05, "loss": 0.004, "step": 13350 }, { "epoch": 556.6666666666666, "grad_norm": 0.11124063283205032, "learning_rate": 9.81018348707898e-05, "loss": 0.0038, "step": 13360 }, { "epoch": 557.0833333333334, "grad_norm": 0.09142408519983292, "learning_rate": 9.809731958886131e-05, "loss": 0.0035, "step": 13370 }, { "epoch": 557.5, "grad_norm": 0.08359012007713318, "learning_rate": 9.809279904708224e-05, "loss": 0.0042, "step": 13380 }, { "epoch": 557.9166666666666, "grad_norm": 0.11655227094888687, "learning_rate": 9.808827324594699e-05, "loss": 0.0038, "step": 13390 }, { "epoch": 558.3333333333334, "grad_norm": 0.12468906491994858, "learning_rate": 9.808374218595046e-05, "loss": 0.0036, "step": 13400 }, { "epoch": 558.75, "grad_norm": 0.09510583430528641, "learning_rate": 9.80792058675882e-05, "loss": 0.0039, "step": 13410 }, { "epoch": 559.1666666666666, "grad_norm": 0.09443563967943192, "learning_rate": 9.807466429135627e-05, "loss": 0.0041, "step": 13420 }, { "epoch": 559.5833333333334, "grad_norm": 0.10279058665037155, "learning_rate": 9.807011745775132e-05, "loss": 0.0039, "step": 13430 }, { "epoch": 560.0, "grad_norm": 0.11348173767328262, "learning_rate": 9.806556536727061e-05, "loss": 0.0036, "step": 13440 }, { "epoch": 560.4166666666666, "grad_norm": 0.07772504538297653, "learning_rate": 9.806100802041193e-05, "loss": 0.0036, "step": 13450 }, { "epoch": 560.8333333333334, "grad_norm": 0.07771819829940796, "learning_rate": 9.805644541767368e-05, "loss": 0.0033, "step": 13460 }, { "epoch": 561.25, "grad_norm": 0.09353893250226974, "learning_rate": 9.805187755955478e-05, "loss": 0.0037, "step": 13470 }, { "epoch": 561.6666666666666, "grad_norm": 0.09893454611301422, "learning_rate": 9.804730444655483e-05, "loss": 0.0042, "step": 13480 }, { "epoch": 562.0833333333334, "grad_norm": 0.09078125655651093, "learning_rate": 9.804272607917388e-05, "loss": 0.0035, "step": 13490 }, { "epoch": 562.5, "grad_norm": 0.07659109681844711, "learning_rate": 9.803814245791265e-05, "loss": 0.0042, "step": 13500 }, { "epoch": 562.9166666666666, "grad_norm": 0.08446577936410904, "learning_rate": 9.803355358327239e-05, "loss": 0.0039, "step": 13510 }, { "epoch": 563.3333333333334, "grad_norm": 0.0726519525051117, "learning_rate": 9.802895945575492e-05, "loss": 0.0031, "step": 13520 }, { "epoch": 563.75, "grad_norm": 0.08797422796487808, "learning_rate": 9.802436007586266e-05, "loss": 0.004, "step": 13530 }, { "epoch": 564.1666666666666, "grad_norm": 0.08945158123970032, "learning_rate": 9.801975544409858e-05, "loss": 0.0036, "step": 13540 }, { "epoch": 564.5833333333334, "grad_norm": 0.09010381251573563, "learning_rate": 9.801514556096625e-05, "loss": 0.0033, "step": 13550 }, { "epoch": 565.0, "grad_norm": 0.0952516496181488, "learning_rate": 9.801053042696977e-05, "loss": 0.0033, "step": 13560 }, { "epoch": 565.4166666666666, "grad_norm": 0.07731503248214722, "learning_rate": 9.800591004261388e-05, "loss": 0.0033, "step": 13570 }, { "epoch": 565.8333333333334, "grad_norm": 0.09676026552915573, "learning_rate": 9.800128440840385e-05, "loss": 0.0035, "step": 13580 }, { "epoch": 566.25, "grad_norm": 0.07993284612894058, "learning_rate": 9.799665352484552e-05, "loss": 0.0037, "step": 13590 }, { "epoch": 566.6666666666666, "grad_norm": 0.09238976240158081, "learning_rate": 9.799201739244532e-05, "loss": 0.0032, "step": 13600 }, { "epoch": 567.0833333333334, "grad_norm": 0.08839283138513565, "learning_rate": 9.798737601171025e-05, "loss": 0.0034, "step": 13610 }, { "epoch": 567.5, "grad_norm": 0.08615496009588242, "learning_rate": 9.79827293831479e-05, "loss": 0.0037, "step": 13620 }, { "epoch": 567.9166666666666, "grad_norm": 0.0798436775803566, "learning_rate": 9.797807750726638e-05, "loss": 0.0032, "step": 13630 }, { "epoch": 568.3333333333334, "grad_norm": 0.0832333043217659, "learning_rate": 9.797342038457446e-05, "loss": 0.0031, "step": 13640 }, { "epoch": 568.75, "grad_norm": 0.08416077494621277, "learning_rate": 9.796875801558141e-05, "loss": 0.0029, "step": 13650 }, { "epoch": 569.1666666666666, "grad_norm": 0.10032808780670166, "learning_rate": 9.79640904007971e-05, "loss": 0.0033, "step": 13660 }, { "epoch": 569.5833333333334, "grad_norm": 0.09558603167533875, "learning_rate": 9.795941754073199e-05, "loss": 0.0033, "step": 13670 }, { "epoch": 570.0, "grad_norm": 0.06981492042541504, "learning_rate": 9.795473943589705e-05, "loss": 0.0028, "step": 13680 }, { "epoch": 570.4166666666666, "grad_norm": 0.08992105722427368, "learning_rate": 9.795005608680394e-05, "loss": 0.004, "step": 13690 }, { "epoch": 570.8333333333334, "grad_norm": 0.06628727912902832, "learning_rate": 9.794536749396477e-05, "loss": 0.0032, "step": 13700 }, { "epoch": 571.25, "grad_norm": 0.09389425069093704, "learning_rate": 9.79406736578923e-05, "loss": 0.0035, "step": 13710 }, { "epoch": 571.6666666666666, "grad_norm": 0.09229815751314163, "learning_rate": 9.793597457909984e-05, "loss": 0.0032, "step": 13720 }, { "epoch": 572.0833333333334, "grad_norm": 0.09513173252344131, "learning_rate": 9.793127025810127e-05, "loss": 0.0042, "step": 13730 }, { "epoch": 572.5, "grad_norm": 0.07619958370923996, "learning_rate": 9.792656069541104e-05, "loss": 0.0035, "step": 13740 }, { "epoch": 572.9166666666666, "grad_norm": 0.10627780854701996, "learning_rate": 9.79218458915442e-05, "loss": 0.0032, "step": 13750 }, { "epoch": 573.3333333333334, "grad_norm": 0.0936664417386055, "learning_rate": 9.791712584701634e-05, "loss": 0.0037, "step": 13760 }, { "epoch": 573.75, "grad_norm": 0.10354778170585632, "learning_rate": 9.791240056234364e-05, "loss": 0.0031, "step": 13770 }, { "epoch": 574.1666666666666, "grad_norm": 0.07542477548122406, "learning_rate": 9.790767003804283e-05, "loss": 0.0036, "step": 13780 }, { "epoch": 574.5833333333334, "grad_norm": 0.10807777941226959, "learning_rate": 9.790293427463126e-05, "loss": 0.0033, "step": 13790 }, { "epoch": 575.0, "grad_norm": 0.06510014832019806, "learning_rate": 9.789819327262684e-05, "loss": 0.0038, "step": 13800 }, { "epoch": 575.4166666666666, "grad_norm": 0.11422944813966751, "learning_rate": 9.7893447032548e-05, "loss": 0.003, "step": 13810 }, { "epoch": 575.8333333333334, "grad_norm": 0.1057552918791771, "learning_rate": 9.78886955549138e-05, "loss": 0.0037, "step": 13820 }, { "epoch": 576.25, "grad_norm": 0.08810794353485107, "learning_rate": 9.788393884024387e-05, "loss": 0.0035, "step": 13830 }, { "epoch": 576.6666666666666, "grad_norm": 0.10201310366392136, "learning_rate": 9.787917688905836e-05, "loss": 0.0037, "step": 13840 }, { "epoch": 577.0833333333334, "grad_norm": 0.10713956505060196, "learning_rate": 9.787440970187807e-05, "loss": 0.004, "step": 13850 }, { "epoch": 577.5, "grad_norm": 0.09943758696317673, "learning_rate": 9.786963727922429e-05, "loss": 0.0032, "step": 13860 }, { "epoch": 577.9166666666666, "grad_norm": 0.1002827137708664, "learning_rate": 9.786485962161897e-05, "loss": 0.0031, "step": 13870 }, { "epoch": 578.3333333333334, "grad_norm": 0.08239620178937912, "learning_rate": 9.786007672958455e-05, "loss": 0.0035, "step": 13880 }, { "epoch": 578.75, "grad_norm": 0.08630068600177765, "learning_rate": 9.78552886036441e-05, "loss": 0.0027, "step": 13890 }, { "epoch": 579.1666666666666, "grad_norm": 0.10953761637210846, "learning_rate": 9.785049524432124e-05, "loss": 0.0038, "step": 13900 }, { "epoch": 579.5833333333334, "grad_norm": 0.11639111489057541, "learning_rate": 9.784569665214016e-05, "loss": 0.0041, "step": 13910 }, { "epoch": 580.0, "grad_norm": 0.10519179701805115, "learning_rate": 9.784089282762563e-05, "loss": 0.0036, "step": 13920 }, { "epoch": 580.4166666666666, "grad_norm": 0.09505803138017654, "learning_rate": 9.7836083771303e-05, "loss": 0.0032, "step": 13930 }, { "epoch": 580.8333333333334, "grad_norm": 0.09907899796962738, "learning_rate": 9.783126948369817e-05, "loss": 0.0044, "step": 13940 }, { "epoch": 581.25, "grad_norm": 0.09594742208719254, "learning_rate": 9.78264499653376e-05, "loss": 0.0035, "step": 13950 }, { "epoch": 581.6666666666666, "grad_norm": 0.10762239247560501, "learning_rate": 9.782162521674838e-05, "loss": 0.0033, "step": 13960 }, { "epoch": 582.0833333333334, "grad_norm": 0.1047389954328537, "learning_rate": 9.781679523845812e-05, "loss": 0.0034, "step": 13970 }, { "epoch": 582.5, "grad_norm": 0.11021910607814789, "learning_rate": 9.781196003099502e-05, "loss": 0.0032, "step": 13980 }, { "epoch": 582.9166666666666, "grad_norm": 0.120588019490242, "learning_rate": 9.780711959488786e-05, "loss": 0.0035, "step": 13990 }, { "epoch": 583.3333333333334, "grad_norm": 0.09938381612300873, "learning_rate": 9.780227393066599e-05, "loss": 0.0032, "step": 14000 }, { "epoch": 583.75, "grad_norm": 0.08568920940160751, "learning_rate": 9.77974230388593e-05, "loss": 0.0037, "step": 14010 }, { "epoch": 584.1666666666666, "grad_norm": 0.07849889993667603, "learning_rate": 9.779256691999829e-05, "loss": 0.0037, "step": 14020 }, { "epoch": 584.5833333333334, "grad_norm": 0.09072907269001007, "learning_rate": 9.778770557461403e-05, "loss": 0.0041, "step": 14030 }, { "epoch": 585.0, "grad_norm": 0.08328467607498169, "learning_rate": 9.778283900323812e-05, "loss": 0.0037, "step": 14040 }, { "epoch": 585.4166666666666, "grad_norm": 0.09920339286327362, "learning_rate": 9.777796720640277e-05, "loss": 0.0032, "step": 14050 }, { "epoch": 585.8333333333334, "grad_norm": 0.08375944197177887, "learning_rate": 9.777309018464078e-05, "loss": 0.0036, "step": 14060 }, { "epoch": 586.25, "grad_norm": 0.08472380042076111, "learning_rate": 9.776820793848547e-05, "loss": 0.0036, "step": 14070 }, { "epoch": 586.6666666666666, "grad_norm": 0.09070140868425369, "learning_rate": 9.776332046847075e-05, "loss": 0.0045, "step": 14080 }, { "epoch": 587.0833333333334, "grad_norm": 0.05945030227303505, "learning_rate": 9.775842777513111e-05, "loss": 0.0037, "step": 14090 }, { "epoch": 587.5, "grad_norm": 0.1059206947684288, "learning_rate": 9.775352985900163e-05, "loss": 0.0041, "step": 14100 }, { "epoch": 587.9166666666666, "grad_norm": 0.11535406857728958, "learning_rate": 9.774862672061791e-05, "loss": 0.0042, "step": 14110 }, { "epoch": 588.3333333333334, "grad_norm": 0.08856967091560364, "learning_rate": 9.774371836051616e-05, "loss": 0.0034, "step": 14120 }, { "epoch": 588.75, "grad_norm": 0.07870763540267944, "learning_rate": 9.773880477923315e-05, "loss": 0.0032, "step": 14130 }, { "epoch": 589.1666666666666, "grad_norm": 0.10601623356342316, "learning_rate": 9.773388597730623e-05, "loss": 0.0034, "step": 14140 }, { "epoch": 589.5833333333334, "grad_norm": 0.09583120048046112, "learning_rate": 9.77289619552733e-05, "loss": 0.003, "step": 14150 }, { "epoch": 590.0, "grad_norm": 0.11214495450258255, "learning_rate": 9.772403271367285e-05, "loss": 0.0035, "step": 14160 }, { "epoch": 590.4166666666666, "grad_norm": 0.06494084745645523, "learning_rate": 9.771909825304396e-05, "loss": 0.0038, "step": 14170 }, { "epoch": 590.8333333333334, "grad_norm": 0.10229381173849106, "learning_rate": 9.771415857392619e-05, "loss": 0.0031, "step": 14180 }, { "epoch": 591.25, "grad_norm": 0.11579552292823792, "learning_rate": 9.770921367685978e-05, "loss": 0.0036, "step": 14190 }, { "epoch": 591.6666666666666, "grad_norm": 0.08240566402673721, "learning_rate": 9.770426356238551e-05, "loss": 0.0034, "step": 14200 }, { "epoch": 592.0833333333334, "grad_norm": 0.10839077830314636, "learning_rate": 9.769930823104469e-05, "loss": 0.0036, "step": 14210 }, { "epoch": 592.5, "grad_norm": 0.15337327122688293, "learning_rate": 9.769434768337926e-05, "loss": 0.004, "step": 14220 }, { "epoch": 592.9166666666666, "grad_norm": 0.09617137908935547, "learning_rate": 9.768938191993164e-05, "loss": 0.0035, "step": 14230 }, { "epoch": 593.3333333333334, "grad_norm": 0.11033538728952408, "learning_rate": 9.768441094124494e-05, "loss": 0.0039, "step": 14240 }, { "epoch": 593.75, "grad_norm": 0.1883103996515274, "learning_rate": 9.767943474786275e-05, "loss": 0.0038, "step": 14250 }, { "epoch": 594.1666666666666, "grad_norm": 0.22752350568771362, "learning_rate": 9.767445334032923e-05, "loss": 0.004, "step": 14260 }, { "epoch": 594.5833333333334, "grad_norm": 0.19123701751232147, "learning_rate": 9.766946671918919e-05, "loss": 0.0038, "step": 14270 }, { "epoch": 595.0, "grad_norm": 0.12485527992248535, "learning_rate": 9.766447488498796e-05, "loss": 0.0041, "step": 14280 }, { "epoch": 595.4166666666666, "grad_norm": 0.13134241104125977, "learning_rate": 9.765947783827139e-05, "loss": 0.004, "step": 14290 }, { "epoch": 595.8333333333334, "grad_norm": 0.12053664773702621, "learning_rate": 9.765447557958599e-05, "loss": 0.0037, "step": 14300 }, { "epoch": 596.25, "grad_norm": 0.1128881648182869, "learning_rate": 9.764946810947879e-05, "loss": 0.0038, "step": 14310 }, { "epoch": 596.6666666666666, "grad_norm": 0.07833097875118256, "learning_rate": 9.764445542849738e-05, "loss": 0.0036, "step": 14320 }, { "epoch": 597.0833333333334, "grad_norm": 0.11079167574644089, "learning_rate": 9.763943753718998e-05, "loss": 0.0032, "step": 14330 }, { "epoch": 597.5, "grad_norm": 0.10859756171703339, "learning_rate": 9.76344144361053e-05, "loss": 0.0035, "step": 14340 }, { "epoch": 597.9166666666666, "grad_norm": 0.11496085673570633, "learning_rate": 9.762938612579269e-05, "loss": 0.0037, "step": 14350 }, { "epoch": 598.3333333333334, "grad_norm": 0.09356757998466492, "learning_rate": 9.762435260680202e-05, "loss": 0.0035, "step": 14360 }, { "epoch": 598.75, "grad_norm": 0.07165942341089249, "learning_rate": 9.761931387968373e-05, "loss": 0.0033, "step": 14370 }, { "epoch": 599.1666666666666, "grad_norm": 0.11294745653867722, "learning_rate": 9.76142699449889e-05, "loss": 0.0027, "step": 14380 }, { "epoch": 599.5833333333334, "grad_norm": 0.08590885996818542, "learning_rate": 9.760922080326908e-05, "loss": 0.0034, "step": 14390 }, { "epoch": 600.0, "grad_norm": 0.09171481430530548, "learning_rate": 9.760416645507644e-05, "loss": 0.0029, "step": 14400 }, { "epoch": 600.4166666666666, "grad_norm": 0.07401961088180542, "learning_rate": 9.759910690096375e-05, "loss": 0.0031, "step": 14410 }, { "epoch": 600.8333333333334, "grad_norm": 0.08859895914793015, "learning_rate": 9.759404214148429e-05, "loss": 0.0029, "step": 14420 }, { "epoch": 601.25, "grad_norm": 0.06547096371650696, "learning_rate": 9.758897217719191e-05, "loss": 0.0029, "step": 14430 }, { "epoch": 601.6666666666666, "grad_norm": 0.11119271069765091, "learning_rate": 9.758389700864113e-05, "loss": 0.0032, "step": 14440 }, { "epoch": 602.0833333333334, "grad_norm": 0.08347140997648239, "learning_rate": 9.757881663638688e-05, "loss": 0.0031, "step": 14450 }, { "epoch": 602.5, "grad_norm": 0.07709753513336182, "learning_rate": 9.757373106098478e-05, "loss": 0.0028, "step": 14460 }, { "epoch": 602.9166666666666, "grad_norm": 0.10474201291799545, "learning_rate": 9.756864028299097e-05, "loss": 0.0031, "step": 14470 }, { "epoch": 603.3333333333334, "grad_norm": 0.10339729487895966, "learning_rate": 9.75635443029622e-05, "loss": 0.0033, "step": 14480 }, { "epoch": 603.75, "grad_norm": 0.08414296805858612, "learning_rate": 9.755844312145572e-05, "loss": 0.0028, "step": 14490 }, { "epoch": 604.1666666666666, "grad_norm": 0.09450030326843262, "learning_rate": 9.755333673902941e-05, "loss": 0.0032, "step": 14500 }, { "epoch": 604.5833333333334, "grad_norm": 0.11393790692090988, "learning_rate": 9.75482251562417e-05, "loss": 0.003, "step": 14510 }, { "epoch": 605.0, "grad_norm": 0.12361198663711548, "learning_rate": 9.754310837365155e-05, "loss": 0.0038, "step": 14520 }, { "epoch": 605.4166666666666, "grad_norm": 0.12479650229215622, "learning_rate": 9.753798639181856e-05, "loss": 0.0036, "step": 14530 }, { "epoch": 605.8333333333334, "grad_norm": 0.08442172408103943, "learning_rate": 9.753285921130286e-05, "loss": 0.0034, "step": 14540 }, { "epoch": 606.25, "grad_norm": 0.07489719986915588, "learning_rate": 9.752772683266512e-05, "loss": 0.0041, "step": 14550 }, { "epoch": 606.6666666666666, "grad_norm": 0.08224651217460632, "learning_rate": 9.752258925646665e-05, "loss": 0.0036, "step": 14560 }, { "epoch": 607.0833333333334, "grad_norm": 0.062425896525382996, "learning_rate": 9.751744648326926e-05, "loss": 0.0028, "step": 14570 }, { "epoch": 607.5, "grad_norm": 0.05754140391945839, "learning_rate": 9.751229851363536e-05, "loss": 0.0036, "step": 14580 }, { "epoch": 607.9166666666666, "grad_norm": 0.0541592501103878, "learning_rate": 9.750714534812793e-05, "loss": 0.0031, "step": 14590 }, { "epoch": 608.3333333333334, "grad_norm": 0.06733129918575287, "learning_rate": 9.750198698731053e-05, "loss": 0.003, "step": 14600 }, { "epoch": 608.75, "grad_norm": 0.06778040528297424, "learning_rate": 9.749682343174722e-05, "loss": 0.0032, "step": 14610 }, { "epoch": 609.1666666666666, "grad_norm": 0.09667056053876877, "learning_rate": 9.749165468200272e-05, "loss": 0.0031, "step": 14620 }, { "epoch": 609.5833333333334, "grad_norm": 0.06892433762550354, "learning_rate": 9.748648073864229e-05, "loss": 0.0026, "step": 14630 }, { "epoch": 610.0, "grad_norm": 0.08328133821487427, "learning_rate": 9.748130160223168e-05, "loss": 0.0039, "step": 14640 }, { "epoch": 610.4166666666666, "grad_norm": 0.11443597078323364, "learning_rate": 9.747611727333734e-05, "loss": 0.0033, "step": 14650 }, { "epoch": 610.8333333333334, "grad_norm": 0.07996416091918945, "learning_rate": 9.74709277525262e-05, "loss": 0.0033, "step": 14660 }, { "epoch": 611.25, "grad_norm": 0.09308147430419922, "learning_rate": 9.746573304036576e-05, "loss": 0.0033, "step": 14670 }, { "epoch": 611.6666666666666, "grad_norm": 0.10932154208421707, "learning_rate": 9.746053313742412e-05, "loss": 0.0034, "step": 14680 }, { "epoch": 612.0833333333334, "grad_norm": 0.1124814972281456, "learning_rate": 9.745532804426994e-05, "loss": 0.0033, "step": 14690 }, { "epoch": 612.5, "grad_norm": 0.11656785756349564, "learning_rate": 9.745011776147242e-05, "loss": 0.0043, "step": 14700 }, { "epoch": 612.9166666666666, "grad_norm": 0.09081847965717316, "learning_rate": 9.744490228960138e-05, "loss": 0.0035, "step": 14710 }, { "epoch": 613.3333333333334, "grad_norm": 0.11556759476661682, "learning_rate": 9.743968162922713e-05, "loss": 0.0032, "step": 14720 }, { "epoch": 613.75, "grad_norm": 0.11134457588195801, "learning_rate": 9.743445578092064e-05, "loss": 0.0036, "step": 14730 }, { "epoch": 614.1666666666666, "grad_norm": 0.0786963626742363, "learning_rate": 9.742922474525338e-05, "loss": 0.0039, "step": 14740 }, { "epoch": 614.5833333333334, "grad_norm": 0.0940924659371376, "learning_rate": 9.742398852279741e-05, "loss": 0.0027, "step": 14750 }, { "epoch": 615.0, "grad_norm": 0.06996942311525345, "learning_rate": 9.741874711412535e-05, "loss": 0.0037, "step": 14760 }, { "epoch": 615.4166666666666, "grad_norm": 0.11667321622371674, "learning_rate": 9.741350051981042e-05, "loss": 0.0037, "step": 14770 }, { "epoch": 615.8333333333334, "grad_norm": 0.10027828067541122, "learning_rate": 9.740824874042633e-05, "loss": 0.0029, "step": 14780 }, { "epoch": 616.25, "grad_norm": 0.09451470524072647, "learning_rate": 9.740299177654746e-05, "loss": 0.0034, "step": 14790 }, { "epoch": 616.6666666666666, "grad_norm": 0.08004070818424225, "learning_rate": 9.739772962874867e-05, "loss": 0.0045, "step": 14800 }, { "epoch": 617.0833333333334, "grad_norm": 0.13739702105522156, "learning_rate": 9.739246229760541e-05, "loss": 0.0033, "step": 14810 }, { "epoch": 617.5, "grad_norm": 0.13077163696289062, "learning_rate": 9.738718978369376e-05, "loss": 0.0038, "step": 14820 }, { "epoch": 617.9166666666666, "grad_norm": 0.12806226313114166, "learning_rate": 9.738191208759025e-05, "loss": 0.0036, "step": 14830 }, { "epoch": 618.3333333333334, "grad_norm": 0.11991463601589203, "learning_rate": 9.73766292098721e-05, "loss": 0.0041, "step": 14840 }, { "epoch": 618.75, "grad_norm": 0.07877093553543091, "learning_rate": 9.737134115111699e-05, "loss": 0.0033, "step": 14850 }, { "epoch": 619.1666666666666, "grad_norm": 0.13273583352565765, "learning_rate": 9.736604791190323e-05, "loss": 0.0039, "step": 14860 }, { "epoch": 619.5833333333334, "grad_norm": 0.08219762146472931, "learning_rate": 9.73607494928097e-05, "loss": 0.0037, "step": 14870 }, { "epoch": 620.0, "grad_norm": 0.11425215005874634, "learning_rate": 9.735544589441581e-05, "loss": 0.0037, "step": 14880 }, { "epoch": 620.4166666666666, "grad_norm": 0.11303304880857468, "learning_rate": 9.735013711730154e-05, "loss": 0.0038, "step": 14890 }, { "epoch": 620.8333333333334, "grad_norm": 0.07651810348033905, "learning_rate": 9.734482316204747e-05, "loss": 0.0037, "step": 14900 }, { "epoch": 621.25, "grad_norm": 0.10505557060241699, "learning_rate": 9.733950402923473e-05, "loss": 0.0034, "step": 14910 }, { "epoch": 621.6666666666666, "grad_norm": 0.10246922075748444, "learning_rate": 9.7334179719445e-05, "loss": 0.0034, "step": 14920 }, { "epoch": 622.0833333333334, "grad_norm": 0.11955279111862183, "learning_rate": 9.732885023326053e-05, "loss": 0.0029, "step": 14930 }, { "epoch": 622.5, "grad_norm": 0.0766887217760086, "learning_rate": 9.732351557126418e-05, "loss": 0.0029, "step": 14940 }, { "epoch": 622.9166666666666, "grad_norm": 0.07348015904426575, "learning_rate": 9.731817573403929e-05, "loss": 0.0034, "step": 14950 }, { "epoch": 623.3333333333334, "grad_norm": 0.11598038673400879, "learning_rate": 9.731283072216985e-05, "loss": 0.0036, "step": 14960 }, { "epoch": 623.75, "grad_norm": 0.08281432092189789, "learning_rate": 9.730748053624039e-05, "loss": 0.0032, "step": 14970 }, { "epoch": 624.1666666666666, "grad_norm": 0.09291018545627594, "learning_rate": 9.730212517683598e-05, "loss": 0.0034, "step": 14980 }, { "epoch": 624.5833333333334, "grad_norm": 0.08770384639501572, "learning_rate": 9.729676464454228e-05, "loss": 0.003, "step": 14990 }, { "epoch": 625.0, "grad_norm": 0.07344215363264084, "learning_rate": 9.72913989399455e-05, "loss": 0.0036, "step": 15000 }, { "epoch": 625.4166666666666, "grad_norm": 0.0654301568865776, "learning_rate": 9.728602806363242e-05, "loss": 0.0034, "step": 15010 }, { "epoch": 625.8333333333334, "grad_norm": 0.11252564191818237, "learning_rate": 9.728065201619043e-05, "loss": 0.0031, "step": 15020 }, { "epoch": 626.25, "grad_norm": 0.0866217166185379, "learning_rate": 9.727527079820742e-05, "loss": 0.0029, "step": 15030 }, { "epoch": 626.6666666666666, "grad_norm": 0.046912167221307755, "learning_rate": 9.726988441027186e-05, "loss": 0.0033, "step": 15040 }, { "epoch": 627.0833333333334, "grad_norm": 0.07366065680980682, "learning_rate": 9.726449285297281e-05, "loss": 0.003, "step": 15050 }, { "epoch": 627.5, "grad_norm": 0.12240176647901535, "learning_rate": 9.72590961268999e-05, "loss": 0.0036, "step": 15060 }, { "epoch": 627.9166666666666, "grad_norm": 0.12186795473098755, "learning_rate": 9.725369423264328e-05, "loss": 0.0035, "step": 15070 }, { "epoch": 628.3333333333334, "grad_norm": 0.06589239835739136, "learning_rate": 9.72482871707937e-05, "loss": 0.0029, "step": 15080 }, { "epoch": 628.75, "grad_norm": 0.09145845472812653, "learning_rate": 9.724287494194247e-05, "loss": 0.0033, "step": 15090 }, { "epoch": 629.1666666666666, "grad_norm": 0.10848306864500046, "learning_rate": 9.723745754668147e-05, "loss": 0.004, "step": 15100 }, { "epoch": 629.5833333333334, "grad_norm": 0.11546062678098679, "learning_rate": 9.723203498560313e-05, "loss": 0.004, "step": 15110 }, { "epoch": 630.0, "grad_norm": 0.0853043794631958, "learning_rate": 9.722660725930046e-05, "loss": 0.0035, "step": 15120 }, { "epoch": 630.4166666666666, "grad_norm": 0.08392417430877686, "learning_rate": 9.722117436836702e-05, "loss": 0.0034, "step": 15130 }, { "epoch": 630.8333333333334, "grad_norm": 0.09078045189380646, "learning_rate": 9.721573631339696e-05, "loss": 0.0032, "step": 15140 }, { "epoch": 631.25, "grad_norm": 0.1285344660282135, "learning_rate": 9.721029309498494e-05, "loss": 0.0034, "step": 15150 }, { "epoch": 631.6666666666666, "grad_norm": 0.10470344126224518, "learning_rate": 9.720484471372627e-05, "loss": 0.0038, "step": 15160 }, { "epoch": 632.0833333333334, "grad_norm": 0.10537204146385193, "learning_rate": 9.719939117021673e-05, "loss": 0.0032, "step": 15170 }, { "epoch": 632.5, "grad_norm": 0.10332779586315155, "learning_rate": 9.719393246505275e-05, "loss": 0.0033, "step": 15180 }, { "epoch": 632.9166666666666, "grad_norm": 0.11018428206443787, "learning_rate": 9.718846859883128e-05, "loss": 0.0037, "step": 15190 }, { "epoch": 633.3333333333334, "grad_norm": 0.09172369539737701, "learning_rate": 9.718299957214982e-05, "loss": 0.0034, "step": 15200 }, { "epoch": 633.75, "grad_norm": 0.08082755655050278, "learning_rate": 9.717752538560646e-05, "loss": 0.0034, "step": 15210 }, { "epoch": 634.1666666666666, "grad_norm": 0.09895394742488861, "learning_rate": 9.717204603979986e-05, "loss": 0.0032, "step": 15220 }, { "epoch": 634.5833333333334, "grad_norm": 0.0936681255698204, "learning_rate": 9.716656153532922e-05, "loss": 0.0032, "step": 15230 }, { "epoch": 635.0, "grad_norm": 0.09274612367153168, "learning_rate": 9.716107187279434e-05, "loss": 0.0033, "step": 15240 }, { "epoch": 635.4166666666666, "grad_norm": 0.08264271169900894, "learning_rate": 9.715557705279555e-05, "loss": 0.0029, "step": 15250 }, { "epoch": 635.8333333333334, "grad_norm": 0.06508126854896545, "learning_rate": 9.715007707593372e-05, "loss": 0.0038, "step": 15260 }, { "epoch": 636.25, "grad_norm": 0.07675651460886002, "learning_rate": 9.714457194281036e-05, "loss": 0.0032, "step": 15270 }, { "epoch": 636.6666666666666, "grad_norm": 0.08780171722173691, "learning_rate": 9.713906165402751e-05, "loss": 0.003, "step": 15280 }, { "epoch": 637.0833333333334, "grad_norm": 0.10320553928613663, "learning_rate": 9.713354621018774e-05, "loss": 0.0031, "step": 15290 }, { "epoch": 637.5, "grad_norm": 0.09346998482942581, "learning_rate": 9.712802561189422e-05, "loss": 0.0035, "step": 15300 }, { "epoch": 637.9166666666666, "grad_norm": 0.09176155924797058, "learning_rate": 9.712249985975069e-05, "loss": 0.0037, "step": 15310 }, { "epoch": 638.3333333333334, "grad_norm": 0.0731407105922699, "learning_rate": 9.71169689543614e-05, "loss": 0.0037, "step": 15320 }, { "epoch": 638.75, "grad_norm": 0.0797211229801178, "learning_rate": 9.711143289633123e-05, "loss": 0.0031, "step": 15330 }, { "epoch": 639.1666666666666, "grad_norm": 0.07579249888658524, "learning_rate": 9.710589168626561e-05, "loss": 0.0032, "step": 15340 }, { "epoch": 639.5833333333334, "grad_norm": 0.07927394658327103, "learning_rate": 9.710034532477048e-05, "loss": 0.003, "step": 15350 }, { "epoch": 640.0, "grad_norm": 0.09646417945623398, "learning_rate": 9.709479381245239e-05, "loss": 0.0029, "step": 15360 }, { "epoch": 640.4166666666666, "grad_norm": 0.08366216719150543, "learning_rate": 9.708923714991847e-05, "loss": 0.0039, "step": 15370 }, { "epoch": 640.8333333333334, "grad_norm": 0.10922325402498245, "learning_rate": 9.708367533777638e-05, "loss": 0.0032, "step": 15380 }, { "epoch": 641.25, "grad_norm": 0.09114480018615723, "learning_rate": 9.707810837663431e-05, "loss": 0.0032, "step": 15390 }, { "epoch": 641.6666666666666, "grad_norm": 0.10552262514829636, "learning_rate": 9.707253626710113e-05, "loss": 0.0031, "step": 15400 }, { "epoch": 642.0833333333334, "grad_norm": 0.10962757468223572, "learning_rate": 9.706695900978613e-05, "loss": 0.0026, "step": 15410 }, { "epoch": 642.5, "grad_norm": 0.08795110881328583, "learning_rate": 9.706137660529926e-05, "loss": 0.0035, "step": 15420 }, { "epoch": 642.9166666666666, "grad_norm": 0.08555720746517181, "learning_rate": 9.705578905425101e-05, "loss": 0.0027, "step": 15430 }, { "epoch": 643.3333333333334, "grad_norm": 0.08525555580854416, "learning_rate": 9.705019635725241e-05, "loss": 0.0038, "step": 15440 }, { "epoch": 643.75, "grad_norm": 0.06512036919593811, "learning_rate": 9.704459851491508e-05, "loss": 0.0031, "step": 15450 }, { "epoch": 644.1666666666666, "grad_norm": 0.07163000851869583, "learning_rate": 9.703899552785118e-05, "loss": 0.0041, "step": 15460 }, { "epoch": 644.5833333333334, "grad_norm": 0.05202169343829155, "learning_rate": 9.703338739667346e-05, "loss": 0.0031, "step": 15470 }, { "epoch": 645.0, "grad_norm": 0.08329688757658005, "learning_rate": 9.70277741219952e-05, "loss": 0.0026, "step": 15480 }, { "epoch": 645.4166666666666, "grad_norm": 0.11151991784572601, "learning_rate": 9.702215570443027e-05, "loss": 0.0033, "step": 15490 }, { "epoch": 645.8333333333334, "grad_norm": 0.08487767726182938, "learning_rate": 9.701653214459309e-05, "loss": 0.0025, "step": 15500 }, { "epoch": 646.25, "grad_norm": 0.06653828918933868, "learning_rate": 9.701090344309865e-05, "loss": 0.0027, "step": 15510 }, { "epoch": 646.6666666666666, "grad_norm": 0.09188444167375565, "learning_rate": 9.700526960056247e-05, "loss": 0.0036, "step": 15520 }, { "epoch": 647.0833333333334, "grad_norm": 0.10065748542547226, "learning_rate": 9.699963061760068e-05, "loss": 0.0027, "step": 15530 }, { "epoch": 647.5, "grad_norm": 0.0889597088098526, "learning_rate": 9.699398649482997e-05, "loss": 0.0028, "step": 15540 }, { "epoch": 647.9166666666666, "grad_norm": 0.0776548758149147, "learning_rate": 9.698833723286753e-05, "loss": 0.003, "step": 15550 }, { "epoch": 648.3333333333334, "grad_norm": 0.0861792042851448, "learning_rate": 9.698268283233118e-05, "loss": 0.003, "step": 15560 }, { "epoch": 648.75, "grad_norm": 0.0904870480298996, "learning_rate": 9.697702329383929e-05, "loss": 0.0028, "step": 15570 }, { "epoch": 649.1666666666666, "grad_norm": 0.093021921813488, "learning_rate": 9.697135861801074e-05, "loss": 0.0027, "step": 15580 }, { "epoch": 649.5833333333334, "grad_norm": 0.0673886090517044, "learning_rate": 9.696568880546505e-05, "loss": 0.0036, "step": 15590 }, { "epoch": 650.0, "grad_norm": 0.07514305412769318, "learning_rate": 9.696001385682223e-05, "loss": 0.0032, "step": 15600 }, { "epoch": 650.4166666666666, "grad_norm": 0.05006054416298866, "learning_rate": 9.695433377270291e-05, "loss": 0.0033, "step": 15610 }, { "epoch": 650.8333333333334, "grad_norm": 0.061057448387145996, "learning_rate": 9.694864855372824e-05, "loss": 0.0033, "step": 15620 }, { "epoch": 651.25, "grad_norm": 0.0758795291185379, "learning_rate": 9.694295820051995e-05, "loss": 0.0035, "step": 15630 }, { "epoch": 651.6666666666666, "grad_norm": 0.08507879078388214, "learning_rate": 9.693726271370032e-05, "loss": 0.0031, "step": 15640 }, { "epoch": 652.0833333333334, "grad_norm": 0.04835161194205284, "learning_rate": 9.693156209389221e-05, "loss": 0.0027, "step": 15650 }, { "epoch": 652.5, "grad_norm": 0.07899481803178787, "learning_rate": 9.692585634171905e-05, "loss": 0.0035, "step": 15660 }, { "epoch": 652.9166666666666, "grad_norm": 0.060576409101486206, "learning_rate": 9.692014545780476e-05, "loss": 0.0033, "step": 15670 }, { "epoch": 653.3333333333334, "grad_norm": 0.07947315275669098, "learning_rate": 9.691442944277393e-05, "loss": 0.0037, "step": 15680 }, { "epoch": 653.75, "grad_norm": 0.0737825408577919, "learning_rate": 9.690870829725162e-05, "loss": 0.0038, "step": 15690 }, { "epoch": 654.1666666666666, "grad_norm": 0.09697400778532028, "learning_rate": 9.69029820218635e-05, "loss": 0.0035, "step": 15700 }, { "epoch": 654.5833333333334, "grad_norm": 0.08401329815387726, "learning_rate": 9.689725061723579e-05, "loss": 0.0029, "step": 15710 }, { "epoch": 655.0, "grad_norm": 0.10027020424604416, "learning_rate": 9.689151408399527e-05, "loss": 0.0032, "step": 15720 }, { "epoch": 655.4166666666666, "grad_norm": 0.09574775397777557, "learning_rate": 9.688577242276924e-05, "loss": 0.0031, "step": 15730 }, { "epoch": 655.8333333333334, "grad_norm": 0.08704625815153122, "learning_rate": 9.688002563418566e-05, "loss": 0.0031, "step": 15740 }, { "epoch": 656.25, "grad_norm": 0.0765111967921257, "learning_rate": 9.687427371887293e-05, "loss": 0.004, "step": 15750 }, { "epoch": 656.6666666666666, "grad_norm": 0.08425882458686829, "learning_rate": 9.686851667746012e-05, "loss": 0.0041, "step": 15760 }, { "epoch": 657.0833333333334, "grad_norm": 0.07232940196990967, "learning_rate": 9.686275451057677e-05, "loss": 0.0028, "step": 15770 }, { "epoch": 657.5, "grad_norm": 0.08067445456981659, "learning_rate": 9.685698721885308e-05, "loss": 0.003, "step": 15780 }, { "epoch": 657.9166666666666, "grad_norm": 0.0929918885231018, "learning_rate": 9.68512148029197e-05, "loss": 0.0037, "step": 15790 }, { "epoch": 658.3333333333334, "grad_norm": 0.07973778992891312, "learning_rate": 9.684543726340791e-05, "loss": 0.0032, "step": 15800 }, { "epoch": 658.75, "grad_norm": 0.0884493961930275, "learning_rate": 9.683965460094952e-05, "loss": 0.0032, "step": 15810 }, { "epoch": 659.1666666666666, "grad_norm": 0.07961001992225647, "learning_rate": 9.683386681617694e-05, "loss": 0.0032, "step": 15820 }, { "epoch": 659.5833333333334, "grad_norm": 0.10077604651451111, "learning_rate": 9.68280739097231e-05, "loss": 0.0029, "step": 15830 }, { "epoch": 660.0, "grad_norm": 0.08849470317363739, "learning_rate": 9.682227588222148e-05, "loss": 0.0031, "step": 15840 }, { "epoch": 660.4166666666666, "grad_norm": 0.07294313609600067, "learning_rate": 9.681647273430618e-05, "loss": 0.0037, "step": 15850 }, { "epoch": 660.8333333333334, "grad_norm": 0.07981598377227783, "learning_rate": 9.681066446661182e-05, "loss": 0.0031, "step": 15860 }, { "epoch": 661.25, "grad_norm": 0.08093445748090744, "learning_rate": 9.680485107977357e-05, "loss": 0.003, "step": 15870 }, { "epoch": 661.6666666666666, "grad_norm": 0.12098377197980881, "learning_rate": 9.679903257442716e-05, "loss": 0.0029, "step": 15880 }, { "epoch": 662.0833333333334, "grad_norm": 0.08414821326732635, "learning_rate": 9.679320895120891e-05, "loss": 0.0031, "step": 15890 }, { "epoch": 662.5, "grad_norm": 0.11851318180561066, "learning_rate": 9.67873802107557e-05, "loss": 0.0033, "step": 15900 }, { "epoch": 662.9166666666666, "grad_norm": 0.071849524974823, "learning_rate": 9.67815463537049e-05, "loss": 0.003, "step": 15910 }, { "epoch": 663.3333333333334, "grad_norm": 0.0877162516117096, "learning_rate": 9.677570738069457e-05, "loss": 0.0036, "step": 15920 }, { "epoch": 663.75, "grad_norm": 0.07886992394924164, "learning_rate": 9.676986329236318e-05, "loss": 0.0034, "step": 15930 }, { "epoch": 664.1666666666666, "grad_norm": 0.1086643636226654, "learning_rate": 9.676401408934987e-05, "loss": 0.0035, "step": 15940 }, { "epoch": 664.5833333333334, "grad_norm": 0.0885758101940155, "learning_rate": 9.675815977229428e-05, "loss": 0.0032, "step": 15950 }, { "epoch": 665.0, "grad_norm": 0.09418806433677673, "learning_rate": 9.675230034183664e-05, "loss": 0.0035, "step": 15960 }, { "epoch": 665.4166666666666, "grad_norm": 0.09688268601894379, "learning_rate": 9.674643579861773e-05, "loss": 0.0033, "step": 15970 }, { "epoch": 665.8333333333334, "grad_norm": 0.1384502351284027, "learning_rate": 9.674056614327886e-05, "loss": 0.0036, "step": 15980 }, { "epoch": 666.25, "grad_norm": 0.09203749895095825, "learning_rate": 9.673469137646198e-05, "loss": 0.0025, "step": 15990 }, { "epoch": 666.6666666666666, "grad_norm": 0.07416774332523346, "learning_rate": 9.67288114988095e-05, "loss": 0.0035, "step": 16000 }, { "epoch": 667.0833333333334, "grad_norm": 0.1174667626619339, "learning_rate": 9.672292651096447e-05, "loss": 0.0033, "step": 16010 }, { "epoch": 667.5, "grad_norm": 0.08604446798563004, "learning_rate": 9.671703641357042e-05, "loss": 0.0036, "step": 16020 }, { "epoch": 667.9166666666666, "grad_norm": 0.09262347221374512, "learning_rate": 9.67111412072715e-05, "loss": 0.0033, "step": 16030 }, { "epoch": 668.3333333333334, "grad_norm": 0.09437780827283859, "learning_rate": 9.670524089271242e-05, "loss": 0.0038, "step": 16040 }, { "epoch": 668.75, "grad_norm": 0.05522720143198967, "learning_rate": 9.669933547053842e-05, "loss": 0.0033, "step": 16050 }, { "epoch": 669.1666666666666, "grad_norm": 0.10057646781206131, "learning_rate": 9.669342494139531e-05, "loss": 0.0029, "step": 16060 }, { "epoch": 669.5833333333334, "grad_norm": 0.08481904119253159, "learning_rate": 9.668750930592943e-05, "loss": 0.0029, "step": 16070 }, { "epoch": 670.0, "grad_norm": 0.08276204019784927, "learning_rate": 9.668158856478775e-05, "loss": 0.003, "step": 16080 }, { "epoch": 670.4166666666666, "grad_norm": 0.08664814382791519, "learning_rate": 9.66756627186177e-05, "loss": 0.0033, "step": 16090 }, { "epoch": 670.8333333333334, "grad_norm": 0.11180872470140457, "learning_rate": 9.666973176806737e-05, "loss": 0.0037, "step": 16100 }, { "epoch": 671.25, "grad_norm": 0.13483011722564697, "learning_rate": 9.666379571378534e-05, "loss": 0.0034, "step": 16110 }, { "epoch": 671.6666666666666, "grad_norm": 0.09120634198188782, "learning_rate": 9.665785455642076e-05, "loss": 0.0035, "step": 16120 }, { "epoch": 672.0833333333334, "grad_norm": 0.10254298895597458, "learning_rate": 9.665190829662337e-05, "loss": 0.0031, "step": 16130 }, { "epoch": 672.5, "grad_norm": 0.13627077639102936, "learning_rate": 9.664595693504342e-05, "loss": 0.0034, "step": 16140 }, { "epoch": 672.9166666666666, "grad_norm": 0.14242883026599884, "learning_rate": 9.664000047233175e-05, "loss": 0.0034, "step": 16150 }, { "epoch": 673.3333333333334, "grad_norm": 0.10820965468883514, "learning_rate": 9.663403890913976e-05, "loss": 0.0029, "step": 16160 }, { "epoch": 673.75, "grad_norm": 0.09472331404685974, "learning_rate": 9.662807224611938e-05, "loss": 0.0035, "step": 16170 }, { "epoch": 674.1666666666666, "grad_norm": 0.12660133838653564, "learning_rate": 9.662210048392311e-05, "loss": 0.0033, "step": 16180 }, { "epoch": 674.5833333333334, "grad_norm": 0.10642673820257187, "learning_rate": 9.661612362320405e-05, "loss": 0.0029, "step": 16190 }, { "epoch": 675.0, "grad_norm": 0.10451720654964447, "learning_rate": 9.661014166461579e-05, "loss": 0.0033, "step": 16200 }, { "epoch": 675.4166666666666, "grad_norm": 0.07494650781154633, "learning_rate": 9.66041546088125e-05, "loss": 0.0037, "step": 16210 }, { "epoch": 675.8333333333334, "grad_norm": 0.12258266657590866, "learning_rate": 9.659816245644895e-05, "loss": 0.0037, "step": 16220 }, { "epoch": 676.25, "grad_norm": 0.12796235084533691, "learning_rate": 9.65921652081804e-05, "loss": 0.0028, "step": 16230 }, { "epoch": 676.6666666666666, "grad_norm": 0.10313338786363602, "learning_rate": 9.658616286466271e-05, "loss": 0.0028, "step": 16240 }, { "epoch": 677.0833333333334, "grad_norm": 0.09922854602336884, "learning_rate": 9.65801554265523e-05, "loss": 0.0042, "step": 16250 }, { "epoch": 677.5, "grad_norm": 0.09737393260002136, "learning_rate": 9.657414289450612e-05, "loss": 0.0035, "step": 16260 }, { "epoch": 677.9166666666666, "grad_norm": 0.06725313514471054, "learning_rate": 9.656812526918171e-05, "loss": 0.003, "step": 16270 }, { "epoch": 678.3333333333334, "grad_norm": 0.07097359001636505, "learning_rate": 9.656210255123712e-05, "loss": 0.0027, "step": 16280 }, { "epoch": 678.75, "grad_norm": 0.05410543829202652, "learning_rate": 9.6556074741331e-05, "loss": 0.0032, "step": 16290 }, { "epoch": 679.1666666666666, "grad_norm": 0.0721396654844284, "learning_rate": 9.655004184012256e-05, "loss": 0.0032, "step": 16300 }, { "epoch": 679.5833333333334, "grad_norm": 0.09093260020017624, "learning_rate": 9.654400384827152e-05, "loss": 0.0033, "step": 16310 }, { "epoch": 680.0, "grad_norm": 0.10697104781866074, "learning_rate": 9.653796076643818e-05, "loss": 0.0034, "step": 16320 }, { "epoch": 680.4166666666666, "grad_norm": 0.08881347626447678, "learning_rate": 9.653191259528344e-05, "loss": 0.0043, "step": 16330 }, { "epoch": 680.8333333333334, "grad_norm": 0.060752104967832565, "learning_rate": 9.65258593354687e-05, "loss": 0.0034, "step": 16340 }, { "epoch": 681.25, "grad_norm": 0.09634877741336823, "learning_rate": 9.651980098765591e-05, "loss": 0.0031, "step": 16350 }, { "epoch": 681.6666666666666, "grad_norm": 0.12620232999324799, "learning_rate": 9.651373755250765e-05, "loss": 0.0036, "step": 16360 }, { "epoch": 682.0833333333334, "grad_norm": 0.1292250007390976, "learning_rate": 9.650766903068697e-05, "loss": 0.004, "step": 16370 }, { "epoch": 682.5, "grad_norm": 0.08464228361845016, "learning_rate": 9.650159542285753e-05, "loss": 0.003, "step": 16380 }, { "epoch": 682.9166666666666, "grad_norm": 0.11513295024633408, "learning_rate": 9.649551672968353e-05, "loss": 0.003, "step": 16390 }, { "epoch": 683.3333333333334, "grad_norm": 0.10530437529087067, "learning_rate": 9.648943295182973e-05, "loss": 0.003, "step": 16400 }, { "epoch": 683.75, "grad_norm": 0.0868057832121849, "learning_rate": 9.648334408996144e-05, "loss": 0.0038, "step": 16410 }, { "epoch": 684.1666666666666, "grad_norm": 0.1209016740322113, "learning_rate": 9.647725014474452e-05, "loss": 0.0033, "step": 16420 }, { "epoch": 684.5833333333334, "grad_norm": 0.07839465141296387, "learning_rate": 9.64711511168454e-05, "loss": 0.0038, "step": 16430 }, { "epoch": 685.0, "grad_norm": 0.11739043146371841, "learning_rate": 9.646504700693108e-05, "loss": 0.0032, "step": 16440 }, { "epoch": 685.4166666666666, "grad_norm": 0.09170767664909363, "learning_rate": 9.645893781566907e-05, "loss": 0.0038, "step": 16450 }, { "epoch": 685.8333333333334, "grad_norm": 0.09425445646047592, "learning_rate": 9.645282354372744e-05, "loss": 0.003, "step": 16460 }, { "epoch": 686.25, "grad_norm": 0.0843636617064476, "learning_rate": 9.644670419177491e-05, "loss": 0.003, "step": 16470 }, { "epoch": 686.6666666666666, "grad_norm": 0.11465969681739807, "learning_rate": 9.644057976048062e-05, "loss": 0.0036, "step": 16480 }, { "epoch": 687.0833333333334, "grad_norm": 0.11683209240436554, "learning_rate": 9.643445025051435e-05, "loss": 0.0031, "step": 16490 }, { "epoch": 687.5, "grad_norm": 0.10684233158826828, "learning_rate": 9.642831566254641e-05, "loss": 0.004, "step": 16500 }, { "epoch": 687.9166666666666, "grad_norm": 0.12208922952413559, "learning_rate": 9.642217599724769e-05, "loss": 0.0035, "step": 16510 }, { "epoch": 688.3333333333334, "grad_norm": 0.10738242417573929, "learning_rate": 9.64160312552896e-05, "loss": 0.0034, "step": 16520 }, { "epoch": 688.75, "grad_norm": 0.09845627099275589, "learning_rate": 9.64098814373441e-05, "loss": 0.0038, "step": 16530 }, { "epoch": 689.1666666666666, "grad_norm": 0.10786494612693787, "learning_rate": 9.640372654408374e-05, "loss": 0.0034, "step": 16540 }, { "epoch": 689.5833333333334, "grad_norm": 0.1294810026884079, "learning_rate": 9.639756657618162e-05, "loss": 0.0035, "step": 16550 }, { "epoch": 690.0, "grad_norm": 0.0784546360373497, "learning_rate": 9.639140153431138e-05, "loss": 0.0031, "step": 16560 }, { "epoch": 690.4166666666666, "grad_norm": 0.1394686996936798, "learning_rate": 9.638523141914721e-05, "loss": 0.0037, "step": 16570 }, { "epoch": 690.8333333333334, "grad_norm": 0.0771268904209137, "learning_rate": 9.637905623136388e-05, "loss": 0.0038, "step": 16580 }, { "epoch": 691.25, "grad_norm": 0.1469067484140396, "learning_rate": 9.637287597163669e-05, "loss": 0.0035, "step": 16590 }, { "epoch": 691.6666666666666, "grad_norm": 0.11278283596038818, "learning_rate": 9.63666906406415e-05, "loss": 0.0038, "step": 16600 }, { "epoch": 692.0833333333334, "grad_norm": 0.10005228966474533, "learning_rate": 9.636050023905473e-05, "loss": 0.0032, "step": 16610 }, { "epoch": 692.5, "grad_norm": 0.15714098513126373, "learning_rate": 9.635430476755336e-05, "loss": 0.0038, "step": 16620 }, { "epoch": 692.9166666666666, "grad_norm": 0.10788414627313614, "learning_rate": 9.63481042268149e-05, "loss": 0.0034, "step": 16630 }, { "epoch": 693.3333333333334, "grad_norm": 0.10545970499515533, "learning_rate": 9.634189861751745e-05, "loss": 0.0037, "step": 16640 }, { "epoch": 693.75, "grad_norm": 0.1353737711906433, "learning_rate": 9.633568794033967e-05, "loss": 0.0037, "step": 16650 }, { "epoch": 694.1666666666666, "grad_norm": 0.09969375282526016, "learning_rate": 9.63294721959607e-05, "loss": 0.0037, "step": 16660 }, { "epoch": 694.5833333333334, "grad_norm": 0.08326814323663712, "learning_rate": 9.63232513850603e-05, "loss": 0.0033, "step": 16670 }, { "epoch": 695.0, "grad_norm": 0.09560412913560867, "learning_rate": 9.631702550831878e-05, "loss": 0.0033, "step": 16680 }, { "epoch": 695.4166666666666, "grad_norm": 0.1114792600274086, "learning_rate": 9.631079456641698e-05, "loss": 0.003, "step": 16690 }, { "epoch": 695.8333333333334, "grad_norm": 0.1163698136806488, "learning_rate": 9.630455856003632e-05, "loss": 0.0031, "step": 16700 }, { "epoch": 696.25, "grad_norm": 0.06684200465679169, "learning_rate": 9.629831748985876e-05, "loss": 0.0034, "step": 16710 }, { "epoch": 696.6666666666666, "grad_norm": 0.09948191046714783, "learning_rate": 9.629207135656679e-05, "loss": 0.0028, "step": 16720 }, { "epoch": 697.0833333333334, "grad_norm": 0.07426398992538452, "learning_rate": 9.628582016084353e-05, "loss": 0.0034, "step": 16730 }, { "epoch": 697.5, "grad_norm": 0.08184921741485596, "learning_rate": 9.627956390337254e-05, "loss": 0.0032, "step": 16740 }, { "epoch": 697.9166666666666, "grad_norm": 0.11042111366987228, "learning_rate": 9.627330258483802e-05, "loss": 0.0036, "step": 16750 }, { "epoch": 698.3333333333334, "grad_norm": 0.07747772336006165, "learning_rate": 9.62670362059247e-05, "loss": 0.0026, "step": 16760 }, { "epoch": 698.75, "grad_norm": 0.12445525079965591, "learning_rate": 9.626076476731786e-05, "loss": 0.0033, "step": 16770 }, { "epoch": 699.1666666666666, "grad_norm": 0.1288389265537262, "learning_rate": 9.625448826970336e-05, "loss": 0.0034, "step": 16780 }, { "epoch": 699.5833333333334, "grad_norm": 0.13436941802501678, "learning_rate": 9.624820671376755e-05, "loss": 0.0038, "step": 16790 }, { "epoch": 700.0, "grad_norm": 0.14052195847034454, "learning_rate": 9.62419201001974e-05, "loss": 0.004, "step": 16800 }, { "epoch": 700.4166666666666, "grad_norm": 0.13522760570049286, "learning_rate": 9.623562842968037e-05, "loss": 0.0035, "step": 16810 }, { "epoch": 700.8333333333334, "grad_norm": 0.12253161519765854, "learning_rate": 9.622933170290454e-05, "loss": 0.0035, "step": 16820 }, { "epoch": 701.25, "grad_norm": 0.10402391850948334, "learning_rate": 9.622302992055849e-05, "loss": 0.0038, "step": 16830 }, { "epoch": 701.6666666666666, "grad_norm": 0.1362346112728119, "learning_rate": 9.62167230833314e-05, "loss": 0.0034, "step": 16840 }, { "epoch": 702.0833333333334, "grad_norm": 0.09682445973157883, "learning_rate": 9.621041119191295e-05, "loss": 0.0032, "step": 16850 }, { "epoch": 702.5, "grad_norm": 0.0998835563659668, "learning_rate": 9.620409424699342e-05, "loss": 0.0036, "step": 16860 }, { "epoch": 702.9166666666666, "grad_norm": 0.09162459522485733, "learning_rate": 9.619777224926359e-05, "loss": 0.0032, "step": 16870 }, { "epoch": 703.3333333333334, "grad_norm": 0.10569210350513458, "learning_rate": 9.619144519941485e-05, "loss": 0.0033, "step": 16880 }, { "epoch": 703.75, "grad_norm": 0.07809146493673325, "learning_rate": 9.618511309813912e-05, "loss": 0.0031, "step": 16890 }, { "epoch": 704.1666666666666, "grad_norm": 0.1031307503581047, "learning_rate": 9.617877594612886e-05, "loss": 0.0029, "step": 16900 }, { "epoch": 704.5833333333334, "grad_norm": 0.09671484678983688, "learning_rate": 9.617243374407707e-05, "loss": 0.0033, "step": 16910 }, { "epoch": 705.0, "grad_norm": 0.11227648705244064, "learning_rate": 9.616608649267736e-05, "loss": 0.0032, "step": 16920 }, { "epoch": 705.4166666666666, "grad_norm": 0.07963413000106812, "learning_rate": 9.615973419262385e-05, "loss": 0.003, "step": 16930 }, { "epoch": 705.8333333333334, "grad_norm": 0.09282640367746353, "learning_rate": 9.615337684461119e-05, "loss": 0.0038, "step": 16940 }, { "epoch": 706.25, "grad_norm": 0.11685097217559814, "learning_rate": 9.614701444933465e-05, "loss": 0.0033, "step": 16950 }, { "epoch": 706.6666666666666, "grad_norm": 0.07778386771678925, "learning_rate": 9.614064700748997e-05, "loss": 0.0033, "step": 16960 }, { "epoch": 707.0833333333334, "grad_norm": 0.0949123203754425, "learning_rate": 9.613427451977352e-05, "loss": 0.0029, "step": 16970 }, { "epoch": 707.5, "grad_norm": 0.10840624570846558, "learning_rate": 9.612789698688216e-05, "loss": 0.004, "step": 16980 }, { "epoch": 707.9166666666666, "grad_norm": 0.09471742808818817, "learning_rate": 9.612151440951334e-05, "loss": 0.0046, "step": 16990 }, { "epoch": 708.3333333333334, "grad_norm": 0.08179372549057007, "learning_rate": 9.611512678836506e-05, "loss": 0.0033, "step": 17000 }, { "epoch": 708.75, "grad_norm": 0.0782838985323906, "learning_rate": 9.610873412413584e-05, "loss": 0.003, "step": 17010 }, { "epoch": 709.1666666666666, "grad_norm": 0.06696861982345581, "learning_rate": 9.610233641752476e-05, "loss": 0.0036, "step": 17020 }, { "epoch": 709.5833333333334, "grad_norm": 0.09486138820648193, "learning_rate": 9.609593366923151e-05, "loss": 0.0038, "step": 17030 }, { "epoch": 710.0, "grad_norm": 0.09197476506233215, "learning_rate": 9.608952587995625e-05, "loss": 0.0032, "step": 17040 }, { "epoch": 710.4166666666666, "grad_norm": 0.08191271871328354, "learning_rate": 9.608311305039972e-05, "loss": 0.0043, "step": 17050 }, { "epoch": 710.8333333333334, "grad_norm": 0.07378228008747101, "learning_rate": 9.607669518126326e-05, "loss": 0.003, "step": 17060 }, { "epoch": 711.25, "grad_norm": 0.08776026964187622, "learning_rate": 9.607027227324866e-05, "loss": 0.0028, "step": 17070 }, { "epoch": 711.6666666666666, "grad_norm": 0.06536649912595749, "learning_rate": 9.606384432705837e-05, "loss": 0.0036, "step": 17080 }, { "epoch": 712.0833333333334, "grad_norm": 0.08673073351383209, "learning_rate": 9.60574113433953e-05, "loss": 0.0034, "step": 17090 }, { "epoch": 712.5, "grad_norm": 0.07196027040481567, "learning_rate": 9.6050973322963e-05, "loss": 0.003, "step": 17100 }, { "epoch": 712.9166666666666, "grad_norm": 0.07923877239227295, "learning_rate": 9.604453026646547e-05, "loss": 0.0038, "step": 17110 }, { "epoch": 713.3333333333334, "grad_norm": 0.0965055301785469, "learning_rate": 9.603808217460735e-05, "loss": 0.0031, "step": 17120 }, { "epoch": 713.75, "grad_norm": 0.07917220890522003, "learning_rate": 9.603162904809377e-05, "loss": 0.003, "step": 17130 }, { "epoch": 714.1666666666666, "grad_norm": 0.09688975661993027, "learning_rate": 9.602517088763045e-05, "loss": 0.0032, "step": 17140 }, { "epoch": 714.5833333333334, "grad_norm": 0.07804655283689499, "learning_rate": 9.601870769392365e-05, "loss": 0.0032, "step": 17150 }, { "epoch": 715.0, "grad_norm": 0.0682017132639885, "learning_rate": 9.601223946768017e-05, "loss": 0.0033, "step": 17160 }, { "epoch": 715.4166666666666, "grad_norm": 0.07894669473171234, "learning_rate": 9.600576620960734e-05, "loss": 0.0031, "step": 17170 }, { "epoch": 715.8333333333334, "grad_norm": 0.04873610660433769, "learning_rate": 9.599928792041308e-05, "loss": 0.003, "step": 17180 }, { "epoch": 716.25, "grad_norm": 0.06638883799314499, "learning_rate": 9.599280460080587e-05, "loss": 0.0032, "step": 17190 }, { "epoch": 716.6666666666666, "grad_norm": 0.07242541760206223, "learning_rate": 9.59863162514947e-05, "loss": 0.0033, "step": 17200 }, { "epoch": 717.0833333333334, "grad_norm": 0.08390897512435913, "learning_rate": 9.597982287318911e-05, "loss": 0.0032, "step": 17210 }, { "epoch": 717.5, "grad_norm": 0.06541205942630768, "learning_rate": 9.597332446659923e-05, "loss": 0.0038, "step": 17220 }, { "epoch": 717.9166666666666, "grad_norm": 0.08185101300477982, "learning_rate": 9.59668210324357e-05, "loss": 0.0026, "step": 17230 }, { "epoch": 718.3333333333334, "grad_norm": 0.0771719291806221, "learning_rate": 9.596031257140974e-05, "loss": 0.0032, "step": 17240 }, { "epoch": 718.75, "grad_norm": 0.0780119076371193, "learning_rate": 9.59537990842331e-05, "loss": 0.0033, "step": 17250 }, { "epoch": 719.1666666666666, "grad_norm": 0.09946005791425705, "learning_rate": 9.594728057161806e-05, "loss": 0.0035, "step": 17260 }, { "epoch": 719.5833333333334, "grad_norm": 0.0932660698890686, "learning_rate": 9.594075703427752e-05, "loss": 0.0036, "step": 17270 }, { "epoch": 720.0, "grad_norm": 0.09743307530879974, "learning_rate": 9.593422847292486e-05, "loss": 0.0029, "step": 17280 }, { "epoch": 720.4166666666666, "grad_norm": 0.07270193099975586, "learning_rate": 9.592769488827402e-05, "loss": 0.0039, "step": 17290 }, { "epoch": 720.8333333333334, "grad_norm": 0.09357744455337524, "learning_rate": 9.592115628103952e-05, "loss": 0.0033, "step": 17300 }, { "epoch": 721.25, "grad_norm": 0.0911736786365509, "learning_rate": 9.591461265193643e-05, "loss": 0.0033, "step": 17310 }, { "epoch": 721.6666666666666, "grad_norm": 0.09990951418876648, "learning_rate": 9.590806400168032e-05, "loss": 0.0031, "step": 17320 }, { "epoch": 722.0833333333334, "grad_norm": 0.0973697379231453, "learning_rate": 9.590151033098735e-05, "loss": 0.0029, "step": 17330 }, { "epoch": 722.5, "grad_norm": 0.0825715884566307, "learning_rate": 9.589495164057423e-05, "loss": 0.0037, "step": 17340 }, { "epoch": 722.9166666666666, "grad_norm": 0.07641168683767319, "learning_rate": 9.58883879311582e-05, "loss": 0.0033, "step": 17350 }, { "epoch": 723.3333333333334, "grad_norm": 0.08767550438642502, "learning_rate": 9.588181920345705e-05, "loss": 0.0031, "step": 17360 }, { "epoch": 723.75, "grad_norm": 0.09387031942605972, "learning_rate": 9.587524545818913e-05, "loss": 0.0034, "step": 17370 }, { "epoch": 724.1666666666666, "grad_norm": 0.05816420167684555, "learning_rate": 9.586866669607335e-05, "loss": 0.0032, "step": 17380 }, { "epoch": 724.5833333333334, "grad_norm": 0.09342081844806671, "learning_rate": 9.586208291782915e-05, "loss": 0.0032, "step": 17390 }, { "epoch": 725.0, "grad_norm": 0.07904132455587387, "learning_rate": 9.58554941241765e-05, "loss": 0.003, "step": 17400 }, { "epoch": 725.4166666666666, "grad_norm": 0.07632914185523987, "learning_rate": 9.584890031583596e-05, "loss": 0.0034, "step": 17410 }, { "epoch": 725.8333333333334, "grad_norm": 0.10609734058380127, "learning_rate": 9.584230149352861e-05, "loss": 0.0028, "step": 17420 }, { "epoch": 726.25, "grad_norm": 0.06374137103557587, "learning_rate": 9.58356976579761e-05, "loss": 0.0034, "step": 17430 }, { "epoch": 726.6666666666666, "grad_norm": 0.10100356489419937, "learning_rate": 9.58290888099006e-05, "loss": 0.0032, "step": 17440 }, { "epoch": 727.0833333333334, "grad_norm": 0.09167978167533875, "learning_rate": 9.582247495002486e-05, "loss": 0.0026, "step": 17450 }, { "epoch": 727.5, "grad_norm": 0.10312925279140472, "learning_rate": 9.581585607907214e-05, "loss": 0.0032, "step": 17460 }, { "epoch": 727.9166666666666, "grad_norm": 0.08682186901569366, "learning_rate": 9.580923219776628e-05, "loss": 0.0037, "step": 17470 }, { "epoch": 728.3333333333334, "grad_norm": 0.06818836182355881, "learning_rate": 9.580260330683167e-05, "loss": 0.0031, "step": 17480 }, { "epoch": 728.75, "grad_norm": 0.09202707558870316, "learning_rate": 9.579596940699322e-05, "loss": 0.0032, "step": 17490 }, { "epoch": 729.1666666666666, "grad_norm": 0.09911307692527771, "learning_rate": 9.578933049897643e-05, "loss": 0.0035, "step": 17500 }, { "epoch": 729.5833333333334, "grad_norm": 0.09491667151451111, "learning_rate": 9.578268658350728e-05, "loss": 0.0031, "step": 17510 }, { "epoch": 730.0, "grad_norm": 0.11869145184755325, "learning_rate": 9.577603766131235e-05, "loss": 0.003, "step": 17520 }, { "epoch": 730.4166666666666, "grad_norm": 0.08364442735910416, "learning_rate": 9.576938373311878e-05, "loss": 0.003, "step": 17530 }, { "epoch": 730.8333333333334, "grad_norm": 0.09895143657922745, "learning_rate": 9.576272479965421e-05, "loss": 0.0036, "step": 17540 }, { "epoch": 731.25, "grad_norm": 0.09793255478143692, "learning_rate": 9.575606086164687e-05, "loss": 0.0029, "step": 17550 }, { "epoch": 731.6666666666666, "grad_norm": 0.11171405017375946, "learning_rate": 9.57493919198255e-05, "loss": 0.0043, "step": 17560 }, { "epoch": 732.0833333333334, "grad_norm": 0.12695933878421783, "learning_rate": 9.57427179749194e-05, "loss": 0.0029, "step": 17570 }, { "epoch": 732.5, "grad_norm": 0.09658152610063553, "learning_rate": 9.573603902765846e-05, "loss": 0.0032, "step": 17580 }, { "epoch": 732.9166666666666, "grad_norm": 0.10233040153980255, "learning_rate": 9.572935507877304e-05, "loss": 0.0031, "step": 17590 }, { "epoch": 733.3333333333334, "grad_norm": 0.12833991646766663, "learning_rate": 9.57226661289941e-05, "loss": 0.0034, "step": 17600 }, { "epoch": 733.75, "grad_norm": 0.12004170566797256, "learning_rate": 9.571597217905315e-05, "loss": 0.0034, "step": 17610 }, { "epoch": 734.1666666666666, "grad_norm": 0.15080298483371735, "learning_rate": 9.57092732296822e-05, "loss": 0.0038, "step": 17620 }, { "epoch": 734.5833333333334, "grad_norm": 0.11972782760858536, "learning_rate": 9.570256928161385e-05, "loss": 0.0026, "step": 17630 }, { "epoch": 735.0, "grad_norm": 0.1286916881799698, "learning_rate": 9.569586033558126e-05, "loss": 0.0037, "step": 17640 }, { "epoch": 735.4166666666666, "grad_norm": 0.13723783195018768, "learning_rate": 9.568914639231807e-05, "loss": 0.0033, "step": 17650 }, { "epoch": 735.8333333333334, "grad_norm": 0.09026776999235153, "learning_rate": 9.568242745255852e-05, "loss": 0.0033, "step": 17660 }, { "epoch": 736.25, "grad_norm": 0.17344506084918976, "learning_rate": 9.567570351703739e-05, "loss": 0.0033, "step": 17670 }, { "epoch": 736.6666666666666, "grad_norm": 0.10550004243850708, "learning_rate": 9.566897458649001e-05, "loss": 0.0035, "step": 17680 }, { "epoch": 737.0833333333334, "grad_norm": 0.14946924149990082, "learning_rate": 9.566224066165221e-05, "loss": 0.003, "step": 17690 }, { "epoch": 737.5, "grad_norm": 0.13965465128421783, "learning_rate": 9.565550174326043e-05, "loss": 0.0037, "step": 17700 }, { "epoch": 737.9166666666666, "grad_norm": 0.09806741774082184, "learning_rate": 9.564875783205162e-05, "loss": 0.0031, "step": 17710 }, { "epoch": 738.3333333333334, "grad_norm": 0.16205565631389618, "learning_rate": 9.564200892876328e-05, "loss": 0.0034, "step": 17720 }, { "epoch": 738.75, "grad_norm": 0.1028975397348404, "learning_rate": 9.563525503413348e-05, "loss": 0.0032, "step": 17730 }, { "epoch": 739.1666666666666, "grad_norm": 0.08891364187002182, "learning_rate": 9.562849614890079e-05, "loss": 0.0033, "step": 17740 }, { "epoch": 739.5833333333334, "grad_norm": 0.11807354539632797, "learning_rate": 9.562173227380436e-05, "loss": 0.0029, "step": 17750 }, { "epoch": 740.0, "grad_norm": 0.10124737024307251, "learning_rate": 9.561496340958389e-05, "loss": 0.0027, "step": 17760 }, { "epoch": 740.4166666666666, "grad_norm": 0.06486358493566513, "learning_rate": 9.560818955697959e-05, "loss": 0.0032, "step": 17770 }, { "epoch": 740.8333333333334, "grad_norm": 0.07676953077316284, "learning_rate": 9.560141071673228e-05, "loss": 0.0034, "step": 17780 }, { "epoch": 741.25, "grad_norm": 0.09079572558403015, "learning_rate": 9.559462688958323e-05, "loss": 0.0029, "step": 17790 }, { "epoch": 741.6666666666666, "grad_norm": 0.10197480022907257, "learning_rate": 9.558783807627434e-05, "loss": 0.0036, "step": 17800 }, { "epoch": 742.0833333333334, "grad_norm": 0.07422429323196411, "learning_rate": 9.558104427754801e-05, "loss": 0.0028, "step": 17810 }, { "epoch": 742.5, "grad_norm": 0.07110156118869781, "learning_rate": 9.557424549414722e-05, "loss": 0.0026, "step": 17820 }, { "epoch": 742.9166666666666, "grad_norm": 0.08556113392114639, "learning_rate": 9.556744172681546e-05, "loss": 0.0029, "step": 17830 }, { "epoch": 743.3333333333334, "grad_norm": 0.08193270117044449, "learning_rate": 9.556063297629677e-05, "loss": 0.0026, "step": 17840 }, { "epoch": 743.75, "grad_norm": 0.09566844999790192, "learning_rate": 9.555381924333578e-05, "loss": 0.0035, "step": 17850 }, { "epoch": 744.1666666666666, "grad_norm": 0.07386155426502228, "learning_rate": 9.554700052867758e-05, "loss": 0.0032, "step": 17860 }, { "epoch": 744.5833333333334, "grad_norm": 0.10876237601041794, "learning_rate": 9.554017683306789e-05, "loss": 0.0032, "step": 17870 }, { "epoch": 745.0, "grad_norm": 0.11665413528680801, "learning_rate": 9.553334815725294e-05, "loss": 0.0035, "step": 17880 }, { "epoch": 745.4166666666666, "grad_norm": 0.07919804006814957, "learning_rate": 9.552651450197949e-05, "loss": 0.0029, "step": 17890 }, { "epoch": 745.8333333333334, "grad_norm": 0.0774596706032753, "learning_rate": 9.551967586799486e-05, "loss": 0.0028, "step": 17900 }, { "epoch": 746.25, "grad_norm": 0.10892803221940994, "learning_rate": 9.551283225604692e-05, "loss": 0.0027, "step": 17910 }, { "epoch": 746.6666666666666, "grad_norm": 0.08492609858512878, "learning_rate": 9.550598366688406e-05, "loss": 0.0028, "step": 17920 }, { "epoch": 747.0833333333334, "grad_norm": 0.08603762835264206, "learning_rate": 9.549913010125526e-05, "loss": 0.0028, "step": 17930 }, { "epoch": 747.5, "grad_norm": 0.08793746680021286, "learning_rate": 9.549227155990999e-05, "loss": 0.0027, "step": 17940 }, { "epoch": 747.9166666666666, "grad_norm": 0.08320950716733932, "learning_rate": 9.548540804359828e-05, "loss": 0.0028, "step": 17950 }, { "epoch": 748.3333333333334, "grad_norm": 0.11062943935394287, "learning_rate": 9.547853955307077e-05, "loss": 0.003, "step": 17960 }, { "epoch": 748.75, "grad_norm": 0.07662644237279892, "learning_rate": 9.547166608907853e-05, "loss": 0.0026, "step": 17970 }, { "epoch": 749.1666666666666, "grad_norm": 0.0942581444978714, "learning_rate": 9.546478765237326e-05, "loss": 0.0023, "step": 17980 }, { "epoch": 749.5833333333334, "grad_norm": 0.11952280253171921, "learning_rate": 9.545790424370715e-05, "loss": 0.0028, "step": 17990 }, { "epoch": 750.0, "grad_norm": 0.10916180163621902, "learning_rate": 9.5451015863833e-05, "loss": 0.0038, "step": 18000 }, { "epoch": 750.4166666666666, "grad_norm": 0.08523746579885483, "learning_rate": 9.544412251350408e-05, "loss": 0.0029, "step": 18010 }, { "epoch": 750.8333333333334, "grad_norm": 0.09244681894779205, "learning_rate": 9.543722419347422e-05, "loss": 0.0032, "step": 18020 }, { "epoch": 751.25, "grad_norm": 0.07108194380998611, "learning_rate": 9.543032090449788e-05, "loss": 0.0031, "step": 18030 }, { "epoch": 751.6666666666666, "grad_norm": 0.09496567398309708, "learning_rate": 9.542341264732992e-05, "loss": 0.0025, "step": 18040 }, { "epoch": 752.0833333333334, "grad_norm": 0.0936327800154686, "learning_rate": 9.541649942272585e-05, "loss": 0.0025, "step": 18050 }, { "epoch": 752.5, "grad_norm": 0.0901341438293457, "learning_rate": 9.54095812314417e-05, "loss": 0.0032, "step": 18060 }, { "epoch": 752.9166666666666, "grad_norm": 0.09721234440803528, "learning_rate": 9.540265807423401e-05, "loss": 0.0033, "step": 18070 }, { "epoch": 753.3333333333334, "grad_norm": 0.1011965274810791, "learning_rate": 9.53957299518599e-05, "loss": 0.0027, "step": 18080 }, { "epoch": 753.75, "grad_norm": 0.10435429215431213, "learning_rate": 9.5388796865077e-05, "loss": 0.0028, "step": 18090 }, { "epoch": 754.1666666666666, "grad_norm": 0.09855061024427414, "learning_rate": 9.538185881464353e-05, "loss": 0.0033, "step": 18100 }, { "epoch": 754.5833333333334, "grad_norm": 0.07676734775304794, "learning_rate": 9.537491580131821e-05, "loss": 0.0032, "step": 18110 }, { "epoch": 755.0, "grad_norm": 0.08118722587823868, "learning_rate": 9.53679678258603e-05, "loss": 0.0028, "step": 18120 }, { "epoch": 755.4166666666666, "grad_norm": 0.09666236490011215, "learning_rate": 9.536101488902966e-05, "loss": 0.0028, "step": 18130 }, { "epoch": 755.8333333333334, "grad_norm": 0.08048022538423538, "learning_rate": 9.535405699158663e-05, "loss": 0.0026, "step": 18140 }, { "epoch": 756.25, "grad_norm": 0.10891443490982056, "learning_rate": 9.53470941342921e-05, "loss": 0.0031, "step": 18150 }, { "epoch": 756.6666666666666, "grad_norm": 0.12668602168560028, "learning_rate": 9.534012631790756e-05, "loss": 0.0029, "step": 18160 }, { "epoch": 757.0833333333334, "grad_norm": 0.13569623231887817, "learning_rate": 9.533315354319494e-05, "loss": 0.0032, "step": 18170 }, { "epoch": 757.5, "grad_norm": 0.10203394293785095, "learning_rate": 9.532617581091682e-05, "loss": 0.0033, "step": 18180 }, { "epoch": 757.9166666666666, "grad_norm": 0.12019942700862885, "learning_rate": 9.531919312183629e-05, "loss": 0.003, "step": 18190 }, { "epoch": 758.3333333333334, "grad_norm": 0.0818624496459961, "learning_rate": 9.531220547671688e-05, "loss": 0.0036, "step": 18200 }, { "epoch": 758.75, "grad_norm": 0.13874711096286774, "learning_rate": 9.530521287632285e-05, "loss": 0.0025, "step": 18210 }, { "epoch": 759.1666666666666, "grad_norm": 0.1015269085764885, "learning_rate": 9.529821532141884e-05, "loss": 0.0028, "step": 18220 }, { "epoch": 759.5833333333334, "grad_norm": 0.12963145971298218, "learning_rate": 9.52912128127701e-05, "loss": 0.0032, "step": 18230 }, { "epoch": 760.0, "grad_norm": 0.17784695327281952, "learning_rate": 9.528420535114244e-05, "loss": 0.0032, "step": 18240 }, { "epoch": 760.4166666666666, "grad_norm": 0.07637881487607956, "learning_rate": 9.527719293730215e-05, "loss": 0.0034, "step": 18250 }, { "epoch": 760.8333333333334, "grad_norm": 0.12479902803897858, "learning_rate": 9.527017557201611e-05, "loss": 0.0034, "step": 18260 }, { "epoch": 761.25, "grad_norm": 0.1368710845708847, "learning_rate": 9.526315325605176e-05, "loss": 0.0035, "step": 18270 }, { "epoch": 761.6666666666666, "grad_norm": 0.10124356299638748, "learning_rate": 9.525612599017699e-05, "loss": 0.0042, "step": 18280 }, { "epoch": 762.0833333333334, "grad_norm": 0.0644686371088028, "learning_rate": 9.524909377516033e-05, "loss": 0.0028, "step": 18290 }, { "epoch": 762.5, "grad_norm": 0.0719795823097229, "learning_rate": 9.524205661177081e-05, "loss": 0.0033, "step": 18300 }, { "epoch": 762.9166666666666, "grad_norm": 0.08144193142652512, "learning_rate": 9.523501450077801e-05, "loss": 0.0034, "step": 18310 }, { "epoch": 763.3333333333334, "grad_norm": 0.08237554132938385, "learning_rate": 9.522796744295202e-05, "loss": 0.0028, "step": 18320 }, { "epoch": 763.75, "grad_norm": 0.07811382412910461, "learning_rate": 9.522091543906352e-05, "loss": 0.0024, "step": 18330 }, { "epoch": 764.1666666666666, "grad_norm": 0.07298726588487625, "learning_rate": 9.521385848988369e-05, "loss": 0.0028, "step": 18340 }, { "epoch": 764.5833333333334, "grad_norm": 0.08300410956144333, "learning_rate": 9.520679659618428e-05, "loss": 0.0032, "step": 18350 }, { "epoch": 765.0, "grad_norm": 0.08228659629821777, "learning_rate": 9.519972975873754e-05, "loss": 0.0029, "step": 18360 }, { "epoch": 765.4166666666666, "grad_norm": 0.06956925243139267, "learning_rate": 9.519265797831633e-05, "loss": 0.0029, "step": 18370 }, { "epoch": 765.8333333333334, "grad_norm": 0.06723590195178986, "learning_rate": 9.518558125569399e-05, "loss": 0.0032, "step": 18380 }, { "epoch": 766.25, "grad_norm": 0.09505198895931244, "learning_rate": 9.517849959164442e-05, "loss": 0.0025, "step": 18390 }, { "epoch": 766.6666666666666, "grad_norm": 0.07419600337743759, "learning_rate": 9.517141298694205e-05, "loss": 0.0034, "step": 18400 }, { "epoch": 767.0833333333334, "grad_norm": 0.08195649087429047, "learning_rate": 9.516432144236188e-05, "loss": 0.0035, "step": 18410 }, { "epoch": 767.5, "grad_norm": 0.12040017545223236, "learning_rate": 9.515722495867941e-05, "loss": 0.0035, "step": 18420 }, { "epoch": 767.9166666666666, "grad_norm": 0.10375917702913284, "learning_rate": 9.515012353667072e-05, "loss": 0.0027, "step": 18430 }, { "epoch": 768.3333333333334, "grad_norm": 0.08999089896678925, "learning_rate": 9.51430171771124e-05, "loss": 0.0029, "step": 18440 }, { "epoch": 768.75, "grad_norm": 0.08392274379730225, "learning_rate": 9.513590588078159e-05, "loss": 0.0034, "step": 18450 }, { "epoch": 769.1666666666666, "grad_norm": 0.10687711834907532, "learning_rate": 9.512878964845597e-05, "loss": 0.0026, "step": 18460 }, { "epoch": 769.5833333333334, "grad_norm": 0.07688784599304199, "learning_rate": 9.512166848091377e-05, "loss": 0.0022, "step": 18470 }, { "epoch": 770.0, "grad_norm": 0.08953868597745895, "learning_rate": 9.511454237893376e-05, "loss": 0.0031, "step": 18480 }, { "epoch": 770.4166666666666, "grad_norm": 0.082146555185318, "learning_rate": 9.51074113432952e-05, "loss": 0.0024, "step": 18490 }, { "epoch": 770.8333333333334, "grad_norm": 0.07761836796998978, "learning_rate": 9.510027537477797e-05, "loss": 0.0032, "step": 18500 } ], "logging_steps": 10, "max_steps": 100000, "num_input_tokens_seen": 0, "num_train_epochs": 4167, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 0.0, "train_batch_size": 256, "trial_name": null, "trial_params": null }