{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 0.1, "eval_steps": 500, "global_step": 9650, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.00016666666666666666, "grad_norm": 14.297810554504395, "learning_rate": 1.3499999999999998e-06, "loss": 11.175775146484375, "step": 10 }, { "epoch": 0.0003333333333333333, "grad_norm": 8.92794418334961, "learning_rate": 2.85e-06, "loss": 10.527365112304688, "step": 20 }, { "epoch": 0.0005, "grad_norm": 3.7201273441314697, "learning_rate": 4.35e-06, "loss": 9.680557250976562, "step": 30 }, { "epoch": 0.0006666666666666666, "grad_norm": 3.4802424907684326, "learning_rate": 5.85e-06, "loss": 9.302367401123046, "step": 40 }, { "epoch": 0.0008333333333333334, "grad_norm": 3.940255880355835, "learning_rate": 7.35e-06, "loss": 8.909403991699218, "step": 50 }, { "epoch": 0.001, "grad_norm": 2.993356704711914, "learning_rate": 8.849999999999998e-06, "loss": 8.356079864501954, "step": 60 }, { "epoch": 0.0011666666666666668, "grad_norm": 2.9796433448791504, "learning_rate": 1.035e-05, "loss": 7.9435173034667965, "step": 70 }, { "epoch": 0.0013333333333333333, "grad_norm": 3.0474584102630615, "learning_rate": 1.1849999999999998e-05, "loss": 7.6440284729003904, "step": 80 }, { "epoch": 0.0015, "grad_norm": 2.147731304168701, "learning_rate": 1.3349999999999998e-05, "loss": 7.392823791503906, "step": 90 }, { "epoch": 0.0016666666666666668, "grad_norm": 2.9777767658233643, "learning_rate": 1.485e-05, "loss": 7.160243225097656, "step": 100 }, { "epoch": 0.0018333333333333333, "grad_norm": 3.442213535308838, "learning_rate": 1.6349999999999998e-05, "loss": 6.910230255126953, "step": 110 }, { "epoch": 0.002, "grad_norm": 1.9802011251449585, "learning_rate": 1.7849999999999997e-05, "loss": 6.733470916748047, "step": 120 }, { "epoch": 0.0021666666666666666, "grad_norm": 3.293522357940674, "learning_rate": 1.935e-05, "loss": 6.564137268066406, "step": 130 }, { "epoch": 0.0023333333333333335, "grad_norm": 2.318138599395752, "learning_rate": 2.085e-05, "loss": 6.410511779785156, "step": 140 }, { "epoch": 0.0025, "grad_norm": 1.8537381887435913, "learning_rate": 2.2349999999999998e-05, "loss": 6.195587539672852, "step": 150 }, { "epoch": 0.0026666666666666666, "grad_norm": 2.452784538269043, "learning_rate": 2.3849999999999997e-05, "loss": 6.022871398925782, "step": 160 }, { "epoch": 0.0028333333333333335, "grad_norm": 2.760226011276245, "learning_rate": 2.535e-05, "loss": 5.868363952636718, "step": 170 }, { "epoch": 0.003, "grad_norm": 2.2246060371398926, "learning_rate": 2.6849999999999995e-05, "loss": 5.678731918334961, "step": 180 }, { "epoch": 0.0031666666666666666, "grad_norm": 2.437960386276245, "learning_rate": 2.8349999999999998e-05, "loss": 5.5810894012451175, "step": 190 }, { "epoch": 0.0033333333333333335, "grad_norm": 2.2690577507019043, "learning_rate": 2.985e-05, "loss": 5.393305969238281, "step": 200 }, { "epoch": 0.0035, "grad_norm": 2.249206066131592, "learning_rate": 3.1349999999999996e-05, "loss": 5.256457901000976, "step": 210 }, { "epoch": 0.0036666666666666666, "grad_norm": 2.175391435623169, "learning_rate": 3.285e-05, "loss": 5.130535507202149, "step": 220 }, { "epoch": 0.003833333333333333, "grad_norm": 3.0227811336517334, "learning_rate": 3.435e-05, "loss": 5.026712036132812, "step": 230 }, { "epoch": 0.004, "grad_norm": 3.269705057144165, "learning_rate": 3.585e-05, "loss": 4.898946762084961, "step": 240 }, { "epoch": 0.004166666666666667, "grad_norm": 3.4760587215423584, "learning_rate": 3.735e-05, "loss": 4.815313720703125, "step": 250 }, { "epoch": 0.004333333333333333, "grad_norm": 3.678823471069336, "learning_rate": 3.8849999999999996e-05, "loss": 4.687419128417969, "step": 260 }, { "epoch": 0.0045, "grad_norm": 2.79219913482666, "learning_rate": 4.035e-05, "loss": 4.555228042602539, "step": 270 }, { "epoch": 0.004666666666666667, "grad_norm": 3.8011438846588135, "learning_rate": 4.185e-05, "loss": 4.465290832519531, "step": 280 }, { "epoch": 0.004833333333333334, "grad_norm": 3.286940813064575, "learning_rate": 4.334999999999999e-05, "loss": 4.359551239013672, "step": 290 }, { "epoch": 0.005, "grad_norm": 4.136998176574707, "learning_rate": 4.484999999999999e-05, "loss": 4.275360107421875, "step": 300 }, { "epoch": 0.005166666666666667, "grad_norm": 3.4878525733947754, "learning_rate": 4.6349999999999995e-05, "loss": 4.186351013183594, "step": 310 }, { "epoch": 0.005333333333333333, "grad_norm": 3.2811970710754395, "learning_rate": 4.785e-05, "loss": 4.137750625610352, "step": 320 }, { "epoch": 0.0055, "grad_norm": 3.300088882446289, "learning_rate": 4.935e-05, "loss": 4.083171463012695, "step": 330 }, { "epoch": 0.005666666666666667, "grad_norm": 2.9177348613739014, "learning_rate": 5.0849999999999996e-05, "loss": 3.978733444213867, "step": 340 }, { "epoch": 0.005833333333333334, "grad_norm": 2.957092523574829, "learning_rate": 5.234999999999999e-05, "loss": 3.9336376190185547, "step": 350 }, { "epoch": 0.006, "grad_norm": 2.75334095954895, "learning_rate": 5.3849999999999994e-05, "loss": 3.8648487091064454, "step": 360 }, { "epoch": 0.006166666666666667, "grad_norm": 3.36582612991333, "learning_rate": 5.535e-05, "loss": 3.8383750915527344, "step": 370 }, { "epoch": 0.006333333333333333, "grad_norm": 3.27022123336792, "learning_rate": 5.684999999999999e-05, "loss": 3.8231891632080077, "step": 380 }, { "epoch": 0.0065, "grad_norm": 2.8231465816497803, "learning_rate": 5.8349999999999995e-05, "loss": 3.7710498809814452, "step": 390 }, { "epoch": 0.006666666666666667, "grad_norm": 2.8562817573547363, "learning_rate": 5.985e-05, "loss": 3.703901672363281, "step": 400 }, { "epoch": 0.006833333333333334, "grad_norm": 2.708444118499756, "learning_rate": 6.134999999999999e-05, "loss": 3.690731430053711, "step": 410 }, { "epoch": 0.007, "grad_norm": 2.327440023422241, "learning_rate": 6.285e-05, "loss": 3.64001350402832, "step": 420 }, { "epoch": 0.007166666666666667, "grad_norm": 2.3135883808135986, "learning_rate": 6.434999999999999e-05, "loss": 3.63990478515625, "step": 430 }, { "epoch": 0.007333333333333333, "grad_norm": 2.6845688819885254, "learning_rate": 6.584999999999999e-05, "loss": 3.602303314208984, "step": 440 }, { "epoch": 0.0075, "grad_norm": 2.0262644290924072, "learning_rate": 6.735e-05, "loss": 3.5283145904541016, "step": 450 }, { "epoch": 0.007666666666666666, "grad_norm": 2.0807831287384033, "learning_rate": 6.884999999999999e-05, "loss": 3.5422496795654297, "step": 460 }, { "epoch": 0.007833333333333333, "grad_norm": 2.4081315994262695, "learning_rate": 7.034999999999999e-05, "loss": 3.4911945343017576, "step": 470 }, { "epoch": 0.008, "grad_norm": 1.836987853050232, "learning_rate": 7.184999999999998e-05, "loss": 3.4667892456054688, "step": 480 }, { "epoch": 0.008166666666666666, "grad_norm": 2.355318546295166, "learning_rate": 7.335e-05, "loss": 3.4672470092773438, "step": 490 }, { "epoch": 0.008333333333333333, "grad_norm": 2.058490037918091, "learning_rate": 7.484999999999999e-05, "loss": 3.393095779418945, "step": 500 }, { "epoch": 0.0085, "grad_norm": 2.053673505783081, "learning_rate": 7.635e-05, "loss": 3.391928863525391, "step": 510 }, { "epoch": 0.008666666666666666, "grad_norm": 1.780815601348877, "learning_rate": 7.785e-05, "loss": 3.407213592529297, "step": 520 }, { "epoch": 0.008833333333333334, "grad_norm": 1.8663444519042969, "learning_rate": 7.934999999999999e-05, "loss": 3.3710628509521485, "step": 530 }, { "epoch": 0.009, "grad_norm": 1.9582051038742065, "learning_rate": 8.085e-05, "loss": 3.3235591888427733, "step": 540 }, { "epoch": 0.009166666666666667, "grad_norm": 1.972941279411316, "learning_rate": 8.235e-05, "loss": 3.288467788696289, "step": 550 }, { "epoch": 0.009333333333333334, "grad_norm": 1.9734792709350586, "learning_rate": 8.385e-05, "loss": 3.278826904296875, "step": 560 }, { "epoch": 0.0095, "grad_norm": 1.7474493980407715, "learning_rate": 8.534999999999999e-05, "loss": 3.269306182861328, "step": 570 }, { "epoch": 0.009666666666666667, "grad_norm": 1.6593666076660156, "learning_rate": 8.684999999999998e-05, "loss": 3.2291339874267577, "step": 580 }, { "epoch": 0.009833333333333333, "grad_norm": 1.6678528785705566, "learning_rate": 8.834999999999999e-05, "loss": 3.19910888671875, "step": 590 }, { "epoch": 0.01, "grad_norm": 1.7990621328353882, "learning_rate": 8.984999999999999e-05, "loss": 3.2183486938476564, "step": 600 }, { "epoch": 0.010166666666666666, "grad_norm": 1.7901487350463867, "learning_rate": 9.134999999999998e-05, "loss": 3.1689579010009767, "step": 610 }, { "epoch": 0.010333333333333333, "grad_norm": 1.7504736185073853, "learning_rate": 9.285e-05, "loss": 3.166044235229492, "step": 620 }, { "epoch": 0.0105, "grad_norm": 1.5876473188400269, "learning_rate": 9.434999999999999e-05, "loss": 3.132395362854004, "step": 630 }, { "epoch": 0.010666666666666666, "grad_norm": 1.4617185592651367, "learning_rate": 9.585e-05, "loss": 3.137837791442871, "step": 640 }, { "epoch": 0.010833333333333334, "grad_norm": 1.510992407798767, "learning_rate": 9.735e-05, "loss": 3.134562110900879, "step": 650 }, { "epoch": 0.011, "grad_norm": 1.5073765516281128, "learning_rate": 9.884999999999999e-05, "loss": 3.1096372604370117, "step": 660 }, { "epoch": 0.011166666666666667, "grad_norm": 1.5816830396652222, "learning_rate": 0.00010035, "loss": 3.0559246063232424, "step": 670 }, { "epoch": 0.011333333333333334, "grad_norm": 1.6063289642333984, "learning_rate": 0.00010185, "loss": 3.0526498794555663, "step": 680 }, { "epoch": 0.0115, "grad_norm": 1.3957390785217285, "learning_rate": 0.00010334999999999998, "loss": 3.047122764587402, "step": 690 }, { "epoch": 0.011666666666666667, "grad_norm": 1.5005953311920166, "learning_rate": 0.00010484999999999999, "loss": 3.0388126373291016, "step": 700 }, { "epoch": 0.011833333333333333, "grad_norm": 1.596427083015442, "learning_rate": 0.00010634999999999998, "loss": 3.022883415222168, "step": 710 }, { "epoch": 0.012, "grad_norm": 1.3984756469726562, "learning_rate": 0.00010784999999999999, "loss": 2.978668212890625, "step": 720 }, { "epoch": 0.012166666666666666, "grad_norm": 1.2459074258804321, "learning_rate": 0.00010934999999999999, "loss": 2.9714258193969725, "step": 730 }, { "epoch": 0.012333333333333333, "grad_norm": 1.3867474794387817, "learning_rate": 0.00011084999999999998, "loss": 2.9811878204345703, "step": 740 }, { "epoch": 0.0125, "grad_norm": 1.3084795475006104, "learning_rate": 0.00011235, "loss": 2.9637191772460936, "step": 750 }, { "epoch": 0.012666666666666666, "grad_norm": 1.2939265966415405, "learning_rate": 0.00011384999999999999, "loss": 2.940631103515625, "step": 760 }, { "epoch": 0.012833333333333334, "grad_norm": 1.3884607553482056, "learning_rate": 0.00011535, "loss": 2.898904800415039, "step": 770 }, { "epoch": 0.013, "grad_norm": 1.10460364818573, "learning_rate": 0.00011685, "loss": 2.914503288269043, "step": 780 }, { "epoch": 0.013166666666666667, "grad_norm": 1.2655820846557617, "learning_rate": 0.00011834999999999999, "loss": 2.895877456665039, "step": 790 }, { "epoch": 0.013333333333333334, "grad_norm": 1.1122198104858398, "learning_rate": 0.00011985, "loss": 2.904026985168457, "step": 800 }, { "epoch": 0.0135, "grad_norm": 1.2572715282440186, "learning_rate": 0.00012135, "loss": 2.8351789474487306, "step": 810 }, { "epoch": 0.013666666666666667, "grad_norm": 1.3550209999084473, "learning_rate": 0.00012284999999999998, "loss": 2.8636459350585937, "step": 820 }, { "epoch": 0.013833333333333333, "grad_norm": 0.92742520570755, "learning_rate": 0.00012435, "loss": 2.8171138763427734, "step": 830 }, { "epoch": 0.014, "grad_norm": 1.07759428024292, "learning_rate": 0.00012585, "loss": 2.8060197830200195, "step": 840 }, { "epoch": 0.014166666666666666, "grad_norm": 1.1448051929473877, "learning_rate": 0.00012734999999999998, "loss": 2.795998382568359, "step": 850 }, { "epoch": 0.014333333333333333, "grad_norm": 0.9354196190834045, "learning_rate": 0.00012885, "loss": 2.768997001647949, "step": 860 }, { "epoch": 0.0145, "grad_norm": 1.0693879127502441, "learning_rate": 0.00013035, "loss": 2.7732864379882813, "step": 870 }, { "epoch": 0.014666666666666666, "grad_norm": 0.9721701145172119, "learning_rate": 0.00013184999999999998, "loss": 2.759377288818359, "step": 880 }, { "epoch": 0.014833333333333334, "grad_norm": 1.0717929601669312, "learning_rate": 0.00013335, "loss": 2.7331707000732424, "step": 890 }, { "epoch": 0.015, "grad_norm": 1.0174472332000732, "learning_rate": 0.00013485, "loss": 2.7001853942871095, "step": 900 }, { "epoch": 0.015166666666666667, "grad_norm": 1.0769199132919312, "learning_rate": 0.00013634999999999998, "loss": 2.7025869369506834, "step": 910 }, { "epoch": 0.015333333333333332, "grad_norm": 1.1206380128860474, "learning_rate": 0.00013785, "loss": 2.694252586364746, "step": 920 }, { "epoch": 0.0155, "grad_norm": 0.9890035390853882, "learning_rate": 0.00013935, "loss": 2.681113433837891, "step": 930 }, { "epoch": 0.015666666666666666, "grad_norm": 1.035932183265686, "learning_rate": 0.00014084999999999998, "loss": 2.682352828979492, "step": 940 }, { "epoch": 0.015833333333333335, "grad_norm": 0.9429165124893188, "learning_rate": 0.00014235, "loss": 2.6295612335205076, "step": 950 }, { "epoch": 0.016, "grad_norm": 0.8270607590675354, "learning_rate": 0.00014384999999999997, "loss": 2.6640741348266603, "step": 960 }, { "epoch": 0.016166666666666666, "grad_norm": 1.1936181783676147, "learning_rate": 0.00014534999999999998, "loss": 2.6394475936889648, "step": 970 }, { "epoch": 0.01633333333333333, "grad_norm": 1.0914827585220337, "learning_rate": 0.00014685, "loss": 2.6144994735717773, "step": 980 }, { "epoch": 0.0165, "grad_norm": 0.8323391675949097, "learning_rate": 0.00014834999999999997, "loss": 2.5976608276367186, "step": 990 }, { "epoch": 0.016666666666666666, "grad_norm": 0.817717969417572, "learning_rate": 0.00014984999999999998, "loss": 2.5982643127441407, "step": 1000 }, { "epoch": 0.016833333333333332, "grad_norm": 1.0404084920883179, "learning_rate": 0.00015134999999999997, "loss": 2.5767370223999024, "step": 1010 }, { "epoch": 0.017, "grad_norm": 0.9311416745185852, "learning_rate": 0.00015284999999999997, "loss": 2.565751838684082, "step": 1020 }, { "epoch": 0.017166666666666667, "grad_norm": 0.9678856134414673, "learning_rate": 0.00015434999999999998, "loss": 2.5317737579345705, "step": 1030 }, { "epoch": 0.017333333333333333, "grad_norm": 0.9805819392204285, "learning_rate": 0.00015584999999999997, "loss": 2.5258121490478516, "step": 1040 }, { "epoch": 0.0175, "grad_norm": 0.7922776341438293, "learning_rate": 0.00015734999999999998, "loss": 2.5400224685668946, "step": 1050 }, { "epoch": 0.017666666666666667, "grad_norm": 0.8440002202987671, "learning_rate": 0.00015884999999999999, "loss": 2.5049901962280274, "step": 1060 }, { "epoch": 0.017833333333333333, "grad_norm": 0.8814069032669067, "learning_rate": 0.00016034999999999997, "loss": 2.500185012817383, "step": 1070 }, { "epoch": 0.018, "grad_norm": 0.7535040378570557, "learning_rate": 0.00016184999999999998, "loss": 2.487553596496582, "step": 1080 }, { "epoch": 0.018166666666666668, "grad_norm": 1.007371187210083, "learning_rate": 0.00016334999999999999, "loss": 2.50408821105957, "step": 1090 }, { "epoch": 0.018333333333333333, "grad_norm": 0.7742697596549988, "learning_rate": 0.00016485, "loss": 2.5046213150024412, "step": 1100 }, { "epoch": 0.0185, "grad_norm": 0.8482025265693665, "learning_rate": 0.00016634999999999998, "loss": 2.493575096130371, "step": 1110 }, { "epoch": 1.0000666666666667, "grad_norm": 0.7820495963096619, "learning_rate": 0.00016785, "loss": 2.706912040710449, "step": 1120 }, { "epoch": 1.0002333333333333, "grad_norm": 0.7099973559379578, "learning_rate": 0.00016935, "loss": 2.4309906005859374, "step": 1130 }, { "epoch": 1.0004, "grad_norm": 0.6877136826515198, "learning_rate": 0.00017084999999999998, "loss": 2.449149322509766, "step": 1140 }, { "epoch": 1.0005666666666666, "grad_norm": 0.8360202312469482, "learning_rate": 0.00017235, "loss": 2.4464847564697267, "step": 1150 }, { "epoch": 1.0007333333333333, "grad_norm": 0.7134903073310852, "learning_rate": 0.00017385, "loss": 2.430519866943359, "step": 1160 }, { "epoch": 1.0009, "grad_norm": 0.9075033664703369, "learning_rate": 0.00017534999999999998, "loss": 2.40509033203125, "step": 1170 }, { "epoch": 1.0010666666666668, "grad_norm": 0.8332974314689636, "learning_rate": 0.00017685, "loss": 2.4284109115600585, "step": 1180 }, { "epoch": 1.0012333333333334, "grad_norm": 0.6970870494842529, "learning_rate": 0.00017835, "loss": 2.4098472595214844, "step": 1190 }, { "epoch": 1.0014, "grad_norm": 0.6665694713592529, "learning_rate": 0.00017984999999999998, "loss": 2.395026206970215, "step": 1200 }, { "epoch": 1.0015666666666667, "grad_norm": 0.6687540411949158, "learning_rate": 0.00018135, "loss": 2.3692419052124025, "step": 1210 }, { "epoch": 1.0017333333333334, "grad_norm": 0.8831247687339783, "learning_rate": 0.00018285, "loss": 2.3781986236572266, "step": 1220 }, { "epoch": 1.0019, "grad_norm": 0.6402927041053772, "learning_rate": 0.00018435, "loss": 2.361619567871094, "step": 1230 }, { "epoch": 1.0020666666666667, "grad_norm": 0.7041394710540771, "learning_rate": 0.00018585, "loss": 2.353261184692383, "step": 1240 }, { "epoch": 1.0022333333333333, "grad_norm": 0.7513797283172607, "learning_rate": 0.00018735, "loss": 2.3699949264526365, "step": 1250 }, { "epoch": 1.0024, "grad_norm": 0.6802843809127808, "learning_rate": 0.00018884999999999996, "loss": 2.355624198913574, "step": 1260 }, { "epoch": 1.0025666666666666, "grad_norm": 0.6382043361663818, "learning_rate": 0.00019034999999999996, "loss": 2.3294889450073244, "step": 1270 }, { "epoch": 1.0027333333333333, "grad_norm": 0.7075265645980835, "learning_rate": 0.00019184999999999997, "loss": 2.3211458206176756, "step": 1280 }, { "epoch": 1.0029, "grad_norm": 0.6168259382247925, "learning_rate": 0.00019334999999999998, "loss": 2.303839683532715, "step": 1290 }, { "epoch": 1.0030666666666668, "grad_norm": 0.6752699017524719, "learning_rate": 0.00019484999999999997, "loss": 2.331635856628418, "step": 1300 }, { "epoch": 1.0032333333333334, "grad_norm": 0.7414150238037109, "learning_rate": 0.00019634999999999998, "loss": 2.333931541442871, "step": 1310 }, { "epoch": 1.0034, "grad_norm": 0.5768128633499146, "learning_rate": 0.00019784999999999998, "loss": 2.309197998046875, "step": 1320 }, { "epoch": 1.0035666666666667, "grad_norm": 0.7151084542274475, "learning_rate": 0.00019934999999999997, "loss": 2.288164520263672, "step": 1330 }, { "epoch": 1.0037333333333334, "grad_norm": 0.6732338666915894, "learning_rate": 0.00020084999999999998, "loss": 2.295826530456543, "step": 1340 }, { "epoch": 1.0039, "grad_norm": 0.6337047219276428, "learning_rate": 0.00020234999999999999, "loss": 2.281715965270996, "step": 1350 }, { "epoch": 1.0040666666666667, "grad_norm": 0.6295289993286133, "learning_rate": 0.00020384999999999997, "loss": 2.2805261611938477, "step": 1360 }, { "epoch": 1.0042333333333333, "grad_norm": 0.5674924254417419, "learning_rate": 0.00020534999999999998, "loss": 2.276862907409668, "step": 1370 }, { "epoch": 1.0044, "grad_norm": 0.8244264721870422, "learning_rate": 0.00020684999999999999, "loss": 2.2846065521240235, "step": 1380 }, { "epoch": 1.0045666666666666, "grad_norm": 0.5457371473312378, "learning_rate": 0.00020835, "loss": 2.2605510711669923, "step": 1390 }, { "epoch": 1.0047333333333333, "grad_norm": 0.8645628690719604, "learning_rate": 0.00020984999999999998, "loss": 2.2508319854736327, "step": 1400 }, { "epoch": 1.0049, "grad_norm": 0.5244976878166199, "learning_rate": 0.00021135, "loss": 2.2424762725830076, "step": 1410 }, { "epoch": 1.0050666666666668, "grad_norm": 0.6354586482048035, "learning_rate": 0.00021285, "loss": 2.2320966720581055, "step": 1420 }, { "epoch": 1.0052333333333334, "grad_norm": 0.6979833841323853, "learning_rate": 0.00021434999999999998, "loss": 2.2552522659301757, "step": 1430 }, { "epoch": 1.0054, "grad_norm": 0.5455880165100098, "learning_rate": 0.00021585, "loss": 2.2437259674072267, "step": 1440 }, { "epoch": 1.0055666666666667, "grad_norm": 0.8435111045837402, "learning_rate": 0.00021735, "loss": 2.249082565307617, "step": 1450 }, { "epoch": 1.0057333333333334, "grad_norm": 0.6287665367126465, "learning_rate": 0.00021884999999999998, "loss": 2.229854393005371, "step": 1460 }, { "epoch": 1.0059, "grad_norm": 0.4953818917274475, "learning_rate": 0.00022035, "loss": 2.229512023925781, "step": 1470 }, { "epoch": 1.0060666666666667, "grad_norm": 0.5459710955619812, "learning_rate": 0.00022185, "loss": 2.207718086242676, "step": 1480 }, { "epoch": 1.0062333333333333, "grad_norm": 0.5606301426887512, "learning_rate": 0.00022335, "loss": 2.213382911682129, "step": 1490 }, { "epoch": 1.0064, "grad_norm": 0.535137951374054, "learning_rate": 0.00022485, "loss": 2.2047290802001953, "step": 1500 }, { "epoch": 1.0065666666666666, "grad_norm": 0.7108746767044067, "learning_rate": 0.00022634999999999997, "loss": 2.2026611328125, "step": 1510 }, { "epoch": 1.0067333333333333, "grad_norm": 0.5354933738708496, "learning_rate": 0.00022784999999999995, "loss": 2.1966262817382813, "step": 1520 }, { "epoch": 1.0069, "grad_norm": 0.5238562822341919, "learning_rate": 0.00022934999999999996, "loss": 2.192904472351074, "step": 1530 }, { "epoch": 1.0070666666666668, "grad_norm": 0.5200198888778687, "learning_rate": 0.00023084999999999997, "loss": 2.1925033569335937, "step": 1540 }, { "epoch": 1.0072333333333334, "grad_norm": 0.5277844071388245, "learning_rate": 0.00023234999999999998, "loss": 2.1947145462036133, "step": 1550 }, { "epoch": 1.0074, "grad_norm": 0.4872555434703827, "learning_rate": 0.00023384999999999997, "loss": 2.1701236724853517, "step": 1560 }, { "epoch": 1.0075666666666667, "grad_norm": 0.4913088083267212, "learning_rate": 0.00023534999999999997, "loss": 2.184732437133789, "step": 1570 }, { "epoch": 1.0077333333333334, "grad_norm": 0.5435949563980103, "learning_rate": 0.00023684999999999998, "loss": 2.1729846954345704, "step": 1580 }, { "epoch": 1.0079, "grad_norm": 0.6295453906059265, "learning_rate": 0.00023834999999999997, "loss": 2.192562294006348, "step": 1590 }, { "epoch": 1.0080666666666667, "grad_norm": 0.4600837230682373, "learning_rate": 0.00023984999999999998, "loss": 2.1549304962158202, "step": 1600 }, { "epoch": 1.0082333333333333, "grad_norm": 0.4506412446498871, "learning_rate": 0.00024134999999999998, "loss": 2.158854293823242, "step": 1610 }, { "epoch": 1.0084, "grad_norm": 0.5208119750022888, "learning_rate": 0.00024284999999999997, "loss": 2.1459197998046875, "step": 1620 }, { "epoch": 1.0085666666666666, "grad_norm": 0.4893856942653656, "learning_rate": 0.00024435, "loss": 2.148777198791504, "step": 1630 }, { "epoch": 1.0087333333333333, "grad_norm": 0.4930168688297272, "learning_rate": 0.00024585, "loss": 2.125368118286133, "step": 1640 }, { "epoch": 1.0089, "grad_norm": 0.4652084410190582, "learning_rate": 0.00024734999999999997, "loss": 2.1323593139648436, "step": 1650 }, { "epoch": 1.0090666666666666, "grad_norm": 0.5389001965522766, "learning_rate": 0.00024885, "loss": 2.135792350769043, "step": 1660 }, { "epoch": 1.0092333333333334, "grad_norm": 0.457022100687027, "learning_rate": 0.00025035, "loss": 2.1415658950805665, "step": 1670 }, { "epoch": 1.0094, "grad_norm": 0.4299754500389099, "learning_rate": 0.00025184999999999997, "loss": 2.122327995300293, "step": 1680 }, { "epoch": 1.0095666666666667, "grad_norm": 0.4978894889354706, "learning_rate": 0.00025335, "loss": 2.1148754119873048, "step": 1690 }, { "epoch": 1.0097333333333334, "grad_norm": 0.429126501083374, "learning_rate": 0.00025485, "loss": 2.0946537017822267, "step": 1700 }, { "epoch": 1.0099, "grad_norm": 0.4430970549583435, "learning_rate": 0.00025634999999999997, "loss": 2.113183784484863, "step": 1710 }, { "epoch": 1.0100666666666667, "grad_norm": 0.5041225552558899, "learning_rate": 0.00025785, "loss": 2.1197893142700197, "step": 1720 }, { "epoch": 1.0102333333333333, "grad_norm": 0.44492107629776, "learning_rate": 0.00025935, "loss": 2.083152961730957, "step": 1730 }, { "epoch": 1.0104, "grad_norm": 0.5288322567939758, "learning_rate": 0.00026084999999999997, "loss": 2.099713897705078, "step": 1740 }, { "epoch": 1.0105666666666666, "grad_norm": 0.41168212890625, "learning_rate": 0.00026235, "loss": 2.0932744979858398, "step": 1750 }, { "epoch": 1.0107333333333333, "grad_norm": 0.5603193044662476, "learning_rate": 0.00026384999999999994, "loss": 2.094789505004883, "step": 1760 }, { "epoch": 1.0109, "grad_norm": 0.5161806344985962, "learning_rate": 0.00026534999999999997, "loss": 2.1284894943237305, "step": 1770 }, { "epoch": 1.0110666666666666, "grad_norm": 0.41853898763656616, "learning_rate": 0.00026684999999999995, "loss": 2.0773319244384765, "step": 1780 }, { "epoch": 1.0112333333333334, "grad_norm": 0.5440929532051086, "learning_rate": 0.00026835, "loss": 2.084604835510254, "step": 1790 }, { "epoch": 1.0114, "grad_norm": 0.40722721815109253, "learning_rate": 0.00026984999999999997, "loss": 2.0671564102172852, "step": 1800 }, { "epoch": 1.0115666666666667, "grad_norm": 0.41399574279785156, "learning_rate": 0.00027134999999999995, "loss": 2.0832889556884764, "step": 1810 }, { "epoch": 1.0117333333333334, "grad_norm": 0.49388933181762695, "learning_rate": 0.00027285, "loss": 2.075506591796875, "step": 1820 }, { "epoch": 1.0119, "grad_norm": 0.4293297827243805, "learning_rate": 0.00027435, "loss": 2.0805021286010743, "step": 1830 }, { "epoch": 1.0120666666666667, "grad_norm": 0.40732425451278687, "learning_rate": 0.00027584999999999996, "loss": 2.049145317077637, "step": 1840 }, { "epoch": 1.0122333333333333, "grad_norm": 0.3965112268924713, "learning_rate": 0.00027735, "loss": 2.0812307357788087, "step": 1850 }, { "epoch": 1.0124, "grad_norm": 0.4156767725944519, "learning_rate": 0.00027885, "loss": 2.062709999084473, "step": 1860 }, { "epoch": 1.0125666666666666, "grad_norm": 0.471309632062912, "learning_rate": 0.00028034999999999996, "loss": 2.068245506286621, "step": 1870 }, { "epoch": 1.0127333333333333, "grad_norm": 0.4497111439704895, "learning_rate": 0.00028185, "loss": 2.0558444976806642, "step": 1880 }, { "epoch": 1.0129, "grad_norm": 0.4482715129852295, "learning_rate": 0.00028335, "loss": 2.0624961853027344, "step": 1890 }, { "epoch": 1.0130666666666666, "grad_norm": 0.41347697377204895, "learning_rate": 0.00028484999999999996, "loss": 2.0406215667724608, "step": 1900 }, { "epoch": 1.0132333333333334, "grad_norm": 0.6128464341163635, "learning_rate": 0.00028635, "loss": 2.0728612899780274, "step": 1910 }, { "epoch": 1.0134, "grad_norm": 0.38494449853897095, "learning_rate": 0.00028785, "loss": 2.0554380416870117, "step": 1920 }, { "epoch": 1.0135666666666667, "grad_norm": 0.427548885345459, "learning_rate": 0.00028934999999999996, "loss": 2.034651756286621, "step": 1930 }, { "epoch": 1.0137333333333334, "grad_norm": 0.43239572644233704, "learning_rate": 0.00029085, "loss": 2.026533317565918, "step": 1940 }, { "epoch": 1.0139, "grad_norm": 0.3870188891887665, "learning_rate": 0.00029235, "loss": 2.03892822265625, "step": 1950 }, { "epoch": 1.0140666666666667, "grad_norm": 0.406421422958374, "learning_rate": 0.00029384999999999996, "loss": 2.0305675506591796, "step": 1960 }, { "epoch": 1.0142333333333333, "grad_norm": 0.3901691138744354, "learning_rate": 0.00029535, "loss": 2.0243934631347655, "step": 1970 }, { "epoch": 1.0144, "grad_norm": 0.3800658881664276, "learning_rate": 0.00029685, "loss": 2.023728942871094, "step": 1980 }, { "epoch": 1.0145666666666666, "grad_norm": 0.5150614380836487, "learning_rate": 0.00029835, "loss": 2.0288442611694335, "step": 1990 }, { "epoch": 1.0147333333333333, "grad_norm": 0.3727407455444336, "learning_rate": 0.00029985, "loss": 2.025221824645996, "step": 2000 }, { "epoch": 1.0149, "grad_norm": 0.4141431152820587, "learning_rate": 0.0002999999821766214, "loss": 2.0167604446411134, "step": 2010 }, { "epoch": 1.0150666666666666, "grad_norm": 0.37171122431755066, "learning_rate": 0.0002999999205649478, "loss": 1.9933094024658202, "step": 2020 }, { "epoch": 1.0152333333333334, "grad_norm": 0.3756411671638489, "learning_rate": 0.0002999998149449555, "loss": 2.0210105895996096, "step": 2030 }, { "epoch": 1.0154, "grad_norm": 0.3639385402202606, "learning_rate": 0.00029999966531667557, "loss": 2.0091827392578123, "step": 2040 }, { "epoch": 1.0155666666666667, "grad_norm": 0.8484693765640259, "learning_rate": 0.0002999994716801518, "loss": 2.0151844024658203, "step": 2050 }, { "epoch": 1.0157333333333334, "grad_norm": 0.4140762388706207, "learning_rate": 0.0002999992340354411, "loss": 2.024458885192871, "step": 2060 }, { "epoch": 1.0159, "grad_norm": 0.3462969660758972, "learning_rate": 0.00029999895238261314, "loss": 2.0107778549194335, "step": 2070 }, { "epoch": 1.0160666666666667, "grad_norm": 0.3533947765827179, "learning_rate": 0.0002999986267217506, "loss": 2.009040641784668, "step": 2080 }, { "epoch": 1.0162333333333333, "grad_norm": 0.3650343120098114, "learning_rate": 0.00029999825705294896, "loss": 1.992868995666504, "step": 2090 }, { "epoch": 1.0164, "grad_norm": 0.3732404410839081, "learning_rate": 0.0002999978433763167, "loss": 1.9918212890625, "step": 2100 }, { "epoch": 1.0165666666666666, "grad_norm": 0.3752574920654297, "learning_rate": 0.0002999973856919752, "loss": 1.99306640625, "step": 2110 }, { "epoch": 1.0167333333333333, "grad_norm": 0.3408653438091278, "learning_rate": 0.0002999968840000588, "loss": 1.982255744934082, "step": 2120 }, { "epoch": 1.0169, "grad_norm": 0.40709778666496277, "learning_rate": 0.0002999963383007145, "loss": 1.9962303161621093, "step": 2130 }, { "epoch": 1.0170666666666666, "grad_norm": 0.45272234082221985, "learning_rate": 0.0002999957485941026, "loss": 1.9663330078125, "step": 2140 }, { "epoch": 1.0172333333333334, "grad_norm": 0.3251003921031952, "learning_rate": 0.00029999511488039605, "loss": 1.9691213607788085, "step": 2150 }, { "epoch": 1.0174, "grad_norm": 0.4428218603134155, "learning_rate": 0.0002999944371597808, "loss": 1.958636474609375, "step": 2160 }, { "epoch": 1.0175666666666667, "grad_norm": 0.46182894706726074, "learning_rate": 0.0002999937154324556, "loss": 1.9858266830444335, "step": 2170 }, { "epoch": 1.0177333333333334, "grad_norm": 0.8355538845062256, "learning_rate": 0.00029999294969863225, "loss": 1.9517662048339843, "step": 2180 }, { "epoch": 1.0179, "grad_norm": 0.3260430097579956, "learning_rate": 0.00029999213995853544, "loss": 1.978273582458496, "step": 2190 }, { "epoch": 1.0180666666666667, "grad_norm": 0.32824161648750305, "learning_rate": 0.0002999912862124027, "loss": 1.9533300399780273, "step": 2200 }, { "epoch": 1.0182333333333333, "grad_norm": 0.43425774574279785, "learning_rate": 0.00029999038846048446, "loss": 1.9833160400390626, "step": 2210 }, { "epoch": 1.0184, "grad_norm": 0.4289158284664154, "learning_rate": 0.0002999894467030442, "loss": 1.9894195556640626, "step": 2220 }, { "epoch": 1.0185666666666666, "grad_norm": 0.33242323994636536, "learning_rate": 0.0002999884609403582, "loss": 1.9739130020141602, "step": 2230 }, { "epoch": 2.0001333333333333, "grad_norm": 0.3483293354511261, "learning_rate": 0.0002999874311727157, "loss": 2.1391387939453126, "step": 2240 }, { "epoch": 2.0003, "grad_norm": 0.4419577717781067, "learning_rate": 0.0002999863574004187, "loss": 1.9526805877685547, "step": 2250 }, { "epoch": 2.0004666666666666, "grad_norm": 0.32892906665802, "learning_rate": 0.00029998523962378236, "loss": 1.9603885650634765, "step": 2260 }, { "epoch": 2.0006333333333335, "grad_norm": 0.3562873303890228, "learning_rate": 0.0002999840778431346, "loss": 1.9467247009277344, "step": 2270 }, { "epoch": 2.0008, "grad_norm": 0.3505720794200897, "learning_rate": 0.00029998287205881623, "loss": 1.9456769943237304, "step": 2280 }, { "epoch": 2.000966666666667, "grad_norm": 0.4977933466434479, "learning_rate": 0.000299981622271181, "loss": 1.9312908172607421, "step": 2290 }, { "epoch": 2.001133333333333, "grad_norm": 0.35553523898124695, "learning_rate": 0.0002999803284805956, "loss": 1.9541061401367188, "step": 2300 }, { "epoch": 2.0013, "grad_norm": 0.3140776753425598, "learning_rate": 0.0002999789906874397, "loss": 1.9477697372436524, "step": 2310 }, { "epoch": 2.0014666666666665, "grad_norm": 0.3130316138267517, "learning_rate": 0.0002999776088921058, "loss": 1.9310338973999024, "step": 2320 }, { "epoch": 2.0016333333333334, "grad_norm": 0.31942018866539, "learning_rate": 0.0002999761830949991, "loss": 1.918303871154785, "step": 2330 }, { "epoch": 2.0018, "grad_norm": 0.33003127574920654, "learning_rate": 0.0002999747132965381, "loss": 1.9304985046386718, "step": 2340 }, { "epoch": 2.0019666666666667, "grad_norm": 0.3321942389011383, "learning_rate": 0.0002999731994971539, "loss": 1.911811065673828, "step": 2350 }, { "epoch": 2.0021333333333335, "grad_norm": 0.3409428000450134, "learning_rate": 0.00029997164169729074, "loss": 1.9200147628784179, "step": 2360 }, { "epoch": 2.0023, "grad_norm": 0.3252435624599457, "learning_rate": 0.0002999700398974057, "loss": 1.935724639892578, "step": 2370 }, { "epoch": 2.002466666666667, "grad_norm": 0.31721359491348267, "learning_rate": 0.00029996839409796857, "loss": 1.9181198120117187, "step": 2380 }, { "epoch": 2.0026333333333333, "grad_norm": 0.3215249180793762, "learning_rate": 0.00029996670429946226, "loss": 1.8987350463867188, "step": 2390 }, { "epoch": 2.0028, "grad_norm": 0.40686535835266113, "learning_rate": 0.0002999649705023826, "loss": 1.9019346237182617, "step": 2400 }, { "epoch": 2.0029666666666666, "grad_norm": 0.39925655722618103, "learning_rate": 0.0002999631927072383, "loss": 1.902694320678711, "step": 2410 }, { "epoch": 2.0031333333333334, "grad_norm": 0.31708091497421265, "learning_rate": 0.00029996137091455077, "loss": 1.919948196411133, "step": 2420 }, { "epoch": 2.0033, "grad_norm": 0.30797794461250305, "learning_rate": 0.0002999595051248547, "loss": 1.9114618301391602, "step": 2430 }, { "epoch": 2.0034666666666667, "grad_norm": 0.34483590722084045, "learning_rate": 0.00029995759533869734, "loss": 1.9047100067138671, "step": 2440 }, { "epoch": 2.003633333333333, "grad_norm": 0.3035229742527008, "learning_rate": 0.0002999556415566391, "loss": 1.9036048889160155, "step": 2450 }, { "epoch": 2.0038, "grad_norm": 0.31910640001296997, "learning_rate": 0.00029995364377925315, "loss": 1.8925201416015625, "step": 2460 }, { "epoch": 2.0039666666666665, "grad_norm": 0.31238090991973877, "learning_rate": 0.00029995160200712564, "loss": 1.8917516708374023, "step": 2470 }, { "epoch": 2.0041333333333333, "grad_norm": 0.33110883831977844, "learning_rate": 0.00029994951624085566, "loss": 1.9027652740478516, "step": 2480 }, { "epoch": 2.0043, "grad_norm": 0.3299698233604431, "learning_rate": 0.000299947386481055, "loss": 1.901352882385254, "step": 2490 }, { "epoch": 2.0044666666666666, "grad_norm": 0.31205272674560547, "learning_rate": 0.0002999452127283486, "loss": 1.8980585098266602, "step": 2500 }, { "epoch": 2.0046333333333335, "grad_norm": 0.29499128460884094, "learning_rate": 0.0002999429949833742, "loss": 1.8852500915527344, "step": 2510 }, { "epoch": 2.0048, "grad_norm": 0.3277484178543091, "learning_rate": 0.00029994073324678247, "loss": 1.88719482421875, "step": 2520 }, { "epoch": 2.004966666666667, "grad_norm": 0.3019053637981415, "learning_rate": 0.000299938427519237, "loss": 1.8691232681274415, "step": 2530 }, { "epoch": 2.005133333333333, "grad_norm": 0.2999207079410553, "learning_rate": 0.0002999360778014143, "loss": 1.8811899185180665, "step": 2540 }, { "epoch": 2.0053, "grad_norm": 0.309031218290329, "learning_rate": 0.00029993368409400356, "loss": 1.8907697677612305, "step": 2550 }, { "epoch": 2.0054666666666665, "grad_norm": 0.30694296956062317, "learning_rate": 0.0002999312463977073, "loss": 1.8924570083618164, "step": 2560 }, { "epoch": 2.0056333333333334, "grad_norm": 0.2894775867462158, "learning_rate": 0.00029992876471324057, "loss": 1.8695192337036133, "step": 2570 }, { "epoch": 2.0058, "grad_norm": 0.2997623085975647, "learning_rate": 0.00029992623904133154, "loss": 1.8780364990234375, "step": 2580 }, { "epoch": 2.0059666666666667, "grad_norm": 0.33627018332481384, "learning_rate": 0.00029992366938272114, "loss": 1.8802318572998047, "step": 2590 }, { "epoch": 2.0061333333333335, "grad_norm": 0.305471271276474, "learning_rate": 0.00029992105573816336, "loss": 1.8689495086669923, "step": 2600 }, { "epoch": 2.0063, "grad_norm": 0.3067426085472107, "learning_rate": 0.000299918398108425, "loss": 1.8797239303588866, "step": 2610 }, { "epoch": 2.006466666666667, "grad_norm": 0.30758461356163025, "learning_rate": 0.00029991569649428574, "loss": 1.8528533935546876, "step": 2620 }, { "epoch": 2.0066333333333333, "grad_norm": 0.39458268880844116, "learning_rate": 0.00029991295089653827, "loss": 1.8724189758300782, "step": 2630 }, { "epoch": 2.0068, "grad_norm": 0.33424311876296997, "learning_rate": 0.000299910161315988, "loss": 1.8637022018432616, "step": 2640 }, { "epoch": 2.0069666666666666, "grad_norm": 0.3854370415210724, "learning_rate": 0.0002999073277534534, "loss": 1.8546772003173828, "step": 2650 }, { "epoch": 2.0071333333333334, "grad_norm": 0.3321525752544403, "learning_rate": 0.00029990445020976593, "loss": 1.8813508987426757, "step": 2660 }, { "epoch": 2.0073, "grad_norm": 0.5437219142913818, "learning_rate": 0.00029990152868576974, "loss": 1.8557924270629882, "step": 2670 }, { "epoch": 2.0074666666666667, "grad_norm": 0.29385554790496826, "learning_rate": 0.00029989856318232195, "loss": 1.8538352966308593, "step": 2680 }, { "epoch": 2.007633333333333, "grad_norm": 0.28902414441108704, "learning_rate": 0.0002998955537002926, "loss": 1.867183303833008, "step": 2690 }, { "epoch": 2.0078, "grad_norm": 0.3079817593097687, "learning_rate": 0.0002998925002405647, "loss": 1.8617700576782226, "step": 2700 }, { "epoch": 2.0079666666666665, "grad_norm": 0.31161582469940186, "learning_rate": 0.00029988940280403407, "loss": 1.850856399536133, "step": 2710 }, { "epoch": 2.0081333333333333, "grad_norm": 0.2734602689743042, "learning_rate": 0.00029988626139160944, "loss": 1.8329235076904298, "step": 2720 }, { "epoch": 2.0083, "grad_norm": 0.29510024189949036, "learning_rate": 0.00029988307600421245, "loss": 1.8493413925170898, "step": 2730 }, { "epoch": 2.0084666666666666, "grad_norm": 0.3101499676704407, "learning_rate": 0.00029987984664277777, "loss": 1.837864875793457, "step": 2740 }, { "epoch": 2.0086333333333335, "grad_norm": 0.29377278685569763, "learning_rate": 0.0002998765733082528, "loss": 1.8344387054443358, "step": 2750 }, { "epoch": 2.0088, "grad_norm": 0.367495596408844, "learning_rate": 0.0002998732560015978, "loss": 1.8256048202514648, "step": 2760 }, { "epoch": 2.008966666666667, "grad_norm": 0.8747866749763489, "learning_rate": 0.00029986989472378613, "loss": 1.8315084457397461, "step": 2770 }, { "epoch": 2.009133333333333, "grad_norm": 0.3131991922855377, "learning_rate": 0.000299866489475804, "loss": 1.8437740325927734, "step": 2780 }, { "epoch": 2.0093, "grad_norm": 0.30495911836624146, "learning_rate": 0.00029986304025865035, "loss": 1.8268943786621095, "step": 2790 }, { "epoch": 2.0094666666666665, "grad_norm": 0.2781303822994232, "learning_rate": 0.00029985954707333724, "loss": 1.8243549346923829, "step": 2800 }, { "epoch": 2.0096333333333334, "grad_norm": 0.31482452154159546, "learning_rate": 0.00029985600992088945, "loss": 1.8155588150024413, "step": 2810 }, { "epoch": 2.0098, "grad_norm": 0.3138728141784668, "learning_rate": 0.00029985242880234484, "loss": 1.811925506591797, "step": 2820 }, { "epoch": 2.0099666666666667, "grad_norm": 0.2919290065765381, "learning_rate": 0.00029984880371875395, "loss": 1.8293731689453125, "step": 2830 }, { "epoch": 2.0101333333333335, "grad_norm": 0.2963739335536957, "learning_rate": 0.00029984513467118043, "loss": 1.8097396850585938, "step": 2840 }, { "epoch": 2.0103, "grad_norm": 0.2968748211860657, "learning_rate": 0.00029984142166070073, "loss": 1.8181087493896484, "step": 2850 }, { "epoch": 2.010466666666667, "grad_norm": 0.32753726840019226, "learning_rate": 0.0002998376646884042, "loss": 1.8085901260375976, "step": 2860 }, { "epoch": 2.0106333333333333, "grad_norm": 0.332154244184494, "learning_rate": 0.00029983386375539306, "loss": 1.8173376083374024, "step": 2870 }, { "epoch": 2.0108, "grad_norm": 0.30764803290367126, "learning_rate": 0.0002998300188627825, "loss": 1.8258855819702149, "step": 2880 }, { "epoch": 2.0109666666666666, "grad_norm": 0.2808578312397003, "learning_rate": 0.0002998261300117005, "loss": 1.824087905883789, "step": 2890 }, { "epoch": 2.0111333333333334, "grad_norm": 0.2978729009628296, "learning_rate": 0.00029982219720328814, "loss": 1.7921815872192384, "step": 2900 }, { "epoch": 2.0113, "grad_norm": 0.2905280292034149, "learning_rate": 0.0002998182204386991, "loss": 1.8095476150512695, "step": 2910 }, { "epoch": 2.0114666666666667, "grad_norm": 0.2959212064743042, "learning_rate": 0.0002998141997191003, "loss": 1.8007658004760743, "step": 2920 }, { "epoch": 2.011633333333333, "grad_norm": 0.29560765624046326, "learning_rate": 0.0002998101350456712, "loss": 1.8038867950439452, "step": 2930 }, { "epoch": 2.0118, "grad_norm": 0.35846570134162903, "learning_rate": 0.0002998060264196044, "loss": 1.8145381927490234, "step": 2940 }, { "epoch": 2.0119666666666665, "grad_norm": 0.2926178276538849, "learning_rate": 0.00029980187384210543, "loss": 1.7917072296142578, "step": 2950 }, { "epoch": 2.0121333333333333, "grad_norm": 0.3068349063396454, "learning_rate": 0.00029979767731439243, "loss": 1.7924629211425782, "step": 2960 }, { "epoch": 2.0123, "grad_norm": 0.2997657358646393, "learning_rate": 0.0002997934368376967, "loss": 1.8075037002563477, "step": 2970 }, { "epoch": 2.0124666666666666, "grad_norm": 0.30741429328918457, "learning_rate": 0.0002997891524132623, "loss": 1.7943035125732423, "step": 2980 }, { "epoch": 2.0126333333333335, "grad_norm": 0.2987091541290283, "learning_rate": 0.0002997848240423464, "loss": 1.8019412994384765, "step": 2990 }, { "epoch": 2.0128, "grad_norm": 0.30597877502441406, "learning_rate": 0.0002997804517262187, "loss": 1.7804391860961915, "step": 3000 }, { "epoch": 2.012966666666667, "grad_norm": 0.30425113439559937, "learning_rate": 0.00029977603546616204, "loss": 1.7919233322143555, "step": 3010 }, { "epoch": 2.013133333333333, "grad_norm": 0.29537034034729004, "learning_rate": 0.0002997715752634722, "loss": 1.7906463623046875, "step": 3020 }, { "epoch": 2.0133, "grad_norm": 0.31160587072372437, "learning_rate": 0.00029976707111945765, "loss": 1.8006792068481445, "step": 3030 }, { "epoch": 2.0134666666666665, "grad_norm": 0.2768838107585907, "learning_rate": 0.00029976252303543985, "loss": 1.7734039306640625, "step": 3040 }, { "epoch": 2.0136333333333334, "grad_norm": 0.34434473514556885, "learning_rate": 0.0002997579310127532, "loss": 1.790645217895508, "step": 3050 }, { "epoch": 2.0138, "grad_norm": 0.3175096809864044, "learning_rate": 0.000299753295052745, "loss": 1.776620101928711, "step": 3060 }, { "epoch": 2.0139666666666667, "grad_norm": 0.27720019221305847, "learning_rate": 0.00029974861515677525, "loss": 1.7714349746704101, "step": 3070 }, { "epoch": 2.0141333333333336, "grad_norm": 0.3595098853111267, "learning_rate": 0.00029974389132621715, "loss": 1.7710906982421875, "step": 3080 }, { "epoch": 2.0143, "grad_norm": 0.33949705958366394, "learning_rate": 0.0002997391235624565, "loss": 1.7787233352661134, "step": 3090 }, { "epoch": 2.014466666666667, "grad_norm": 0.29317399859428406, "learning_rate": 0.0002997343118668921, "loss": 1.7712892532348632, "step": 3100 }, { "epoch": 2.0146333333333333, "grad_norm": 0.29205620288848877, "learning_rate": 0.0002997294562409357, "loss": 1.7849128723144532, "step": 3110 }, { "epoch": 2.0148, "grad_norm": 0.3042508065700531, "learning_rate": 0.00029972455668601187, "loss": 1.7632179260253906, "step": 3120 }, { "epoch": 2.0149666666666666, "grad_norm": 0.2817091941833496, "learning_rate": 0.0002997196132035581, "loss": 1.7586166381835937, "step": 3130 }, { "epoch": 2.0151333333333334, "grad_norm": 0.2994356155395508, "learning_rate": 0.00029971462579502477, "loss": 1.765203094482422, "step": 3140 }, { "epoch": 2.0153, "grad_norm": 0.34546980261802673, "learning_rate": 0.00029970959446187507, "loss": 1.7686321258544921, "step": 3150 }, { "epoch": 2.0154666666666667, "grad_norm": 0.29304182529449463, "learning_rate": 0.0002997045192055852, "loss": 1.7579254150390624, "step": 3160 }, { "epoch": 2.015633333333333, "grad_norm": 0.2991744577884674, "learning_rate": 0.00029969940002764415, "loss": 1.7774200439453125, "step": 3170 }, { "epoch": 2.0158, "grad_norm": 0.2959384024143219, "learning_rate": 0.0002996942369295538, "loss": 1.7614059448242188, "step": 3180 }, { "epoch": 2.0159666666666665, "grad_norm": 0.27773720026016235, "learning_rate": 0.000299689029912829, "loss": 1.7697029113769531, "step": 3190 }, { "epoch": 2.0161333333333333, "grad_norm": 0.32048192620277405, "learning_rate": 0.0002996837789789975, "loss": 1.7673730850219727, "step": 3200 }, { "epoch": 2.0163, "grad_norm": 0.29490071535110474, "learning_rate": 0.0002996784841295997, "loss": 1.754742431640625, "step": 3210 }, { "epoch": 2.0164666666666666, "grad_norm": 0.30989086627960205, "learning_rate": 0.0002996731453661891, "loss": 1.7523395538330078, "step": 3220 }, { "epoch": 2.0166333333333335, "grad_norm": 0.28182804584503174, "learning_rate": 0.0002996677626903321, "loss": 1.761356735229492, "step": 3230 }, { "epoch": 2.0168, "grad_norm": 0.3071010112762451, "learning_rate": 0.0002996623361036079, "loss": 1.7489625930786132, "step": 3240 }, { "epoch": 2.016966666666667, "grad_norm": 0.3243575096130371, "learning_rate": 0.0002996568656076085, "loss": 1.7530878067016602, "step": 3250 }, { "epoch": 2.0171333333333332, "grad_norm": 0.30851274728775024, "learning_rate": 0.0002996513512039391, "loss": 1.7365777969360352, "step": 3260 }, { "epoch": 2.0173, "grad_norm": 0.31781646609306335, "learning_rate": 0.0002996457928942173, "loss": 1.7379327774047852, "step": 3270 }, { "epoch": 2.0174666666666665, "grad_norm": 0.30550727248191833, "learning_rate": 0.0002996401906800741, "loss": 1.748966598510742, "step": 3280 }, { "epoch": 2.0176333333333334, "grad_norm": 0.30173051357269287, "learning_rate": 0.0002996345445631529, "loss": 1.7401952743530273, "step": 3290 }, { "epoch": 2.0178, "grad_norm": 0.29951369762420654, "learning_rate": 0.0002996288545451103, "loss": 1.7343709945678711, "step": 3300 }, { "epoch": 2.0179666666666667, "grad_norm": 0.27360084652900696, "learning_rate": 0.0002996231206276158, "loss": 1.7397294998168946, "step": 3310 }, { "epoch": 2.018133333333333, "grad_norm": 0.30762919783592224, "learning_rate": 0.00029961734281235155, "loss": 1.7346086502075195, "step": 3320 }, { "epoch": 2.0183, "grad_norm": 0.30437207221984863, "learning_rate": 0.0002996115211010127, "loss": 1.7656745910644531, "step": 3330 }, { "epoch": 2.018466666666667, "grad_norm": 0.2910079061985016, "learning_rate": 0.0002996056554953073, "loss": 1.7637361526489257, "step": 3340 }, { "epoch": 3.0000333333333336, "grad_norm": 0.5841907858848572, "learning_rate": 0.00029959974599695616, "loss": 1.8916559219360352, "step": 3350 }, { "epoch": 3.0002, "grad_norm": 0.30715465545654297, "learning_rate": 0.00029959379260769325, "loss": 1.734269905090332, "step": 3360 }, { "epoch": 3.000366666666667, "grad_norm": 0.2890932559967041, "learning_rate": 0.00029958779532926504, "loss": 1.737888717651367, "step": 3370 }, { "epoch": 3.0005333333333333, "grad_norm": 0.2667240500450134, "learning_rate": 0.00029958175416343124, "loss": 1.7341463088989257, "step": 3380 }, { "epoch": 3.0007, "grad_norm": 0.28347086906433105, "learning_rate": 0.00029957566911196414, "loss": 1.7401607513427735, "step": 3390 }, { "epoch": 3.0008666666666666, "grad_norm": 0.29408538341522217, "learning_rate": 0.00029956954017664903, "loss": 1.7225614547729493, "step": 3400 }, { "epoch": 3.0010333333333334, "grad_norm": 0.30668047070503235, "learning_rate": 0.0002995633673592841, "loss": 1.7230432510375977, "step": 3410 }, { "epoch": 3.0012, "grad_norm": 0.2996319830417633, "learning_rate": 0.00029955715066168044, "loss": 1.7335132598876952, "step": 3420 }, { "epoch": 3.0013666666666667, "grad_norm": 0.2857902944087982, "learning_rate": 0.00029955089008566185, "loss": 1.7325157165527343, "step": 3430 }, { "epoch": 3.001533333333333, "grad_norm": 0.3037016987800598, "learning_rate": 0.0002995445856330652, "loss": 1.7197406768798829, "step": 3440 }, { "epoch": 3.0017, "grad_norm": 0.2963092029094696, "learning_rate": 0.0002995382373057401, "loss": 1.722641372680664, "step": 3450 }, { "epoch": 3.0018666666666665, "grad_norm": 0.3075854182243347, "learning_rate": 0.0002995318451055492, "loss": 1.7070884704589844, "step": 3460 }, { "epoch": 3.0020333333333333, "grad_norm": 0.334443062543869, "learning_rate": 0.0002995254090343677, "loss": 1.7077157974243165, "step": 3470 }, { "epoch": 3.0022, "grad_norm": 0.3198912441730499, "learning_rate": 0.0002995189290940839, "loss": 1.730832290649414, "step": 3480 }, { "epoch": 3.0023666666666666, "grad_norm": 0.29788824915885925, "learning_rate": 0.00029951240528659914, "loss": 1.717129898071289, "step": 3490 }, { "epoch": 3.0025333333333335, "grad_norm": 0.31315430998802185, "learning_rate": 0.0002995058376138273, "loss": 1.7042694091796875, "step": 3500 }, { "epoch": 3.0027, "grad_norm": 0.2997714579105377, "learning_rate": 0.00029949922607769525, "loss": 1.6981151580810547, "step": 3510 }, { "epoch": 3.002866666666667, "grad_norm": 0.49318060278892517, "learning_rate": 0.00029949257068014273, "loss": 1.6965030670166015, "step": 3520 }, { "epoch": 3.003033333333333, "grad_norm": 0.302224338054657, "learning_rate": 0.0002994858714231224, "loss": 1.716214942932129, "step": 3530 }, { "epoch": 3.0032, "grad_norm": 0.33403024077415466, "learning_rate": 0.00029947912830859976, "loss": 1.7219301223754884, "step": 3540 }, { "epoch": 3.0033666666666665, "grad_norm": 0.3228297233581543, "learning_rate": 0.0002994723413385531, "loss": 1.7075923919677733, "step": 3550 }, { "epoch": 3.0035333333333334, "grad_norm": 0.2840413749217987, "learning_rate": 0.0002994655105149737, "loss": 1.7017856597900392, "step": 3560 }, { "epoch": 3.0037, "grad_norm": 0.2929494380950928, "learning_rate": 0.00029945863583986563, "loss": 1.7047229766845704, "step": 3570 }, { "epoch": 3.0038666666666667, "grad_norm": 0.2888146638870239, "learning_rate": 0.0002994517173152459, "loss": 1.696831512451172, "step": 3580 }, { "epoch": 3.004033333333333, "grad_norm": 0.3097553849220276, "learning_rate": 0.00029944475494314424, "loss": 1.6922567367553711, "step": 3590 }, { "epoch": 3.0042, "grad_norm": 0.2964254915714264, "learning_rate": 0.0002994377487256034, "loss": 1.7038848876953125, "step": 3600 }, { "epoch": 3.004366666666667, "grad_norm": 0.33456939458847046, "learning_rate": 0.00029943069866467884, "loss": 1.716048240661621, "step": 3610 }, { "epoch": 3.0045333333333333, "grad_norm": 0.315708190202713, "learning_rate": 0.00029942360476243907, "loss": 1.699909782409668, "step": 3620 }, { "epoch": 3.0047, "grad_norm": 0.31560301780700684, "learning_rate": 0.0002994164670209653, "loss": 1.6968250274658203, "step": 3630 }, { "epoch": 3.0048666666666666, "grad_norm": 0.30578115582466125, "learning_rate": 0.0002994092854423517, "loss": 1.6915258407592773, "step": 3640 }, { "epoch": 3.0050333333333334, "grad_norm": 0.295392781496048, "learning_rate": 0.0002994020600287052, "loss": 1.6869081497192382, "step": 3650 }, { "epoch": 0.00016666666666666666, "grad_norm": 1.5778170824050903, "learning_rate": 0.00029849904372022663, "loss": 3.774449920654297, "step": 3660 }, { "epoch": 0.0003333333333333333, "grad_norm": 0.7220685482025146, "learning_rate": 0.000298487751905002, "loss": 3.307727813720703, "step": 3670 }, { "epoch": 0.0005, "grad_norm": 0.6823899149894714, "learning_rate": 0.00029847641798936566, "loss": 3.308191680908203, "step": 3680 }, { "epoch": 0.0006666666666666666, "grad_norm": 0.7152085304260254, "learning_rate": 0.00029846504197653096, "loss": 3.309762191772461, "step": 3690 }, { "epoch": 0.0008333333333333334, "grad_norm": 0.6293660998344421, "learning_rate": 0.0002984536238697233, "loss": 3.3758075714111326, "step": 3700 }, { "epoch": 0.001, "grad_norm": 0.7295067310333252, "learning_rate": 0.0002984421636721801, "loss": 3.3281707763671875, "step": 3710 }, { "epoch": 0.0011666666666666668, "grad_norm": 0.6338008642196655, "learning_rate": 0.00029843066138715064, "loss": 3.3392311096191407, "step": 3720 }, { "epoch": 0.0013333333333333333, "grad_norm": 0.6514250636100769, "learning_rate": 0.0002984191170178961, "loss": 3.232216644287109, "step": 3730 }, { "epoch": 0.0015, "grad_norm": 0.6614907383918762, "learning_rate": 0.00029840753056768965, "loss": 3.2421695709228517, "step": 3740 }, { "epoch": 0.0016666666666666668, "grad_norm": 0.639617919921875, "learning_rate": 0.00029839590203981645, "loss": 3.2931827545166015, "step": 3750 }, { "epoch": 0.0018333333333333333, "grad_norm": 0.5634158253669739, "learning_rate": 0.0002983842314375733, "loss": 3.185129737854004, "step": 3760 }, { "epoch": 0.002, "grad_norm": 0.6283559799194336, "learning_rate": 0.00029837251876426937, "loss": 3.244803237915039, "step": 3770 }, { "epoch": 0.0021666666666666666, "grad_norm": 0.5802392959594727, "learning_rate": 0.00029836076402322545, "loss": 3.0983781814575195, "step": 3780 }, { "epoch": 0.0023333333333333335, "grad_norm": 0.5623877644538879, "learning_rate": 0.0002983489672177743, "loss": 2.968458557128906, "step": 3790 }, { "epoch": 0.0025, "grad_norm": 0.547167181968689, "learning_rate": 0.00029833712835126064, "loss": 2.9178205490112306, "step": 3800 }, { "epoch": 0.0026666666666666666, "grad_norm": 0.5496246218681335, "learning_rate": 0.0002983252474270411, "loss": 3.0116304397583007, "step": 3810 }, { "epoch": 0.0028333333333333335, "grad_norm": 0.6299962997436523, "learning_rate": 0.0002983133244484844, "loss": 3.1483575820922853, "step": 3820 }, { "epoch": 0.003, "grad_norm": 0.6428859233856201, "learning_rate": 0.0002983013594189709, "loss": 3.208842086791992, "step": 3830 }, { "epoch": 0.0031666666666666666, "grad_norm": 0.5592418909072876, "learning_rate": 0.00029828935234189294, "loss": 3.186692810058594, "step": 3840 }, { "epoch": 0.0033333333333333335, "grad_norm": 0.6330075860023499, "learning_rate": 0.0002982773032206551, "loss": 3.142811393737793, "step": 3850 }, { "epoch": 0.0035, "grad_norm": 0.5640964508056641, "learning_rate": 0.00029826521205867344, "loss": 3.191600036621094, "step": 3860 }, { "epoch": 0.0036666666666666666, "grad_norm": 0.5621790885925293, "learning_rate": 0.00029825307885937623, "loss": 3.1665826797485352, "step": 3870 }, { "epoch": 0.003833333333333333, "grad_norm": 0.555362343788147, "learning_rate": 0.00029824090362620356, "loss": 3.2408042907714845, "step": 3880 }, { "epoch": 0.004, "grad_norm": 0.5904632210731506, "learning_rate": 0.0002982286863626075, "loss": 3.3447166442871095, "step": 3890 }, { "epoch": 0.004166666666666667, "grad_norm": 0.5641190409660339, "learning_rate": 0.00029821642707205184, "loss": 3.256772994995117, "step": 3900 }, { "epoch": 0.004333333333333333, "grad_norm": 0.57473224401474, "learning_rate": 0.00029820412575801256, "loss": 3.270028305053711, "step": 3910 }, { "epoch": 0.0045, "grad_norm": 0.5857067108154297, "learning_rate": 0.00029819178242397734, "loss": 3.238531494140625, "step": 3920 }, { "epoch": 0.004666666666666667, "grad_norm": 0.5126656293869019, "learning_rate": 0.00029817939707344593, "loss": 3.300303268432617, "step": 3930 }, { "epoch": 0.004833333333333334, "grad_norm": 0.5652568340301514, "learning_rate": 0.00029816696970992986, "loss": 3.2070068359375, "step": 3940 }, { "epoch": 0.005, "grad_norm": 0.4956953227519989, "learning_rate": 0.0002981545003369527, "loss": 3.2531665802001952, "step": 3950 }, { "epoch": 0.005166666666666667, "grad_norm": 0.5084554553031921, "learning_rate": 0.0002981419889580498, "loss": 3.066339874267578, "step": 3960 }, { "epoch": 0.005333333333333333, "grad_norm": 0.5247703790664673, "learning_rate": 0.00029812943557676856, "loss": 3.1590555191040037, "step": 3970 }, { "epoch": 0.0055, "grad_norm": 0.5014616250991821, "learning_rate": 0.0002981168401966681, "loss": 3.192496490478516, "step": 3980 }, { "epoch": 0.005666666666666667, "grad_norm": 0.5336611866950989, "learning_rate": 0.0002981042028213197, "loss": 3.323842239379883, "step": 3990 }, { "epoch": 0.005833333333333334, "grad_norm": 0.5619737505912781, "learning_rate": 0.00029809152345430627, "loss": 3.190663719177246, "step": 4000 }, { "epoch": 0.006, "grad_norm": 0.5566272139549255, "learning_rate": 0.00029807880209922283, "loss": 3.083289909362793, "step": 4010 }, { "epoch": 0.006166666666666667, "grad_norm": 0.5660613179206848, "learning_rate": 0.0002980660387596763, "loss": 3.2430679321289064, "step": 4020 }, { "epoch": 0.006333333333333333, "grad_norm": 0.5177736282348633, "learning_rate": 0.0002980532334392853, "loss": 3.178599548339844, "step": 4030 }, { "epoch": 0.0065, "grad_norm": 0.5329192280769348, "learning_rate": 0.0002980403861416806, "loss": 3.1674598693847655, "step": 4040 }, { "epoch": 0.006666666666666667, "grad_norm": 0.6663591265678406, "learning_rate": 0.0002980274968705048, "loss": 3.0155174255371096, "step": 4050 }, { "epoch": 0.006833333333333334, "grad_norm": 0.4993612766265869, "learning_rate": 0.00029801456562941227, "loss": 3.066207695007324, "step": 4060 }, { "epoch": 0.007, "grad_norm": 0.5428812503814697, "learning_rate": 0.00029800159242206935, "loss": 3.10704345703125, "step": 4070 }, { "epoch": 0.007166666666666667, "grad_norm": 0.513583242893219, "learning_rate": 0.00029798857725215445, "loss": 3.184256172180176, "step": 4080 }, { "epoch": 0.007333333333333333, "grad_norm": 0.5102922320365906, "learning_rate": 0.0002979755201233576, "loss": 3.0215587615966797, "step": 4090 }, { "epoch": 0.0075, "grad_norm": 0.521461009979248, "learning_rate": 0.00029796242103938096, "loss": 3.1003379821777344, "step": 4100 }, { "epoch": 0.007666666666666666, "grad_norm": 0.4812868535518646, "learning_rate": 0.00029794928000393843, "loss": 3.1397796630859376, "step": 4110 }, { "epoch": 0.007833333333333333, "grad_norm": 0.5282142758369446, "learning_rate": 0.0002979360970207558, "loss": 3.193585968017578, "step": 4120 }, { "epoch": 0.008, "grad_norm": 0.5009388327598572, "learning_rate": 0.00029792287209357097, "loss": 3.1340686798095705, "step": 4130 }, { "epoch": 0.008166666666666666, "grad_norm": 0.6340370774269104, "learning_rate": 0.00029790960522613343, "loss": 3.0806493759155273, "step": 4140 }, { "epoch": 0.008333333333333333, "grad_norm": 0.5030133128166199, "learning_rate": 0.0002978962964222048, "loss": 3.170300102233887, "step": 4150 }, { "epoch": 0.0085, "grad_norm": 0.5144831538200378, "learning_rate": 0.0002978829456855584, "loss": 3.3535289764404297, "step": 4160 }, { "epoch": 0.008666666666666666, "grad_norm": 0.5370882153511047, "learning_rate": 0.0002978695530199796, "loss": 3.2686225891113283, "step": 4170 }, { "epoch": 0.008833333333333334, "grad_norm": 0.5093417167663574, "learning_rate": 0.0002978561184292656, "loss": 3.142299270629883, "step": 4180 }, { "epoch": 0.009, "grad_norm": 0.5327890515327454, "learning_rate": 0.0002978426419172255, "loss": 3.1478483200073244, "step": 4190 }, { "epoch": 0.009166666666666667, "grad_norm": 0.5170514583587646, "learning_rate": 0.0002978291234876802, "loss": 3.2556007385253904, "step": 4200 }, { "epoch": 0.009333333333333334, "grad_norm": 0.5124508142471313, "learning_rate": 0.00029781556314446264, "loss": 3.3029640197753904, "step": 4210 }, { "epoch": 0.0095, "grad_norm": 0.577273428440094, "learning_rate": 0.0002978019608914175, "loss": 3.2595043182373047, "step": 4220 }, { "epoch": 0.009666666666666667, "grad_norm": 0.5103987455368042, "learning_rate": 0.00029778831673240127, "loss": 3.243117904663086, "step": 4230 }, { "epoch": 0.009833333333333333, "grad_norm": 0.5025808215141296, "learning_rate": 0.00029777463067128267, "loss": 3.060438537597656, "step": 4240 }, { "epoch": 0.01, "grad_norm": 0.44690072536468506, "learning_rate": 0.000297760902711942, "loss": 3.0471775054931642, "step": 4250 }, { "epoch": 0.010166666666666666, "grad_norm": 0.467395544052124, "learning_rate": 0.00029774713285827143, "loss": 2.98464298248291, "step": 4260 }, { "epoch": 0.010333333333333333, "grad_norm": 0.5547831058502197, "learning_rate": 0.00029773332111417524, "loss": 3.1703718185424803, "step": 4270 }, { "epoch": 0.0105, "grad_norm": 0.5768072009086609, "learning_rate": 0.0002977194674835693, "loss": 3.301234817504883, "step": 4280 }, { "epoch": 0.010666666666666666, "grad_norm": 0.45032358169555664, "learning_rate": 0.00029770557197038164, "loss": 3.2695812225341796, "step": 4290 }, { "epoch": 0.010833333333333334, "grad_norm": 0.46786898374557495, "learning_rate": 0.0002976916345785519, "loss": 3.2581401824951173, "step": 4300 }, { "epoch": 0.011, "grad_norm": 0.4445962905883789, "learning_rate": 0.0002976776553120319, "loss": 3.285322570800781, "step": 4310 }, { "epoch": 0.011166666666666667, "grad_norm": 0.47308477759361267, "learning_rate": 0.00029766363417478494, "loss": 3.2954906463623046, "step": 4320 }, { "epoch": 0.011333333333333334, "grad_norm": 0.48444363474845886, "learning_rate": 0.0002976495711707865, "loss": 3.3107620239257813, "step": 4330 }, { "epoch": 0.0115, "grad_norm": 0.5089991092681885, "learning_rate": 0.00029763546630402386, "loss": 3.2996601104736327, "step": 4340 }, { "epoch": 0.011666666666666667, "grad_norm": 0.46392160654067993, "learning_rate": 0.000297621319578496, "loss": 3.358951950073242, "step": 4350 }, { "epoch": 0.011833333333333333, "grad_norm": 0.47319114208221436, "learning_rate": 0.00029760713099821415, "loss": 3.215884780883789, "step": 4360 }, { "epoch": 0.012, "grad_norm": 0.4464090168476105, "learning_rate": 0.00029759290056720095, "loss": 2.9921100616455076, "step": 4370 }, { "epoch": 0.012166666666666666, "grad_norm": 0.4325127601623535, "learning_rate": 0.00029757862828949124, "loss": 2.7973331451416015, "step": 4380 }, { "epoch": 0.012333333333333333, "grad_norm": 0.46863001585006714, "learning_rate": 0.00029756431416913157, "loss": 2.923106384277344, "step": 4390 }, { "epoch": 0.0125, "grad_norm": 0.4626036286354065, "learning_rate": 0.00029754995821018045, "loss": 3.0310813903808596, "step": 4400 }, { "epoch": 0.012666666666666666, "grad_norm": 0.4916419982910156, "learning_rate": 0.0002975355604167081, "loss": 3.093164825439453, "step": 4410 }, { "epoch": 0.012833333333333334, "grad_norm": 0.4526589810848236, "learning_rate": 0.0002975211207927967, "loss": 3.295928955078125, "step": 4420 }, { "epoch": 0.013, "grad_norm": 0.4669049084186554, "learning_rate": 0.00029750663934254034, "loss": 3.2381587982177735, "step": 4430 }, { "epoch": 0.013166666666666667, "grad_norm": 0.46921107172966003, "learning_rate": 0.0002974921160700449, "loss": 3.1719486236572267, "step": 4440 }, { "epoch": 0.013333333333333334, "grad_norm": 0.5220564007759094, "learning_rate": 0.0002974775509794282, "loss": 3.2720565795898438, "step": 4450 }, { "epoch": 0.0135, "grad_norm": 0.4780034124851227, "learning_rate": 0.0002974629440748197, "loss": 3.291085433959961, "step": 4460 }, { "epoch": 0.013666666666666667, "grad_norm": 0.4605162739753723, "learning_rate": 0.00029744829536036097, "loss": 3.2416168212890626, "step": 4470 }, { "epoch": 0.013833333333333333, "grad_norm": 0.4649753272533417, "learning_rate": 0.0002974336048402053, "loss": 3.183604049682617, "step": 4480 }, { "epoch": 0.014, "grad_norm": 0.444002240896225, "learning_rate": 0.00029741887251851786, "loss": 3.1085399627685546, "step": 4490 }, { "epoch": 0.014166666666666666, "grad_norm": 0.4448355436325073, "learning_rate": 0.00029740409839947566, "loss": 3.116347885131836, "step": 4500 }, { "epoch": 0.014333333333333333, "grad_norm": 0.4390920102596283, "learning_rate": 0.00029738928248726764, "loss": 3.1324329376220703, "step": 4510 }, { "epoch": 0.0145, "grad_norm": 0.4476589858531952, "learning_rate": 0.0002973744247860944, "loss": 3.1119213104248047, "step": 4520 }, { "epoch": 0.014666666666666666, "grad_norm": 0.4517284035682678, "learning_rate": 0.0002973595253001687, "loss": 3.0000232696533202, "step": 4530 }, { "epoch": 0.014833333333333334, "grad_norm": 0.4266926646232605, "learning_rate": 0.00029734458403371473, "loss": 3.0543354034423826, "step": 4540 }, { "epoch": 0.015, "grad_norm": 0.465181440114975, "learning_rate": 0.00029732960099096894, "loss": 3.1297534942626952, "step": 4550 }, { "epoch": 0.015166666666666667, "grad_norm": 0.44289475679397583, "learning_rate": 0.0002973145761761793, "loss": 3.1308570861816407, "step": 4560 }, { "epoch": 0.015333333333333332, "grad_norm": 0.45259231328964233, "learning_rate": 0.00029729950959360587, "loss": 3.113242340087891, "step": 4570 }, { "epoch": 0.0155, "grad_norm": 0.49212995171546936, "learning_rate": 0.00029728440124752043, "loss": 3.1158754348754885, "step": 4580 }, { "epoch": 0.015666666666666666, "grad_norm": 0.44125884771347046, "learning_rate": 0.00029726925114220655, "loss": 3.074172782897949, "step": 4590 }, { "epoch": 0.015833333333333335, "grad_norm": 0.445905864238739, "learning_rate": 0.0002972540592819598, "loss": 3.08502140045166, "step": 4600 }, { "epoch": 0.016, "grad_norm": 0.4353269934654236, "learning_rate": 0.00029723882567108745, "loss": 2.9679975509643555, "step": 4610 }, { "epoch": 0.016166666666666666, "grad_norm": 0.4166252315044403, "learning_rate": 0.0002972235503139086, "loss": 2.9368864059448243, "step": 4620 }, { "epoch": 0.01633333333333333, "grad_norm": 0.4455665946006775, "learning_rate": 0.0002972082332147543, "loss": 3.0976829528808594, "step": 4630 }, { "epoch": 0.0165, "grad_norm": 0.4223819673061371, "learning_rate": 0.0002971928743779674, "loss": 3.026397132873535, "step": 4640 }, { "epoch": 0.016666666666666666, "grad_norm": 0.441989541053772, "learning_rate": 0.0002971774738079025, "loss": 3.0403167724609377, "step": 4650 }, { "epoch": 0.016833333333333332, "grad_norm": 0.435830295085907, "learning_rate": 0.0002971620315089261, "loss": 3.1183338165283203, "step": 4660 }, { "epoch": 0.017, "grad_norm": 0.4655296802520752, "learning_rate": 0.00029714654748541657, "loss": 3.1077341079711913, "step": 4670 }, { "epoch": 0.017166666666666667, "grad_norm": 0.4390181601047516, "learning_rate": 0.000297131021741764, "loss": 3.0585168838500976, "step": 4680 }, { "epoch": 0.017333333333333333, "grad_norm": 0.46241506934165955, "learning_rate": 0.0002971154542823704, "loss": 3.0429901123046874, "step": 4690 }, { "epoch": 0.0175, "grad_norm": 0.42871007323265076, "learning_rate": 0.00029709984511164955, "loss": 3.0659711837768553, "step": 4700 }, { "epoch": 0.017666666666666667, "grad_norm": 0.4105594754219055, "learning_rate": 0.00029708419423402717, "loss": 3.0605178833007813, "step": 4710 }, { "epoch": 0.017833333333333333, "grad_norm": 0.45519882440567017, "learning_rate": 0.0002970685016539406, "loss": 3.048724365234375, "step": 4720 }, { "epoch": 0.018, "grad_norm": 0.42550894618034363, "learning_rate": 0.0002970527673758392, "loss": 2.9582677841186524, "step": 4730 }, { "epoch": 0.018166666666666668, "grad_norm": 0.4230113923549652, "learning_rate": 0.00029703699140418404, "loss": 3.0614328384399414, "step": 4740 }, { "epoch": 0.018333333333333333, "grad_norm": 0.474998414516449, "learning_rate": 0.0002970211737434481, "loss": 3.1223560333251954, "step": 4750 }, { "epoch": 0.0185, "grad_norm": 0.41748204827308655, "learning_rate": 0.00029700531439811603, "loss": 3.1135513305664064, "step": 4760 }, { "epoch": 0.018666666666666668, "grad_norm": 0.48395001888275146, "learning_rate": 0.0002969894133726845, "loss": 2.9970415115356444, "step": 4770 }, { "epoch": 0.018833333333333334, "grad_norm": 0.45481327176094055, "learning_rate": 0.0002969734706716618, "loss": 3.071116828918457, "step": 4780 }, { "epoch": 0.019, "grad_norm": 0.4932529926300049, "learning_rate": 0.0002969574862995683, "loss": 2.951759147644043, "step": 4790 }, { "epoch": 0.019166666666666665, "grad_norm": 0.45772960782051086, "learning_rate": 0.0002969414602609358, "loss": 2.9374309539794923, "step": 4800 }, { "epoch": 0.019333333333333334, "grad_norm": 0.40841713547706604, "learning_rate": 0.0002969253925603083, "loss": 2.9139503479003905, "step": 4810 }, { "epoch": 0.0195, "grad_norm": 0.422498494386673, "learning_rate": 0.00029690928320224127, "loss": 3.0036170959472654, "step": 4820 }, { "epoch": 0.019666666666666666, "grad_norm": 0.41859570145606995, "learning_rate": 0.0002968931321913023, "loss": 3.030325698852539, "step": 4830 }, { "epoch": 0.019833333333333335, "grad_norm": 0.4252321720123291, "learning_rate": 0.0002968769395320706, "loss": 2.9996585845947266, "step": 4840 }, { "epoch": 0.02, "grad_norm": 0.39273467659950256, "learning_rate": 0.00029686070522913727, "loss": 3.0428844451904298, "step": 4850 }, { "epoch": 0.020166666666666666, "grad_norm": 0.4008473753929138, "learning_rate": 0.0002968444292871051, "loss": 3.038602828979492, "step": 4860 }, { "epoch": 0.02033333333333333, "grad_norm": 0.39325961470603943, "learning_rate": 0.00029682811171058887, "loss": 3.0508377075195314, "step": 4870 }, { "epoch": 0.0205, "grad_norm": 0.42926836013793945, "learning_rate": 0.0002968117525042151, "loss": 2.9267642974853514, "step": 4880 }, { "epoch": 0.020666666666666667, "grad_norm": 0.3997902572154999, "learning_rate": 0.00029679535167262194, "loss": 2.908608627319336, "step": 4890 }, { "epoch": 0.020833333333333332, "grad_norm": 0.39283305406570435, "learning_rate": 0.00029677890922045954, "loss": 2.8062005996704102, "step": 4900 }, { "epoch": 0.021, "grad_norm": 0.5050291419029236, "learning_rate": 0.00029676242515238986, "loss": 2.977495574951172, "step": 4910 }, { "epoch": 0.021166666666666667, "grad_norm": 0.4664459228515625, "learning_rate": 0.0002967458994730865, "loss": 3.0423885345458985, "step": 4920 }, { "epoch": 0.021333333333333333, "grad_norm": 0.4809158742427826, "learning_rate": 0.000296729332187235, "loss": 2.9984725952148437, "step": 4930 }, { "epoch": 0.0215, "grad_norm": 0.4519208073616028, "learning_rate": 0.00029671272329953266, "loss": 2.9846240997314455, "step": 4940 }, { "epoch": 0.021666666666666667, "grad_norm": 0.4372696578502655, "learning_rate": 0.0002966960728146885, "loss": 3.0425092697143556, "step": 4950 }, { "epoch": 0.021833333333333333, "grad_norm": 0.42301109433174133, "learning_rate": 0.00029667938073742346, "loss": 2.9889686584472654, "step": 4960 }, { "epoch": 0.022, "grad_norm": 0.3952590525150299, "learning_rate": 0.0002966626470724702, "loss": 2.9601165771484377, "step": 4970 }, { "epoch": 0.022166666666666668, "grad_norm": 0.4400894343852997, "learning_rate": 0.0002966458718245732, "loss": 2.9297361373901367, "step": 4980 }, { "epoch": 0.022333333333333334, "grad_norm": 0.3968198001384735, "learning_rate": 0.0002966290549984886, "loss": 2.923467445373535, "step": 4990 }, { "epoch": 0.0225, "grad_norm": 0.4230905771255493, "learning_rate": 0.0002966121965989845, "loss": 2.8356529235839845, "step": 5000 }, { "epoch": 0.02266666666666667, "grad_norm": 0.4638538658618927, "learning_rate": 0.0002965952966308408, "loss": 2.751129913330078, "step": 5010 }, { "epoch": 0.022833333333333334, "grad_norm": 0.4058930277824402, "learning_rate": 0.000296578355098849, "loss": 2.8753490447998047, "step": 5020 }, { "epoch": 0.023, "grad_norm": 0.4356415271759033, "learning_rate": 0.0002965613720078126, "loss": 2.9448657989501954, "step": 5030 }, { "epoch": 0.023166666666666665, "grad_norm": 0.4432661533355713, "learning_rate": 0.0002965443473625467, "loss": 3.0600040435791014, "step": 5040 }, { "epoch": 0.023333333333333334, "grad_norm": 0.40705952048301697, "learning_rate": 0.0002965272811678783, "loss": 3.039891815185547, "step": 5050 }, { "epoch": 0.0235, "grad_norm": 0.4108118712902069, "learning_rate": 0.0002965101734286461, "loss": 3.0408308029174806, "step": 5060 }, { "epoch": 0.023666666666666666, "grad_norm": 0.41265869140625, "learning_rate": 0.0002964930241497007, "loss": 3.060531806945801, "step": 5070 }, { "epoch": 0.023833333333333335, "grad_norm": 0.3892955780029297, "learning_rate": 0.0002964758333359043, "loss": 2.961796188354492, "step": 5080 }, { "epoch": 0.024, "grad_norm": 0.38490405678749084, "learning_rate": 0.000296458600992131, "loss": 3.079538917541504, "step": 5090 }, { "epoch": 0.024166666666666666, "grad_norm": 0.39841511845588684, "learning_rate": 0.0002964413271232667, "loss": 2.9802776336669923, "step": 5100 }, { "epoch": 0.024333333333333332, "grad_norm": 0.4207797944545746, "learning_rate": 0.000296424011734209, "loss": 2.8793426513671876, "step": 5110 }, { "epoch": 0.0245, "grad_norm": 0.4052133858203888, "learning_rate": 0.0002964066548298673, "loss": 2.856357765197754, "step": 5120 }, { "epoch": 0.024666666666666667, "grad_norm": 0.3816324472427368, "learning_rate": 0.0002963892564151627, "loss": 2.9858179092407227, "step": 5130 }, { "epoch": 0.024833333333333332, "grad_norm": 0.47515869140625, "learning_rate": 0.0002963718164950282, "loss": 3.1763587951660157, "step": 5140 }, { "epoch": 0.025, "grad_norm": 0.40806320309638977, "learning_rate": 0.0002963543350744085, "loss": 3.151714324951172, "step": 5150 }, { "epoch": 0.025166666666666667, "grad_norm": 0.5163785219192505, "learning_rate": 0.00029633681215826004, "loss": 2.945247459411621, "step": 5160 }, { "epoch": 0.025333333333333333, "grad_norm": 0.4207831919193268, "learning_rate": 0.0002963192477515511, "loss": 3.0415407180786134, "step": 5170 }, { "epoch": 0.0255, "grad_norm": 0.40855222940444946, "learning_rate": 0.00029630164185926166, "loss": 3.1059539794921873, "step": 5180 }, { "epoch": 0.025666666666666667, "grad_norm": 0.3957916498184204, "learning_rate": 0.0002962839944863835, "loss": 3.0001821517944336, "step": 5190 }, { "epoch": 0.025833333333333333, "grad_norm": 0.39638176560401917, "learning_rate": 0.0002962663056379201, "loss": 3.1186132431030273, "step": 5200 }, { "epoch": 0.026, "grad_norm": 0.3970320224761963, "learning_rate": 0.0002962485753188867, "loss": 3.1292917251586916, "step": 5210 }, { "epoch": 0.026166666666666668, "grad_norm": 0.46836334466934204, "learning_rate": 0.00029623080353431046, "loss": 3.1594337463378905, "step": 5220 }, { "epoch": 0.026333333333333334, "grad_norm": 0.41316238045692444, "learning_rate": 0.0002962129902892301, "loss": 3.108985710144043, "step": 5230 }, { "epoch": 0.0265, "grad_norm": 0.38777822256088257, "learning_rate": 0.0002961951355886961, "loss": 3.050784873962402, "step": 5240 }, { "epoch": 0.02666666666666667, "grad_norm": 0.39757364988327026, "learning_rate": 0.00029617723943777094, "loss": 3.0273033142089845, "step": 5250 }, { "epoch": 0.026833333333333334, "grad_norm": 0.3906317949295044, "learning_rate": 0.00029615930184152855, "loss": 3.077456474304199, "step": 5260 }, { "epoch": 0.027, "grad_norm": 0.4051954746246338, "learning_rate": 0.00029614132280505475, "loss": 3.0868051528930662, "step": 5270 }, { "epoch": 0.027166666666666665, "grad_norm": 0.3984355032444, "learning_rate": 0.00029612330233344715, "loss": 3.0292882919311523, "step": 5280 }, { "epoch": 0.027333333333333334, "grad_norm": 0.46807315945625305, "learning_rate": 0.00029610524043181504, "loss": 3.0543338775634767, "step": 5290 }, { "epoch": 0.0275, "grad_norm": 0.4327753782272339, "learning_rate": 0.00029608713710527944, "loss": 3.0852005004882814, "step": 5300 }, { "epoch": 0.027666666666666666, "grad_norm": 0.4260406792163849, "learning_rate": 0.0002960689923589732, "loss": 3.109157180786133, "step": 5310 }, { "epoch": 0.027833333333333335, "grad_norm": 0.41041651368141174, "learning_rate": 0.00029605080619804074, "loss": 3.025878143310547, "step": 5320 }, { "epoch": 0.028, "grad_norm": 0.41694915294647217, "learning_rate": 0.0002960325786276385, "loss": 3.0681831359863283, "step": 5330 }, { "epoch": 0.028166666666666666, "grad_norm": 0.3778274655342102, "learning_rate": 0.0002960143096529344, "loss": 3.064166259765625, "step": 5340 }, { "epoch": 0.028333333333333332, "grad_norm": 0.3917562961578369, "learning_rate": 0.00029599599927910826, "loss": 3.0182376861572267, "step": 5350 }, { "epoch": 0.0285, "grad_norm": 0.42189955711364746, "learning_rate": 0.0002959776475113515, "loss": 3.016231155395508, "step": 5360 }, { "epoch": 0.028666666666666667, "grad_norm": 0.4121429920196533, "learning_rate": 0.00029595925435486745, "loss": 3.0514553070068358, "step": 5370 }, { "epoch": 0.028833333333333332, "grad_norm": 0.42146554589271545, "learning_rate": 0.000295940819814871, "loss": 3.052465629577637, "step": 5380 }, { "epoch": 0.029, "grad_norm": 0.377998948097229, "learning_rate": 0.000295922343896589, "loss": 2.8454496383666994, "step": 5390 }, { "epoch": 0.029166666666666667, "grad_norm": 0.39422616362571716, "learning_rate": 0.0002959038266052597, "loss": 2.6665836334228517, "step": 5400 }, { "epoch": 0.029333333333333333, "grad_norm": 0.3714645802974701, "learning_rate": 0.00029588526794613334, "loss": 2.6556703567504885, "step": 5410 }, { "epoch": 0.0295, "grad_norm": 0.39717552065849304, "learning_rate": 0.00029586666792447185, "loss": 2.736180305480957, "step": 5420 }, { "epoch": 0.029666666666666668, "grad_norm": 0.4036571979522705, "learning_rate": 0.0002958480265455489, "loss": 2.7086135864257814, "step": 5430 }, { "epoch": 0.029833333333333333, "grad_norm": 0.3743681013584137, "learning_rate": 0.0002958293438146497, "loss": 2.941759490966797, "step": 5440 }, { "epoch": 0.03, "grad_norm": 0.40706613659858704, "learning_rate": 0.0002958106197370714, "loss": 2.948502540588379, "step": 5450 }, { "epoch": 0.030166666666666668, "grad_norm": 0.4117063879966736, "learning_rate": 0.00029579185431812286, "loss": 2.9798656463623048, "step": 5460 }, { "epoch": 0.030333333333333334, "grad_norm": 0.4454329311847687, "learning_rate": 0.0002957730475631245, "loss": 2.9249732971191404, "step": 5470 }, { "epoch": 0.0305, "grad_norm": 0.39523670077323914, "learning_rate": 0.0002957541994774086, "loss": 2.8878499984741213, "step": 5480 }, { "epoch": 0.030666666666666665, "grad_norm": 0.36399638652801514, "learning_rate": 0.00029573531006631907, "loss": 2.9448997497558596, "step": 5490 }, { "epoch": 0.030833333333333334, "grad_norm": 0.4440824091434479, "learning_rate": 0.00029571637933521164, "loss": 2.878627395629883, "step": 5500 }, { "epoch": 0.031, "grad_norm": 0.4278319180011749, "learning_rate": 0.0002956974072894537, "loss": 2.9515048980712892, "step": 5510 }, { "epoch": 0.031166666666666665, "grad_norm": 0.40986528992652893, "learning_rate": 0.00029567839393442437, "loss": 2.9613771438598633, "step": 5520 }, { "epoch": 0.03133333333333333, "grad_norm": 0.3902529776096344, "learning_rate": 0.00029565933927551435, "loss": 2.923776054382324, "step": 5530 }, { "epoch": 0.0315, "grad_norm": 0.41012078523635864, "learning_rate": 0.0002956402433181263, "loss": 2.975874328613281, "step": 5540 }, { "epoch": 0.03166666666666667, "grad_norm": 0.40504106879234314, "learning_rate": 0.0002956211060676744, "loss": 2.909282112121582, "step": 5550 }, { "epoch": 0.03183333333333333, "grad_norm": 0.4037550091743469, "learning_rate": 0.0002956019275295846, "loss": 2.9982988357543947, "step": 5560 }, { "epoch": 0.032, "grad_norm": 0.3706510663032532, "learning_rate": 0.00029558270770929456, "loss": 2.942987060546875, "step": 5570 }, { "epoch": 0.03216666666666667, "grad_norm": 0.3897784650325775, "learning_rate": 0.00029556344661225357, "loss": 2.9039384841918947, "step": 5580 }, { "epoch": 0.03233333333333333, "grad_norm": 0.4270058870315552, "learning_rate": 0.0002955441442439228, "loss": 2.9499792098999023, "step": 5590 }, { "epoch": 0.0325, "grad_norm": 0.39148110151290894, "learning_rate": 0.0002955248006097749, "loss": 3.0189350128173826, "step": 5600 }, { "epoch": 0.03266666666666666, "grad_norm": 0.3739214241504669, "learning_rate": 0.00029550541571529443, "loss": 2.86805419921875, "step": 5610 }, { "epoch": 0.03283333333333333, "grad_norm": 0.37678641080856323, "learning_rate": 0.00029548598956597745, "loss": 2.8048625946044923, "step": 5620 }, { "epoch": 0.033, "grad_norm": 0.38853731751441956, "learning_rate": 0.00029546652216733187, "loss": 2.921887969970703, "step": 5630 }, { "epoch": 0.033166666666666664, "grad_norm": 0.40962421894073486, "learning_rate": 0.0002954470135248772, "loss": 2.859710121154785, "step": 5640 }, { "epoch": 0.03333333333333333, "grad_norm": 0.4202129542827606, "learning_rate": 0.0002954274636441448, "loss": 2.8912075042724608, "step": 5650 }, { "epoch": 0.0335, "grad_norm": 0.3784216642379761, "learning_rate": 0.00029540787253067746, "loss": 2.8085119247436525, "step": 5660 }, { "epoch": 0.033666666666666664, "grad_norm": 0.3924359977245331, "learning_rate": 0.0002953882401900298, "loss": 2.913351821899414, "step": 5670 }, { "epoch": 0.03383333333333333, "grad_norm": 0.40623074769973755, "learning_rate": 0.00029536856662776826, "loss": 2.944149398803711, "step": 5680 }, { "epoch": 0.034, "grad_norm": 0.4099932014942169, "learning_rate": 0.00029534885184947076, "loss": 2.875970649719238, "step": 5690 }, { "epoch": 0.034166666666666665, "grad_norm": 0.36651095747947693, "learning_rate": 0.00029532909586072706, "loss": 2.841335105895996, "step": 5700 }, { "epoch": 0.034333333333333334, "grad_norm": 0.3954033851623535, "learning_rate": 0.00029530929866713844, "loss": 2.87349910736084, "step": 5710 }, { "epoch": 0.0345, "grad_norm": 0.3759227395057678, "learning_rate": 0.00029528946027431797, "loss": 2.8565431594848634, "step": 5720 }, { "epoch": 0.034666666666666665, "grad_norm": 0.35877352952957153, "learning_rate": 0.0002952695806878905, "loss": 2.806620407104492, "step": 5730 }, { "epoch": 0.034833333333333334, "grad_norm": 0.3754509389400482, "learning_rate": 0.00029524965991349226, "loss": 2.7679475784301757, "step": 5740 }, { "epoch": 0.035, "grad_norm": 0.34031248092651367, "learning_rate": 0.00029522969795677147, "loss": 2.670439910888672, "step": 5750 }, { "epoch": 0.035166666666666666, "grad_norm": 0.36299699544906616, "learning_rate": 0.0002952096948233879, "loss": 2.76367073059082, "step": 5760 }, { "epoch": 0.035333333333333335, "grad_norm": 0.3920454680919647, "learning_rate": 0.00029518965051901296, "loss": 2.814274215698242, "step": 5770 }, { "epoch": 0.0355, "grad_norm": 0.36294087767601013, "learning_rate": 0.0002951695650493298, "loss": 2.7482378005981447, "step": 5780 }, { "epoch": 0.035666666666666666, "grad_norm": 0.36339011788368225, "learning_rate": 0.00029514943842003316, "loss": 2.7880197525024415, "step": 5790 }, { "epoch": 0.035833333333333335, "grad_norm": 0.3664824962615967, "learning_rate": 0.0002951292706368295, "loss": 2.74920539855957, "step": 5800 }, { "epoch": 0.036, "grad_norm": 0.37298399209976196, "learning_rate": 0.0002951090617054371, "loss": 2.7620262145996093, "step": 5810 }, { "epoch": 0.036166666666666666, "grad_norm": 0.5309566259384155, "learning_rate": 0.0002950888116315855, "loss": 2.880209732055664, "step": 5820 }, { "epoch": 0.036333333333333336, "grad_norm": 0.3781473636627197, "learning_rate": 0.00029506852042101634, "loss": 2.832257080078125, "step": 5830 }, { "epoch": 0.0365, "grad_norm": 0.3755476474761963, "learning_rate": 0.0002950481880794827, "loss": 2.72965145111084, "step": 5840 }, { "epoch": 0.03666666666666667, "grad_norm": 0.3585830628871918, "learning_rate": 0.0002950278146127493, "loss": 2.7756679534912108, "step": 5850 }, { "epoch": 0.036833333333333336, "grad_norm": 0.378136545419693, "learning_rate": 0.0002950074000265927, "loss": 2.8998336791992188, "step": 5860 }, { "epoch": 0.037, "grad_norm": 0.3947715759277344, "learning_rate": 0.0002949869443268009, "loss": 2.9380889892578126, "step": 5870 }, { "epoch": 0.03716666666666667, "grad_norm": 0.40435487031936646, "learning_rate": 0.00029496644751917376, "loss": 2.7399545669555665, "step": 5880 }, { "epoch": 0.037333333333333336, "grad_norm": 0.37711283564567566, "learning_rate": 0.00029494590960952265, "loss": 2.588311195373535, "step": 5890 }, { "epoch": 0.0375, "grad_norm": 0.4344159960746765, "learning_rate": 0.0002949253306036706, "loss": 2.574771499633789, "step": 5900 }, { "epoch": 0.03766666666666667, "grad_norm": 0.4346453547477722, "learning_rate": 0.0002949047105074524, "loss": 2.50732364654541, "step": 5910 }, { "epoch": 0.03783333333333333, "grad_norm": 0.37476930022239685, "learning_rate": 0.00029488404932671435, "loss": 2.601269340515137, "step": 5920 }, { "epoch": 0.038, "grad_norm": 0.41381752490997314, "learning_rate": 0.0002948633470673145, "loss": 2.5921453475952148, "step": 5930 }, { "epoch": 0.03816666666666667, "grad_norm": 0.39000943303108215, "learning_rate": 0.0002948426037351225, "loss": 2.6637712478637696, "step": 5940 }, { "epoch": 0.03833333333333333, "grad_norm": 0.37929767370224, "learning_rate": 0.00029482181933601973, "loss": 2.811085319519043, "step": 5950 }, { "epoch": 0.0385, "grad_norm": 0.3917810618877411, "learning_rate": 0.00029480099387589907, "loss": 2.6634618759155275, "step": 5960 }, { "epoch": 0.03866666666666667, "grad_norm": 0.3915526866912842, "learning_rate": 0.00029478012736066517, "loss": 2.778007698059082, "step": 5970 }, { "epoch": 0.03883333333333333, "grad_norm": 0.369268000125885, "learning_rate": 0.00029475921979623423, "loss": 2.696705627441406, "step": 5980 }, { "epoch": 0.039, "grad_norm": 0.40467938780784607, "learning_rate": 0.00029473827118853415, "loss": 2.8099590301513673, "step": 5990 }, { "epoch": 0.03916666666666667, "grad_norm": 0.3687494099140167, "learning_rate": 0.00029471728154350444, "loss": 2.881623649597168, "step": 6000 }, { "epoch": 0.03933333333333333, "grad_norm": 0.3854578137397766, "learning_rate": 0.00029469625086709625, "loss": 2.7410490036010744, "step": 6010 }, { "epoch": 0.0395, "grad_norm": 0.383655309677124, "learning_rate": 0.00029467517916527235, "loss": 2.7792194366455076, "step": 6020 }, { "epoch": 0.03966666666666667, "grad_norm": 0.3862553834915161, "learning_rate": 0.00029465406644400713, "loss": 2.7575822830200196, "step": 6030 }, { "epoch": 0.03983333333333333, "grad_norm": 0.39918553829193115, "learning_rate": 0.00029463291270928675, "loss": 2.9260843276977537, "step": 6040 }, { "epoch": 0.04, "grad_norm": 0.38666027784347534, "learning_rate": 0.0002946117179671087, "loss": 2.838565635681152, "step": 6050 }, { "epoch": 0.04016666666666667, "grad_norm": 0.3723886013031006, "learning_rate": 0.0002945904822234824, "loss": 2.836383819580078, "step": 6060 }, { "epoch": 0.04033333333333333, "grad_norm": 0.4081844985485077, "learning_rate": 0.0002945692054844288, "loss": 2.949822425842285, "step": 6070 }, { "epoch": 0.0405, "grad_norm": 0.3790690302848816, "learning_rate": 0.00029454788775598037, "loss": 3.035497856140137, "step": 6080 }, { "epoch": 0.04066666666666666, "grad_norm": 0.37471655011177063, "learning_rate": 0.00029452652904418127, "loss": 3.0849964141845705, "step": 6090 }, { "epoch": 0.04083333333333333, "grad_norm": 0.39325064420700073, "learning_rate": 0.0002945051293550874, "loss": 3.193227767944336, "step": 6100 }, { "epoch": 0.041, "grad_norm": 0.42698314785957336, "learning_rate": 0.00029448368869476604, "loss": 3.1598060607910154, "step": 6110 }, { "epoch": 0.041166666666666664, "grad_norm": 0.40960320830345154, "learning_rate": 0.0002944622070692963, "loss": 3.2183509826660157, "step": 6120 }, { "epoch": 0.04133333333333333, "grad_norm": 0.3762412965297699, "learning_rate": 0.0002944406844847688, "loss": 3.1716684341430663, "step": 6130 }, { "epoch": 0.0415, "grad_norm": 0.4189164340496063, "learning_rate": 0.00029441912094728574, "loss": 3.1513088226318358, "step": 6140 }, { "epoch": 0.041666666666666664, "grad_norm": 0.4057857394218445, "learning_rate": 0.00029439751646296106, "loss": 3.0799839019775392, "step": 6150 }, { "epoch": 0.041833333333333333, "grad_norm": 0.4074974060058594, "learning_rate": 0.00029437587103792016, "loss": 2.9888477325439453, "step": 6160 }, { "epoch": 0.042, "grad_norm": 0.371817409992218, "learning_rate": 0.0002943541846783002, "loss": 2.948713684082031, "step": 6170 }, { "epoch": 0.042166666666666665, "grad_norm": 0.37995588779449463, "learning_rate": 0.0002943324573902498, "loss": 2.8891929626464843, "step": 6180 }, { "epoch": 0.042333333333333334, "grad_norm": 0.3674244284629822, "learning_rate": 0.0002943106891799293, "loss": 2.796030807495117, "step": 6190 }, { "epoch": 0.0425, "grad_norm": 0.36154231429100037, "learning_rate": 0.0002942888800535105, "loss": 2.850292778015137, "step": 6200 }, { "epoch": 0.042666666666666665, "grad_norm": 0.38896098732948303, "learning_rate": 0.0002942670300171771, "loss": 2.7989007949829103, "step": 6210 }, { "epoch": 0.042833333333333334, "grad_norm": 0.3838213384151459, "learning_rate": 0.00029424513907712395, "loss": 2.896153450012207, "step": 6220 }, { "epoch": 0.043, "grad_norm": 0.40118804574012756, "learning_rate": 0.0002942232072395579, "loss": 3.0006587982177733, "step": 6230 }, { "epoch": 0.043166666666666666, "grad_norm": 0.38531655073165894, "learning_rate": 0.0002942012345106971, "loss": 2.9570644378662108, "step": 6240 }, { "epoch": 0.043333333333333335, "grad_norm": 0.38946714997291565, "learning_rate": 0.0002941792208967716, "loss": 2.946304702758789, "step": 6250 }, { "epoch": 0.0435, "grad_norm": 0.39669328927993774, "learning_rate": 0.00029415716640402275, "loss": 2.962474822998047, "step": 6260 }, { "epoch": 0.043666666666666666, "grad_norm": 0.3736763298511505, "learning_rate": 0.0002941350710387037, "loss": 3.041091728210449, "step": 6270 }, { "epoch": 0.043833333333333335, "grad_norm": 0.37087109684944153, "learning_rate": 0.000294112934807079, "loss": 2.9812034606933593, "step": 6280 }, { "epoch": 0.044, "grad_norm": 0.3676629066467285, "learning_rate": 0.00029409075771542496, "loss": 2.827647590637207, "step": 6290 }, { "epoch": 0.04416666666666667, "grad_norm": 0.3785516619682312, "learning_rate": 0.0002940685397700294, "loss": 2.8037031173706053, "step": 6300 }, { "epoch": 0.044333333333333336, "grad_norm": 0.3679490089416504, "learning_rate": 0.00029404628097719166, "loss": 2.806118965148926, "step": 6310 }, { "epoch": 0.0445, "grad_norm": 0.37308770418167114, "learning_rate": 0.0002940239813432228, "loss": 2.797303581237793, "step": 6320 }, { "epoch": 0.04466666666666667, "grad_norm": 0.3598901033401489, "learning_rate": 0.00029400164087444537, "loss": 2.756656455993652, "step": 6330 }, { "epoch": 0.044833333333333336, "grad_norm": 0.3724973797798157, "learning_rate": 0.0002939792595771935, "loss": 2.9482675552368165, "step": 6340 }, { "epoch": 0.045, "grad_norm": 0.4032357931137085, "learning_rate": 0.0002939568374578129, "loss": 2.929281997680664, "step": 6350 }, { "epoch": 0.04516666666666667, "grad_norm": 0.3482721447944641, "learning_rate": 0.00029393437452266097, "loss": 2.8269603729248045, "step": 6360 }, { "epoch": 0.04533333333333334, "grad_norm": 0.36250752210617065, "learning_rate": 0.0002939118707781064, "loss": 2.826327323913574, "step": 6370 }, { "epoch": 0.0455, "grad_norm": 0.38788485527038574, "learning_rate": 0.00029388932623052976, "loss": 2.940120315551758, "step": 6380 }, { "epoch": 0.04566666666666667, "grad_norm": 0.34600749611854553, "learning_rate": 0.000293866740886323, "loss": 2.942264747619629, "step": 6390 }, { "epoch": 0.04583333333333333, "grad_norm": 0.4335802495479584, "learning_rate": 0.0002938441147518897, "loss": 2.9643169403076173, "step": 6400 }, { "epoch": 0.046, "grad_norm": 0.38085460662841797, "learning_rate": 0.00029382144783364505, "loss": 2.8335092544555662, "step": 6410 }, { "epoch": 0.04616666666666667, "grad_norm": 0.3866496682167053, "learning_rate": 0.0002937987401380157, "loss": 2.8184886932373048, "step": 6420 }, { "epoch": 0.04633333333333333, "grad_norm": 0.3690461814403534, "learning_rate": 0.0002937759916714399, "loss": 2.7712963104248045, "step": 6430 }, { "epoch": 0.0465, "grad_norm": 0.3848920464515686, "learning_rate": 0.00029375320244036753, "loss": 2.613561248779297, "step": 6440 }, { "epoch": 0.04666666666666667, "grad_norm": 0.3725181221961975, "learning_rate": 0.00029373037245125996, "loss": 2.7794801712036135, "step": 6450 }, { "epoch": 0.04683333333333333, "grad_norm": 0.38816165924072266, "learning_rate": 0.00029370750171059005, "loss": 2.70468692779541, "step": 6460 }, { "epoch": 0.047, "grad_norm": 0.36018455028533936, "learning_rate": 0.0002936845902248424, "loss": 2.8430145263671873, "step": 6470 }, { "epoch": 0.04716666666666667, "grad_norm": 0.3817792236804962, "learning_rate": 0.00029366163800051295, "loss": 2.9502981185913084, "step": 6480 }, { "epoch": 0.04733333333333333, "grad_norm": 0.3806685209274292, "learning_rate": 0.0002936386450441094, "loss": 3.0032901763916016, "step": 6490 }, { "epoch": 0.0475, "grad_norm": 0.3631237745285034, "learning_rate": 0.00029361561136215085, "loss": 3.043329429626465, "step": 6500 }, { "epoch": 0.04766666666666667, "grad_norm": 0.34963342547416687, "learning_rate": 0.00029359253696116793, "loss": 2.730146026611328, "step": 6510 }, { "epoch": 0.04783333333333333, "grad_norm": 0.3734063506126404, "learning_rate": 0.00029356942184770296, "loss": 2.919230079650879, "step": 6520 }, { "epoch": 0.048, "grad_norm": 0.3652487099170685, "learning_rate": 0.00029354626602830973, "loss": 2.7738105773925783, "step": 6530 }, { "epoch": 0.04816666666666667, "grad_norm": 0.3984633684158325, "learning_rate": 0.00029352306950955346, "loss": 2.832376480102539, "step": 6540 }, { "epoch": 0.04833333333333333, "grad_norm": 0.40588605403900146, "learning_rate": 0.00029349983229801107, "loss": 3.0197357177734374, "step": 6550 }, { "epoch": 0.0485, "grad_norm": 0.37554314732551575, "learning_rate": 0.00029347655440027095, "loss": 2.992153549194336, "step": 6560 }, { "epoch": 0.048666666666666664, "grad_norm": 0.36801284551620483, "learning_rate": 0.00029345323582293306, "loss": 2.919198989868164, "step": 6570 }, { "epoch": 0.04883333333333333, "grad_norm": 0.3883112072944641, "learning_rate": 0.0002934298765726088, "loss": 2.9609262466430666, "step": 6580 }, { "epoch": 0.049, "grad_norm": 0.42965978384017944, "learning_rate": 0.00029340647665592124, "loss": 3.070623779296875, "step": 6590 }, { "epoch": 0.049166666666666664, "grad_norm": 0.3925585448741913, "learning_rate": 0.00029338303607950487, "loss": 3.0677051544189453, "step": 6600 }, { "epoch": 0.04933333333333333, "grad_norm": 0.4007953107357025, "learning_rate": 0.00029335955485000577, "loss": 3.0510555267333985, "step": 6610 }, { "epoch": 0.0495, "grad_norm": 0.38611555099487305, "learning_rate": 0.00029333603297408147, "loss": 2.9069192886352537, "step": 6620 }, { "epoch": 0.049666666666666665, "grad_norm": 0.5704911351203918, "learning_rate": 0.0002933124704584011, "loss": 3.010939598083496, "step": 6630 }, { "epoch": 0.049833333333333334, "grad_norm": 0.5911468863487244, "learning_rate": 0.00029328886730964533, "loss": 2.9140695571899413, "step": 6640 }, { "epoch": 0.05, "grad_norm": 0.387665331363678, "learning_rate": 0.00029326522353450625, "loss": 2.7545188903808593, "step": 6650 }, { "epoch": 0.050166666666666665, "grad_norm": 0.398221492767334, "learning_rate": 0.00029324153913968756, "loss": 2.9847917556762695, "step": 6660 }, { "epoch": 0.050333333333333334, "grad_norm": 0.38730916380882263, "learning_rate": 0.00029321781413190444, "loss": 3.0818609237670898, "step": 6670 }, { "epoch": 0.0505, "grad_norm": 0.39305347204208374, "learning_rate": 0.00029319404851788365, "loss": 3.169163703918457, "step": 6680 }, { "epoch": 0.050666666666666665, "grad_norm": 0.40305784344673157, "learning_rate": 0.0002931702423043633, "loss": 3.0836387634277345, "step": 6690 }, { "epoch": 0.050833333333333335, "grad_norm": 0.4043393135070801, "learning_rate": 0.00029314639549809314, "loss": 3.086305046081543, "step": 6700 }, { "epoch": 0.051, "grad_norm": 0.40028905868530273, "learning_rate": 0.00029312250810583447, "loss": 3.1011959075927735, "step": 6710 }, { "epoch": 0.051166666666666666, "grad_norm": 0.3988712728023529, "learning_rate": 0.0002930985801343599, "loss": 3.0316585540771483, "step": 6720 }, { "epoch": 0.051333333333333335, "grad_norm": 0.3803875744342804, "learning_rate": 0.0002930746115904539, "loss": 2.7931013107299805, "step": 6730 }, { "epoch": 0.0515, "grad_norm": 0.3882600963115692, "learning_rate": 0.00029305060248091194, "loss": 2.8900781631469727, "step": 6740 }, { "epoch": 0.051666666666666666, "grad_norm": 0.3673243820667267, "learning_rate": 0.0002930265528125415, "loss": 2.9202960968017577, "step": 6750 }, { "epoch": 0.051833333333333335, "grad_norm": 0.3509467542171478, "learning_rate": 0.00029300246259216124, "loss": 2.9142375946044923, "step": 6760 }, { "epoch": 0.052, "grad_norm": 0.37516164779663086, "learning_rate": 0.0002929783318266014, "loss": 2.9687660217285154, "step": 6770 }, { "epoch": 0.05216666666666667, "grad_norm": 0.3723934590816498, "learning_rate": 0.0002929541605227037, "loss": 2.9943012237548827, "step": 6780 }, { "epoch": 0.052333333333333336, "grad_norm": 0.4237174093723297, "learning_rate": 0.00029292994868732145, "loss": 3.1001874923706056, "step": 6790 }, { "epoch": 0.0525, "grad_norm": 0.4308694303035736, "learning_rate": 0.0002929056963273193, "loss": 3.090090751647949, "step": 6800 }, { "epoch": 0.05266666666666667, "grad_norm": 0.3867776095867157, "learning_rate": 0.0002928814034495736, "loss": 3.0016979217529296, "step": 6810 }, { "epoch": 0.052833333333333336, "grad_norm": 0.39471495151519775, "learning_rate": 0.0002928570700609719, "loss": 3.146613883972168, "step": 6820 }, { "epoch": 0.053, "grad_norm": 0.3749244213104248, "learning_rate": 0.0002928326961684134, "loss": 3.1620513916015627, "step": 6830 }, { "epoch": 0.05316666666666667, "grad_norm": 0.39891645312309265, "learning_rate": 0.000292808281778809, "loss": 3.103597640991211, "step": 6840 }, { "epoch": 0.05333333333333334, "grad_norm": 0.3882020115852356, "learning_rate": 0.00029278382689908053, "loss": 3.1575523376464845, "step": 6850 }, { "epoch": 0.0535, "grad_norm": 0.405156672000885, "learning_rate": 0.0002927593315361619, "loss": 3.105808067321777, "step": 6860 }, { "epoch": 0.05366666666666667, "grad_norm": 0.3829409182071686, "learning_rate": 0.0002927347956969981, "loss": 3.0567110061645506, "step": 6870 }, { "epoch": 0.05383333333333333, "grad_norm": 0.38465431332588196, "learning_rate": 0.0002927102193885457, "loss": 3.0914487838745117, "step": 6880 }, { "epoch": 0.054, "grad_norm": 0.401638925075531, "learning_rate": 0.0002926856026177729, "loss": 3.0777496337890624, "step": 6890 }, { "epoch": 0.05416666666666667, "grad_norm": 0.3893527388572693, "learning_rate": 0.0002926609453916591, "loss": 3.020836067199707, "step": 6900 }, { "epoch": 0.05433333333333333, "grad_norm": 0.3911438286304474, "learning_rate": 0.00029263624771719537, "loss": 2.996641731262207, "step": 6910 }, { "epoch": 0.0545, "grad_norm": 0.40074771642684937, "learning_rate": 0.00029261150960138417, "loss": 3.094496726989746, "step": 6920 }, { "epoch": 0.05466666666666667, "grad_norm": 0.3768022954463959, "learning_rate": 0.0002925867310512395, "loss": 3.0974607467651367, "step": 6930 }, { "epoch": 0.05483333333333333, "grad_norm": 1.0672612190246582, "learning_rate": 0.0002925619120737867, "loss": 2.986092758178711, "step": 6940 }, { "epoch": 0.055, "grad_norm": 0.39106905460357666, "learning_rate": 0.00029253705267606267, "loss": 3.122268867492676, "step": 6950 }, { "epoch": 0.05516666666666667, "grad_norm": 0.3796605169773102, "learning_rate": 0.00029251215286511573, "loss": 3.091052436828613, "step": 6960 }, { "epoch": 0.05533333333333333, "grad_norm": 0.3792901337146759, "learning_rate": 0.00029248721264800567, "loss": 3.083469200134277, "step": 6970 }, { "epoch": 0.0555, "grad_norm": 0.40256309509277344, "learning_rate": 0.00029246223203180377, "loss": 3.1180984497070314, "step": 6980 }, { "epoch": 0.05566666666666667, "grad_norm": 0.4001685082912445, "learning_rate": 0.00029243721102359274, "loss": 3.1026607513427735, "step": 6990 }, { "epoch": 0.05583333333333333, "grad_norm": 0.40601831674575806, "learning_rate": 0.00029241214963046663, "loss": 3.1589757919311525, "step": 7000 }, { "epoch": 0.056, "grad_norm": 0.3928051292896271, "learning_rate": 0.00029238704785953113, "loss": 3.149326705932617, "step": 7010 }, { "epoch": 0.05616666666666666, "grad_norm": 0.4036010205745697, "learning_rate": 0.0002923619057179033, "loss": 3.137180137634277, "step": 7020 }, { "epoch": 0.05633333333333333, "grad_norm": 0.41541367769241333, "learning_rate": 0.0002923367232127116, "loss": 3.155481147766113, "step": 7030 }, { "epoch": 0.0565, "grad_norm": 0.3809373378753662, "learning_rate": 0.00029231150035109596, "loss": 3.114410400390625, "step": 7040 }, { "epoch": 0.056666666666666664, "grad_norm": 0.3731016218662262, "learning_rate": 0.0002922862371402078, "loss": 3.105120849609375, "step": 7050 }, { "epoch": 0.05683333333333333, "grad_norm": 0.38785654306411743, "learning_rate": 0.0002922609335872099, "loss": 3.043816566467285, "step": 7060 }, { "epoch": 0.057, "grad_norm": 0.4262470602989197, "learning_rate": 0.00029223558969927656, "loss": 3.1006845474243163, "step": 7070 }, { "epoch": 0.057166666666666664, "grad_norm": 0.38110196590423584, "learning_rate": 0.00029221020548359346, "loss": 3.0751932144165037, "step": 7080 }, { "epoch": 0.05733333333333333, "grad_norm": 0.3852882385253906, "learning_rate": 0.0002921847809473578, "loss": 3.1745590209960937, "step": 7090 }, { "epoch": 0.0575, "grad_norm": 0.3707679212093353, "learning_rate": 0.000292159316097778, "loss": 3.1158437728881836, "step": 7100 }, { "epoch": 0.057666666666666665, "grad_norm": 0.3930973410606384, "learning_rate": 0.00029213381094207416, "loss": 3.1524255752563475, "step": 7110 }, { "epoch": 0.057833333333333334, "grad_norm": 0.3957115113735199, "learning_rate": 0.0002921082654874777, "loss": 3.17779541015625, "step": 7120 }, { "epoch": 0.058, "grad_norm": 0.3818974792957306, "learning_rate": 0.00029208267974123144, "loss": 3.180965614318848, "step": 7130 }, { "epoch": 0.058166666666666665, "grad_norm": 0.4084106981754303, "learning_rate": 0.00029205705371058966, "loss": 3.189291763305664, "step": 7140 }, { "epoch": 0.058333333333333334, "grad_norm": 0.37610405683517456, "learning_rate": 0.000292031387402818, "loss": 2.9906883239746094, "step": 7150 }, { "epoch": 0.0585, "grad_norm": 0.36395132541656494, "learning_rate": 0.00029200568082519366, "loss": 2.816435432434082, "step": 7160 }, { "epoch": 0.058666666666666666, "grad_norm": 0.3990066349506378, "learning_rate": 0.00029197993398500516, "loss": 2.733071136474609, "step": 7170 }, { "epoch": 0.058833333333333335, "grad_norm": 0.37727782130241394, "learning_rate": 0.0002919541468895524, "loss": 2.7273191452026366, "step": 7180 }, { "epoch": 0.059, "grad_norm": 0.40415671467781067, "learning_rate": 0.0002919283195461467, "loss": 2.8836151123046876, "step": 7190 }, { "epoch": 0.059166666666666666, "grad_norm": 0.37808772921562195, "learning_rate": 0.000291902451962111, "loss": 2.766579246520996, "step": 7200 }, { "epoch": 0.059333333333333335, "grad_norm": 0.3718058168888092, "learning_rate": 0.0002918765441447793, "loss": 2.7563850402832033, "step": 7210 }, { "epoch": 0.0595, "grad_norm": 0.365247517824173, "learning_rate": 0.0002918505961014973, "loss": 2.736806869506836, "step": 7220 }, { "epoch": 0.059666666666666666, "grad_norm": 0.34523555636405945, "learning_rate": 0.0002918246078396219, "loss": 2.7504671096801756, "step": 7230 }, { "epoch": 0.059833333333333336, "grad_norm": 0.37109723687171936, "learning_rate": 0.00029179857936652157, "loss": 2.695194625854492, "step": 7240 }, { "epoch": 0.06, "grad_norm": 0.3737955391407013, "learning_rate": 0.00029177251068957606, "loss": 2.621052932739258, "step": 7250 }, { "epoch": 0.06016666666666667, "grad_norm": 0.3929753303527832, "learning_rate": 0.00029174640181617664, "loss": 2.6446352005004883, "step": 7260 }, { "epoch": 0.060333333333333336, "grad_norm": 0.3471451699733734, "learning_rate": 0.0002917202527537258, "loss": 2.620621109008789, "step": 7270 }, { "epoch": 0.0605, "grad_norm": 0.42746540904045105, "learning_rate": 0.0002916940635096376, "loss": 2.6797019958496096, "step": 7280 }, { "epoch": 0.06066666666666667, "grad_norm": 0.35947850346565247, "learning_rate": 0.0002916678340913374, "loss": 2.633715057373047, "step": 7290 }, { "epoch": 0.060833333333333336, "grad_norm": 0.36535149812698364, "learning_rate": 0.000291641564506262, "loss": 2.5058975219726562, "step": 7300 }, { "epoch": 0.061, "grad_norm": 0.38358670473098755, "learning_rate": 0.00029161525476185945, "loss": 2.5962581634521484, "step": 7310 }, { "epoch": 0.06116666666666667, "grad_norm": 0.3580729365348816, "learning_rate": 0.0002915889048655894, "loss": 2.473897171020508, "step": 7320 }, { "epoch": 0.06133333333333333, "grad_norm": 0.363400936126709, "learning_rate": 0.0002915625148249228, "loss": 2.6062271118164064, "step": 7330 }, { "epoch": 0.0615, "grad_norm": 0.3609282672405243, "learning_rate": 0.0002915360846473419, "loss": 2.629804229736328, "step": 7340 }, { "epoch": 0.06166666666666667, "grad_norm": 0.3657326102256775, "learning_rate": 0.0002915096143403404, "loss": 2.5113271713256835, "step": 7350 }, { "epoch": 0.06183333333333333, "grad_norm": 0.358372300863266, "learning_rate": 0.00029148310391142334, "loss": 2.599112892150879, "step": 7360 }, { "epoch": 0.062, "grad_norm": 0.35465332865715027, "learning_rate": 0.0002914565533681072, "loss": 2.658061408996582, "step": 7370 }, { "epoch": 0.06216666666666667, "grad_norm": 0.3702649474143982, "learning_rate": 0.0002914299627179198, "loss": 2.5538434982299805, "step": 7380 }, { "epoch": 0.06233333333333333, "grad_norm": 0.3724445700645447, "learning_rate": 0.00029140333196840033, "loss": 2.6205028533935546, "step": 7390 }, { "epoch": 0.0625, "grad_norm": 0.3595244586467743, "learning_rate": 0.00029137666112709934, "loss": 2.5793956756591796, "step": 7400 }, { "epoch": 0.06266666666666666, "grad_norm": 0.34365132451057434, "learning_rate": 0.0002913499502015788, "loss": 2.4857330322265625, "step": 7410 }, { "epoch": 0.06283333333333334, "grad_norm": 0.3451862335205078, "learning_rate": 0.0002913231991994119, "loss": 2.47800235748291, "step": 7420 }, { "epoch": 0.063, "grad_norm": 0.3589513301849365, "learning_rate": 0.0002912964081281834, "loss": 2.502494239807129, "step": 7430 }, { "epoch": 0.06316666666666666, "grad_norm": 0.36998748779296875, "learning_rate": 0.0002912695769954893, "loss": 2.4787002563476563, "step": 7440 }, { "epoch": 0.06333333333333334, "grad_norm": 0.32939860224723816, "learning_rate": 0.0002912427058089369, "loss": 2.658931922912598, "step": 7450 }, { "epoch": 0.0635, "grad_norm": 0.38151815533638, "learning_rate": 0.00029121579457614495, "loss": 2.903098297119141, "step": 7460 }, { "epoch": 0.06366666666666666, "grad_norm": 0.4199788570404053, "learning_rate": 0.0002911888433047436, "loss": 2.873810958862305, "step": 7470 }, { "epoch": 0.06383333333333334, "grad_norm": 0.3544920086860657, "learning_rate": 0.0002911618520023742, "loss": 2.917632293701172, "step": 7480 }, { "epoch": 0.064, "grad_norm": 0.39268478751182556, "learning_rate": 0.0002911348206766896, "loss": 2.9814647674560546, "step": 7490 }, { "epoch": 0.06416666666666666, "grad_norm": 0.3877812325954437, "learning_rate": 0.00029110774933535394, "loss": 2.9182886123657226, "step": 7500 }, { "epoch": 0.06433333333333334, "grad_norm": 0.39261719584465027, "learning_rate": 0.0002910806379860426, "loss": 2.9275138854980467, "step": 7510 }, { "epoch": 0.0645, "grad_norm": 0.3577132821083069, "learning_rate": 0.00029105348663644256, "loss": 2.992527198791504, "step": 7520 }, { "epoch": 0.06466666666666666, "grad_norm": 0.3782998025417328, "learning_rate": 0.00029102629529425183, "loss": 2.9435182571411134, "step": 7530 }, { "epoch": 0.06483333333333334, "grad_norm": 0.36852407455444336, "learning_rate": 0.00029099906396718003, "loss": 2.949845886230469, "step": 7540 }, { "epoch": 0.065, "grad_norm": 0.3805658519268036, "learning_rate": 0.0002909717926629479, "loss": 2.9669191360473635, "step": 7550 }, { "epoch": 0.06516666666666666, "grad_norm": 0.3757810592651367, "learning_rate": 0.0002909444813892877, "loss": 2.9397300720214843, "step": 7560 }, { "epoch": 0.06533333333333333, "grad_norm": 0.3829989433288574, "learning_rate": 0.00029091713015394293, "loss": 2.986714553833008, "step": 7570 }, { "epoch": 0.0655, "grad_norm": 0.36800798773765564, "learning_rate": 0.0002908897389646683, "loss": 2.959121513366699, "step": 7580 }, { "epoch": 0.06566666666666666, "grad_norm": 0.38914063572883606, "learning_rate": 0.0002908623078292301, "loss": 2.9379350662231447, "step": 7590 }, { "epoch": 0.06583333333333333, "grad_norm": 0.3821718990802765, "learning_rate": 0.00029083483675540586, "loss": 2.9452192306518556, "step": 7600 }, { "epoch": 0.066, "grad_norm": 0.3927645981311798, "learning_rate": 0.00029080732575098426, "loss": 2.966671371459961, "step": 7610 }, { "epoch": 0.06616666666666667, "grad_norm": 0.38456544280052185, "learning_rate": 0.00029077977482376555, "loss": 2.9977581024169924, "step": 7620 }, { "epoch": 0.06633333333333333, "grad_norm": 0.40700915455818176, "learning_rate": 0.0002907521839815611, "loss": 3.005060005187988, "step": 7630 }, { "epoch": 0.0665, "grad_norm": 0.4053742289543152, "learning_rate": 0.0002907245532321937, "loss": 2.953268623352051, "step": 7640 }, { "epoch": 0.06666666666666667, "grad_norm": 0.3769732713699341, "learning_rate": 0.00029069688258349745, "loss": 2.970975875854492, "step": 7650 }, { "epoch": 0.06683333333333333, "grad_norm": 0.37044721841812134, "learning_rate": 0.00029066917204331776, "loss": 2.976058006286621, "step": 7660 }, { "epoch": 0.067, "grad_norm": 0.42825615406036377, "learning_rate": 0.0002906414216195114, "loss": 2.9494274139404295, "step": 7670 }, { "epoch": 0.06716666666666667, "grad_norm": 1.7334225177764893, "learning_rate": 0.0002906136313199463, "loss": 3.01751766204834, "step": 7680 }, { "epoch": 0.06733333333333333, "grad_norm": 0.3732779622077942, "learning_rate": 0.00029058580115250176, "loss": 2.976676368713379, "step": 7690 }, { "epoch": 0.0675, "grad_norm": 0.40125882625579834, "learning_rate": 0.0002905579311250685, "loss": 3.057603454589844, "step": 7700 }, { "epoch": 0.06766666666666667, "grad_norm": 0.38171663880348206, "learning_rate": 0.00029053002124554834, "loss": 2.762685012817383, "step": 7710 }, { "epoch": 0.06783333333333333, "grad_norm": 0.391777366399765, "learning_rate": 0.0002905020715218546, "loss": 2.91061954498291, "step": 7720 }, { "epoch": 0.068, "grad_norm": 0.3986228108406067, "learning_rate": 0.0002904740819619118, "loss": 2.997187042236328, "step": 7730 }, { "epoch": 0.06816666666666667, "grad_norm": 0.36958804726600647, "learning_rate": 0.0002904460525736557, "loss": 2.9954734802246095, "step": 7740 }, { "epoch": 0.06833333333333333, "grad_norm": 0.3979329466819763, "learning_rate": 0.00029041798336503345, "loss": 2.985688018798828, "step": 7750 }, { "epoch": 0.0685, "grad_norm": 0.39086639881134033, "learning_rate": 0.00029038987434400345, "loss": 3.0486474990844727, "step": 7760 }, { "epoch": 0.06866666666666667, "grad_norm": 0.37941011786460876, "learning_rate": 0.0002903617255185354, "loss": 3.009590721130371, "step": 7770 }, { "epoch": 0.06883333333333333, "grad_norm": 0.3874540627002716, "learning_rate": 0.0002903335368966102, "loss": 3.0302640914916994, "step": 7780 }, { "epoch": 0.069, "grad_norm": 0.3942844867706299, "learning_rate": 0.00029030530848622027, "loss": 3.0470159530639647, "step": 7790 }, { "epoch": 0.06916666666666667, "grad_norm": 0.372801274061203, "learning_rate": 0.000290277040295369, "loss": 3.06998348236084, "step": 7800 }, { "epoch": 0.06933333333333333, "grad_norm": 0.3805873990058899, "learning_rate": 0.0002902487323320713, "loss": 3.0450016021728517, "step": 7810 }, { "epoch": 0.0695, "grad_norm": 0.373600035905838, "learning_rate": 0.0002902203846043532, "loss": 3.0399938583374024, "step": 7820 }, { "epoch": 0.06966666666666667, "grad_norm": 0.3881121873855591, "learning_rate": 0.0002901919971202521, "loss": 2.9438343048095703, "step": 7830 }, { "epoch": 0.06983333333333333, "grad_norm": 0.384845495223999, "learning_rate": 0.0002901635698878166, "loss": 3.0112476348876953, "step": 7840 }, { "epoch": 0.07, "grad_norm": 0.374401718378067, "learning_rate": 0.0002901351029151067, "loss": 3.082077407836914, "step": 7850 }, { "epoch": 0.07016666666666667, "grad_norm": 0.3732111155986786, "learning_rate": 0.0002901065962101935, "loss": 2.8397762298583986, "step": 7860 }, { "epoch": 0.07033333333333333, "grad_norm": 0.4078359603881836, "learning_rate": 0.00029007804978115954, "loss": 2.6799802780151367, "step": 7870 }, { "epoch": 0.0705, "grad_norm": 0.36895552277565, "learning_rate": 0.0002900494636360984, "loss": 2.631447601318359, "step": 7880 }, { "epoch": 0.07066666666666667, "grad_norm": 0.3986772298812866, "learning_rate": 0.0002900208377831151, "loss": 2.9338111877441406, "step": 7890 }, { "epoch": 0.07083333333333333, "grad_norm": 0.39151084423065186, "learning_rate": 0.0002899921722303259, "loss": 3.042695236206055, "step": 7900 }, { "epoch": 0.071, "grad_norm": 0.43503689765930176, "learning_rate": 0.0002899634669858583, "loss": 3.0772659301757814, "step": 7910 }, { "epoch": 0.07116666666666667, "grad_norm": 0.3629150092601776, "learning_rate": 0.00028993472205785095, "loss": 3.0347219467163087, "step": 7920 }, { "epoch": 0.07133333333333333, "grad_norm": 0.3640083372592926, "learning_rate": 0.0002899059374544539, "loss": 2.899766540527344, "step": 7930 }, { "epoch": 0.0715, "grad_norm": 0.3656698763370514, "learning_rate": 0.0002898771131838283, "loss": 2.696305847167969, "step": 7940 }, { "epoch": 0.07166666666666667, "grad_norm": 0.37310102581977844, "learning_rate": 0.0002898482492541468, "loss": 2.769809341430664, "step": 7950 }, { "epoch": 0.07183333333333333, "grad_norm": 0.39096155762672424, "learning_rate": 0.000289819345673593, "loss": 2.7517889022827147, "step": 7960 }, { "epoch": 0.072, "grad_norm": 0.34597668051719666, "learning_rate": 0.0002897904024503619, "loss": 2.7326591491699217, "step": 7970 }, { "epoch": 0.07216666666666667, "grad_norm": 0.38390180468559265, "learning_rate": 0.0002897614195926597, "loss": 2.694135284423828, "step": 7980 }, { "epoch": 0.07233333333333333, "grad_norm": 0.37960708141326904, "learning_rate": 0.00028973239710870384, "loss": 2.812735176086426, "step": 7990 }, { "epoch": 0.0725, "grad_norm": 0.36439424753189087, "learning_rate": 0.00028970333500672303, "loss": 2.8109577178955076, "step": 8000 }, { "epoch": 0.07266666666666667, "grad_norm": 0.3453996777534485, "learning_rate": 0.0002896742332949572, "loss": 2.7494396209716796, "step": 8010 }, { "epoch": 0.07283333333333333, "grad_norm": 0.3709613084793091, "learning_rate": 0.0002896450919816574, "loss": 2.832318115234375, "step": 8020 }, { "epoch": 0.073, "grad_norm": 0.38604649901390076, "learning_rate": 0.0002896159110750862, "loss": 2.8173288345336913, "step": 8030 }, { "epoch": 0.07316666666666667, "grad_norm": 0.37968260049819946, "learning_rate": 0.000289586690583517, "loss": 2.829819107055664, "step": 8040 }, { "epoch": 0.07333333333333333, "grad_norm": 0.35359862446784973, "learning_rate": 0.00028955743051523465, "loss": 2.7823715209960938, "step": 8050 }, { "epoch": 0.0735, "grad_norm": 0.3639524579048157, "learning_rate": 0.00028952813087853533, "loss": 2.760794258117676, "step": 8060 }, { "epoch": 0.07366666666666667, "grad_norm": 0.3654758930206299, "learning_rate": 0.00028949879168172616, "loss": 2.736991310119629, "step": 8070 }, { "epoch": 0.07383333333333333, "grad_norm": 0.36181625723838806, "learning_rate": 0.00028946941293312567, "loss": 2.816946792602539, "step": 8080 }, { "epoch": 0.074, "grad_norm": 0.3788537085056305, "learning_rate": 0.0002894399946410636, "loss": 2.811870002746582, "step": 8090 }, { "epoch": 0.07416666666666667, "grad_norm": 0.3393183946609497, "learning_rate": 0.0002894105368138807, "loss": 2.723903274536133, "step": 8100 }, { "epoch": 0.07433333333333333, "grad_norm": 0.3352717161178589, "learning_rate": 0.00028938103945992926, "loss": 2.6978361129760744, "step": 8110 }, { "epoch": 0.0745, "grad_norm": 0.38219866156578064, "learning_rate": 0.0002893515025875726, "loss": 2.7439762115478517, "step": 8120 }, { "epoch": 0.07466666666666667, "grad_norm": 0.35783448815345764, "learning_rate": 0.00028932192620518513, "loss": 2.7886289596557616, "step": 8130 }, { "epoch": 0.07483333333333334, "grad_norm": 0.3538830578327179, "learning_rate": 0.0002892923103211526, "loss": 2.8963045120239257, "step": 8140 }, { "epoch": 0.075, "grad_norm": 0.37107858061790466, "learning_rate": 0.00028926265494387196, "loss": 2.8870670318603517, "step": 8150 }, { "epoch": 0.07516666666666667, "grad_norm": 0.36251598596572876, "learning_rate": 0.00028923296008175135, "loss": 2.8525896072387695, "step": 8160 }, { "epoch": 0.07533333333333334, "grad_norm": 0.3944455087184906, "learning_rate": 0.0002892032257432101, "loss": 2.865979766845703, "step": 8170 }, { "epoch": 0.0755, "grad_norm": 0.3710351288318634, "learning_rate": 0.0002891734519366787, "loss": 2.8153043746948243, "step": 8180 }, { "epoch": 0.07566666666666666, "grad_norm": 0.36971551179885864, "learning_rate": 0.0002891436386705989, "loss": 2.8204229354858397, "step": 8190 }, { "epoch": 0.07583333333333334, "grad_norm": 0.3832435607910156, "learning_rate": 0.00028911378595342346, "loss": 2.8466213226318358, "step": 8200 }, { "epoch": 0.076, "grad_norm": 0.35473373532295227, "learning_rate": 0.0002890838937936166, "loss": 2.8302003860473635, "step": 8210 }, { "epoch": 0.07616666666666666, "grad_norm": 0.36936044692993164, "learning_rate": 0.0002890539621996535, "loss": 2.7736061096191404, "step": 8220 }, { "epoch": 0.07633333333333334, "grad_norm": 0.3513256013393402, "learning_rate": 0.00028902399118002067, "loss": 2.5801765441894533, "step": 8230 }, { "epoch": 0.0765, "grad_norm": 0.35978972911834717, "learning_rate": 0.0002889939807432157, "loss": 2.6658184051513674, "step": 8240 }, { "epoch": 0.07666666666666666, "grad_norm": 0.38274580240249634, "learning_rate": 0.0002889639308977473, "loss": 2.744871711730957, "step": 8250 }, { "epoch": 0.07683333333333334, "grad_norm": 0.38770100474357605, "learning_rate": 0.00028893384165213547, "loss": 2.7592889785766603, "step": 8260 }, { "epoch": 0.077, "grad_norm": 0.3790663182735443, "learning_rate": 0.00028890371301491146, "loss": 2.889255905151367, "step": 8270 }, { "epoch": 0.07716666666666666, "grad_norm": 0.36016857624053955, "learning_rate": 0.00028887354499461745, "loss": 2.8479888916015623, "step": 8280 }, { "epoch": 0.07733333333333334, "grad_norm": 0.380307137966156, "learning_rate": 0.000288843337599807, "loss": 2.846491813659668, "step": 8290 }, { "epoch": 0.0775, "grad_norm": 0.36424508690834045, "learning_rate": 0.0002888130908390447, "loss": 2.878053665161133, "step": 8300 }, { "epoch": 0.07766666666666666, "grad_norm": 0.38090968132019043, "learning_rate": 0.0002887828047209064, "loss": 2.855295944213867, "step": 8310 }, { "epoch": 0.07783333333333334, "grad_norm": 0.35746878385543823, "learning_rate": 0.000288752479253979, "loss": 2.8940433502197265, "step": 8320 }, { "epoch": 0.078, "grad_norm": 0.35671961307525635, "learning_rate": 0.0002887221144468606, "loss": 2.9748987197875976, "step": 8330 }, { "epoch": 0.07816666666666666, "grad_norm": 0.37154173851013184, "learning_rate": 0.00028869171030816053, "loss": 2.998274040222168, "step": 8340 }, { "epoch": 0.07833333333333334, "grad_norm": 0.3724062740802765, "learning_rate": 0.00028866126684649917, "loss": 2.8773033142089846, "step": 8350 }, { "epoch": 0.0785, "grad_norm": 0.35358142852783203, "learning_rate": 0.00028863078407050807, "loss": 2.927072525024414, "step": 8360 }, { "epoch": 0.07866666666666666, "grad_norm": 0.36544308066368103, "learning_rate": 0.00028860026198883007, "loss": 2.9056814193725584, "step": 8370 }, { "epoch": 0.07883333333333334, "grad_norm": 0.37079834938049316, "learning_rate": 0.0002885697006101188, "loss": 2.8973163604736327, "step": 8380 }, { "epoch": 0.079, "grad_norm": 0.35769256949424744, "learning_rate": 0.0002885390999430395, "loss": 2.81085147857666, "step": 8390 }, { "epoch": 0.07916666666666666, "grad_norm": 0.3707377314567566, "learning_rate": 0.0002885084599962682, "loss": 2.793642044067383, "step": 8400 }, { "epoch": 0.07933333333333334, "grad_norm": 0.40529802441596985, "learning_rate": 0.00028847778077849214, "loss": 2.9512815475463867, "step": 8410 }, { "epoch": 0.0795, "grad_norm": 0.3493574857711792, "learning_rate": 0.00028844706229840986, "loss": 2.918813133239746, "step": 8420 }, { "epoch": 0.07966666666666666, "grad_norm": 0.3552611768245697, "learning_rate": 0.00028841630456473075, "loss": 2.780997085571289, "step": 8430 }, { "epoch": 0.07983333333333334, "grad_norm": 0.3614233434200287, "learning_rate": 0.00028838550758617556, "loss": 2.8519285202026365, "step": 8440 }, { "epoch": 0.08, "grad_norm": 0.39881542325019836, "learning_rate": 0.00028835467137147615, "loss": 2.8958999633789064, "step": 8450 }, { "epoch": 0.08016666666666666, "grad_norm": 0.3612383008003235, "learning_rate": 0.0002883237959293753, "loss": 2.8186050415039063, "step": 8460 }, { "epoch": 0.08033333333333334, "grad_norm": 0.3497442901134491, "learning_rate": 0.00028829288126862724, "loss": 2.739505386352539, "step": 8470 }, { "epoch": 0.0805, "grad_norm": 0.3586975336074829, "learning_rate": 0.00028826192739799694, "loss": 2.7719682693481444, "step": 8480 }, { "epoch": 0.08066666666666666, "grad_norm": 0.3747289478778839, "learning_rate": 0.00028823093432626083, "loss": 2.873129463195801, "step": 8490 }, { "epoch": 0.08083333333333333, "grad_norm": 0.34539350867271423, "learning_rate": 0.0002881999020622063, "loss": 2.7382030487060547, "step": 8500 }, { "epoch": 0.081, "grad_norm": 0.4155365824699402, "learning_rate": 0.00028816883061463176, "loss": 2.7552820205688477, "step": 8510 }, { "epoch": 0.08116666666666666, "grad_norm": 0.40032505989074707, "learning_rate": 0.0002881377199923469, "loss": 2.8610322952270506, "step": 8520 }, { "epoch": 0.08133333333333333, "grad_norm": 0.3721928894519806, "learning_rate": 0.0002881065702041724, "loss": 2.8690778732299806, "step": 8530 }, { "epoch": 0.0815, "grad_norm": 0.3590529263019562, "learning_rate": 0.0002880753812589402, "loss": 2.8733280181884764, "step": 8540 }, { "epoch": 0.08166666666666667, "grad_norm": 0.3880694508552551, "learning_rate": 0.00028804415316549314, "loss": 2.819232940673828, "step": 8550 }, { "epoch": 0.08183333333333333, "grad_norm": 0.361520379781723, "learning_rate": 0.00028801288593268527, "loss": 2.919606590270996, "step": 8560 }, { "epoch": 0.082, "grad_norm": 0.3785449266433716, "learning_rate": 0.0002879815795693818, "loss": 3.00650691986084, "step": 8570 }, { "epoch": 0.08216666666666667, "grad_norm": 0.3418520390987396, "learning_rate": 0.00028795023408445877, "loss": 2.9630847930908204, "step": 8580 }, { "epoch": 0.08233333333333333, "grad_norm": 0.35394683480262756, "learning_rate": 0.0002879188494868037, "loss": 2.8360586166381836, "step": 8590 }, { "epoch": 0.0825, "grad_norm": 0.38963237404823303, "learning_rate": 0.0002878874257853149, "loss": 2.954873275756836, "step": 8600 }, { "epoch": 0.08266666666666667, "grad_norm": 0.37688371539115906, "learning_rate": 0.0002878559629889019, "loss": 3.0085628509521483, "step": 8610 }, { "epoch": 0.08283333333333333, "grad_norm": 0.37673714756965637, "learning_rate": 0.0002878244611064852, "loss": 3.001415824890137, "step": 8620 }, { "epoch": 0.083, "grad_norm": 0.3783765733242035, "learning_rate": 0.0002877929201469965, "loss": 2.924319839477539, "step": 8630 }, { "epoch": 0.08316666666666667, "grad_norm": 0.3794272541999817, "learning_rate": 0.0002877613401193786, "loss": 2.8281463623046874, "step": 8640 }, { "epoch": 0.08333333333333333, "grad_norm": 0.3879368007183075, "learning_rate": 0.0002877297210325853, "loss": 2.8229066848754885, "step": 8650 }, { "epoch": 0.0835, "grad_norm": 0.3800705373287201, "learning_rate": 0.00028769806289558145, "loss": 2.8100061416625977, "step": 8660 }, { "epoch": 0.08366666666666667, "grad_norm": 0.3919481039047241, "learning_rate": 0.00028766636571734297, "loss": 2.933970069885254, "step": 8670 }, { "epoch": 0.08383333333333333, "grad_norm": 0.3753172755241394, "learning_rate": 0.000287634629506857, "loss": 2.963550567626953, "step": 8680 }, { "epoch": 0.084, "grad_norm": 0.374881386756897, "learning_rate": 0.0002876028542731216, "loss": 3.0050731658935548, "step": 8690 }, { "epoch": 0.08416666666666667, "grad_norm": 0.3827640414237976, "learning_rate": 0.0002875710400251459, "loss": 2.993809127807617, "step": 8700 }, { "epoch": 0.08433333333333333, "grad_norm": 0.38827770948410034, "learning_rate": 0.00028753918677195013, "loss": 2.966595458984375, "step": 8710 }, { "epoch": 0.0845, "grad_norm": 0.3805679380893707, "learning_rate": 0.0002875072945225656, "loss": 2.9449575424194334, "step": 8720 }, { "epoch": 0.08466666666666667, "grad_norm": 0.401265949010849, "learning_rate": 0.0002874753632860347, "loss": 3.0216648101806642, "step": 8730 }, { "epoch": 0.08483333333333333, "grad_norm": 0.4089195728302002, "learning_rate": 0.00028744339307141067, "loss": 2.949349021911621, "step": 8740 }, { "epoch": 0.085, "grad_norm": 0.3903751075267792, "learning_rate": 0.0002874113838877581, "loss": 2.9601430892944336, "step": 8750 }, { "epoch": 0.08516666666666667, "grad_norm": 0.3800072968006134, "learning_rate": 0.00028737933574415246, "loss": 2.9771102905273437, "step": 8760 }, { "epoch": 0.08533333333333333, "grad_norm": 0.35385075211524963, "learning_rate": 0.00028734724864968024, "loss": 2.8619287490844725, "step": 8770 }, { "epoch": 0.0855, "grad_norm": 0.3094714879989624, "learning_rate": 0.00028731512261343905, "loss": 2.551932716369629, "step": 8780 }, { "epoch": 0.08566666666666667, "grad_norm": 0.3456581234931946, "learning_rate": 0.0002872829576445376, "loss": 2.550779914855957, "step": 8790 }, { "epoch": 0.08583333333333333, "grad_norm": 0.33465033769607544, "learning_rate": 0.00028725075375209537, "loss": 2.7116863250732424, "step": 8800 }, { "epoch": 0.086, "grad_norm": 0.3668154180049896, "learning_rate": 0.0002872185109452432, "loss": 2.7546573638916017, "step": 8810 }, { "epoch": 0.08616666666666667, "grad_norm": 0.40015819668769836, "learning_rate": 0.00028718622923312276, "loss": 2.815192985534668, "step": 8820 }, { "epoch": 0.08633333333333333, "grad_norm": 0.4568469226360321, "learning_rate": 0.0002871539086248869, "loss": 2.9397647857666014, "step": 8830 }, { "epoch": 0.0865, "grad_norm": 0.3752466142177582, "learning_rate": 0.00028712154912969933, "loss": 2.997811126708984, "step": 8840 }, { "epoch": 0.08666666666666667, "grad_norm": 0.3966951072216034, "learning_rate": 0.00028708915075673487, "loss": 2.9600738525390624, "step": 8850 }, { "epoch": 0.08683333333333333, "grad_norm": 0.385616660118103, "learning_rate": 0.0002870567135151794, "loss": 2.995475959777832, "step": 8860 }, { "epoch": 0.087, "grad_norm": 0.41171568632125854, "learning_rate": 0.00028702423741422975, "loss": 2.9510320663452148, "step": 8870 }, { "epoch": 0.08716666666666667, "grad_norm": 0.37604814767837524, "learning_rate": 0.00028699172246309386, "loss": 2.942887878417969, "step": 8880 }, { "epoch": 0.08733333333333333, "grad_norm": 0.359893262386322, "learning_rate": 0.0002869591686709905, "loss": 2.897919845581055, "step": 8890 }, { "epoch": 0.0875, "grad_norm": 0.3566887676715851, "learning_rate": 0.0002869265760471497, "loss": 2.8465831756591795, "step": 8900 }, { "epoch": 0.08766666666666667, "grad_norm": 0.365549236536026, "learning_rate": 0.0002868939446008123, "loss": 2.8258132934570312, "step": 8910 }, { "epoch": 0.08783333333333333, "grad_norm": 0.38654187321662903, "learning_rate": 0.0002868612743412303, "loss": 2.869220161437988, "step": 8920 }, { "epoch": 0.088, "grad_norm": 0.34111154079437256, "learning_rate": 0.00028682856527766657, "loss": 2.8037746429443358, "step": 8930 }, { "epoch": 0.08816666666666667, "grad_norm": 0.35901686549186707, "learning_rate": 0.000286795817419395, "loss": 2.9024696350097656, "step": 8940 }, { "epoch": 0.08833333333333333, "grad_norm": 0.3486897945404053, "learning_rate": 0.0002867630307757006, "loss": 2.8580015182495115, "step": 8950 }, { "epoch": 0.0885, "grad_norm": 0.3644869923591614, "learning_rate": 0.0002867302053558793, "loss": 2.7919416427612305, "step": 8960 }, { "epoch": 0.08866666666666667, "grad_norm": 0.36419951915740967, "learning_rate": 0.0002866973411692379, "loss": 2.818129539489746, "step": 8970 }, { "epoch": 0.08883333333333333, "grad_norm": 0.37151747941970825, "learning_rate": 0.0002866644382250945, "loss": 2.8000688552856445, "step": 8980 }, { "epoch": 0.089, "grad_norm": 0.41001400351524353, "learning_rate": 0.0002866314965327778, "loss": 2.8964866638183593, "step": 8990 }, { "epoch": 0.08916666666666667, "grad_norm": 0.3449036777019501, "learning_rate": 0.00028659851610162785, "loss": 2.769412803649902, "step": 9000 }, { "epoch": 0.08933333333333333, "grad_norm": 0.3284320533275604, "learning_rate": 0.0002865654969409954, "loss": 2.8089309692382813, "step": 9010 }, { "epoch": 0.0895, "grad_norm": 0.3335931599140167, "learning_rate": 0.00028653243906024247, "loss": 2.808209228515625, "step": 9020 }, { "epoch": 0.08966666666666667, "grad_norm": 0.3487749993801117, "learning_rate": 0.0002864993424687417, "loss": 2.732996940612793, "step": 9030 }, { "epoch": 0.08983333333333333, "grad_norm": 0.3709432780742645, "learning_rate": 0.000286466207175877, "loss": 2.707015609741211, "step": 9040 }, { "epoch": 0.09, "grad_norm": 0.3400644063949585, "learning_rate": 0.0002864330331910431, "loss": 2.7739015579223634, "step": 9050 }, { "epoch": 0.09016666666666667, "grad_norm": 0.3754271864891052, "learning_rate": 0.0002863998205236458, "loss": 2.756894111633301, "step": 9060 }, { "epoch": 0.09033333333333333, "grad_norm": 0.36973458528518677, "learning_rate": 0.0002863665691831017, "loss": 2.7984287261962892, "step": 9070 }, { "epoch": 0.0905, "grad_norm": 0.34491243958473206, "learning_rate": 0.0002863332791788387, "loss": 2.8282186508178713, "step": 9080 }, { "epoch": 0.09066666666666667, "grad_norm": 0.36020711064338684, "learning_rate": 0.00028629995052029524, "loss": 2.831917953491211, "step": 9090 }, { "epoch": 0.09083333333333334, "grad_norm": 0.37985268235206604, "learning_rate": 0.00028626658321692096, "loss": 2.8649354934692384, "step": 9100 }, { "epoch": 0.091, "grad_norm": 0.39229467511177063, "learning_rate": 0.00028623317727817645, "loss": 2.8219844818115236, "step": 9110 }, { "epoch": 0.09116666666666666, "grad_norm": 0.3532887399196625, "learning_rate": 0.0002861997327135333, "loss": 2.7614973068237303, "step": 9120 }, { "epoch": 0.09133333333333334, "grad_norm": 0.3597084581851959, "learning_rate": 0.0002861662495324738, "loss": 2.870098686218262, "step": 9130 }, { "epoch": 0.0915, "grad_norm": 0.3700224459171295, "learning_rate": 0.00028613272774449154, "loss": 2.8357120513916017, "step": 9140 }, { "epoch": 0.09166666666666666, "grad_norm": 0.3505774438381195, "learning_rate": 0.0002860991673590908, "loss": 2.754099464416504, "step": 9150 }, { "epoch": 0.09183333333333334, "grad_norm": 0.34579479694366455, "learning_rate": 0.00028606556838578685, "loss": 2.7998725891113283, "step": 9160 }, { "epoch": 0.092, "grad_norm": 0.36511072516441345, "learning_rate": 0.000286031930834106, "loss": 2.835207939147949, "step": 9170 }, { "epoch": 0.09216666666666666, "grad_norm": 0.3592240810394287, "learning_rate": 0.0002859982547135854, "loss": 2.8685771942138674, "step": 9180 }, { "epoch": 0.09233333333333334, "grad_norm": 0.3856920897960663, "learning_rate": 0.00028596454003377317, "loss": 2.8370105743408205, "step": 9190 }, { "epoch": 0.0925, "grad_norm": 0.35312730073928833, "learning_rate": 0.00028593078680422837, "loss": 2.8010177612304688, "step": 9200 }, { "epoch": 0.09266666666666666, "grad_norm": 0.3775421679019928, "learning_rate": 0.0002858969950345209, "loss": 2.7878562927246096, "step": 9210 }, { "epoch": 0.09283333333333334, "grad_norm": 0.38095957040786743, "learning_rate": 0.00028586316473423187, "loss": 2.8107866287231444, "step": 9220 }, { "epoch": 0.093, "grad_norm": 0.3698684573173523, "learning_rate": 0.0002858292959129529, "loss": 2.7675500869750977, "step": 9230 }, { "epoch": 0.09316666666666666, "grad_norm": 0.36145222187042236, "learning_rate": 0.00028579538858028685, "loss": 2.8425624847412108, "step": 9240 }, { "epoch": 0.09333333333333334, "grad_norm": 0.3630043864250183, "learning_rate": 0.00028576144274584735, "loss": 2.744532585144043, "step": 9250 }, { "epoch": 0.0935, "grad_norm": 0.35888129472732544, "learning_rate": 0.00028572745841925904, "loss": 2.755132865905762, "step": 9260 }, { "epoch": 0.09366666666666666, "grad_norm": 0.3507837653160095, "learning_rate": 0.0002856934356101574, "loss": 2.8252931594848634, "step": 9270 }, { "epoch": 0.09383333333333334, "grad_norm": 0.3669086694717407, "learning_rate": 0.0002856593743281888, "loss": 2.8739065170288085, "step": 9280 }, { "epoch": 0.094, "grad_norm": 0.3655420243740082, "learning_rate": 0.0002856252745830106, "loss": 2.866586112976074, "step": 9290 }, { "epoch": 0.09416666666666666, "grad_norm": 0.35320961475372314, "learning_rate": 0.00028559113638429104, "loss": 2.806113433837891, "step": 9300 }, { "epoch": 0.09433333333333334, "grad_norm": 0.3701521158218384, "learning_rate": 0.00028555695974170924, "loss": 2.7944141387939454, "step": 9310 }, { "epoch": 0.0945, "grad_norm": 0.3411415219306946, "learning_rate": 0.0002855227446649552, "loss": 2.693042755126953, "step": 9320 }, { "epoch": 0.09466666666666666, "grad_norm": 0.34341827034950256, "learning_rate": 0.0002854884911637299, "loss": 2.6667823791503906, "step": 9330 }, { "epoch": 0.09483333333333334, "grad_norm": 0.3616132140159607, "learning_rate": 0.00028545419924774513, "loss": 2.6700407028198243, "step": 9340 }, { "epoch": 0.095, "grad_norm": 0.3750063180923462, "learning_rate": 0.00028541986892672357, "loss": 2.753375244140625, "step": 9350 }, { "epoch": 0.09516666666666666, "grad_norm": 0.36249396204948425, "learning_rate": 0.00028538550021039885, "loss": 2.8885286331176756, "step": 9360 }, { "epoch": 0.09533333333333334, "grad_norm": 0.3946261405944824, "learning_rate": 0.0002853510931085155, "loss": 2.873586082458496, "step": 9370 }, { "epoch": 0.0955, "grad_norm": 0.3485543131828308, "learning_rate": 0.0002853166476308288, "loss": 2.8844079971313477, "step": 9380 }, { "epoch": 0.09566666666666666, "grad_norm": 0.36728721857070923, "learning_rate": 0.00028528216378710517, "loss": 2.9377586364746096, "step": 9390 }, { "epoch": 0.09583333333333334, "grad_norm": 0.3543992340564728, "learning_rate": 0.00028524764158712157, "loss": 2.8414134979248047, "step": 9400 }, { "epoch": 0.096, "grad_norm": 0.35999006032943726, "learning_rate": 0.000285213081040666, "loss": 2.8607666015625, "step": 9410 }, { "epoch": 0.09616666666666666, "grad_norm": 0.354253351688385, "learning_rate": 0.0002851784821575375, "loss": 2.9069902420043947, "step": 9420 }, { "epoch": 0.09633333333333334, "grad_norm": 0.35411810874938965, "learning_rate": 0.00028514384494754565, "loss": 2.7570217132568358, "step": 9430 }, { "epoch": 0.0965, "grad_norm": 0.3394506871700287, "learning_rate": 0.0002851091694205111, "loss": 2.7525148391723633, "step": 9440 }, { "epoch": 0.09666666666666666, "grad_norm": 0.3472767770290375, "learning_rate": 0.00028507445558626545, "loss": 2.5929914474487306, "step": 9450 }, { "epoch": 0.09683333333333333, "grad_norm": 0.3445834517478943, "learning_rate": 0.0002850397034546509, "loss": 2.6706295013427734, "step": 9460 }, { "epoch": 0.097, "grad_norm": 0.3816157281398773, "learning_rate": 0.00028500491303552067, "loss": 2.8304374694824217, "step": 9470 }, { "epoch": 0.09716666666666667, "grad_norm": 0.3813958168029785, "learning_rate": 0.00028497008433873885, "loss": 2.9113664627075195, "step": 9480 }, { "epoch": 0.09733333333333333, "grad_norm": 0.3773977756500244, "learning_rate": 0.00028493521737418034, "loss": 2.907037544250488, "step": 9490 }, { "epoch": 0.0975, "grad_norm": 0.3632221519947052, "learning_rate": 0.0002849003121517309, "loss": 2.8818357467651365, "step": 9500 }, { "epoch": 0.09766666666666667, "grad_norm": 0.3970240652561188, "learning_rate": 0.0002848653686812871, "loss": 2.9164527893066405, "step": 9510 }, { "epoch": 0.09783333333333333, "grad_norm": 0.3500790297985077, "learning_rate": 0.0002848303869727564, "loss": 2.8345727920532227, "step": 9520 }, { "epoch": 0.098, "grad_norm": 0.3632773160934448, "learning_rate": 0.0002847953670360571, "loss": 2.873233604431152, "step": 9530 }, { "epoch": 0.09816666666666667, "grad_norm": 0.376605749130249, "learning_rate": 0.0002847603088811183, "loss": 2.85976619720459, "step": 9540 }, { "epoch": 0.09833333333333333, "grad_norm": 0.3669801950454712, "learning_rate": 0.00028472521251787997, "loss": 2.720789337158203, "step": 9550 }, { "epoch": 0.0985, "grad_norm": 0.36518895626068115, "learning_rate": 0.00028469007795629294, "loss": 2.7442270278930665, "step": 9560 }, { "epoch": 0.09866666666666667, "grad_norm": 0.3775388300418854, "learning_rate": 0.0002846549052063189, "loss": 2.7367034912109376, "step": 9570 }, { "epoch": 0.09883333333333333, "grad_norm": 0.406002402305603, "learning_rate": 0.0002846196942779301, "loss": 2.8679609298706055, "step": 9580 }, { "epoch": 0.099, "grad_norm": 0.39087504148483276, "learning_rate": 0.00028458444518110996, "loss": 2.963069725036621, "step": 9590 }, { "epoch": 0.09916666666666667, "grad_norm": 0.3501756191253662, "learning_rate": 0.0002845491579258526, "loss": 2.8137041091918946, "step": 9600 }, { "epoch": 0.09933333333333333, "grad_norm": 0.34010085463523865, "learning_rate": 0.0002845138325221628, "loss": 2.802777862548828, "step": 9610 }, { "epoch": 0.0995, "grad_norm": 0.35873836278915405, "learning_rate": 0.0002844784689800565, "loss": 2.8310117721557617, "step": 9620 }, { "epoch": 0.09966666666666667, "grad_norm": 0.3960883319377899, "learning_rate": 0.00028444306730956016, "loss": 2.8962934494018553, "step": 9630 }, { "epoch": 0.09983333333333333, "grad_norm": 0.3697907626628876, "learning_rate": 0.00028440762752071104, "loss": 2.8383338928222654, "step": 9640 }, { "epoch": 0.1, "grad_norm": 0.38671207427978516, "learning_rate": 0.0002843721496235574, "loss": 2.874836540222168, "step": 9650 } ], "logging_steps": 10, "max_steps": 60000, "num_input_tokens_seen": 0, "num_train_epochs": 9223372036854775807, "save_steps": 50, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 3.363846410289021e+18, "train_batch_size": 4, "trial_name": null, "trial_params": null }