| { |
| "best_global_step": null, |
| "best_metric": null, |
| "best_model_checkpoint": null, |
| "epoch": 0.5333333333333333, |
| "eval_steps": 500, |
| "global_step": 500, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.005333333333333333, |
| "grad_norm": 2.4738848209381104, |
| "learning_rate": 8.000000000000001e-06, |
| "loss": 1.5025, |
| "step": 5 |
| }, |
| { |
| "epoch": 0.010666666666666666, |
| "grad_norm": 1.762861967086792, |
| "learning_rate": 1.8e-05, |
| "loss": 1.2897, |
| "step": 10 |
| }, |
| { |
| "epoch": 0.016, |
| "grad_norm": 1.465779185295105, |
| "learning_rate": 1.991919191919192e-05, |
| "loss": 1.1928, |
| "step": 15 |
| }, |
| { |
| "epoch": 0.021333333333333333, |
| "grad_norm": 1.7229000329971313, |
| "learning_rate": 1.981818181818182e-05, |
| "loss": 1.0474, |
| "step": 20 |
| }, |
| { |
| "epoch": 0.02666666666666667, |
| "grad_norm": 1.2843865156173706, |
| "learning_rate": 1.971717171717172e-05, |
| "loss": 0.9795, |
| "step": 25 |
| }, |
| { |
| "epoch": 0.032, |
| "grad_norm": 1.413460612297058, |
| "learning_rate": 1.961616161616162e-05, |
| "loss": 1.0109, |
| "step": 30 |
| }, |
| { |
| "epoch": 0.037333333333333336, |
| "grad_norm": 1.5748860836029053, |
| "learning_rate": 1.9515151515151515e-05, |
| "loss": 1.0093, |
| "step": 35 |
| }, |
| { |
| "epoch": 0.042666666666666665, |
| "grad_norm": 1.2138009071350098, |
| "learning_rate": 1.9414141414141418e-05, |
| "loss": 0.9596, |
| "step": 40 |
| }, |
| { |
| "epoch": 0.048, |
| "grad_norm": 1.0399284362792969, |
| "learning_rate": 1.9313131313131314e-05, |
| "loss": 0.9827, |
| "step": 45 |
| }, |
| { |
| "epoch": 0.05333333333333334, |
| "grad_norm": 1.0604643821716309, |
| "learning_rate": 1.9212121212121213e-05, |
| "loss": 0.9304, |
| "step": 50 |
| }, |
| { |
| "epoch": 0.058666666666666666, |
| "grad_norm": 0.8343395590782166, |
| "learning_rate": 1.9111111111111113e-05, |
| "loss": 0.8937, |
| "step": 55 |
| }, |
| { |
| "epoch": 0.064, |
| "grad_norm": 1.1488970518112183, |
| "learning_rate": 1.9010101010101012e-05, |
| "loss": 0.9515, |
| "step": 60 |
| }, |
| { |
| "epoch": 0.06933333333333333, |
| "grad_norm": 1.1441693305969238, |
| "learning_rate": 1.8909090909090912e-05, |
| "loss": 0.915, |
| "step": 65 |
| }, |
| { |
| "epoch": 0.07466666666666667, |
| "grad_norm": 1.1136934757232666, |
| "learning_rate": 1.8808080808080808e-05, |
| "loss": 0.9305, |
| "step": 70 |
| }, |
| { |
| "epoch": 0.08, |
| "grad_norm": 1.0539132356643677, |
| "learning_rate": 1.8707070707070707e-05, |
| "loss": 0.7912, |
| "step": 75 |
| }, |
| { |
| "epoch": 0.08533333333333333, |
| "grad_norm": 1.0501577854156494, |
| "learning_rate": 1.8606060606060607e-05, |
| "loss": 0.8899, |
| "step": 80 |
| }, |
| { |
| "epoch": 0.09066666666666667, |
| "grad_norm": 0.6856658458709717, |
| "learning_rate": 1.8505050505050506e-05, |
| "loss": 0.8848, |
| "step": 85 |
| }, |
| { |
| "epoch": 0.096, |
| "grad_norm": 0.9410535097122192, |
| "learning_rate": 1.8404040404040406e-05, |
| "loss": 0.8597, |
| "step": 90 |
| }, |
| { |
| "epoch": 0.10133333333333333, |
| "grad_norm": 1.2408137321472168, |
| "learning_rate": 1.8303030303030305e-05, |
| "loss": 1.0193, |
| "step": 95 |
| }, |
| { |
| "epoch": 0.10666666666666667, |
| "grad_norm": 0.8570374846458435, |
| "learning_rate": 1.82020202020202e-05, |
| "loss": 0.9621, |
| "step": 100 |
| }, |
| { |
| "epoch": 0.112, |
| "grad_norm": 1.2646375894546509, |
| "learning_rate": 1.8101010101010104e-05, |
| "loss": 0.9349, |
| "step": 105 |
| }, |
| { |
| "epoch": 0.11733333333333333, |
| "grad_norm": 0.8542080521583557, |
| "learning_rate": 1.8e-05, |
| "loss": 0.9479, |
| "step": 110 |
| }, |
| { |
| "epoch": 0.12266666666666666, |
| "grad_norm": 1.0172573328018188, |
| "learning_rate": 1.78989898989899e-05, |
| "loss": 0.8842, |
| "step": 115 |
| }, |
| { |
| "epoch": 0.128, |
| "grad_norm": 1.1216251850128174, |
| "learning_rate": 1.77979797979798e-05, |
| "loss": 0.9307, |
| "step": 120 |
| }, |
| { |
| "epoch": 0.13333333333333333, |
| "grad_norm": 1.1146503686904907, |
| "learning_rate": 1.76969696969697e-05, |
| "loss": 0.8582, |
| "step": 125 |
| }, |
| { |
| "epoch": 0.13866666666666666, |
| "grad_norm": 0.9401494860649109, |
| "learning_rate": 1.75959595959596e-05, |
| "loss": 0.8146, |
| "step": 130 |
| }, |
| { |
| "epoch": 0.144, |
| "grad_norm": 1.0174555778503418, |
| "learning_rate": 1.7494949494949494e-05, |
| "loss": 0.8064, |
| "step": 135 |
| }, |
| { |
| "epoch": 0.14933333333333335, |
| "grad_norm": 0.7621330618858337, |
| "learning_rate": 1.7393939393939397e-05, |
| "loss": 0.8382, |
| "step": 140 |
| }, |
| { |
| "epoch": 0.15466666666666667, |
| "grad_norm": 1.1294023990631104, |
| "learning_rate": 1.7292929292929293e-05, |
| "loss": 0.9458, |
| "step": 145 |
| }, |
| { |
| "epoch": 0.16, |
| "grad_norm": 0.7517912983894348, |
| "learning_rate": 1.7191919191919193e-05, |
| "loss": 0.797, |
| "step": 150 |
| }, |
| { |
| "epoch": 0.16533333333333333, |
| "grad_norm": 1.0522116422653198, |
| "learning_rate": 1.7090909090909092e-05, |
| "loss": 0.96, |
| "step": 155 |
| }, |
| { |
| "epoch": 0.17066666666666666, |
| "grad_norm": 0.9202107787132263, |
| "learning_rate": 1.6989898989898992e-05, |
| "loss": 0.8193, |
| "step": 160 |
| }, |
| { |
| "epoch": 0.176, |
| "grad_norm": 0.7169008851051331, |
| "learning_rate": 1.688888888888889e-05, |
| "loss": 0.9014, |
| "step": 165 |
| }, |
| { |
| "epoch": 0.18133333333333335, |
| "grad_norm": 1.011110782623291, |
| "learning_rate": 1.6787878787878787e-05, |
| "loss": 0.8433, |
| "step": 170 |
| }, |
| { |
| "epoch": 0.18666666666666668, |
| "grad_norm": 0.9050607681274414, |
| "learning_rate": 1.668686868686869e-05, |
| "loss": 0.9545, |
| "step": 175 |
| }, |
| { |
| "epoch": 0.192, |
| "grad_norm": 0.8567696809768677, |
| "learning_rate": 1.6585858585858586e-05, |
| "loss": 0.8788, |
| "step": 180 |
| }, |
| { |
| "epoch": 0.19733333333333333, |
| "grad_norm": 0.8334883451461792, |
| "learning_rate": 1.6484848484848486e-05, |
| "loss": 0.8851, |
| "step": 185 |
| }, |
| { |
| "epoch": 0.20266666666666666, |
| "grad_norm": 1.0018478631973267, |
| "learning_rate": 1.6383838383838385e-05, |
| "loss": 0.9585, |
| "step": 190 |
| }, |
| { |
| "epoch": 0.208, |
| "grad_norm": 0.9261645078659058, |
| "learning_rate": 1.6282828282828285e-05, |
| "loss": 0.9198, |
| "step": 195 |
| }, |
| { |
| "epoch": 0.21333333333333335, |
| "grad_norm": 1.0422159433364868, |
| "learning_rate": 1.6181818181818184e-05, |
| "loss": 0.8987, |
| "step": 200 |
| }, |
| { |
| "epoch": 0.21866666666666668, |
| "grad_norm": 1.1883363723754883, |
| "learning_rate": 1.608080808080808e-05, |
| "loss": 0.8344, |
| "step": 205 |
| }, |
| { |
| "epoch": 0.224, |
| "grad_norm": 1.0698201656341553, |
| "learning_rate": 1.5979797979797983e-05, |
| "loss": 0.9163, |
| "step": 210 |
| }, |
| { |
| "epoch": 0.22933333333333333, |
| "grad_norm": 1.002856969833374, |
| "learning_rate": 1.587878787878788e-05, |
| "loss": 0.8067, |
| "step": 215 |
| }, |
| { |
| "epoch": 0.23466666666666666, |
| "grad_norm": 0.7221589684486389, |
| "learning_rate": 1.577777777777778e-05, |
| "loss": 0.7832, |
| "step": 220 |
| }, |
| { |
| "epoch": 0.24, |
| "grad_norm": 0.9534178376197815, |
| "learning_rate": 1.5676767676767678e-05, |
| "loss": 0.9086, |
| "step": 225 |
| }, |
| { |
| "epoch": 0.24533333333333332, |
| "grad_norm": 0.768618106842041, |
| "learning_rate": 1.5575757575757578e-05, |
| "loss": 0.8779, |
| "step": 230 |
| }, |
| { |
| "epoch": 0.25066666666666665, |
| "grad_norm": 1.1509809494018555, |
| "learning_rate": 1.5474747474747477e-05, |
| "loss": 0.8655, |
| "step": 235 |
| }, |
| { |
| "epoch": 0.256, |
| "grad_norm": 1.124725103378296, |
| "learning_rate": 1.5373737373737373e-05, |
| "loss": 0.9216, |
| "step": 240 |
| }, |
| { |
| "epoch": 0.2613333333333333, |
| "grad_norm": 1.2690633535385132, |
| "learning_rate": 1.5272727272727276e-05, |
| "loss": 1.0696, |
| "step": 245 |
| }, |
| { |
| "epoch": 0.26666666666666666, |
| "grad_norm": 0.8243642449378967, |
| "learning_rate": 1.5171717171717172e-05, |
| "loss": 0.8819, |
| "step": 250 |
| }, |
| { |
| "epoch": 0.272, |
| "grad_norm": 1.029197335243225, |
| "learning_rate": 1.5070707070707072e-05, |
| "loss": 0.8729, |
| "step": 255 |
| }, |
| { |
| "epoch": 0.2773333333333333, |
| "grad_norm": 1.1257883310317993, |
| "learning_rate": 1.4969696969696971e-05, |
| "loss": 0.8183, |
| "step": 260 |
| }, |
| { |
| "epoch": 0.2826666666666667, |
| "grad_norm": 1.0707664489746094, |
| "learning_rate": 1.486868686868687e-05, |
| "loss": 0.9269, |
| "step": 265 |
| }, |
| { |
| "epoch": 0.288, |
| "grad_norm": 0.7989206314086914, |
| "learning_rate": 1.4767676767676769e-05, |
| "loss": 0.7724, |
| "step": 270 |
| }, |
| { |
| "epoch": 0.29333333333333333, |
| "grad_norm": 1.036672830581665, |
| "learning_rate": 1.4666666666666666e-05, |
| "loss": 0.9049, |
| "step": 275 |
| }, |
| { |
| "epoch": 0.2986666666666667, |
| "grad_norm": 1.2170835733413696, |
| "learning_rate": 1.4565656565656567e-05, |
| "loss": 0.8528, |
| "step": 280 |
| }, |
| { |
| "epoch": 0.304, |
| "grad_norm": 0.8174688816070557, |
| "learning_rate": 1.4464646464646465e-05, |
| "loss": 0.814, |
| "step": 285 |
| }, |
| { |
| "epoch": 0.30933333333333335, |
| "grad_norm": 1.1070367097854614, |
| "learning_rate": 1.4363636363636365e-05, |
| "loss": 0.8746, |
| "step": 290 |
| }, |
| { |
| "epoch": 0.31466666666666665, |
| "grad_norm": 0.904995322227478, |
| "learning_rate": 1.4262626262626264e-05, |
| "loss": 0.917, |
| "step": 295 |
| }, |
| { |
| "epoch": 0.32, |
| "grad_norm": 0.7519875764846802, |
| "learning_rate": 1.4161616161616164e-05, |
| "loss": 0.7766, |
| "step": 300 |
| }, |
| { |
| "epoch": 0.3253333333333333, |
| "grad_norm": 0.8368961215019226, |
| "learning_rate": 1.4060606060606061e-05, |
| "loss": 0.8573, |
| "step": 305 |
| }, |
| { |
| "epoch": 0.33066666666666666, |
| "grad_norm": 0.9424313306808472, |
| "learning_rate": 1.3959595959595963e-05, |
| "loss": 0.8728, |
| "step": 310 |
| }, |
| { |
| "epoch": 0.336, |
| "grad_norm": 1.1850807666778564, |
| "learning_rate": 1.385858585858586e-05, |
| "loss": 0.8281, |
| "step": 315 |
| }, |
| { |
| "epoch": 0.3413333333333333, |
| "grad_norm": 0.765692949295044, |
| "learning_rate": 1.3757575757575758e-05, |
| "loss": 0.9035, |
| "step": 320 |
| }, |
| { |
| "epoch": 0.3466666666666667, |
| "grad_norm": 1.218376636505127, |
| "learning_rate": 1.3656565656565656e-05, |
| "loss": 0.8927, |
| "step": 325 |
| }, |
| { |
| "epoch": 0.352, |
| "grad_norm": 0.9827937483787537, |
| "learning_rate": 1.3555555555555557e-05, |
| "loss": 0.9812, |
| "step": 330 |
| }, |
| { |
| "epoch": 0.35733333333333334, |
| "grad_norm": 0.7617772221565247, |
| "learning_rate": 1.3454545454545455e-05, |
| "loss": 0.8899, |
| "step": 335 |
| }, |
| { |
| "epoch": 0.3626666666666667, |
| "grad_norm": 1.2161617279052734, |
| "learning_rate": 1.3353535353535354e-05, |
| "loss": 0.8615, |
| "step": 340 |
| }, |
| { |
| "epoch": 0.368, |
| "grad_norm": 1.0964343547821045, |
| "learning_rate": 1.3252525252525254e-05, |
| "loss": 0.8452, |
| "step": 345 |
| }, |
| { |
| "epoch": 0.37333333333333335, |
| "grad_norm": 1.0064449310302734, |
| "learning_rate": 1.3151515151515153e-05, |
| "loss": 0.7828, |
| "step": 350 |
| }, |
| { |
| "epoch": 0.37866666666666665, |
| "grad_norm": 1.4947946071624756, |
| "learning_rate": 1.3050505050505051e-05, |
| "loss": 0.8614, |
| "step": 355 |
| }, |
| { |
| "epoch": 0.384, |
| "grad_norm": 0.8540753722190857, |
| "learning_rate": 1.2949494949494949e-05, |
| "loss": 0.947, |
| "step": 360 |
| }, |
| { |
| "epoch": 0.3893333333333333, |
| "grad_norm": 1.0984326601028442, |
| "learning_rate": 1.284848484848485e-05, |
| "loss": 0.83, |
| "step": 365 |
| }, |
| { |
| "epoch": 0.39466666666666667, |
| "grad_norm": 1.2395354509353638, |
| "learning_rate": 1.2747474747474748e-05, |
| "loss": 0.8367, |
| "step": 370 |
| }, |
| { |
| "epoch": 0.4, |
| "grad_norm": 1.0039360523223877, |
| "learning_rate": 1.2646464646464647e-05, |
| "loss": 0.8774, |
| "step": 375 |
| }, |
| { |
| "epoch": 0.4053333333333333, |
| "grad_norm": 0.863132655620575, |
| "learning_rate": 1.2545454545454547e-05, |
| "loss": 0.9715, |
| "step": 380 |
| }, |
| { |
| "epoch": 0.4106666666666667, |
| "grad_norm": 1.2156693935394287, |
| "learning_rate": 1.2444444444444446e-05, |
| "loss": 0.9005, |
| "step": 385 |
| }, |
| { |
| "epoch": 0.416, |
| "grad_norm": 1.049648642539978, |
| "learning_rate": 1.2343434343434344e-05, |
| "loss": 0.7847, |
| "step": 390 |
| }, |
| { |
| "epoch": 0.42133333333333334, |
| "grad_norm": 1.1432439088821411, |
| "learning_rate": 1.2242424242424242e-05, |
| "loss": 0.9426, |
| "step": 395 |
| }, |
| { |
| "epoch": 0.4266666666666667, |
| "grad_norm": 1.164472222328186, |
| "learning_rate": 1.2141414141414143e-05, |
| "loss": 0.7819, |
| "step": 400 |
| }, |
| { |
| "epoch": 0.432, |
| "grad_norm": 1.2343779802322388, |
| "learning_rate": 1.2040404040404041e-05, |
| "loss": 0.9257, |
| "step": 405 |
| }, |
| { |
| "epoch": 0.43733333333333335, |
| "grad_norm": 0.9872158169746399, |
| "learning_rate": 1.193939393939394e-05, |
| "loss": 0.8634, |
| "step": 410 |
| }, |
| { |
| "epoch": 0.44266666666666665, |
| "grad_norm": 1.0840346813201904, |
| "learning_rate": 1.183838383838384e-05, |
| "loss": 0.8683, |
| "step": 415 |
| }, |
| { |
| "epoch": 0.448, |
| "grad_norm": 0.9825693964958191, |
| "learning_rate": 1.1737373737373738e-05, |
| "loss": 0.8948, |
| "step": 420 |
| }, |
| { |
| "epoch": 0.4533333333333333, |
| "grad_norm": 1.0183353424072266, |
| "learning_rate": 1.1636363636363637e-05, |
| "loss": 0.8223, |
| "step": 425 |
| }, |
| { |
| "epoch": 0.45866666666666667, |
| "grad_norm": 1.3394027948379517, |
| "learning_rate": 1.1535353535353537e-05, |
| "loss": 0.9228, |
| "step": 430 |
| }, |
| { |
| "epoch": 0.464, |
| "grad_norm": 1.4407519102096558, |
| "learning_rate": 1.1434343434343436e-05, |
| "loss": 0.9024, |
| "step": 435 |
| }, |
| { |
| "epoch": 0.4693333333333333, |
| "grad_norm": 0.9945356249809265, |
| "learning_rate": 1.1333333333333334e-05, |
| "loss": 0.9539, |
| "step": 440 |
| }, |
| { |
| "epoch": 0.4746666666666667, |
| "grad_norm": 0.9333862066268921, |
| "learning_rate": 1.1232323232323232e-05, |
| "loss": 0.9207, |
| "step": 445 |
| }, |
| { |
| "epoch": 0.48, |
| "grad_norm": 1.0179983377456665, |
| "learning_rate": 1.1131313131313133e-05, |
| "loss": 0.8696, |
| "step": 450 |
| }, |
| { |
| "epoch": 0.48533333333333334, |
| "grad_norm": 0.9237622022628784, |
| "learning_rate": 1.103030303030303e-05, |
| "loss": 0.8386, |
| "step": 455 |
| }, |
| { |
| "epoch": 0.49066666666666664, |
| "grad_norm": 1.4150505065917969, |
| "learning_rate": 1.092929292929293e-05, |
| "loss": 0.8134, |
| "step": 460 |
| }, |
| { |
| "epoch": 0.496, |
| "grad_norm": 1.1595478057861328, |
| "learning_rate": 1.082828282828283e-05, |
| "loss": 0.9826, |
| "step": 465 |
| }, |
| { |
| "epoch": 0.5013333333333333, |
| "grad_norm": 0.8624115586280823, |
| "learning_rate": 1.0727272727272729e-05, |
| "loss": 0.8796, |
| "step": 470 |
| }, |
| { |
| "epoch": 0.5066666666666667, |
| "grad_norm": 1.2092162370681763, |
| "learning_rate": 1.0626262626262627e-05, |
| "loss": 0.8048, |
| "step": 475 |
| }, |
| { |
| "epoch": 0.512, |
| "grad_norm": 0.9284762740135193, |
| "learning_rate": 1.0525252525252525e-05, |
| "loss": 0.8682, |
| "step": 480 |
| }, |
| { |
| "epoch": 0.5173333333333333, |
| "grad_norm": 0.9929215908050537, |
| "learning_rate": 1.0424242424242426e-05, |
| "loss": 0.8049, |
| "step": 485 |
| }, |
| { |
| "epoch": 0.5226666666666666, |
| "grad_norm": 0.8166928291320801, |
| "learning_rate": 1.0323232323232324e-05, |
| "loss": 0.8942, |
| "step": 490 |
| }, |
| { |
| "epoch": 0.528, |
| "grad_norm": 1.2903831005096436, |
| "learning_rate": 1.0222222222222223e-05, |
| "loss": 0.8789, |
| "step": 495 |
| }, |
| { |
| "epoch": 0.5333333333333333, |
| "grad_norm": 1.0434647798538208, |
| "learning_rate": 1.0121212121212122e-05, |
| "loss": 0.8461, |
| "step": 500 |
| } |
| ], |
| "logging_steps": 5, |
| "max_steps": 1000, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 2, |
| "save_steps": 500, |
| "stateful_callbacks": { |
| "TrainerControl": { |
| "args": { |
| "should_epoch_stop": false, |
| "should_evaluate": false, |
| "should_log": false, |
| "should_save": true, |
| "should_training_stop": false |
| }, |
| "attributes": {} |
| } |
| }, |
| "total_flos": 2991742779801600.0, |
| "train_batch_size": 1, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|