| { |
| "best_global_step": 3750, |
| "best_metric": 1.2504782676696777, |
| "best_model_checkpoint": "./opt_thinker_ckpts2/checkpoint-3750", |
| "epoch": 1.0, |
| "eval_steps": 500, |
| "global_step": 3750, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.0026666666666666666, |
| "grad_norm": 6.286426067352295, |
| "learning_rate": 9.999990447200757e-05, |
| "loss": 6.7607, |
| "step": 10 |
| }, |
| { |
| "epoch": 0.005333333333333333, |
| "grad_norm": 2.730654001235962, |
| "learning_rate": 9.999943658067851e-05, |
| "loss": 4.4154, |
| "step": 20 |
| }, |
| { |
| "epoch": 0.008, |
| "grad_norm": 1.77164626121521, |
| "learning_rate": 9.999857878369916e-05, |
| "loss": 3.8931, |
| "step": 30 |
| }, |
| { |
| "epoch": 0.010666666666666666, |
| "grad_norm": 3.252326250076294, |
| "learning_rate": 9.999733108775878e-05, |
| "loss": 3.4388, |
| "step": 40 |
| }, |
| { |
| "epoch": 0.013333333333333334, |
| "grad_norm": 2.5271928310394287, |
| "learning_rate": 9.999569350258718e-05, |
| "loss": 3.0766, |
| "step": 50 |
| }, |
| { |
| "epoch": 0.016, |
| "grad_norm": 1.8989768028259277, |
| "learning_rate": 9.999366604095457e-05, |
| "loss": 2.8264, |
| "step": 60 |
| }, |
| { |
| "epoch": 0.018666666666666668, |
| "grad_norm": 1.4198805093765259, |
| "learning_rate": 9.99912487186715e-05, |
| "loss": 2.6803, |
| "step": 70 |
| }, |
| { |
| "epoch": 0.021333333333333333, |
| "grad_norm": 2.800062417984009, |
| "learning_rate": 9.998844155458873e-05, |
| "loss": 2.59, |
| "step": 80 |
| }, |
| { |
| "epoch": 0.024, |
| "grad_norm": 2.0975475311279297, |
| "learning_rate": 9.99852445705971e-05, |
| "loss": 2.5508, |
| "step": 90 |
| }, |
| { |
| "epoch": 0.02666666666666667, |
| "grad_norm": 1.5416148900985718, |
| "learning_rate": 9.998165779162734e-05, |
| "loss": 2.4994, |
| "step": 100 |
| }, |
| { |
| "epoch": 0.029333333333333333, |
| "grad_norm": 1.3961434364318848, |
| "learning_rate": 9.997768124564984e-05, |
| "loss": 2.4914, |
| "step": 110 |
| }, |
| { |
| "epoch": 0.032, |
| "grad_norm": 1.2222368717193604, |
| "learning_rate": 9.997331496367455e-05, |
| "loss": 2.4866, |
| "step": 120 |
| }, |
| { |
| "epoch": 0.034666666666666665, |
| "grad_norm": 0.9815042614936829, |
| "learning_rate": 9.996855897975056e-05, |
| "loss": 2.4695, |
| "step": 130 |
| }, |
| { |
| "epoch": 0.037333333333333336, |
| "grad_norm": 1.144066333770752, |
| "learning_rate": 9.996341333096604e-05, |
| "loss": 2.4337, |
| "step": 140 |
| }, |
| { |
| "epoch": 0.04, |
| "grad_norm": 1.1434224843978882, |
| "learning_rate": 9.995787805744779e-05, |
| "loss": 2.4352, |
| "step": 150 |
| }, |
| { |
| "epoch": 0.042666666666666665, |
| "grad_norm": 1.166247844696045, |
| "learning_rate": 9.995195320236092e-05, |
| "loss": 2.4205, |
| "step": 160 |
| }, |
| { |
| "epoch": 0.04533333333333334, |
| "grad_norm": 1.4209767580032349, |
| "learning_rate": 9.994563881190873e-05, |
| "loss": 2.4107, |
| "step": 170 |
| }, |
| { |
| "epoch": 0.048, |
| "grad_norm": 1.3130854368209839, |
| "learning_rate": 9.993893493533202e-05, |
| "loss": 2.3894, |
| "step": 180 |
| }, |
| { |
| "epoch": 0.050666666666666665, |
| "grad_norm": 1.4318203926086426, |
| "learning_rate": 9.993184162490902e-05, |
| "loss": 2.3622, |
| "step": 190 |
| }, |
| { |
| "epoch": 0.05333333333333334, |
| "grad_norm": 1.2723395824432373, |
| "learning_rate": 9.99243589359548e-05, |
| "loss": 2.3501, |
| "step": 200 |
| }, |
| { |
| "epoch": 0.056, |
| "grad_norm": 1.3708051443099976, |
| "learning_rate": 9.991648692682083e-05, |
| "loss": 2.3412, |
| "step": 210 |
| }, |
| { |
| "epoch": 0.058666666666666666, |
| "grad_norm": 1.464943528175354, |
| "learning_rate": 9.990822565889464e-05, |
| "loss": 2.2964, |
| "step": 220 |
| }, |
| { |
| "epoch": 0.06133333333333333, |
| "grad_norm": 1.24631667137146, |
| "learning_rate": 9.989957519659925e-05, |
| "loss": 2.2851, |
| "step": 230 |
| }, |
| { |
| "epoch": 0.064, |
| "grad_norm": 1.2437673807144165, |
| "learning_rate": 9.989053560739273e-05, |
| "loss": 2.2555, |
| "step": 240 |
| }, |
| { |
| "epoch": 0.06666666666666667, |
| "grad_norm": 0.992102861404419, |
| "learning_rate": 9.988110696176756e-05, |
| "loss": 2.2529, |
| "step": 250 |
| }, |
| { |
| "epoch": 0.06933333333333333, |
| "grad_norm": 1.2269656658172607, |
| "learning_rate": 9.987128933325025e-05, |
| "loss": 2.2134, |
| "step": 260 |
| }, |
| { |
| "epoch": 0.072, |
| "grad_norm": 1.2673137187957764, |
| "learning_rate": 9.986108279840063e-05, |
| "loss": 2.1895, |
| "step": 270 |
| }, |
| { |
| "epoch": 0.07466666666666667, |
| "grad_norm": 1.2057632207870483, |
| "learning_rate": 9.985048743681132e-05, |
| "loss": 2.1588, |
| "step": 280 |
| }, |
| { |
| "epoch": 0.07733333333333334, |
| "grad_norm": 1.1784793138504028, |
| "learning_rate": 9.983950333110705e-05, |
| "loss": 2.1601, |
| "step": 290 |
| }, |
| { |
| "epoch": 0.08, |
| "grad_norm": 1.3942134380340576, |
| "learning_rate": 9.982813056694412e-05, |
| "loss": 2.1571, |
| "step": 300 |
| }, |
| { |
| "epoch": 0.08266666666666667, |
| "grad_norm": 1.2116832733154297, |
| "learning_rate": 9.981636923300959e-05, |
| "loss": 2.1414, |
| "step": 310 |
| }, |
| { |
| "epoch": 0.08533333333333333, |
| "grad_norm": 1.4112406969070435, |
| "learning_rate": 9.980421942102074e-05, |
| "loss": 2.1527, |
| "step": 320 |
| }, |
| { |
| "epoch": 0.088, |
| "grad_norm": 1.3844280242919922, |
| "learning_rate": 9.979168122572422e-05, |
| "loss": 2.1086, |
| "step": 330 |
| }, |
| { |
| "epoch": 0.09066666666666667, |
| "grad_norm": 1.470893144607544, |
| "learning_rate": 9.977875474489541e-05, |
| "loss": 2.0626, |
| "step": 340 |
| }, |
| { |
| "epoch": 0.09333333333333334, |
| "grad_norm": 1.4093472957611084, |
| "learning_rate": 9.976544007933759e-05, |
| "loss": 2.063, |
| "step": 350 |
| }, |
| { |
| "epoch": 0.096, |
| "grad_norm": 1.1979631185531616, |
| "learning_rate": 9.975173733288121e-05, |
| "loss": 2.034, |
| "step": 360 |
| }, |
| { |
| "epoch": 0.09866666666666667, |
| "grad_norm": 1.1466786861419678, |
| "learning_rate": 9.973764661238305e-05, |
| "loss": 2.0889, |
| "step": 370 |
| }, |
| { |
| "epoch": 0.10133333333333333, |
| "grad_norm": 1.5562443733215332, |
| "learning_rate": 9.972316802772535e-05, |
| "loss": 2.0057, |
| "step": 380 |
| }, |
| { |
| "epoch": 0.104, |
| "grad_norm": 1.2504980564117432, |
| "learning_rate": 9.970830169181505e-05, |
| "loss": 2.0281, |
| "step": 390 |
| }, |
| { |
| "epoch": 0.10666666666666667, |
| "grad_norm": 1.133342981338501, |
| "learning_rate": 9.969304772058278e-05, |
| "loss": 2.0296, |
| "step": 400 |
| }, |
| { |
| "epoch": 0.10933333333333334, |
| "grad_norm": 1.129353642463684, |
| "learning_rate": 9.967740623298214e-05, |
| "loss": 2.043, |
| "step": 410 |
| }, |
| { |
| "epoch": 0.112, |
| "grad_norm": 1.637911081314087, |
| "learning_rate": 9.966137735098853e-05, |
| "loss": 2.016, |
| "step": 420 |
| }, |
| { |
| "epoch": 0.11466666666666667, |
| "grad_norm": 1.3589582443237305, |
| "learning_rate": 9.964496119959841e-05, |
| "loss": 1.9813, |
| "step": 430 |
| }, |
| { |
| "epoch": 0.11733333333333333, |
| "grad_norm": 1.3092073202133179, |
| "learning_rate": 9.962815790682824e-05, |
| "loss": 1.998, |
| "step": 440 |
| }, |
| { |
| "epoch": 0.12, |
| "grad_norm": 1.298972725868225, |
| "learning_rate": 9.961096760371348e-05, |
| "loss": 1.9426, |
| "step": 450 |
| }, |
| { |
| "epoch": 0.12266666666666666, |
| "grad_norm": 1.3443470001220703, |
| "learning_rate": 9.959339042430753e-05, |
| "loss": 1.9601, |
| "step": 460 |
| }, |
| { |
| "epoch": 0.12533333333333332, |
| "grad_norm": 1.1859084367752075, |
| "learning_rate": 9.95754265056808e-05, |
| "loss": 1.9198, |
| "step": 470 |
| }, |
| { |
| "epoch": 0.128, |
| "grad_norm": 1.2819511890411377, |
| "learning_rate": 9.955707598791952e-05, |
| "loss": 1.9349, |
| "step": 480 |
| }, |
| { |
| "epoch": 0.13066666666666665, |
| "grad_norm": 1.308677077293396, |
| "learning_rate": 9.953833901412471e-05, |
| "loss": 1.9333, |
| "step": 490 |
| }, |
| { |
| "epoch": 0.13333333333333333, |
| "grad_norm": 1.1830692291259766, |
| "learning_rate": 9.951921573041107e-05, |
| "loss": 1.8758, |
| "step": 500 |
| }, |
| { |
| "epoch": 0.136, |
| "grad_norm": 1.4402300119400024, |
| "learning_rate": 9.94997062859058e-05, |
| "loss": 1.8712, |
| "step": 510 |
| }, |
| { |
| "epoch": 0.13866666666666666, |
| "grad_norm": 1.3303618431091309, |
| "learning_rate": 9.947981083274746e-05, |
| "loss": 1.8946, |
| "step": 520 |
| }, |
| { |
| "epoch": 0.14133333333333334, |
| "grad_norm": 1.2645699977874756, |
| "learning_rate": 9.945952952608479e-05, |
| "loss": 1.886, |
| "step": 530 |
| }, |
| { |
| "epoch": 0.144, |
| "grad_norm": 1.2825655937194824, |
| "learning_rate": 9.943886252407551e-05, |
| "loss": 1.8562, |
| "step": 540 |
| }, |
| { |
| "epoch": 0.14666666666666667, |
| "grad_norm": 1.4373561143875122, |
| "learning_rate": 9.941780998788506e-05, |
| "loss": 1.8806, |
| "step": 550 |
| }, |
| { |
| "epoch": 0.14933333333333335, |
| "grad_norm": 1.3520197868347168, |
| "learning_rate": 9.939637208168531e-05, |
| "loss": 1.8826, |
| "step": 560 |
| }, |
| { |
| "epoch": 0.152, |
| "grad_norm": 1.3516879081726074, |
| "learning_rate": 9.937454897265337e-05, |
| "loss": 1.8638, |
| "step": 570 |
| }, |
| { |
| "epoch": 0.15466666666666667, |
| "grad_norm": 1.3336915969848633, |
| "learning_rate": 9.935234083097027e-05, |
| "loss": 1.8313, |
| "step": 580 |
| }, |
| { |
| "epoch": 0.15733333333333333, |
| "grad_norm": 1.1621264219284058, |
| "learning_rate": 9.932974782981951e-05, |
| "loss": 1.8002, |
| "step": 590 |
| }, |
| { |
| "epoch": 0.16, |
| "grad_norm": 1.2616889476776123, |
| "learning_rate": 9.930677014538587e-05, |
| "loss": 1.815, |
| "step": 600 |
| }, |
| { |
| "epoch": 0.16266666666666665, |
| "grad_norm": 1.3532363176345825, |
| "learning_rate": 9.928340795685394e-05, |
| "loss": 1.8435, |
| "step": 610 |
| }, |
| { |
| "epoch": 0.16533333333333333, |
| "grad_norm": 2.149549722671509, |
| "learning_rate": 9.925966144640677e-05, |
| "loss": 1.7896, |
| "step": 620 |
| }, |
| { |
| "epoch": 0.168, |
| "grad_norm": 1.2242093086242676, |
| "learning_rate": 9.923553079922443e-05, |
| "loss": 1.773, |
| "step": 630 |
| }, |
| { |
| "epoch": 0.17066666666666666, |
| "grad_norm": 1.2656044960021973, |
| "learning_rate": 9.921101620348252e-05, |
| "loss": 1.8128, |
| "step": 640 |
| }, |
| { |
| "epoch": 0.17333333333333334, |
| "grad_norm": 1.2624038457870483, |
| "learning_rate": 9.918611785035081e-05, |
| "loss": 1.8131, |
| "step": 650 |
| }, |
| { |
| "epoch": 0.176, |
| "grad_norm": 1.3800233602523804, |
| "learning_rate": 9.916083593399166e-05, |
| "loss": 1.8317, |
| "step": 660 |
| }, |
| { |
| "epoch": 0.17866666666666667, |
| "grad_norm": 1.2271778583526611, |
| "learning_rate": 9.913517065155852e-05, |
| "loss": 1.7392, |
| "step": 670 |
| }, |
| { |
| "epoch": 0.18133333333333335, |
| "grad_norm": 1.3525445461273193, |
| "learning_rate": 9.910912220319441e-05, |
| "loss": 1.7696, |
| "step": 680 |
| }, |
| { |
| "epoch": 0.184, |
| "grad_norm": 1.2507288455963135, |
| "learning_rate": 9.908269079203039e-05, |
| "loss": 1.6989, |
| "step": 690 |
| }, |
| { |
| "epoch": 0.18666666666666668, |
| "grad_norm": 1.370218276977539, |
| "learning_rate": 9.90558766241839e-05, |
| "loss": 1.7366, |
| "step": 700 |
| }, |
| { |
| "epoch": 0.18933333333333333, |
| "grad_norm": 1.2349491119384766, |
| "learning_rate": 9.902867990875719e-05, |
| "loss": 1.7456, |
| "step": 710 |
| }, |
| { |
| "epoch": 0.192, |
| "grad_norm": 1.2522363662719727, |
| "learning_rate": 9.900110085783572e-05, |
| "loss": 1.7311, |
| "step": 720 |
| }, |
| { |
| "epoch": 0.19466666666666665, |
| "grad_norm": 1.2445602416992188, |
| "learning_rate": 9.897313968648649e-05, |
| "loss": 1.7744, |
| "step": 730 |
| }, |
| { |
| "epoch": 0.19733333333333333, |
| "grad_norm": 1.347185730934143, |
| "learning_rate": 9.89447966127563e-05, |
| "loss": 1.7823, |
| "step": 740 |
| }, |
| { |
| "epoch": 0.2, |
| "grad_norm": 1.3751951456069946, |
| "learning_rate": 9.891607185767018e-05, |
| "loss": 1.7992, |
| "step": 750 |
| }, |
| { |
| "epoch": 0.20266666666666666, |
| "grad_norm": 1.3779850006103516, |
| "learning_rate": 9.888696564522948e-05, |
| "loss": 1.7366, |
| "step": 760 |
| }, |
| { |
| "epoch": 0.20533333333333334, |
| "grad_norm": 1.2008346319198608, |
| "learning_rate": 9.885747820241032e-05, |
| "loss": 1.714, |
| "step": 770 |
| }, |
| { |
| "epoch": 0.208, |
| "grad_norm": 1.1520583629608154, |
| "learning_rate": 9.882760975916172e-05, |
| "loss": 1.7091, |
| "step": 780 |
| }, |
| { |
| "epoch": 0.21066666666666667, |
| "grad_norm": 1.256103754043579, |
| "learning_rate": 9.879736054840378e-05, |
| "loss": 1.7122, |
| "step": 790 |
| }, |
| { |
| "epoch": 0.21333333333333335, |
| "grad_norm": 1.2325780391693115, |
| "learning_rate": 9.87667308060259e-05, |
| "loss": 1.7168, |
| "step": 800 |
| }, |
| { |
| "epoch": 0.216, |
| "grad_norm": 1.1750184297561646, |
| "learning_rate": 9.873572077088502e-05, |
| "loss": 1.6875, |
| "step": 810 |
| }, |
| { |
| "epoch": 0.21866666666666668, |
| "grad_norm": 1.2128427028656006, |
| "learning_rate": 9.870433068480358e-05, |
| "loss": 1.6825, |
| "step": 820 |
| }, |
| { |
| "epoch": 0.22133333333333333, |
| "grad_norm": 1.4052956104278564, |
| "learning_rate": 9.867256079256779e-05, |
| "loss": 1.6743, |
| "step": 830 |
| }, |
| { |
| "epoch": 0.224, |
| "grad_norm": 1.446097493171692, |
| "learning_rate": 9.864041134192563e-05, |
| "loss": 1.7194, |
| "step": 840 |
| }, |
| { |
| "epoch": 0.22666666666666666, |
| "grad_norm": 1.2423707246780396, |
| "learning_rate": 9.860788258358502e-05, |
| "loss": 1.6572, |
| "step": 850 |
| }, |
| { |
| "epoch": 0.22933333333333333, |
| "grad_norm": 1.2467008829116821, |
| "learning_rate": 9.857497477121171e-05, |
| "loss": 1.6961, |
| "step": 860 |
| }, |
| { |
| "epoch": 0.232, |
| "grad_norm": 1.4434629678726196, |
| "learning_rate": 9.854168816142746e-05, |
| "loss": 1.6961, |
| "step": 870 |
| }, |
| { |
| "epoch": 0.23466666666666666, |
| "grad_norm": 1.1657633781433105, |
| "learning_rate": 9.850802301380793e-05, |
| "loss": 1.6695, |
| "step": 880 |
| }, |
| { |
| "epoch": 0.23733333333333334, |
| "grad_norm": 1.2234739065170288, |
| "learning_rate": 9.847397959088069e-05, |
| "loss": 1.5881, |
| "step": 890 |
| }, |
| { |
| "epoch": 0.24, |
| "grad_norm": 1.290128469467163, |
| "learning_rate": 9.84395581581232e-05, |
| "loss": 1.6933, |
| "step": 900 |
| }, |
| { |
| "epoch": 0.24266666666666667, |
| "grad_norm": 1.199971318244934, |
| "learning_rate": 9.840475898396074e-05, |
| "loss": 1.6479, |
| "step": 910 |
| }, |
| { |
| "epoch": 0.24533333333333332, |
| "grad_norm": 1.188962459564209, |
| "learning_rate": 9.83695823397642e-05, |
| "loss": 1.6686, |
| "step": 920 |
| }, |
| { |
| "epoch": 0.248, |
| "grad_norm": 1.3920986652374268, |
| "learning_rate": 9.833402849984815e-05, |
| "loss": 1.6873, |
| "step": 930 |
| }, |
| { |
| "epoch": 0.25066666666666665, |
| "grad_norm": 1.2816208600997925, |
| "learning_rate": 9.829809774146859e-05, |
| "loss": 1.6143, |
| "step": 940 |
| }, |
| { |
| "epoch": 0.25333333333333335, |
| "grad_norm": 1.2212066650390625, |
| "learning_rate": 9.826179034482074e-05, |
| "loss": 1.6173, |
| "step": 950 |
| }, |
| { |
| "epoch": 0.256, |
| "grad_norm": 1.1105986833572388, |
| "learning_rate": 9.822510659303703e-05, |
| "loss": 1.6216, |
| "step": 960 |
| }, |
| { |
| "epoch": 0.25866666666666666, |
| "grad_norm": 1.3695571422576904, |
| "learning_rate": 9.818804677218472e-05, |
| "loss": 1.7096, |
| "step": 970 |
| }, |
| { |
| "epoch": 0.2613333333333333, |
| "grad_norm": 1.3604527711868286, |
| "learning_rate": 9.815061117126369e-05, |
| "loss": 1.6349, |
| "step": 980 |
| }, |
| { |
| "epoch": 0.264, |
| "grad_norm": 1.3433711528778076, |
| "learning_rate": 9.811280008220432e-05, |
| "loss": 1.647, |
| "step": 990 |
| }, |
| { |
| "epoch": 0.26666666666666666, |
| "grad_norm": 1.2954343557357788, |
| "learning_rate": 9.807461379986506e-05, |
| "loss": 1.6453, |
| "step": 1000 |
| }, |
| { |
| "epoch": 0.2693333333333333, |
| "grad_norm": 1.236398696899414, |
| "learning_rate": 9.803605262203022e-05, |
| "loss": 1.6163, |
| "step": 1010 |
| }, |
| { |
| "epoch": 0.272, |
| "grad_norm": 1.2126185894012451, |
| "learning_rate": 9.79971168494076e-05, |
| "loss": 1.6242, |
| "step": 1020 |
| }, |
| { |
| "epoch": 0.27466666666666667, |
| "grad_norm": 1.0889825820922852, |
| "learning_rate": 9.795780678562618e-05, |
| "loss": 1.6601, |
| "step": 1030 |
| }, |
| { |
| "epoch": 0.2773333333333333, |
| "grad_norm": 1.2359286546707153, |
| "learning_rate": 9.791812273723373e-05, |
| "loss": 1.6531, |
| "step": 1040 |
| }, |
| { |
| "epoch": 0.28, |
| "grad_norm": 1.1991182565689087, |
| "learning_rate": 9.787806501369445e-05, |
| "loss": 1.5602, |
| "step": 1050 |
| }, |
| { |
| "epoch": 0.2826666666666667, |
| "grad_norm": 1.263185739517212, |
| "learning_rate": 9.78376339273865e-05, |
| "loss": 1.6371, |
| "step": 1060 |
| }, |
| { |
| "epoch": 0.2853333333333333, |
| "grad_norm": 1.2973644733428955, |
| "learning_rate": 9.77968297935996e-05, |
| "loss": 1.6556, |
| "step": 1070 |
| }, |
| { |
| "epoch": 0.288, |
| "grad_norm": 1.0786491632461548, |
| "learning_rate": 9.775565293053261e-05, |
| "loss": 1.631, |
| "step": 1080 |
| }, |
| { |
| "epoch": 0.2906666666666667, |
| "grad_norm": 1.143127202987671, |
| "learning_rate": 9.771410365929097e-05, |
| "loss": 1.6083, |
| "step": 1090 |
| }, |
| { |
| "epoch": 0.29333333333333333, |
| "grad_norm": 1.3138456344604492, |
| "learning_rate": 9.767218230388422e-05, |
| "loss": 1.6347, |
| "step": 1100 |
| }, |
| { |
| "epoch": 0.296, |
| "grad_norm": 1.1803919076919556, |
| "learning_rate": 9.762988919122355e-05, |
| "loss": 1.6011, |
| "step": 1110 |
| }, |
| { |
| "epoch": 0.2986666666666667, |
| "grad_norm": 1.1952447891235352, |
| "learning_rate": 9.758722465111912e-05, |
| "loss": 1.5892, |
| "step": 1120 |
| }, |
| { |
| "epoch": 0.30133333333333334, |
| "grad_norm": 1.177064061164856, |
| "learning_rate": 9.754418901627759e-05, |
| "loss": 1.6529, |
| "step": 1130 |
| }, |
| { |
| "epoch": 0.304, |
| "grad_norm": 1.1240631341934204, |
| "learning_rate": 9.75007826222995e-05, |
| "loss": 1.5742, |
| "step": 1140 |
| }, |
| { |
| "epoch": 0.30666666666666664, |
| "grad_norm": 1.281684160232544, |
| "learning_rate": 9.745700580767659e-05, |
| "loss": 1.5985, |
| "step": 1150 |
| }, |
| { |
| "epoch": 0.30933333333333335, |
| "grad_norm": 1.4122151136398315, |
| "learning_rate": 9.74128589137893e-05, |
| "loss": 1.5748, |
| "step": 1160 |
| }, |
| { |
| "epoch": 0.312, |
| "grad_norm": 1.2664381265640259, |
| "learning_rate": 9.736834228490397e-05, |
| "loss": 1.5995, |
| "step": 1170 |
| }, |
| { |
| "epoch": 0.31466666666666665, |
| "grad_norm": 1.1780527830123901, |
| "learning_rate": 9.73234562681702e-05, |
| "loss": 1.5841, |
| "step": 1180 |
| }, |
| { |
| "epoch": 0.31733333333333336, |
| "grad_norm": 1.4098230600357056, |
| "learning_rate": 9.727820121361814e-05, |
| "loss": 1.6568, |
| "step": 1190 |
| }, |
| { |
| "epoch": 0.32, |
| "grad_norm": 1.3192808628082275, |
| "learning_rate": 9.723257747415584e-05, |
| "loss": 1.5708, |
| "step": 1200 |
| }, |
| { |
| "epoch": 0.32266666666666666, |
| "grad_norm": 1.1481376886367798, |
| "learning_rate": 9.718658540556638e-05, |
| "loss": 1.6019, |
| "step": 1210 |
| }, |
| { |
| "epoch": 0.3253333333333333, |
| "grad_norm": 1.1697850227355957, |
| "learning_rate": 9.714022536650513e-05, |
| "loss": 1.5946, |
| "step": 1220 |
| }, |
| { |
| "epoch": 0.328, |
| "grad_norm": 1.1633665561676025, |
| "learning_rate": 9.7093497718497e-05, |
| "loss": 1.6036, |
| "step": 1230 |
| }, |
| { |
| "epoch": 0.33066666666666666, |
| "grad_norm": 1.2343782186508179, |
| "learning_rate": 9.704640282593359e-05, |
| "loss": 1.4848, |
| "step": 1240 |
| }, |
| { |
| "epoch": 0.3333333333333333, |
| "grad_norm": 1.189098596572876, |
| "learning_rate": 9.699894105607028e-05, |
| "loss": 1.5482, |
| "step": 1250 |
| }, |
| { |
| "epoch": 0.336, |
| "grad_norm": 1.2927459478378296, |
| "learning_rate": 9.695111277902353e-05, |
| "loss": 1.5279, |
| "step": 1260 |
| }, |
| { |
| "epoch": 0.33866666666666667, |
| "grad_norm": 1.0545989274978638, |
| "learning_rate": 9.690291836776786e-05, |
| "loss": 1.5565, |
| "step": 1270 |
| }, |
| { |
| "epoch": 0.3413333333333333, |
| "grad_norm": 1.180017352104187, |
| "learning_rate": 9.685435819813294e-05, |
| "loss": 1.5322, |
| "step": 1280 |
| }, |
| { |
| "epoch": 0.344, |
| "grad_norm": 1.082352638244629, |
| "learning_rate": 9.680543264880076e-05, |
| "loss": 1.5577, |
| "step": 1290 |
| }, |
| { |
| "epoch": 0.3466666666666667, |
| "grad_norm": 1.1044467687606812, |
| "learning_rate": 9.675614210130253e-05, |
| "loss": 1.531, |
| "step": 1300 |
| }, |
| { |
| "epoch": 0.34933333333333333, |
| "grad_norm": 1.295383334159851, |
| "learning_rate": 9.670648694001589e-05, |
| "loss": 1.5965, |
| "step": 1310 |
| }, |
| { |
| "epoch": 0.352, |
| "grad_norm": 1.1646699905395508, |
| "learning_rate": 9.665646755216175e-05, |
| "loss": 1.5956, |
| "step": 1320 |
| }, |
| { |
| "epoch": 0.3546666666666667, |
| "grad_norm": 1.2571942806243896, |
| "learning_rate": 9.660608432780132e-05, |
| "loss": 1.5509, |
| "step": 1330 |
| }, |
| { |
| "epoch": 0.35733333333333334, |
| "grad_norm": 1.290236473083496, |
| "learning_rate": 9.655533765983314e-05, |
| "loss": 1.5414, |
| "step": 1340 |
| }, |
| { |
| "epoch": 0.36, |
| "grad_norm": 1.4202523231506348, |
| "learning_rate": 9.65042279439899e-05, |
| "loss": 1.5092, |
| "step": 1350 |
| }, |
| { |
| "epoch": 0.3626666666666667, |
| "grad_norm": 1.1573994159698486, |
| "learning_rate": 9.645275557883544e-05, |
| "loss": 1.5769, |
| "step": 1360 |
| }, |
| { |
| "epoch": 0.36533333333333334, |
| "grad_norm": 1.198572039604187, |
| "learning_rate": 9.64009209657616e-05, |
| "loss": 1.492, |
| "step": 1370 |
| }, |
| { |
| "epoch": 0.368, |
| "grad_norm": 1.2762819528579712, |
| "learning_rate": 9.63487245089851e-05, |
| "loss": 1.5721, |
| "step": 1380 |
| }, |
| { |
| "epoch": 0.37066666666666664, |
| "grad_norm": 1.3239036798477173, |
| "learning_rate": 9.62961666155444e-05, |
| "loss": 1.4852, |
| "step": 1390 |
| }, |
| { |
| "epoch": 0.37333333333333335, |
| "grad_norm": 1.1535241603851318, |
| "learning_rate": 9.624324769529652e-05, |
| "loss": 1.5596, |
| "step": 1400 |
| }, |
| { |
| "epoch": 0.376, |
| "grad_norm": 1.2930402755737305, |
| "learning_rate": 9.618996816091381e-05, |
| "loss": 1.5028, |
| "step": 1410 |
| }, |
| { |
| "epoch": 0.37866666666666665, |
| "grad_norm": 1.4139798879623413, |
| "learning_rate": 9.613632842788079e-05, |
| "loss": 1.5275, |
| "step": 1420 |
| }, |
| { |
| "epoch": 0.38133333333333336, |
| "grad_norm": 1.1874589920043945, |
| "learning_rate": 9.608232891449086e-05, |
| "loss": 1.4494, |
| "step": 1430 |
| }, |
| { |
| "epoch": 0.384, |
| "grad_norm": 1.2668923139572144, |
| "learning_rate": 9.602797004184312e-05, |
| "loss": 1.5524, |
| "step": 1440 |
| }, |
| { |
| "epoch": 0.38666666666666666, |
| "grad_norm": 1.1389477252960205, |
| "learning_rate": 9.597325223383894e-05, |
| "loss": 1.4829, |
| "step": 1450 |
| }, |
| { |
| "epoch": 0.3893333333333333, |
| "grad_norm": 1.1770538091659546, |
| "learning_rate": 9.591817591717877e-05, |
| "loss": 1.5488, |
| "step": 1460 |
| }, |
| { |
| "epoch": 0.392, |
| "grad_norm": 1.1826292276382446, |
| "learning_rate": 9.586274152135884e-05, |
| "loss": 1.5018, |
| "step": 1470 |
| }, |
| { |
| "epoch": 0.39466666666666667, |
| "grad_norm": 1.308369517326355, |
| "learning_rate": 9.580694947866764e-05, |
| "loss": 1.4715, |
| "step": 1480 |
| }, |
| { |
| "epoch": 0.3973333333333333, |
| "grad_norm": 1.445573329925537, |
| "learning_rate": 9.575080022418276e-05, |
| "loss": 1.5207, |
| "step": 1490 |
| }, |
| { |
| "epoch": 0.4, |
| "grad_norm": 1.2460147142410278, |
| "learning_rate": 9.569429419576737e-05, |
| "loss": 1.5239, |
| "step": 1500 |
| }, |
| { |
| "epoch": 0.4026666666666667, |
| "grad_norm": 1.146437168121338, |
| "learning_rate": 9.563743183406682e-05, |
| "loss": 1.5354, |
| "step": 1510 |
| }, |
| { |
| "epoch": 0.4053333333333333, |
| "grad_norm": 1.2336937189102173, |
| "learning_rate": 9.558021358250523e-05, |
| "loss": 1.5475, |
| "step": 1520 |
| }, |
| { |
| "epoch": 0.408, |
| "grad_norm": 1.227339506149292, |
| "learning_rate": 9.552263988728203e-05, |
| "loss": 1.5021, |
| "step": 1530 |
| }, |
| { |
| "epoch": 0.4106666666666667, |
| "grad_norm": 1.155593752861023, |
| "learning_rate": 9.546471119736845e-05, |
| "loss": 1.5432, |
| "step": 1540 |
| }, |
| { |
| "epoch": 0.41333333333333333, |
| "grad_norm": 1.1381423473358154, |
| "learning_rate": 9.540642796450403e-05, |
| "loss": 1.4961, |
| "step": 1550 |
| }, |
| { |
| "epoch": 0.416, |
| "grad_norm": 1.2342126369476318, |
| "learning_rate": 9.534779064319318e-05, |
| "loss": 1.5291, |
| "step": 1560 |
| }, |
| { |
| "epoch": 0.4186666666666667, |
| "grad_norm": 1.175115704536438, |
| "learning_rate": 9.528879969070148e-05, |
| "loss": 1.4991, |
| "step": 1570 |
| }, |
| { |
| "epoch": 0.42133333333333334, |
| "grad_norm": 1.2292876243591309, |
| "learning_rate": 9.52294555670522e-05, |
| "loss": 1.4546, |
| "step": 1580 |
| }, |
| { |
| "epoch": 0.424, |
| "grad_norm": 1.1613503694534302, |
| "learning_rate": 9.516975873502279e-05, |
| "loss": 1.4555, |
| "step": 1590 |
| }, |
| { |
| "epoch": 0.4266666666666667, |
| "grad_norm": 1.2402660846710205, |
| "learning_rate": 9.510970966014112e-05, |
| "loss": 1.4706, |
| "step": 1600 |
| }, |
| { |
| "epoch": 0.42933333333333334, |
| "grad_norm": 1.1978907585144043, |
| "learning_rate": 9.504930881068192e-05, |
| "loss": 1.5074, |
| "step": 1610 |
| }, |
| { |
| "epoch": 0.432, |
| "grad_norm": 1.166059970855713, |
| "learning_rate": 9.498855665766317e-05, |
| "loss": 1.4788, |
| "step": 1620 |
| }, |
| { |
| "epoch": 0.43466666666666665, |
| "grad_norm": 1.349196434020996, |
| "learning_rate": 9.492745367484234e-05, |
| "loss": 1.495, |
| "step": 1630 |
| }, |
| { |
| "epoch": 0.43733333333333335, |
| "grad_norm": 1.2328778505325317, |
| "learning_rate": 9.486600033871278e-05, |
| "loss": 1.4726, |
| "step": 1640 |
| }, |
| { |
| "epoch": 0.44, |
| "grad_norm": 1.2029507160186768, |
| "learning_rate": 9.480419712849995e-05, |
| "loss": 1.4274, |
| "step": 1650 |
| }, |
| { |
| "epoch": 0.44266666666666665, |
| "grad_norm": 1.2431840896606445, |
| "learning_rate": 9.474204452615769e-05, |
| "loss": 1.5464, |
| "step": 1660 |
| }, |
| { |
| "epoch": 0.44533333333333336, |
| "grad_norm": 1.1831949949264526, |
| "learning_rate": 9.46795430163645e-05, |
| "loss": 1.5215, |
| "step": 1670 |
| }, |
| { |
| "epoch": 0.448, |
| "grad_norm": 1.2739088535308838, |
| "learning_rate": 9.461669308651968e-05, |
| "loss": 1.4899, |
| "step": 1680 |
| }, |
| { |
| "epoch": 0.45066666666666666, |
| "grad_norm": 1.137560486793518, |
| "learning_rate": 9.455349522673962e-05, |
| "loss": 1.5286, |
| "step": 1690 |
| }, |
| { |
| "epoch": 0.4533333333333333, |
| "grad_norm": 1.172641634941101, |
| "learning_rate": 9.448994992985393e-05, |
| "loss": 1.4518, |
| "step": 1700 |
| }, |
| { |
| "epoch": 0.456, |
| "grad_norm": 1.2709147930145264, |
| "learning_rate": 9.442605769140158e-05, |
| "loss": 1.4563, |
| "step": 1710 |
| }, |
| { |
| "epoch": 0.45866666666666667, |
| "grad_norm": 1.2252726554870605, |
| "learning_rate": 9.436181900962713e-05, |
| "loss": 1.5001, |
| "step": 1720 |
| }, |
| { |
| "epoch": 0.4613333333333333, |
| "grad_norm": 1.1632018089294434, |
| "learning_rate": 9.429723438547667e-05, |
| "loss": 1.4513, |
| "step": 1730 |
| }, |
| { |
| "epoch": 0.464, |
| "grad_norm": 1.4294410943984985, |
| "learning_rate": 9.423230432259409e-05, |
| "loss": 1.4529, |
| "step": 1740 |
| }, |
| { |
| "epoch": 0.4666666666666667, |
| "grad_norm": 1.282327651977539, |
| "learning_rate": 9.416702932731707e-05, |
| "loss": 1.4149, |
| "step": 1750 |
| }, |
| { |
| "epoch": 0.4693333333333333, |
| "grad_norm": 1.1762118339538574, |
| "learning_rate": 9.410140990867314e-05, |
| "loss": 1.4371, |
| "step": 1760 |
| }, |
| { |
| "epoch": 0.472, |
| "grad_norm": 1.172849178314209, |
| "learning_rate": 9.403544657837568e-05, |
| "loss": 1.499, |
| "step": 1770 |
| }, |
| { |
| "epoch": 0.4746666666666667, |
| "grad_norm": 1.1873059272766113, |
| "learning_rate": 9.396913985082003e-05, |
| "loss": 1.3897, |
| "step": 1780 |
| }, |
| { |
| "epoch": 0.47733333333333333, |
| "grad_norm": 1.2219440937042236, |
| "learning_rate": 9.390249024307935e-05, |
| "loss": 1.4432, |
| "step": 1790 |
| }, |
| { |
| "epoch": 0.48, |
| "grad_norm": 1.1377061605453491, |
| "learning_rate": 9.383549827490065e-05, |
| "loss": 1.5, |
| "step": 1800 |
| }, |
| { |
| "epoch": 0.4826666666666667, |
| "grad_norm": 1.138771653175354, |
| "learning_rate": 9.37681644687008e-05, |
| "loss": 1.4375, |
| "step": 1810 |
| }, |
| { |
| "epoch": 0.48533333333333334, |
| "grad_norm": 1.192325472831726, |
| "learning_rate": 9.370048934956232e-05, |
| "loss": 1.4332, |
| "step": 1820 |
| }, |
| { |
| "epoch": 0.488, |
| "grad_norm": 1.1880292892456055, |
| "learning_rate": 9.363247344522938e-05, |
| "loss": 1.4164, |
| "step": 1830 |
| }, |
| { |
| "epoch": 0.49066666666666664, |
| "grad_norm": 1.1453015804290771, |
| "learning_rate": 9.356411728610368e-05, |
| "loss": 1.4824, |
| "step": 1840 |
| }, |
| { |
| "epoch": 0.49333333333333335, |
| "grad_norm": 1.1983551979064941, |
| "learning_rate": 9.349542140524028e-05, |
| "loss": 1.4353, |
| "step": 1850 |
| }, |
| { |
| "epoch": 0.496, |
| "grad_norm": 1.1537418365478516, |
| "learning_rate": 9.342638633834345e-05, |
| "loss": 1.4802, |
| "step": 1860 |
| }, |
| { |
| "epoch": 0.49866666666666665, |
| "grad_norm": 1.3037590980529785, |
| "learning_rate": 9.335701262376249e-05, |
| "loss": 1.4076, |
| "step": 1870 |
| }, |
| { |
| "epoch": 0.5013333333333333, |
| "grad_norm": 1.2254606485366821, |
| "learning_rate": 9.32873008024876e-05, |
| "loss": 1.4637, |
| "step": 1880 |
| }, |
| { |
| "epoch": 0.504, |
| "grad_norm": 1.2124687433242798, |
| "learning_rate": 9.321725141814554e-05, |
| "loss": 1.455, |
| "step": 1890 |
| }, |
| { |
| "epoch": 0.5066666666666667, |
| "grad_norm": 1.2989321947097778, |
| "learning_rate": 9.314686501699547e-05, |
| "loss": 1.4277, |
| "step": 1900 |
| }, |
| { |
| "epoch": 0.5093333333333333, |
| "grad_norm": 1.3618190288543701, |
| "learning_rate": 9.307614214792474e-05, |
| "loss": 1.4756, |
| "step": 1910 |
| }, |
| { |
| "epoch": 0.512, |
| "grad_norm": 1.1907007694244385, |
| "learning_rate": 9.300508336244444e-05, |
| "loss": 1.4276, |
| "step": 1920 |
| }, |
| { |
| "epoch": 0.5146666666666667, |
| "grad_norm": 1.265552043914795, |
| "learning_rate": 9.293368921468525e-05, |
| "loss": 1.4414, |
| "step": 1930 |
| }, |
| { |
| "epoch": 0.5173333333333333, |
| "grad_norm": 1.1732559204101562, |
| "learning_rate": 9.286196026139311e-05, |
| "loss": 1.4596, |
| "step": 1940 |
| }, |
| { |
| "epoch": 0.52, |
| "grad_norm": 1.1664767265319824, |
| "learning_rate": 9.278989706192479e-05, |
| "loss": 1.4448, |
| "step": 1950 |
| }, |
| { |
| "epoch": 0.5226666666666666, |
| "grad_norm": 1.1823703050613403, |
| "learning_rate": 9.271750017824359e-05, |
| "loss": 1.4324, |
| "step": 1960 |
| }, |
| { |
| "epoch": 0.5253333333333333, |
| "grad_norm": 1.2507715225219727, |
| "learning_rate": 9.264477017491496e-05, |
| "loss": 1.4088, |
| "step": 1970 |
| }, |
| { |
| "epoch": 0.528, |
| "grad_norm": 1.1818293333053589, |
| "learning_rate": 9.257170761910207e-05, |
| "loss": 1.4422, |
| "step": 1980 |
| }, |
| { |
| "epoch": 0.5306666666666666, |
| "grad_norm": 1.162350058555603, |
| "learning_rate": 9.24983130805614e-05, |
| "loss": 1.3944, |
| "step": 1990 |
| }, |
| { |
| "epoch": 0.5333333333333333, |
| "grad_norm": 1.195662260055542, |
| "learning_rate": 9.242458713163833e-05, |
| "loss": 1.4334, |
| "step": 2000 |
| }, |
| { |
| "epoch": 0.536, |
| "grad_norm": 1.2335044145584106, |
| "learning_rate": 9.23505303472626e-05, |
| "loss": 1.429, |
| "step": 2010 |
| }, |
| { |
| "epoch": 0.5386666666666666, |
| "grad_norm": 1.2105525732040405, |
| "learning_rate": 9.22761433049439e-05, |
| "loss": 1.4464, |
| "step": 2020 |
| }, |
| { |
| "epoch": 0.5413333333333333, |
| "grad_norm": 1.1668081283569336, |
| "learning_rate": 9.220142658476731e-05, |
| "loss": 1.4045, |
| "step": 2030 |
| }, |
| { |
| "epoch": 0.544, |
| "grad_norm": 1.3013231754302979, |
| "learning_rate": 9.212638076938886e-05, |
| "loss": 1.4209, |
| "step": 2040 |
| }, |
| { |
| "epoch": 0.5466666666666666, |
| "grad_norm": 1.1668587923049927, |
| "learning_rate": 9.205100644403085e-05, |
| "loss": 1.4069, |
| "step": 2050 |
| }, |
| { |
| "epoch": 0.5493333333333333, |
| "grad_norm": 1.120519995689392, |
| "learning_rate": 9.197530419647743e-05, |
| "loss": 1.4079, |
| "step": 2060 |
| }, |
| { |
| "epoch": 0.552, |
| "grad_norm": 1.221240520477295, |
| "learning_rate": 9.189927461706994e-05, |
| "loss": 1.3758, |
| "step": 2070 |
| }, |
| { |
| "epoch": 0.5546666666666666, |
| "grad_norm": 1.1907252073287964, |
| "learning_rate": 9.182291829870231e-05, |
| "loss": 1.3916, |
| "step": 2080 |
| }, |
| { |
| "epoch": 0.5573333333333333, |
| "grad_norm": 1.157230257987976, |
| "learning_rate": 9.174623583681644e-05, |
| "loss": 1.424, |
| "step": 2090 |
| }, |
| { |
| "epoch": 0.56, |
| "grad_norm": 1.243390679359436, |
| "learning_rate": 9.166922782939758e-05, |
| "loss": 1.3785, |
| "step": 2100 |
| }, |
| { |
| "epoch": 0.5626666666666666, |
| "grad_norm": 1.35386323928833, |
| "learning_rate": 9.159189487696964e-05, |
| "loss": 1.4214, |
| "step": 2110 |
| }, |
| { |
| "epoch": 0.5653333333333334, |
| "grad_norm": 1.233632206916809, |
| "learning_rate": 9.151423758259053e-05, |
| "loss": 1.4112, |
| "step": 2120 |
| }, |
| { |
| "epoch": 0.568, |
| "grad_norm": 1.2785305976867676, |
| "learning_rate": 9.14362565518474e-05, |
| "loss": 1.5029, |
| "step": 2130 |
| }, |
| { |
| "epoch": 0.5706666666666667, |
| "grad_norm": 1.1489568948745728, |
| "learning_rate": 9.135795239285201e-05, |
| "loss": 1.3647, |
| "step": 2140 |
| }, |
| { |
| "epoch": 0.5733333333333334, |
| "grad_norm": 1.408315658569336, |
| "learning_rate": 9.127932571623592e-05, |
| "loss": 1.4112, |
| "step": 2150 |
| }, |
| { |
| "epoch": 0.576, |
| "grad_norm": 1.2435559034347534, |
| "learning_rate": 9.120037713514575e-05, |
| "loss": 1.4089, |
| "step": 2160 |
| }, |
| { |
| "epoch": 0.5786666666666667, |
| "grad_norm": 1.0883207321166992, |
| "learning_rate": 9.112110726523841e-05, |
| "loss": 1.4465, |
| "step": 2170 |
| }, |
| { |
| "epoch": 0.5813333333333334, |
| "grad_norm": 1.1969690322875977, |
| "learning_rate": 9.104151672467624e-05, |
| "loss": 1.3992, |
| "step": 2180 |
| }, |
| { |
| "epoch": 0.584, |
| "grad_norm": 1.17844820022583, |
| "learning_rate": 9.096160613412228e-05, |
| "loss": 1.4339, |
| "step": 2190 |
| }, |
| { |
| "epoch": 0.5866666666666667, |
| "grad_norm": 1.1998530626296997, |
| "learning_rate": 9.088137611673537e-05, |
| "loss": 1.4133, |
| "step": 2200 |
| }, |
| { |
| "epoch": 0.5893333333333334, |
| "grad_norm": 1.2088191509246826, |
| "learning_rate": 9.08008272981653e-05, |
| "loss": 1.4172, |
| "step": 2210 |
| }, |
| { |
| "epoch": 0.592, |
| "grad_norm": 1.2235163450241089, |
| "learning_rate": 9.071996030654793e-05, |
| "loss": 1.3962, |
| "step": 2220 |
| }, |
| { |
| "epoch": 0.5946666666666667, |
| "grad_norm": 1.1096335649490356, |
| "learning_rate": 9.063877577250031e-05, |
| "loss": 1.3679, |
| "step": 2230 |
| }, |
| { |
| "epoch": 0.5973333333333334, |
| "grad_norm": 1.0746153593063354, |
| "learning_rate": 9.055727432911573e-05, |
| "loss": 1.3846, |
| "step": 2240 |
| }, |
| { |
| "epoch": 0.6, |
| "grad_norm": 1.1154844760894775, |
| "learning_rate": 9.047545661195885e-05, |
| "loss": 1.3793, |
| "step": 2250 |
| }, |
| { |
| "epoch": 0.6026666666666667, |
| "grad_norm": 1.147965669631958, |
| "learning_rate": 9.039332325906065e-05, |
| "loss": 1.3821, |
| "step": 2260 |
| }, |
| { |
| "epoch": 0.6053333333333333, |
| "grad_norm": 1.1864081621170044, |
| "learning_rate": 9.031087491091349e-05, |
| "loss": 1.4008, |
| "step": 2270 |
| }, |
| { |
| "epoch": 0.608, |
| "grad_norm": 1.2398922443389893, |
| "learning_rate": 9.022811221046618e-05, |
| "loss": 1.3957, |
| "step": 2280 |
| }, |
| { |
| "epoch": 0.6106666666666667, |
| "grad_norm": 1.3095377683639526, |
| "learning_rate": 9.014503580311888e-05, |
| "loss": 1.3663, |
| "step": 2290 |
| }, |
| { |
| "epoch": 0.6133333333333333, |
| "grad_norm": 1.1142088174819946, |
| "learning_rate": 9.006164633671809e-05, |
| "loss": 1.3967, |
| "step": 2300 |
| }, |
| { |
| "epoch": 0.616, |
| "grad_norm": 1.2652512788772583, |
| "learning_rate": 8.997794446155165e-05, |
| "loss": 1.412, |
| "step": 2310 |
| }, |
| { |
| "epoch": 0.6186666666666667, |
| "grad_norm": 1.21256422996521, |
| "learning_rate": 8.989393083034355e-05, |
| "loss": 1.4748, |
| "step": 2320 |
| }, |
| { |
| "epoch": 0.6213333333333333, |
| "grad_norm": 1.2671364545822144, |
| "learning_rate": 8.9809606098249e-05, |
| "loss": 1.3837, |
| "step": 2330 |
| }, |
| { |
| "epoch": 0.624, |
| "grad_norm": 1.2155178785324097, |
| "learning_rate": 8.972497092284917e-05, |
| "loss": 1.3248, |
| "step": 2340 |
| }, |
| { |
| "epoch": 0.6266666666666667, |
| "grad_norm": 1.118476390838623, |
| "learning_rate": 8.96400259641462e-05, |
| "loss": 1.4082, |
| "step": 2350 |
| }, |
| { |
| "epoch": 0.6293333333333333, |
| "grad_norm": 1.1911672353744507, |
| "learning_rate": 8.95547718845579e-05, |
| "loss": 1.437, |
| "step": 2360 |
| }, |
| { |
| "epoch": 0.632, |
| "grad_norm": 1.18438720703125, |
| "learning_rate": 8.946920934891274e-05, |
| "loss": 1.3764, |
| "step": 2370 |
| }, |
| { |
| "epoch": 0.6346666666666667, |
| "grad_norm": 1.195906400680542, |
| "learning_rate": 8.938333902444454e-05, |
| "loss": 1.3683, |
| "step": 2380 |
| }, |
| { |
| "epoch": 0.6373333333333333, |
| "grad_norm": 1.2250769138336182, |
| "learning_rate": 8.929716158078733e-05, |
| "loss": 1.4469, |
| "step": 2390 |
| }, |
| { |
| "epoch": 0.64, |
| "grad_norm": 1.425670862197876, |
| "learning_rate": 8.921067768997018e-05, |
| "loss": 1.3741, |
| "step": 2400 |
| }, |
| { |
| "epoch": 0.6426666666666667, |
| "grad_norm": 1.19728684425354, |
| "learning_rate": 8.912388802641177e-05, |
| "loss": 1.3783, |
| "step": 2410 |
| }, |
| { |
| "epoch": 0.6453333333333333, |
| "grad_norm": 1.1674749851226807, |
| "learning_rate": 8.903679326691539e-05, |
| "loss": 1.3648, |
| "step": 2420 |
| }, |
| { |
| "epoch": 0.648, |
| "grad_norm": 1.2711080312728882, |
| "learning_rate": 8.894939409066344e-05, |
| "loss": 1.3503, |
| "step": 2430 |
| }, |
| { |
| "epoch": 0.6506666666666666, |
| "grad_norm": 1.1880507469177246, |
| "learning_rate": 8.886169117921225e-05, |
| "loss": 1.4124, |
| "step": 2440 |
| }, |
| { |
| "epoch": 0.6533333333333333, |
| "grad_norm": 1.2464922666549683, |
| "learning_rate": 8.877368521648678e-05, |
| "loss": 1.3559, |
| "step": 2450 |
| }, |
| { |
| "epoch": 0.656, |
| "grad_norm": 1.1443207263946533, |
| "learning_rate": 8.868537688877516e-05, |
| "loss": 1.3751, |
| "step": 2460 |
| }, |
| { |
| "epoch": 0.6586666666666666, |
| "grad_norm": 1.2191261053085327, |
| "learning_rate": 8.859676688472348e-05, |
| "loss": 1.3991, |
| "step": 2470 |
| }, |
| { |
| "epoch": 0.6613333333333333, |
| "grad_norm": 1.1666820049285889, |
| "learning_rate": 8.850785589533037e-05, |
| "loss": 1.3407, |
| "step": 2480 |
| }, |
| { |
| "epoch": 0.664, |
| "grad_norm": 1.1684051752090454, |
| "learning_rate": 8.841864461394158e-05, |
| "loss": 1.4139, |
| "step": 2490 |
| }, |
| { |
| "epoch": 0.6666666666666666, |
| "grad_norm": 1.1883134841918945, |
| "learning_rate": 8.832913373624457e-05, |
| "loss": 1.3635, |
| "step": 2500 |
| }, |
| { |
| "epoch": 0.6693333333333333, |
| "grad_norm": 1.1918388605117798, |
| "learning_rate": 8.82393239602632e-05, |
| "loss": 1.34, |
| "step": 2510 |
| }, |
| { |
| "epoch": 0.672, |
| "grad_norm": 1.144920825958252, |
| "learning_rate": 8.814921598635208e-05, |
| "loss": 1.3798, |
| "step": 2520 |
| }, |
| { |
| "epoch": 0.6746666666666666, |
| "grad_norm": 1.1421136856079102, |
| "learning_rate": 8.805881051719136e-05, |
| "loss": 1.3737, |
| "step": 2530 |
| }, |
| { |
| "epoch": 0.6773333333333333, |
| "grad_norm": 1.2488627433776855, |
| "learning_rate": 8.796810825778102e-05, |
| "loss": 1.4353, |
| "step": 2540 |
| }, |
| { |
| "epoch": 0.68, |
| "grad_norm": 1.1184425354003906, |
| "learning_rate": 8.787710991543548e-05, |
| "loss": 1.3935, |
| "step": 2550 |
| }, |
| { |
| "epoch": 0.6826666666666666, |
| "grad_norm": 1.1690922975540161, |
| "learning_rate": 8.778581619977811e-05, |
| "loss": 1.3794, |
| "step": 2560 |
| }, |
| { |
| "epoch": 0.6853333333333333, |
| "grad_norm": 1.1933445930480957, |
| "learning_rate": 8.769422782273562e-05, |
| "loss": 1.4017, |
| "step": 2570 |
| }, |
| { |
| "epoch": 0.688, |
| "grad_norm": 1.249361276626587, |
| "learning_rate": 8.760234549853262e-05, |
| "loss": 1.3615, |
| "step": 2580 |
| }, |
| { |
| "epoch": 0.6906666666666667, |
| "grad_norm": 1.183539867401123, |
| "learning_rate": 8.751016994368591e-05, |
| "loss": 1.3734, |
| "step": 2590 |
| }, |
| { |
| "epoch": 0.6933333333333334, |
| "grad_norm": 1.1280195713043213, |
| "learning_rate": 8.741770187699896e-05, |
| "loss": 1.3714, |
| "step": 2600 |
| }, |
| { |
| "epoch": 0.696, |
| "grad_norm": 1.3271329402923584, |
| "learning_rate": 8.732494201955636e-05, |
| "loss": 1.3659, |
| "step": 2610 |
| }, |
| { |
| "epoch": 0.6986666666666667, |
| "grad_norm": 1.1904630661010742, |
| "learning_rate": 8.72318910947181e-05, |
| "loss": 1.4339, |
| "step": 2620 |
| }, |
| { |
| "epoch": 0.7013333333333334, |
| "grad_norm": 1.2772647142410278, |
| "learning_rate": 8.713854982811398e-05, |
| "loss": 1.354, |
| "step": 2630 |
| }, |
| { |
| "epoch": 0.704, |
| "grad_norm": 1.143364429473877, |
| "learning_rate": 8.704491894763794e-05, |
| "loss": 1.3956, |
| "step": 2640 |
| }, |
| { |
| "epoch": 0.7066666666666667, |
| "grad_norm": 1.074783205986023, |
| "learning_rate": 8.695099918344242e-05, |
| "loss": 1.3713, |
| "step": 2650 |
| }, |
| { |
| "epoch": 0.7093333333333334, |
| "grad_norm": 1.098419189453125, |
| "learning_rate": 8.685679126793257e-05, |
| "loss": 1.3973, |
| "step": 2660 |
| }, |
| { |
| "epoch": 0.712, |
| "grad_norm": 1.2148680686950684, |
| "learning_rate": 8.67622959357607e-05, |
| "loss": 1.4006, |
| "step": 2670 |
| }, |
| { |
| "epoch": 0.7146666666666667, |
| "grad_norm": 1.2799890041351318, |
| "learning_rate": 8.666751392382033e-05, |
| "loss": 1.2927, |
| "step": 2680 |
| }, |
| { |
| "epoch": 0.7173333333333334, |
| "grad_norm": 1.1022305488586426, |
| "learning_rate": 8.657244597124066e-05, |
| "loss": 1.3543, |
| "step": 2690 |
| }, |
| { |
| "epoch": 0.72, |
| "grad_norm": 1.230270266532898, |
| "learning_rate": 8.647709281938066e-05, |
| "loss": 1.3373, |
| "step": 2700 |
| }, |
| { |
| "epoch": 0.7226666666666667, |
| "grad_norm": 1.2525948286056519, |
| "learning_rate": 8.63814552118234e-05, |
| "loss": 1.3487, |
| "step": 2710 |
| }, |
| { |
| "epoch": 0.7253333333333334, |
| "grad_norm": 1.1279513835906982, |
| "learning_rate": 8.628553389437011e-05, |
| "loss": 1.3146, |
| "step": 2720 |
| }, |
| { |
| "epoch": 0.728, |
| "grad_norm": 1.2988407611846924, |
| "learning_rate": 8.618932961503452e-05, |
| "loss": 1.369, |
| "step": 2730 |
| }, |
| { |
| "epoch": 0.7306666666666667, |
| "grad_norm": 1.216888189315796, |
| "learning_rate": 8.609284312403694e-05, |
| "loss": 1.3679, |
| "step": 2740 |
| }, |
| { |
| "epoch": 0.7333333333333333, |
| "grad_norm": 1.3001585006713867, |
| "learning_rate": 8.599607517379837e-05, |
| "loss": 1.3147, |
| "step": 2750 |
| }, |
| { |
| "epoch": 0.736, |
| "grad_norm": 1.3244261741638184, |
| "learning_rate": 8.589902651893474e-05, |
| "loss": 1.3516, |
| "step": 2760 |
| }, |
| { |
| "epoch": 0.7386666666666667, |
| "grad_norm": 1.1077255010604858, |
| "learning_rate": 8.580169791625097e-05, |
| "loss": 1.3184, |
| "step": 2770 |
| }, |
| { |
| "epoch": 0.7413333333333333, |
| "grad_norm": 1.138271450996399, |
| "learning_rate": 8.570409012473503e-05, |
| "loss": 1.2984, |
| "step": 2780 |
| }, |
| { |
| "epoch": 0.744, |
| "grad_norm": 1.1240977048873901, |
| "learning_rate": 8.560620390555212e-05, |
| "loss": 1.3757, |
| "step": 2790 |
| }, |
| { |
| "epoch": 0.7466666666666667, |
| "grad_norm": 1.1248799562454224, |
| "learning_rate": 8.550804002203862e-05, |
| "loss": 1.3438, |
| "step": 2800 |
| }, |
| { |
| "epoch": 0.7493333333333333, |
| "grad_norm": 1.5033018589019775, |
| "learning_rate": 8.54095992396962e-05, |
| "loss": 1.352, |
| "step": 2810 |
| }, |
| { |
| "epoch": 0.752, |
| "grad_norm": 1.2982832193374634, |
| "learning_rate": 8.531088232618588e-05, |
| "loss": 1.376, |
| "step": 2820 |
| }, |
| { |
| "epoch": 0.7546666666666667, |
| "grad_norm": 1.1549718379974365, |
| "learning_rate": 8.521189005132195e-05, |
| "loss": 1.3149, |
| "step": 2830 |
| }, |
| { |
| "epoch": 0.7573333333333333, |
| "grad_norm": 1.0971959829330444, |
| "learning_rate": 8.51126231870661e-05, |
| "loss": 1.3254, |
| "step": 2840 |
| }, |
| { |
| "epoch": 0.76, |
| "grad_norm": 1.1096560955047607, |
| "learning_rate": 8.501308250752124e-05, |
| "loss": 1.3935, |
| "step": 2850 |
| }, |
| { |
| "epoch": 0.7626666666666667, |
| "grad_norm": 1.1969677209854126, |
| "learning_rate": 8.49132687889256e-05, |
| "loss": 1.3743, |
| "step": 2860 |
| }, |
| { |
| "epoch": 0.7653333333333333, |
| "grad_norm": 1.2397490739822388, |
| "learning_rate": 8.48131828096466e-05, |
| "loss": 1.3961, |
| "step": 2870 |
| }, |
| { |
| "epoch": 0.768, |
| "grad_norm": 1.22797429561615, |
| "learning_rate": 8.471282535017481e-05, |
| "loss": 1.3147, |
| "step": 2880 |
| }, |
| { |
| "epoch": 0.7706666666666667, |
| "grad_norm": 1.199384093284607, |
| "learning_rate": 8.46121971931179e-05, |
| "loss": 1.3474, |
| "step": 2890 |
| }, |
| { |
| "epoch": 0.7733333333333333, |
| "grad_norm": 1.10110342502594, |
| "learning_rate": 8.451129912319437e-05, |
| "loss": 1.3391, |
| "step": 2900 |
| }, |
| { |
| "epoch": 0.776, |
| "grad_norm": 1.0967788696289062, |
| "learning_rate": 8.441013192722773e-05, |
| "loss": 1.3229, |
| "step": 2910 |
| }, |
| { |
| "epoch": 0.7786666666666666, |
| "grad_norm": 1.2486368417739868, |
| "learning_rate": 8.430869639414003e-05, |
| "loss": 1.3743, |
| "step": 2920 |
| }, |
| { |
| "epoch": 0.7813333333333333, |
| "grad_norm": 1.2607121467590332, |
| "learning_rate": 8.420699331494598e-05, |
| "loss": 1.3409, |
| "step": 2930 |
| }, |
| { |
| "epoch": 0.784, |
| "grad_norm": 1.1935935020446777, |
| "learning_rate": 8.410502348274659e-05, |
| "loss": 1.3466, |
| "step": 2940 |
| }, |
| { |
| "epoch": 0.7866666666666666, |
| "grad_norm": 1.1842153072357178, |
| "learning_rate": 8.400278769272307e-05, |
| "loss": 1.3723, |
| "step": 2950 |
| }, |
| { |
| "epoch": 0.7893333333333333, |
| "grad_norm": 1.217961072921753, |
| "learning_rate": 8.390028674213071e-05, |
| "loss": 1.3495, |
| "step": 2960 |
| }, |
| { |
| "epoch": 0.792, |
| "grad_norm": 1.1305698156356812, |
| "learning_rate": 8.379752143029248e-05, |
| "loss": 1.3578, |
| "step": 2970 |
| }, |
| { |
| "epoch": 0.7946666666666666, |
| "grad_norm": 1.1107988357543945, |
| "learning_rate": 8.369449255859293e-05, |
| "loss": 1.334, |
| "step": 2980 |
| }, |
| { |
| "epoch": 0.7973333333333333, |
| "grad_norm": 1.1656534671783447, |
| "learning_rate": 8.359120093047189e-05, |
| "loss": 1.3011, |
| "step": 2990 |
| }, |
| { |
| "epoch": 0.8, |
| "grad_norm": 1.155830979347229, |
| "learning_rate": 8.348764735141823e-05, |
| "loss": 1.3794, |
| "step": 3000 |
| }, |
| { |
| "epoch": 0.8026666666666666, |
| "grad_norm": 1.1797475814819336, |
| "learning_rate": 8.338383262896356e-05, |
| "loss": 1.2805, |
| "step": 3010 |
| }, |
| { |
| "epoch": 0.8053333333333333, |
| "grad_norm": 1.1246551275253296, |
| "learning_rate": 8.327975757267596e-05, |
| "loss": 1.2701, |
| "step": 3020 |
| }, |
| { |
| "epoch": 0.808, |
| "grad_norm": 1.1335570812225342, |
| "learning_rate": 8.31754229941536e-05, |
| "loss": 1.325, |
| "step": 3030 |
| }, |
| { |
| "epoch": 0.8106666666666666, |
| "grad_norm": 1.1327924728393555, |
| "learning_rate": 8.307082970701848e-05, |
| "loss": 1.3381, |
| "step": 3040 |
| }, |
| { |
| "epoch": 0.8133333333333334, |
| "grad_norm": 1.1487321853637695, |
| "learning_rate": 8.296597852691008e-05, |
| "loss": 1.2775, |
| "step": 3050 |
| }, |
| { |
| "epoch": 0.816, |
| "grad_norm": 1.1448324918746948, |
| "learning_rate": 8.286087027147898e-05, |
| "loss": 1.305, |
| "step": 3060 |
| }, |
| { |
| "epoch": 0.8186666666666667, |
| "grad_norm": 1.2130907773971558, |
| "learning_rate": 8.275550576038042e-05, |
| "loss": 1.3485, |
| "step": 3070 |
| }, |
| { |
| "epoch": 0.8213333333333334, |
| "grad_norm": 1.115325927734375, |
| "learning_rate": 8.264988581526806e-05, |
| "loss": 1.2794, |
| "step": 3080 |
| }, |
| { |
| "epoch": 0.824, |
| "grad_norm": 1.062768578529358, |
| "learning_rate": 8.254401125978743e-05, |
| "loss": 1.3022, |
| "step": 3090 |
| }, |
| { |
| "epoch": 0.8266666666666667, |
| "grad_norm": 1.2172695398330688, |
| "learning_rate": 8.243788291956959e-05, |
| "loss": 1.312, |
| "step": 3100 |
| }, |
| { |
| "epoch": 0.8293333333333334, |
| "grad_norm": 1.1970939636230469, |
| "learning_rate": 8.23315016222247e-05, |
| "loss": 1.3553, |
| "step": 3110 |
| }, |
| { |
| "epoch": 0.832, |
| "grad_norm": 1.2073640823364258, |
| "learning_rate": 8.222486819733539e-05, |
| "loss": 1.3561, |
| "step": 3120 |
| }, |
| { |
| "epoch": 0.8346666666666667, |
| "grad_norm": 1.2345161437988281, |
| "learning_rate": 8.211798347645061e-05, |
| "loss": 1.3028, |
| "step": 3130 |
| }, |
| { |
| "epoch": 0.8373333333333334, |
| "grad_norm": 1.1362279653549194, |
| "learning_rate": 8.201084829307886e-05, |
| "loss": 1.3622, |
| "step": 3140 |
| }, |
| { |
| "epoch": 0.84, |
| "grad_norm": 1.1313154697418213, |
| "learning_rate": 8.19034634826818e-05, |
| "loss": 1.3345, |
| "step": 3150 |
| }, |
| { |
| "epoch": 0.8426666666666667, |
| "grad_norm": 1.118726134300232, |
| "learning_rate": 8.179582988266778e-05, |
| "loss": 1.2477, |
| "step": 3160 |
| }, |
| { |
| "epoch": 0.8453333333333334, |
| "grad_norm": 1.130759596824646, |
| "learning_rate": 8.168794833238523e-05, |
| "loss": 1.2645, |
| "step": 3170 |
| }, |
| { |
| "epoch": 0.848, |
| "grad_norm": 1.1994197368621826, |
| "learning_rate": 8.157981967311614e-05, |
| "loss": 1.3527, |
| "step": 3180 |
| }, |
| { |
| "epoch": 0.8506666666666667, |
| "grad_norm": 1.224702000617981, |
| "learning_rate": 8.147144474806953e-05, |
| "loss": 1.3174, |
| "step": 3190 |
| }, |
| { |
| "epoch": 0.8533333333333334, |
| "grad_norm": 1.1868679523468018, |
| "learning_rate": 8.136282440237481e-05, |
| "loss": 1.3337, |
| "step": 3200 |
| }, |
| { |
| "epoch": 0.856, |
| "grad_norm": 1.2484469413757324, |
| "learning_rate": 8.125395948307528e-05, |
| "loss": 1.3065, |
| "step": 3210 |
| }, |
| { |
| "epoch": 0.8586666666666667, |
| "grad_norm": 1.0734128952026367, |
| "learning_rate": 8.114485083912143e-05, |
| "loss": 1.2936, |
| "step": 3220 |
| }, |
| { |
| "epoch": 0.8613333333333333, |
| "grad_norm": 1.0142780542373657, |
| "learning_rate": 8.10354993213644e-05, |
| "loss": 1.2767, |
| "step": 3230 |
| }, |
| { |
| "epoch": 0.864, |
| "grad_norm": 1.1119025945663452, |
| "learning_rate": 8.092590578254931e-05, |
| "loss": 1.2833, |
| "step": 3240 |
| }, |
| { |
| "epoch": 0.8666666666666667, |
| "grad_norm": 1.1215296983718872, |
| "learning_rate": 8.081607107730853e-05, |
| "loss": 1.2917, |
| "step": 3250 |
| }, |
| { |
| "epoch": 0.8693333333333333, |
| "grad_norm": 1.0993318557739258, |
| "learning_rate": 8.070599606215521e-05, |
| "loss": 1.3021, |
| "step": 3260 |
| }, |
| { |
| "epoch": 0.872, |
| "grad_norm": 1.1401952505111694, |
| "learning_rate": 8.05956815954764e-05, |
| "loss": 1.3555, |
| "step": 3270 |
| }, |
| { |
| "epoch": 0.8746666666666667, |
| "grad_norm": 1.17933189868927, |
| "learning_rate": 8.04851285375265e-05, |
| "loss": 1.2785, |
| "step": 3280 |
| }, |
| { |
| "epoch": 0.8773333333333333, |
| "grad_norm": 1.057431697845459, |
| "learning_rate": 8.037433775042043e-05, |
| "loss": 1.2789, |
| "step": 3290 |
| }, |
| { |
| "epoch": 0.88, |
| "grad_norm": 1.1540074348449707, |
| "learning_rate": 8.026331009812703e-05, |
| "loss": 1.2554, |
| "step": 3300 |
| }, |
| { |
| "epoch": 0.8826666666666667, |
| "grad_norm": 1.219326376914978, |
| "learning_rate": 8.015204644646221e-05, |
| "loss": 1.2975, |
| "step": 3310 |
| }, |
| { |
| "epoch": 0.8853333333333333, |
| "grad_norm": 1.1657817363739014, |
| "learning_rate": 8.004054766308231e-05, |
| "loss": 1.3263, |
| "step": 3320 |
| }, |
| { |
| "epoch": 0.888, |
| "grad_norm": 1.2057347297668457, |
| "learning_rate": 7.99288146174772e-05, |
| "loss": 1.3356, |
| "step": 3330 |
| }, |
| { |
| "epoch": 0.8906666666666667, |
| "grad_norm": 1.1602758169174194, |
| "learning_rate": 7.981684818096367e-05, |
| "loss": 1.358, |
| "step": 3340 |
| }, |
| { |
| "epoch": 0.8933333333333333, |
| "grad_norm": 1.2020142078399658, |
| "learning_rate": 7.970464922667842e-05, |
| "loss": 1.3373, |
| "step": 3350 |
| }, |
| { |
| "epoch": 0.896, |
| "grad_norm": 1.1278605461120605, |
| "learning_rate": 7.959221862957148e-05, |
| "loss": 1.2709, |
| "step": 3360 |
| }, |
| { |
| "epoch": 0.8986666666666666, |
| "grad_norm": 1.0559728145599365, |
| "learning_rate": 7.947955726639922e-05, |
| "loss": 1.2147, |
| "step": 3370 |
| }, |
| { |
| "epoch": 0.9013333333333333, |
| "grad_norm": 1.1655516624450684, |
| "learning_rate": 7.936666601571756e-05, |
| "loss": 1.3171, |
| "step": 3380 |
| }, |
| { |
| "epoch": 0.904, |
| "grad_norm": 1.1956201791763306, |
| "learning_rate": 7.925354575787517e-05, |
| "loss": 1.3017, |
| "step": 3390 |
| }, |
| { |
| "epoch": 0.9066666666666666, |
| "grad_norm": 1.3958219289779663, |
| "learning_rate": 7.914019737500655e-05, |
| "loss": 1.3462, |
| "step": 3400 |
| }, |
| { |
| "epoch": 0.9093333333333333, |
| "grad_norm": 1.2900673151016235, |
| "learning_rate": 7.902662175102513e-05, |
| "loss": 1.3352, |
| "step": 3410 |
| }, |
| { |
| "epoch": 0.912, |
| "grad_norm": 1.1758888959884644, |
| "learning_rate": 7.891281977161648e-05, |
| "loss": 1.3346, |
| "step": 3420 |
| }, |
| { |
| "epoch": 0.9146666666666666, |
| "grad_norm": 1.3672614097595215, |
| "learning_rate": 7.879879232423126e-05, |
| "loss": 1.2894, |
| "step": 3430 |
| }, |
| { |
| "epoch": 0.9173333333333333, |
| "grad_norm": 1.190148115158081, |
| "learning_rate": 7.868454029807843e-05, |
| "loss": 1.3287, |
| "step": 3440 |
| }, |
| { |
| "epoch": 0.92, |
| "grad_norm": 1.0812398195266724, |
| "learning_rate": 7.857006458411826e-05, |
| "loss": 1.3013, |
| "step": 3450 |
| }, |
| { |
| "epoch": 0.9226666666666666, |
| "grad_norm": 1.2536805868148804, |
| "learning_rate": 7.845536607505533e-05, |
| "loss": 1.2589, |
| "step": 3460 |
| }, |
| { |
| "epoch": 0.9253333333333333, |
| "grad_norm": 1.1588472127914429, |
| "learning_rate": 7.834044566533165e-05, |
| "loss": 1.3544, |
| "step": 3470 |
| }, |
| { |
| "epoch": 0.928, |
| "grad_norm": 1.2140400409698486, |
| "learning_rate": 7.822530425111969e-05, |
| "loss": 1.2724, |
| "step": 3480 |
| }, |
| { |
| "epoch": 0.9306666666666666, |
| "grad_norm": 1.1211223602294922, |
| "learning_rate": 7.810994273031531e-05, |
| "loss": 1.2946, |
| "step": 3490 |
| }, |
| { |
| "epoch": 0.9333333333333333, |
| "grad_norm": 1.2078744173049927, |
| "learning_rate": 7.799436200253082e-05, |
| "loss": 1.3128, |
| "step": 3500 |
| }, |
| { |
| "epoch": 0.936, |
| "grad_norm": 1.1453533172607422, |
| "learning_rate": 7.787856296908795e-05, |
| "loss": 1.2247, |
| "step": 3510 |
| }, |
| { |
| "epoch": 0.9386666666666666, |
| "grad_norm": 1.1772340536117554, |
| "learning_rate": 7.776254653301084e-05, |
| "loss": 1.3455, |
| "step": 3520 |
| }, |
| { |
| "epoch": 0.9413333333333334, |
| "grad_norm": 1.0937925577163696, |
| "learning_rate": 7.764631359901897e-05, |
| "loss": 1.2528, |
| "step": 3530 |
| }, |
| { |
| "epoch": 0.944, |
| "grad_norm": 1.1185276508331299, |
| "learning_rate": 7.752986507352008e-05, |
| "loss": 1.3069, |
| "step": 3540 |
| }, |
| { |
| "epoch": 0.9466666666666667, |
| "grad_norm": 1.1814966201782227, |
| "learning_rate": 7.741320186460318e-05, |
| "loss": 1.3261, |
| "step": 3550 |
| }, |
| { |
| "epoch": 0.9493333333333334, |
| "grad_norm": 1.1327582597732544, |
| "learning_rate": 7.729632488203142e-05, |
| "loss": 1.2472, |
| "step": 3560 |
| }, |
| { |
| "epoch": 0.952, |
| "grad_norm": 1.0911587476730347, |
| "learning_rate": 7.717923503723497e-05, |
| "loss": 1.3092, |
| "step": 3570 |
| }, |
| { |
| "epoch": 0.9546666666666667, |
| "grad_norm": 1.139471173286438, |
| "learning_rate": 7.706193324330395e-05, |
| "loss": 1.2943, |
| "step": 3580 |
| }, |
| { |
| "epoch": 0.9573333333333334, |
| "grad_norm": 1.1061944961547852, |
| "learning_rate": 7.694442041498134e-05, |
| "loss": 1.1979, |
| "step": 3590 |
| }, |
| { |
| "epoch": 0.96, |
| "grad_norm": 1.187041997909546, |
| "learning_rate": 7.682669746865577e-05, |
| "loss": 1.322, |
| "step": 3600 |
| }, |
| { |
| "epoch": 0.9626666666666667, |
| "grad_norm": 1.9649654626846313, |
| "learning_rate": 7.670876532235442e-05, |
| "loss": 1.3139, |
| "step": 3610 |
| }, |
| { |
| "epoch": 0.9653333333333334, |
| "grad_norm": 1.215530276298523, |
| "learning_rate": 7.659062489573585e-05, |
| "loss": 1.3205, |
| "step": 3620 |
| }, |
| { |
| "epoch": 0.968, |
| "grad_norm": 1.1127485036849976, |
| "learning_rate": 7.647227711008287e-05, |
| "loss": 1.2919, |
| "step": 3630 |
| }, |
| { |
| "epoch": 0.9706666666666667, |
| "grad_norm": 1.1428635120391846, |
| "learning_rate": 7.635372288829524e-05, |
| "loss": 1.2585, |
| "step": 3640 |
| }, |
| { |
| "epoch": 0.9733333333333334, |
| "grad_norm": 1.2314307689666748, |
| "learning_rate": 7.623496315488263e-05, |
| "loss": 1.2643, |
| "step": 3650 |
| }, |
| { |
| "epoch": 0.976, |
| "grad_norm": 1.1226931810379028, |
| "learning_rate": 7.61159988359573e-05, |
| "loss": 1.2592, |
| "step": 3660 |
| }, |
| { |
| "epoch": 0.9786666666666667, |
| "grad_norm": 1.0766570568084717, |
| "learning_rate": 7.599683085922689e-05, |
| "loss": 1.2805, |
| "step": 3670 |
| }, |
| { |
| "epoch": 0.9813333333333333, |
| "grad_norm": 1.1490188837051392, |
| "learning_rate": 7.587746015398723e-05, |
| "loss": 1.2819, |
| "step": 3680 |
| }, |
| { |
| "epoch": 0.984, |
| "grad_norm": 1.1576265096664429, |
| "learning_rate": 7.575788765111503e-05, |
| "loss": 1.2937, |
| "step": 3690 |
| }, |
| { |
| "epoch": 0.9866666666666667, |
| "grad_norm": 1.1509325504302979, |
| "learning_rate": 7.563811428306074e-05, |
| "loss": 1.2568, |
| "step": 3700 |
| }, |
| { |
| "epoch": 0.9893333333333333, |
| "grad_norm": 1.1188994646072388, |
| "learning_rate": 7.551814098384109e-05, |
| "loss": 1.2764, |
| "step": 3710 |
| }, |
| { |
| "epoch": 0.992, |
| "grad_norm": 1.1616812944412231, |
| "learning_rate": 7.539796868903199e-05, |
| "loss": 1.3026, |
| "step": 3720 |
| }, |
| { |
| "epoch": 0.9946666666666667, |
| "grad_norm": 1.218526840209961, |
| "learning_rate": 7.527759833576118e-05, |
| "loss": 1.2856, |
| "step": 3730 |
| }, |
| { |
| "epoch": 0.9973333333333333, |
| "grad_norm": 1.1440365314483643, |
| "learning_rate": 7.515703086270077e-05, |
| "loss": 1.2523, |
| "step": 3740 |
| }, |
| { |
| "epoch": 1.0, |
| "grad_norm": 1.1550425291061401, |
| "learning_rate": 7.50362672100602e-05, |
| "loss": 1.2658, |
| "step": 3750 |
| }, |
| { |
| "epoch": 1.0, |
| "eval_loss": 1.2504782676696777, |
| "eval_runtime": 531.8577, |
| "eval_samples_per_second": 9.401, |
| "eval_steps_per_second": 4.701, |
| "step": 3750 |
| } |
| ], |
| "logging_steps": 10, |
| "max_steps": 11250, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 3, |
| "save_steps": 500, |
| "stateful_callbacks": { |
| "TrainerControl": { |
| "args": { |
| "should_epoch_stop": false, |
| "should_evaluate": false, |
| "should_log": false, |
| "should_save": true, |
| "should_training_stop": false |
| }, |
| "attributes": {} |
| } |
| }, |
| "total_flos": 4.7030756108544e+16, |
| "train_batch_size": 3, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|