| { | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 9.90625, | |
| "eval_steps": 500, | |
| "global_step": 951, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.10416666666666667, | |
| "grad_norm": 2.861802577972412, | |
| "learning_rate": 4.166666666666667e-05, | |
| "loss": 0.9682, | |
| "step": 10 | |
| }, | |
| { | |
| "epoch": 0.20833333333333334, | |
| "grad_norm": 3.0431478023529053, | |
| "learning_rate": 8.333333333333334e-05, | |
| "loss": 0.3898, | |
| "step": 20 | |
| }, | |
| { | |
| "epoch": 0.3125, | |
| "grad_norm": 1.3093934059143066, | |
| "learning_rate": 0.000125, | |
| "loss": 0.2177, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 0.4166666666666667, | |
| "grad_norm": 0.8621488809585571, | |
| "learning_rate": 0.0001666666666666667, | |
| "loss": 0.1536, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 0.5208333333333334, | |
| "grad_norm": 0.9496772289276123, | |
| "learning_rate": 0.00019999757923579923, | |
| "loss": 0.1156, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 0.625, | |
| "grad_norm": 1.193084716796875, | |
| "learning_rate": 0.00019991286479434454, | |
| "loss": 0.1079, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 0.7291666666666666, | |
| "grad_norm": 0.9372045397758484, | |
| "learning_rate": 0.00019970722931933287, | |
| "loss": 0.0979, | |
| "step": 70 | |
| }, | |
| { | |
| "epoch": 0.8333333333333334, | |
| "grad_norm": 1.1392306089401245, | |
| "learning_rate": 0.0001993809216841623, | |
| "loss": 0.0873, | |
| "step": 80 | |
| }, | |
| { | |
| "epoch": 0.9375, | |
| "grad_norm": 0.5865321159362793, | |
| "learning_rate": 0.00019893433680751103, | |
| "loss": 0.0788, | |
| "step": 90 | |
| }, | |
| { | |
| "epoch": 1.0416666666666667, | |
| "grad_norm": 0.41245004534721375, | |
| "learning_rate": 0.00019836801517538125, | |
| "loss": 0.0613, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 1.1458333333333333, | |
| "grad_norm": 0.5878641605377197, | |
| "learning_rate": 0.00019768264218696772, | |
| "loss": 0.0642, | |
| "step": 110 | |
| }, | |
| { | |
| "epoch": 1.25, | |
| "grad_norm": 0.4363374710083008, | |
| "learning_rate": 0.0001968790473251434, | |
| "loss": 0.0544, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 1.3541666666666667, | |
| "grad_norm": 0.4858635663986206, | |
| "learning_rate": 0.0001959582031525653, | |
| "loss": 0.0524, | |
| "step": 130 | |
| }, | |
| { | |
| "epoch": 1.4583333333333333, | |
| "grad_norm": 0.6191464066505432, | |
| "learning_rate": 0.00019492122413461603, | |
| "loss": 0.0555, | |
| "step": 140 | |
| }, | |
| { | |
| "epoch": 1.5625, | |
| "grad_norm": 0.3185575008392334, | |
| "learning_rate": 0.00019376936529060554, | |
| "loss": 0.0494, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 1.6666666666666665, | |
| "grad_norm": 0.266720175743103, | |
| "learning_rate": 0.00019250402067486522, | |
| "loss": 0.0474, | |
| "step": 160 | |
| }, | |
| { | |
| "epoch": 1.7708333333333335, | |
| "grad_norm": 0.24431076645851135, | |
| "learning_rate": 0.00019112672168957292, | |
| "loss": 0.0462, | |
| "step": 170 | |
| }, | |
| { | |
| "epoch": 1.875, | |
| "grad_norm": 0.2719191014766693, | |
| "learning_rate": 0.0001896391352313506, | |
| "loss": 0.0395, | |
| "step": 180 | |
| }, | |
| { | |
| "epoch": 1.9791666666666665, | |
| "grad_norm": 0.40286824107170105, | |
| "learning_rate": 0.00018804306167387796, | |
| "loss": 0.0449, | |
| "step": 190 | |
| }, | |
| { | |
| "epoch": 2.0833333333333335, | |
| "grad_norm": 0.4218553304672241, | |
| "learning_rate": 0.00018634043268896323, | |
| "loss": 0.0361, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 2.1875, | |
| "grad_norm": 0.40750882029533386, | |
| "learning_rate": 0.00018453330890870855, | |
| "loss": 0.0418, | |
| "step": 210 | |
| }, | |
| { | |
| "epoch": 2.2916666666666665, | |
| "grad_norm": 1.9637465476989746, | |
| "learning_rate": 0.0001826238774315995, | |
| "loss": 0.0925, | |
| "step": 220 | |
| }, | |
| { | |
| "epoch": 2.3958333333333335, | |
| "grad_norm": 0.2965734004974365, | |
| "learning_rate": 0.00018061444917553629, | |
| "loss": 0.052, | |
| "step": 230 | |
| }, | |
| { | |
| "epoch": 2.5, | |
| "grad_norm": 0.4165923297405243, | |
| "learning_rate": 0.0001785074560810111, | |
| "loss": 0.0512, | |
| "step": 240 | |
| }, | |
| { | |
| "epoch": 2.6041666666666665, | |
| "grad_norm": 0.44070684909820557, | |
| "learning_rate": 0.00017630544816781577, | |
| "loss": 0.0418, | |
| "step": 250 | |
| }, | |
| { | |
| "epoch": 2.7083333333333335, | |
| "grad_norm": 0.3902498185634613, | |
| "learning_rate": 0.00017401109044884246, | |
| "loss": 0.0423, | |
| "step": 260 | |
| }, | |
| { | |
| "epoch": 2.8125, | |
| "grad_norm": 0.458552747964859, | |
| "learning_rate": 0.0001716271597047119, | |
| "loss": 0.0398, | |
| "step": 270 | |
| }, | |
| { | |
| "epoch": 2.9166666666666665, | |
| "grad_norm": 0.3544536530971527, | |
| "learning_rate": 0.00016915654112313345, | |
| "loss": 0.0376, | |
| "step": 280 | |
| }, | |
| { | |
| "epoch": 3.0208333333333335, | |
| "grad_norm": 0.5818161368370056, | |
| "learning_rate": 0.00016660222480706355, | |
| "loss": 0.0447, | |
| "step": 290 | |
| }, | |
| { | |
| "epoch": 3.125, | |
| "grad_norm": 0.35342398285865784, | |
| "learning_rate": 0.00016396730215588915, | |
| "loss": 0.0401, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 3.2291666666666665, | |
| "grad_norm": 0.28917449712753296, | |
| "learning_rate": 0.0001612549621240154, | |
| "loss": 0.0447, | |
| "step": 310 | |
| }, | |
| { | |
| "epoch": 3.3333333333333335, | |
| "grad_norm": 0.34957313537597656, | |
| "learning_rate": 0.00015846848736138623, | |
| "loss": 0.034, | |
| "step": 320 | |
| }, | |
| { | |
| "epoch": 3.4375, | |
| "grad_norm": 0.2229030877351761, | |
| "learning_rate": 0.00015561125024060826, | |
| "loss": 0.0351, | |
| "step": 330 | |
| }, | |
| { | |
| "epoch": 3.5416666666666665, | |
| "grad_norm": 0.1731082648038864, | |
| "learning_rate": 0.00015268670877548648, | |
| "loss": 0.0369, | |
| "step": 340 | |
| }, | |
| { | |
| "epoch": 3.6458333333333335, | |
| "grad_norm": 0.33026209473609924, | |
| "learning_rate": 0.00014969840243591177, | |
| "loss": 0.0324, | |
| "step": 350 | |
| }, | |
| { | |
| "epoch": 3.75, | |
| "grad_norm": 0.22994904220104218, | |
| "learning_rate": 0.0001466499478641644, | |
| "loss": 0.0377, | |
| "step": 360 | |
| }, | |
| { | |
| "epoch": 3.8541666666666665, | |
| "grad_norm": 0.25043389201164246, | |
| "learning_rate": 0.00014354503449781912, | |
| "loss": 0.0334, | |
| "step": 370 | |
| }, | |
| { | |
| "epoch": 3.9583333333333335, | |
| "grad_norm": 0.26702672243118286, | |
| "learning_rate": 0.00014038742010454814, | |
| "loss": 0.0311, | |
| "step": 380 | |
| }, | |
| { | |
| "epoch": 4.0625, | |
| "grad_norm": 0.28817203640937805, | |
| "learning_rate": 0.00013718092623422686, | |
| "loss": 0.0339, | |
| "step": 390 | |
| }, | |
| { | |
| "epoch": 4.166666666666667, | |
| "grad_norm": 0.32753250002861023, | |
| "learning_rate": 0.00013392943359384624, | |
| "loss": 0.0313, | |
| "step": 400 | |
| }, | |
| { | |
| "epoch": 4.270833333333333, | |
| "grad_norm": 0.26729685068130493, | |
| "learning_rate": 0.00013063687735082933, | |
| "loss": 0.0354, | |
| "step": 410 | |
| }, | |
| { | |
| "epoch": 4.375, | |
| "grad_norm": 0.25145024061203003, | |
| "learning_rate": 0.00012730724237043615, | |
| "loss": 0.0316, | |
| "step": 420 | |
| }, | |
| { | |
| "epoch": 4.479166666666667, | |
| "grad_norm": 0.21019020676612854, | |
| "learning_rate": 0.00012394455839302113, | |
| "loss": 0.0341, | |
| "step": 430 | |
| }, | |
| { | |
| "epoch": 4.583333333333333, | |
| "grad_norm": 0.25795239210128784, | |
| "learning_rate": 0.00012055289515698007, | |
| "loss": 0.0309, | |
| "step": 440 | |
| }, | |
| { | |
| "epoch": 4.6875, | |
| "grad_norm": 0.34662681818008423, | |
| "learning_rate": 0.00011713635747328818, | |
| "loss": 0.0274, | |
| "step": 450 | |
| }, | |
| { | |
| "epoch": 4.791666666666667, | |
| "grad_norm": 0.26628291606903076, | |
| "learning_rate": 0.00011369908025759167, | |
| "loss": 0.028, | |
| "step": 460 | |
| }, | |
| { | |
| "epoch": 4.895833333333333, | |
| "grad_norm": 0.38035184144973755, | |
| "learning_rate": 0.00011024522352586452, | |
| "loss": 0.0273, | |
| "step": 470 | |
| }, | |
| { | |
| "epoch": 5.0, | |
| "grad_norm": 0.515480637550354, | |
| "learning_rate": 0.00010677896735968693, | |
| "loss": 0.028, | |
| "step": 480 | |
| }, | |
| { | |
| "epoch": 5.104166666666667, | |
| "grad_norm": 0.2834020256996155, | |
| "learning_rate": 0.00010330450684723955, | |
| "loss": 0.0241, | |
| "step": 490 | |
| }, | |
| { | |
| "epoch": 5.208333333333333, | |
| "grad_norm": 0.2605891823768616, | |
| "learning_rate": 9.982604700613529e-05, | |
| "loss": 0.0285, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 5.3125, | |
| "grad_norm": 0.20520137250423431, | |
| "learning_rate": 9.63477976942341e-05, | |
| "loss": 0.0233, | |
| "step": 510 | |
| }, | |
| { | |
| "epoch": 5.416666666666667, | |
| "grad_norm": 0.34367069602012634, | |
| "learning_rate": 9.287396851460008e-05, | |
| "loss": 0.0248, | |
| "step": 520 | |
| }, | |
| { | |
| "epoch": 5.520833333333333, | |
| "grad_norm": 0.17647576332092285, | |
| "learning_rate": 8.940876372076603e-05, | |
| "loss": 0.0249, | |
| "step": 530 | |
| }, | |
| { | |
| "epoch": 5.625, | |
| "grad_norm": 0.18092995882034302, | |
| "learning_rate": 8.595637712847358e-05, | |
| "loss": 0.0299, | |
| "step": 540 | |
| }, | |
| { | |
| "epoch": 5.729166666666667, | |
| "grad_norm": 0.4016890823841095, | |
| "learning_rate": 8.252098704004479e-05, | |
| "loss": 0.0221, | |
| "step": 550 | |
| }, | |
| { | |
| "epoch": 5.833333333333333, | |
| "grad_norm": 0.20710507035255432, | |
| "learning_rate": 7.910675118752977e-05, | |
| "loss": 0.0227, | |
| "step": 560 | |
| }, | |
| { | |
| "epoch": 5.9375, | |
| "grad_norm": 0.16734477877616882, | |
| "learning_rate": 7.57178017007492e-05, | |
| "loss": 0.0272, | |
| "step": 570 | |
| }, | |
| { | |
| "epoch": 6.041666666666667, | |
| "grad_norm": 0.25709211826324463, | |
| "learning_rate": 7.235824010632283e-05, | |
| "loss": 0.0262, | |
| "step": 580 | |
| }, | |
| { | |
| "epoch": 6.145833333333333, | |
| "grad_norm": 0.20443040132522583, | |
| "learning_rate": 6.903213236373591e-05, | |
| "loss": 0.0248, | |
| "step": 590 | |
| }, | |
| { | |
| "epoch": 6.25, | |
| "grad_norm": 0.33397573232650757, | |
| "learning_rate": 6.574350394445074e-05, | |
| "loss": 0.0232, | |
| "step": 600 | |
| }, | |
| { | |
| "epoch": 6.354166666666667, | |
| "grad_norm": 0.29977497458457947, | |
| "learning_rate": 6.249633496002016e-05, | |
| "loss": 0.0259, | |
| "step": 610 | |
| }, | |
| { | |
| "epoch": 6.458333333333333, | |
| "grad_norm": 0.2301492542028427, | |
| "learning_rate": 5.929455534509818e-05, | |
| "loss": 0.0225, | |
| "step": 620 | |
| }, | |
| { | |
| "epoch": 6.5625, | |
| "grad_norm": 0.17564110457897186, | |
| "learning_rate": 5.614204010117785e-05, | |
| "loss": 0.0242, | |
| "step": 630 | |
| }, | |
| { | |
| "epoch": 6.666666666666667, | |
| "grad_norm": 0.22045820951461792, | |
| "learning_rate": 5.304260460681309e-05, | |
| "loss": 0.0241, | |
| "step": 640 | |
| }, | |
| { | |
| "epoch": 6.770833333333333, | |
| "grad_norm": 0.19701404869556427, | |
| "learning_rate": 5.000000000000002e-05, | |
| "loss": 0.0227, | |
| "step": 650 | |
| }, | |
| { | |
| "epoch": 6.875, | |
| "grad_norm": 0.16471460461616516, | |
| "learning_rate": 4.7017908638305995e-05, | |
| "loss": 0.0232, | |
| "step": 660 | |
| }, | |
| { | |
| "epoch": 6.979166666666667, | |
| "grad_norm": 0.19613026082515717, | |
| "learning_rate": 4.4099939642241795e-05, | |
| "loss": 0.0231, | |
| "step": 670 | |
| }, | |
| { | |
| "epoch": 7.083333333333333, | |
| "grad_norm": 0.2281058430671692, | |
| "learning_rate": 4.124962452726969e-05, | |
| "loss": 0.0194, | |
| "step": 680 | |
| }, | |
| { | |
| "epoch": 7.1875, | |
| "grad_norm": 0.33613333106040955, | |
| "learning_rate": 3.84704129297339e-05, | |
| "loss": 0.0189, | |
| "step": 690 | |
| }, | |
| { | |
| "epoch": 7.291666666666667, | |
| "grad_norm": 0.11981873214244843, | |
| "learning_rate": 3.576566843188729e-05, | |
| "loss": 0.0193, | |
| "step": 700 | |
| }, | |
| { | |
| "epoch": 7.395833333333333, | |
| "grad_norm": 0.14438898861408234, | |
| "learning_rate": 3.313866449106555e-05, | |
| "loss": 0.0195, | |
| "step": 710 | |
| }, | |
| { | |
| "epoch": 7.5, | |
| "grad_norm": 0.157650426030159, | |
| "learning_rate": 3.059258047793661e-05, | |
| "loss": 0.0213, | |
| "step": 720 | |
| }, | |
| { | |
| "epoch": 7.604166666666667, | |
| "grad_norm": 0.19574569165706635, | |
| "learning_rate": 2.8130497828620128e-05, | |
| "loss": 0.0213, | |
| "step": 730 | |
| }, | |
| { | |
| "epoch": 7.708333333333333, | |
| "grad_norm": 0.18361669778823853, | |
| "learning_rate": 2.5755396315333324e-05, | |
| "loss": 0.0195, | |
| "step": 740 | |
| }, | |
| { | |
| "epoch": 7.8125, | |
| "grad_norm": 0.17926767468452454, | |
| "learning_rate": 2.3470150440077266e-05, | |
| "loss": 0.0214, | |
| "step": 750 | |
| }, | |
| { | |
| "epoch": 7.916666666666667, | |
| "grad_norm": 0.14856334030628204, | |
| "learning_rate": 2.1277525955728138e-05, | |
| "loss": 0.0214, | |
| "step": 760 | |
| }, | |
| { | |
| "epoch": 8.020833333333334, | |
| "grad_norm": 0.2279294729232788, | |
| "learning_rate": 1.9180176518743476e-05, | |
| "loss": 0.0196, | |
| "step": 770 | |
| }, | |
| { | |
| "epoch": 8.125, | |
| "grad_norm": 0.17617039382457733, | |
| "learning_rate": 1.7180640477534847e-05, | |
| "loss": 0.0216, | |
| "step": 780 | |
| }, | |
| { | |
| "epoch": 8.229166666666666, | |
| "grad_norm": 0.09398578852415085, | |
| "learning_rate": 1.5281337800393968e-05, | |
| "loss": 0.0186, | |
| "step": 790 | |
| }, | |
| { | |
| "epoch": 8.333333333333334, | |
| "grad_norm": 0.14784985780715942, | |
| "learning_rate": 1.3484567146690009e-05, | |
| "loss": 0.018, | |
| "step": 800 | |
| }, | |
| { | |
| "epoch": 8.4375, | |
| "grad_norm": 0.18601654469966888, | |
| "learning_rate": 1.1792503084882789e-05, | |
| "loss": 0.0187, | |
| "step": 810 | |
| }, | |
| { | |
| "epoch": 8.541666666666666, | |
| "grad_norm": 0.22347238659858704, | |
| "learning_rate": 1.0207193460718856e-05, | |
| "loss": 0.0171, | |
| "step": 820 | |
| }, | |
| { | |
| "epoch": 8.645833333333334, | |
| "grad_norm": 0.16696269810199738, | |
| "learning_rate": 8.730556918795785e-06, | |
| "loss": 0.0171, | |
| "step": 830 | |
| }, | |
| { | |
| "epoch": 8.75, | |
| "grad_norm": 0.2363879382610321, | |
| "learning_rate": 7.364380580493813e-06, | |
| "loss": 0.0175, | |
| "step": 840 | |
| }, | |
| { | |
| "epoch": 8.854166666666666, | |
| "grad_norm": 0.14943011105060577, | |
| "learning_rate": 6.1103178810856364e-06, | |
| "loss": 0.0208, | |
| "step": 850 | |
| }, | |
| { | |
| "epoch": 8.958333333333334, | |
| "grad_norm": 0.18391437828540802, | |
| "learning_rate": 4.969886568641757e-06, | |
| "loss": 0.0172, | |
| "step": 860 | |
| }, | |
| { | |
| "epoch": 9.0625, | |
| "grad_norm": 0.17471212148666382, | |
| "learning_rate": 3.944466867153218e-06, | |
| "loss": 0.0199, | |
| "step": 870 | |
| }, | |
| { | |
| "epoch": 9.166666666666666, | |
| "grad_norm": 0.2174932211637497, | |
| "learning_rate": 3.0352998060949155e-06, | |
| "loss": 0.0173, | |
| "step": 880 | |
| }, | |
| { | |
| "epoch": 9.270833333333334, | |
| "grad_norm": 0.15788139402866364, | |
| "learning_rate": 2.2434857184512435e-06, | |
| "loss": 0.0188, | |
| "step": 890 | |
| }, | |
| { | |
| "epoch": 9.375, | |
| "grad_norm": 0.12695789337158203, | |
| "learning_rate": 1.5699829090217278e-06, | |
| "loss": 0.0183, | |
| "step": 900 | |
| }, | |
| { | |
| "epoch": 9.479166666666666, | |
| "grad_norm": 0.21467889845371246, | |
| "learning_rate": 1.0156064946182376e-06, | |
| "loss": 0.0213, | |
| "step": 910 | |
| }, | |
| { | |
| "epoch": 9.583333333333334, | |
| "grad_norm": 0.11011941730976105, | |
| "learning_rate": 5.810274175578445e-07, | |
| "loss": 0.0165, | |
| "step": 920 | |
| }, | |
| { | |
| "epoch": 9.6875, | |
| "grad_norm": 0.1231321394443512, | |
| "learning_rate": 2.667716336448356e-07, | |
| "loss": 0.0153, | |
| "step": 930 | |
| }, | |
| { | |
| "epoch": 9.791666666666666, | |
| "grad_norm": 0.23924382030963898, | |
| "learning_rate": 7.321947562484166e-08, | |
| "loss": 0.0176, | |
| "step": 940 | |
| }, | |
| { | |
| "epoch": 9.895833333333334, | |
| "grad_norm": 0.1052466407418251, | |
| "learning_rate": 6.051928814865271e-10, | |
| "loss": 0.0171, | |
| "step": 950 | |
| }, | |
| { | |
| "epoch": 9.90625, | |
| "step": 951, | |
| "total_flos": 1.2838499503164576e+17, | |
| "train_loss": 0.05094248948170246, | |
| "train_runtime": 1084.1029, | |
| "train_samples_per_second": 56.142, | |
| "train_steps_per_second": 0.877 | |
| } | |
| ], | |
| "logging_steps": 10, | |
| "max_steps": 951, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 10, | |
| "save_steps": 10000, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": true | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 1.2838499503164576e+17, | |
| "train_batch_size": 64, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |