| { |
| "best_global_step": null, |
| "best_metric": null, |
| "best_model_checkpoint": null, |
| "epoch": 0.5333333333333333, |
| "eval_steps": 500, |
| "global_step": 1000, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.005333333333333333, |
| "grad_norm": 0.18920430541038513, |
| "learning_rate": 9.625668449197861e-06, |
| "loss": 1.7155427932739258, |
| "step": 10 |
| }, |
| { |
| "epoch": 0.010666666666666666, |
| "grad_norm": 0.17288701236248016, |
| "learning_rate": 2.0320855614973263e-05, |
| "loss": 1.6889101028442384, |
| "step": 20 |
| }, |
| { |
| "epoch": 0.016, |
| "grad_norm": 0.1621912121772766, |
| "learning_rate": 3.1016042780748666e-05, |
| "loss": 1.4697449684143067, |
| "step": 30 |
| }, |
| { |
| "epoch": 0.021333333333333333, |
| "grad_norm": 0.14400462806224823, |
| "learning_rate": 4.171122994652407e-05, |
| "loss": 1.2171109199523926, |
| "step": 40 |
| }, |
| { |
| "epoch": 0.02666666666666667, |
| "grad_norm": 0.15465624630451202, |
| "learning_rate": 5.2406417112299466e-05, |
| "loss": 1.325523567199707, |
| "step": 50 |
| }, |
| { |
| "epoch": 0.032, |
| "grad_norm": 0.1419701874256134, |
| "learning_rate": 6.310160427807486e-05, |
| "loss": 1.190889549255371, |
| "step": 60 |
| }, |
| { |
| "epoch": 0.037333333333333336, |
| "grad_norm": 0.14234182238578796, |
| "learning_rate": 7.379679144385027e-05, |
| "loss": 1.1519643783569335, |
| "step": 70 |
| }, |
| { |
| "epoch": 0.042666666666666665, |
| "grad_norm": 0.16518820822238922, |
| "learning_rate": 8.449197860962568e-05, |
| "loss": 1.1786141395568848, |
| "step": 80 |
| }, |
| { |
| "epoch": 0.048, |
| "grad_norm": 0.15448793768882751, |
| "learning_rate": 9.518716577540108e-05, |
| "loss": 1.112961769104004, |
| "step": 90 |
| }, |
| { |
| "epoch": 0.05333333333333334, |
| "grad_norm": 0.140245720744133, |
| "learning_rate": 0.00010588235294117647, |
| "loss": 1.069546604156494, |
| "step": 100 |
| }, |
| { |
| "epoch": 0.058666666666666666, |
| "grad_norm": 0.14856714010238647, |
| "learning_rate": 0.00011657754010695187, |
| "loss": 1.0882734298706054, |
| "step": 110 |
| }, |
| { |
| "epoch": 0.064, |
| "grad_norm": 0.12390466034412384, |
| "learning_rate": 0.00012727272727272728, |
| "loss": 1.0601109504699706, |
| "step": 120 |
| }, |
| { |
| "epoch": 0.06933333333333333, |
| "grad_norm": 0.12551704049110413, |
| "learning_rate": 0.00013796791443850266, |
| "loss": 0.9980484962463378, |
| "step": 130 |
| }, |
| { |
| "epoch": 0.07466666666666667, |
| "grad_norm": 0.13200801610946655, |
| "learning_rate": 0.00014866310160427807, |
| "loss": 1.0593965530395508, |
| "step": 140 |
| }, |
| { |
| "epoch": 0.08, |
| "grad_norm": 0.14042384922504425, |
| "learning_rate": 0.00015935828877005348, |
| "loss": 1.0694063186645508, |
| "step": 150 |
| }, |
| { |
| "epoch": 0.08533333333333333, |
| "grad_norm": 0.1398572027683258, |
| "learning_rate": 0.00017005347593582887, |
| "loss": 0.9897297859191895, |
| "step": 160 |
| }, |
| { |
| "epoch": 0.09066666666666667, |
| "grad_norm": 0.12058615684509277, |
| "learning_rate": 0.00018074866310160428, |
| "loss": 1.027288818359375, |
| "step": 170 |
| }, |
| { |
| "epoch": 0.096, |
| "grad_norm": 0.12195555120706558, |
| "learning_rate": 0.0001914438502673797, |
| "loss": 1.008460235595703, |
| "step": 180 |
| }, |
| { |
| "epoch": 0.10133333333333333, |
| "grad_norm": 0.13683106005191803, |
| "learning_rate": 0.0001999264435454211, |
| "loss": 1.0122367858886718, |
| "step": 190 |
| }, |
| { |
| "epoch": 0.10666666666666667, |
| "grad_norm": 0.1347503513097763, |
| "learning_rate": 0.00019955866127252666, |
| "loss": 1.0423219680786133, |
| "step": 200 |
| }, |
| { |
| "epoch": 0.112, |
| "grad_norm": 0.11485426872968674, |
| "learning_rate": 0.00019919087899963222, |
| "loss": 1.1192412376403809, |
| "step": 210 |
| }, |
| { |
| "epoch": 0.11733333333333333, |
| "grad_norm": 0.13036702573299408, |
| "learning_rate": 0.00019882309672673777, |
| "loss": 1.0282950401306152, |
| "step": 220 |
| }, |
| { |
| "epoch": 0.12266666666666666, |
| "grad_norm": 0.14256465435028076, |
| "learning_rate": 0.00019845531445384333, |
| "loss": 1.0863964080810546, |
| "step": 230 |
| }, |
| { |
| "epoch": 0.128, |
| "grad_norm": 0.15722429752349854, |
| "learning_rate": 0.0001980875321809489, |
| "loss": 1.1013068199157714, |
| "step": 240 |
| }, |
| { |
| "epoch": 0.13333333333333333, |
| "grad_norm": 0.11632367968559265, |
| "learning_rate": 0.00019771974990805445, |
| "loss": 1.0629444122314453, |
| "step": 250 |
| }, |
| { |
| "epoch": 0.13866666666666666, |
| "grad_norm": 0.14159689843654633, |
| "learning_rate": 0.00019735196763516, |
| "loss": 0.9801698684692383, |
| "step": 260 |
| }, |
| { |
| "epoch": 0.144, |
| "grad_norm": 0.1285131722688675, |
| "learning_rate": 0.00019698418536226556, |
| "loss": 0.9164261817932129, |
| "step": 270 |
| }, |
| { |
| "epoch": 0.14933333333333335, |
| "grad_norm": 0.11329686641693115, |
| "learning_rate": 0.00019661640308937112, |
| "loss": 1.0077224731445313, |
| "step": 280 |
| }, |
| { |
| "epoch": 0.15466666666666667, |
| "grad_norm": 0.13807755708694458, |
| "learning_rate": 0.00019624862081647665, |
| "loss": 1.0353178977966309, |
| "step": 290 |
| }, |
| { |
| "epoch": 0.16, |
| "grad_norm": 0.12947562336921692, |
| "learning_rate": 0.0001958808385435822, |
| "loss": 0.9883628845214844, |
| "step": 300 |
| }, |
| { |
| "epoch": 0.16533333333333333, |
| "grad_norm": 0.14317212998867035, |
| "learning_rate": 0.00019551305627068776, |
| "loss": 1.0230360984802247, |
| "step": 310 |
| }, |
| { |
| "epoch": 0.17066666666666666, |
| "grad_norm": 0.13416613638401031, |
| "learning_rate": 0.00019514527399779332, |
| "loss": 1.0168760299682618, |
| "step": 320 |
| }, |
| { |
| "epoch": 0.176, |
| "grad_norm": 0.13225486874580383, |
| "learning_rate": 0.00019477749172489887, |
| "loss": 1.0154266357421875, |
| "step": 330 |
| }, |
| { |
| "epoch": 0.18133333333333335, |
| "grad_norm": 0.12989938259124756, |
| "learning_rate": 0.00019440970945200443, |
| "loss": 0.9334298133850097, |
| "step": 340 |
| }, |
| { |
| "epoch": 0.18666666666666668, |
| "grad_norm": 0.14804990589618683, |
| "learning_rate": 0.00019404192717910999, |
| "loss": 0.9970742225646972, |
| "step": 350 |
| }, |
| { |
| "epoch": 0.192, |
| "grad_norm": 0.12144336849451065, |
| "learning_rate": 0.00019367414490621554, |
| "loss": 0.9453474998474121, |
| "step": 360 |
| }, |
| { |
| "epoch": 0.19733333333333333, |
| "grad_norm": 0.13061772286891937, |
| "learning_rate": 0.0001933063626333211, |
| "loss": 1.0147436141967774, |
| "step": 370 |
| }, |
| { |
| "epoch": 0.20266666666666666, |
| "grad_norm": 0.15214046835899353, |
| "learning_rate": 0.00019293858036042666, |
| "loss": 0.940700912475586, |
| "step": 380 |
| }, |
| { |
| "epoch": 0.208, |
| "grad_norm": 0.1339675486087799, |
| "learning_rate": 0.0001925707980875322, |
| "loss": 0.9950297355651856, |
| "step": 390 |
| }, |
| { |
| "epoch": 0.21333333333333335, |
| "grad_norm": 0.11434546858072281, |
| "learning_rate": 0.00019220301581463774, |
| "loss": 0.9575674057006835, |
| "step": 400 |
| }, |
| { |
| "epoch": 0.21866666666666668, |
| "grad_norm": 0.14045976102352142, |
| "learning_rate": 0.0001918352335417433, |
| "loss": 1.0181464195251464, |
| "step": 410 |
| }, |
| { |
| "epoch": 0.224, |
| "grad_norm": 0.14357644319534302, |
| "learning_rate": 0.00019146745126884883, |
| "loss": 0.8938379287719727, |
| "step": 420 |
| }, |
| { |
| "epoch": 0.22933333333333333, |
| "grad_norm": 0.14311663806438446, |
| "learning_rate": 0.00019109966899595439, |
| "loss": 0.9630547523498535, |
| "step": 430 |
| }, |
| { |
| "epoch": 0.23466666666666666, |
| "grad_norm": 0.1343093365430832, |
| "learning_rate": 0.00019073188672305994, |
| "loss": 1.0202548027038574, |
| "step": 440 |
| }, |
| { |
| "epoch": 0.24, |
| "grad_norm": 0.19928450882434845, |
| "learning_rate": 0.0001903641044501655, |
| "loss": 0.9257684707641601, |
| "step": 450 |
| }, |
| { |
| "epoch": 0.24533333333333332, |
| "grad_norm": 0.13011668622493744, |
| "learning_rate": 0.00018999632217727106, |
| "loss": 0.9594069480895996, |
| "step": 460 |
| }, |
| { |
| "epoch": 0.25066666666666665, |
| "grad_norm": 0.12877856194972992, |
| "learning_rate": 0.0001896285399043766, |
| "loss": 0.9692434310913086, |
| "step": 470 |
| }, |
| { |
| "epoch": 0.256, |
| "grad_norm": 0.1522223800420761, |
| "learning_rate": 0.00018926075763148217, |
| "loss": 0.9042861938476563, |
| "step": 480 |
| }, |
| { |
| "epoch": 0.2613333333333333, |
| "grad_norm": 0.1386655867099762, |
| "learning_rate": 0.00018889297535858773, |
| "loss": 0.9990679740905761, |
| "step": 490 |
| }, |
| { |
| "epoch": 0.26666666666666666, |
| "grad_norm": 0.13153749704360962, |
| "learning_rate": 0.00018852519308569328, |
| "loss": 0.9512178421020507, |
| "step": 500 |
| }, |
| { |
| "epoch": 0.272, |
| "grad_norm": 0.158578023314476, |
| "learning_rate": 0.00018815741081279884, |
| "loss": 0.9607432365417481, |
| "step": 510 |
| }, |
| { |
| "epoch": 0.2773333333333333, |
| "grad_norm": 0.1450786292552948, |
| "learning_rate": 0.0001877896285399044, |
| "loss": 0.9401381492614747, |
| "step": 520 |
| }, |
| { |
| "epoch": 0.2826666666666667, |
| "grad_norm": 0.1339694708585739, |
| "learning_rate": 0.00018742184626700993, |
| "loss": 1.0503832817077636, |
| "step": 530 |
| }, |
| { |
| "epoch": 0.288, |
| "grad_norm": 0.11654400080442429, |
| "learning_rate": 0.00018705406399411548, |
| "loss": 0.9126350402832031, |
| "step": 540 |
| }, |
| { |
| "epoch": 0.29333333333333333, |
| "grad_norm": 0.13373474776744843, |
| "learning_rate": 0.00018668628172122104, |
| "loss": 0.9998178482055664, |
| "step": 550 |
| }, |
| { |
| "epoch": 0.2986666666666667, |
| "grad_norm": 0.1520962119102478, |
| "learning_rate": 0.0001863184994483266, |
| "loss": 0.9018580436706543, |
| "step": 560 |
| }, |
| { |
| "epoch": 0.304, |
| "grad_norm": 0.1495676338672638, |
| "learning_rate": 0.00018595071717543215, |
| "loss": 0.9203540802001953, |
| "step": 570 |
| }, |
| { |
| "epoch": 0.30933333333333335, |
| "grad_norm": 0.14405539631843567, |
| "learning_rate": 0.0001855829349025377, |
| "loss": 0.9613846778869629, |
| "step": 580 |
| }, |
| { |
| "epoch": 0.31466666666666665, |
| "grad_norm": 0.14544403553009033, |
| "learning_rate": 0.00018521515262964327, |
| "loss": 0.9390192031860352, |
| "step": 590 |
| }, |
| { |
| "epoch": 0.32, |
| "grad_norm": 0.14720585942268372, |
| "learning_rate": 0.00018484737035674882, |
| "loss": 0.9530813217163085, |
| "step": 600 |
| }, |
| { |
| "epoch": 0.3253333333333333, |
| "grad_norm": 0.14282116293907166, |
| "learning_rate": 0.00018447958808385438, |
| "loss": 0.9839869499206543, |
| "step": 610 |
| }, |
| { |
| "epoch": 0.33066666666666666, |
| "grad_norm": 0.10869397968053818, |
| "learning_rate": 0.00018411180581095994, |
| "loss": 0.9609838485717773, |
| "step": 620 |
| }, |
| { |
| "epoch": 0.336, |
| "grad_norm": 0.1263863891363144, |
| "learning_rate": 0.00018374402353806547, |
| "loss": 0.983967399597168, |
| "step": 630 |
| }, |
| { |
| "epoch": 0.3413333333333333, |
| "grad_norm": 0.12446080893278122, |
| "learning_rate": 0.00018337624126517102, |
| "loss": 0.9304941177368165, |
| "step": 640 |
| }, |
| { |
| "epoch": 0.3466666666666667, |
| "grad_norm": 0.12666022777557373, |
| "learning_rate": 0.00018300845899227658, |
| "loss": 0.9255437850952148, |
| "step": 650 |
| }, |
| { |
| "epoch": 0.352, |
| "grad_norm": 0.12558284401893616, |
| "learning_rate": 0.00018264067671938214, |
| "loss": 0.9449084281921387, |
| "step": 660 |
| }, |
| { |
| "epoch": 0.35733333333333334, |
| "grad_norm": 0.12416686117649078, |
| "learning_rate": 0.0001822728944464877, |
| "loss": 0.8624231338500976, |
| "step": 670 |
| }, |
| { |
| "epoch": 0.3626666666666667, |
| "grad_norm": 0.15433147549629211, |
| "learning_rate": 0.00018190511217359325, |
| "loss": 0.908421802520752, |
| "step": 680 |
| }, |
| { |
| "epoch": 0.368, |
| "grad_norm": 0.1286514699459076, |
| "learning_rate": 0.0001815373299006988, |
| "loss": 0.9674293518066406, |
| "step": 690 |
| }, |
| { |
| "epoch": 0.37333333333333335, |
| "grad_norm": 0.13900645077228546, |
| "learning_rate": 0.00018116954762780436, |
| "loss": 0.9520171165466309, |
| "step": 700 |
| }, |
| { |
| "epoch": 0.37866666666666665, |
| "grad_norm": 0.1035495176911354, |
| "learning_rate": 0.0001808017653549099, |
| "loss": 0.9836587905883789, |
| "step": 710 |
| }, |
| { |
| "epoch": 0.384, |
| "grad_norm": 0.16256973147392273, |
| "learning_rate": 0.00018043398308201545, |
| "loss": 0.9725584030151367, |
| "step": 720 |
| }, |
| { |
| "epoch": 0.3893333333333333, |
| "grad_norm": 0.11459745466709137, |
| "learning_rate": 0.000180066200809121, |
| "loss": 0.9442227363586426, |
| "step": 730 |
| }, |
| { |
| "epoch": 0.39466666666666667, |
| "grad_norm": 0.12670467793941498, |
| "learning_rate": 0.00017969841853622656, |
| "loss": 0.871799373626709, |
| "step": 740 |
| }, |
| { |
| "epoch": 0.4, |
| "grad_norm": 0.1249232292175293, |
| "learning_rate": 0.00017933063626333212, |
| "loss": 0.9370894432067871, |
| "step": 750 |
| }, |
| { |
| "epoch": 0.4053333333333333, |
| "grad_norm": 0.15810564160346985, |
| "learning_rate": 0.00017896285399043765, |
| "loss": 0.8658051490783691, |
| "step": 760 |
| }, |
| { |
| "epoch": 0.4106666666666667, |
| "grad_norm": 0.15042412281036377, |
| "learning_rate": 0.0001785950717175432, |
| "loss": 0.8727136611938476, |
| "step": 770 |
| }, |
| { |
| "epoch": 0.416, |
| "grad_norm": 0.11843173205852509, |
| "learning_rate": 0.00017822728944464876, |
| "loss": 0.9302241325378418, |
| "step": 780 |
| }, |
| { |
| "epoch": 0.42133333333333334, |
| "grad_norm": 0.15024034678936005, |
| "learning_rate": 0.00017785950717175432, |
| "loss": 0.8992020606994628, |
| "step": 790 |
| }, |
| { |
| "epoch": 0.4266666666666667, |
| "grad_norm": 0.0963372066617012, |
| "learning_rate": 0.00017749172489885988, |
| "loss": 0.9603084564208985, |
| "step": 800 |
| }, |
| { |
| "epoch": 0.432, |
| "grad_norm": 0.1153709664940834, |
| "learning_rate": 0.00017712394262596543, |
| "loss": 0.9788017272949219, |
| "step": 810 |
| }, |
| { |
| "epoch": 0.43733333333333335, |
| "grad_norm": 0.14158199727535248, |
| "learning_rate": 0.000176756160353071, |
| "loss": 0.8528926849365235, |
| "step": 820 |
| }, |
| { |
| "epoch": 0.44266666666666665, |
| "grad_norm": 0.12067638337612152, |
| "learning_rate": 0.00017638837808017655, |
| "loss": 0.9270169258117675, |
| "step": 830 |
| }, |
| { |
| "epoch": 0.448, |
| "grad_norm": 0.13564583659172058, |
| "learning_rate": 0.0001760205958072821, |
| "loss": 0.9491316795349121, |
| "step": 840 |
| }, |
| { |
| "epoch": 0.4533333333333333, |
| "grad_norm": 0.1274612843990326, |
| "learning_rate": 0.00017565281353438766, |
| "loss": 0.8999369621276856, |
| "step": 850 |
| }, |
| { |
| "epoch": 0.45866666666666667, |
| "grad_norm": 0.14616525173187256, |
| "learning_rate": 0.00017528503126149322, |
| "loss": 0.8925825119018554, |
| "step": 860 |
| }, |
| { |
| "epoch": 0.464, |
| "grad_norm": 0.11437668651342392, |
| "learning_rate": 0.00017491724898859875, |
| "loss": 0.857603645324707, |
| "step": 870 |
| }, |
| { |
| "epoch": 0.4693333333333333, |
| "grad_norm": 0.1542726755142212, |
| "learning_rate": 0.0001745494667157043, |
| "loss": 0.884759521484375, |
| "step": 880 |
| }, |
| { |
| "epoch": 0.4746666666666667, |
| "grad_norm": 0.14314775168895721, |
| "learning_rate": 0.00017418168444280986, |
| "loss": 0.9026338577270507, |
| "step": 890 |
| }, |
| { |
| "epoch": 0.48, |
| "grad_norm": 0.1318540871143341, |
| "learning_rate": 0.00017381390216991542, |
| "loss": 0.9048086166381836, |
| "step": 900 |
| }, |
| { |
| "epoch": 0.48533333333333334, |
| "grad_norm": 0.14009934663772583, |
| "learning_rate": 0.00017344611989702097, |
| "loss": 0.8716842651367187, |
| "step": 910 |
| }, |
| { |
| "epoch": 0.49066666666666664, |
| "grad_norm": 0.11144368350505829, |
| "learning_rate": 0.00017307833762412653, |
| "loss": 0.8560963630676269, |
| "step": 920 |
| }, |
| { |
| "epoch": 0.496, |
| "grad_norm": 0.11742467433214188, |
| "learning_rate": 0.0001727105553512321, |
| "loss": 0.9024827957153321, |
| "step": 930 |
| }, |
| { |
| "epoch": 0.5013333333333333, |
| "grad_norm": 0.13162516057491302, |
| "learning_rate": 0.00017234277307833764, |
| "loss": 0.9039396286010742, |
| "step": 940 |
| }, |
| { |
| "epoch": 0.5066666666666667, |
| "grad_norm": 0.13514642417430878, |
| "learning_rate": 0.0001719749908054432, |
| "loss": 0.9337002754211425, |
| "step": 950 |
| }, |
| { |
| "epoch": 0.512, |
| "grad_norm": 0.12670394778251648, |
| "learning_rate": 0.00017160720853254876, |
| "loss": 0.9054777145385742, |
| "step": 960 |
| }, |
| { |
| "epoch": 0.5173333333333333, |
| "grad_norm": 0.12156554311513901, |
| "learning_rate": 0.0001712394262596543, |
| "loss": 0.8892666816711425, |
| "step": 970 |
| }, |
| { |
| "epoch": 0.5226666666666666, |
| "grad_norm": 0.13416580855846405, |
| "learning_rate": 0.00017087164398675984, |
| "loss": 0.878023910522461, |
| "step": 980 |
| }, |
| { |
| "epoch": 0.528, |
| "grad_norm": 0.13485731184482574, |
| "learning_rate": 0.0001705038617138654, |
| "loss": 0.9051738739013672, |
| "step": 990 |
| }, |
| { |
| "epoch": 0.5333333333333333, |
| "grad_norm": 0.1367981880903244, |
| "learning_rate": 0.00017013607944097096, |
| "loss": 0.9141511917114258, |
| "step": 1000 |
| } |
| ], |
| "logging_steps": 10, |
| "max_steps": 5625, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 3, |
| "save_steps": 500, |
| "stateful_callbacks": { |
| "TrainerControl": { |
| "args": { |
| "should_epoch_stop": false, |
| "should_evaluate": false, |
| "should_log": false, |
| "should_save": true, |
| "should_training_stop": false |
| }, |
| "attributes": {} |
| } |
| }, |
| "total_flos": 9.038133218021376e+16, |
| "train_batch_size": 1, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|