| { |
| "best_global_step": null, |
| "best_metric": null, |
| "best_model_checkpoint": null, |
| "epoch": 3.0, |
| "eval_steps": 500, |
| "global_step": 1125, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.02666666666666667, |
| "grad_norm": 32.16063934344277, |
| "learning_rate": 7.964601769911505e-07, |
| "loss": 0.5475, |
| "step": 10 |
| }, |
| { |
| "epoch": 0.05333333333333334, |
| "grad_norm": 6.567221676912103, |
| "learning_rate": 1.68141592920354e-06, |
| "loss": 0.1438, |
| "step": 20 |
| }, |
| { |
| "epoch": 0.08, |
| "grad_norm": 16.400774853834218, |
| "learning_rate": 2.5663716814159294e-06, |
| "loss": 0.1063, |
| "step": 30 |
| }, |
| { |
| "epoch": 0.10666666666666667, |
| "grad_norm": 6.359588347442692, |
| "learning_rate": 3.4513274336283186e-06, |
| "loss": 0.0596, |
| "step": 40 |
| }, |
| { |
| "epoch": 0.13333333333333333, |
| "grad_norm": 2.3210922841562738, |
| "learning_rate": 4.336283185840709e-06, |
| "loss": 0.0425, |
| "step": 50 |
| }, |
| { |
| "epoch": 0.16, |
| "grad_norm": 3.267338886551915, |
| "learning_rate": 5.2212389380530985e-06, |
| "loss": 0.0411, |
| "step": 60 |
| }, |
| { |
| "epoch": 0.18666666666666668, |
| "grad_norm": 13.686826873015601, |
| "learning_rate": 6.1061946902654865e-06, |
| "loss": 0.0592, |
| "step": 70 |
| }, |
| { |
| "epoch": 0.21333333333333335, |
| "grad_norm": 4.268192345486851, |
| "learning_rate": 6.991150442477876e-06, |
| "loss": 0.057, |
| "step": 80 |
| }, |
| { |
| "epoch": 0.24, |
| "grad_norm": 1.3230850797325053, |
| "learning_rate": 7.876106194690266e-06, |
| "loss": 0.0511, |
| "step": 90 |
| }, |
| { |
| "epoch": 0.26666666666666666, |
| "grad_norm": 3.342187327113933, |
| "learning_rate": 8.761061946902656e-06, |
| "loss": 0.0434, |
| "step": 100 |
| }, |
| { |
| "epoch": 0.29333333333333333, |
| "grad_norm": 3.4227515638852752, |
| "learning_rate": 9.646017699115045e-06, |
| "loss": 0.0544, |
| "step": 110 |
| }, |
| { |
| "epoch": 0.32, |
| "grad_norm": 4.412559659885227, |
| "learning_rate": 9.99913270134281e-06, |
| "loss": 0.058, |
| "step": 120 |
| }, |
| { |
| "epoch": 0.3466666666666667, |
| "grad_norm": 0.6474526366203736, |
| "learning_rate": 9.993833632459675e-06, |
| "loss": 0.0562, |
| "step": 130 |
| }, |
| { |
| "epoch": 0.37333333333333335, |
| "grad_norm": 8.771255095390313, |
| "learning_rate": 9.983722427355157e-06, |
| "loss": 0.0686, |
| "step": 140 |
| }, |
| { |
| "epoch": 0.4, |
| "grad_norm": 2.6270874614247934, |
| "learning_rate": 9.968808829344692e-06, |
| "loss": 0.033, |
| "step": 150 |
| }, |
| { |
| "epoch": 0.4266666666666667, |
| "grad_norm": 0.7486973272155489, |
| "learning_rate": 9.949107209404664e-06, |
| "loss": 0.0372, |
| "step": 160 |
| }, |
| { |
| "epoch": 0.4533333333333333, |
| "grad_norm": 4.189538788489708, |
| "learning_rate": 9.924636552324296e-06, |
| "loss": 0.0358, |
| "step": 170 |
| }, |
| { |
| "epoch": 0.48, |
| "grad_norm": 0.6483598739981203, |
| "learning_rate": 9.895420438411616e-06, |
| "loss": 0.0376, |
| "step": 180 |
| }, |
| { |
| "epoch": 0.5066666666666667, |
| "grad_norm": 1.9094671130157965, |
| "learning_rate": 9.861487020771103e-06, |
| "loss": 0.0445, |
| "step": 190 |
| }, |
| { |
| "epoch": 0.5333333333333333, |
| "grad_norm": 2.3259218499415804, |
| "learning_rate": 9.822868998174914e-06, |
| "loss": 0.0427, |
| "step": 200 |
| }, |
| { |
| "epoch": 0.56, |
| "grad_norm": 2.156446848730766, |
| "learning_rate": 9.779603583553842e-06, |
| "loss": 0.0374, |
| "step": 210 |
| }, |
| { |
| "epoch": 0.5866666666666667, |
| "grad_norm": 0.9597466279865825, |
| "learning_rate": 9.731732468138338e-06, |
| "loss": 0.0409, |
| "step": 220 |
| }, |
| { |
| "epoch": 0.6133333333333333, |
| "grad_norm": 0.7868867124962591, |
| "learning_rate": 9.679301781284209e-06, |
| "loss": 0.0329, |
| "step": 230 |
| }, |
| { |
| "epoch": 0.64, |
| "grad_norm": 1.62807853244579, |
| "learning_rate": 9.62236204602163e-06, |
| "loss": 0.0364, |
| "step": 240 |
| }, |
| { |
| "epoch": 0.6666666666666666, |
| "grad_norm": 0.4368965192056904, |
| "learning_rate": 9.560968130370376e-06, |
| "loss": 0.0319, |
| "step": 250 |
| }, |
| { |
| "epoch": 0.6933333333333334, |
| "grad_norm": 0.78653849956095, |
| "learning_rate": 9.495179194468135e-06, |
| "loss": 0.0373, |
| "step": 260 |
| }, |
| { |
| "epoch": 0.72, |
| "grad_norm": 3.4853295787469367, |
| "learning_rate": 9.42505863356287e-06, |
| "loss": 0.0365, |
| "step": 270 |
| }, |
| { |
| "epoch": 0.7466666666666667, |
| "grad_norm": 0.8783456698130101, |
| "learning_rate": 9.35067401692417e-06, |
| "loss": 0.0365, |
| "step": 280 |
| }, |
| { |
| "epoch": 0.7733333333333333, |
| "grad_norm": 2.2890841164043896, |
| "learning_rate": 9.272097022732444e-06, |
| "loss": 0.0352, |
| "step": 290 |
| }, |
| { |
| "epoch": 0.8, |
| "grad_norm": 0.5200146240226767, |
| "learning_rate": 9.189403369008704e-06, |
| "loss": 0.0351, |
| "step": 300 |
| }, |
| { |
| "epoch": 0.8266666666666667, |
| "grad_norm": 1.1669857247761828, |
| "learning_rate": 9.1026727406515e-06, |
| "loss": 0.0301, |
| "step": 310 |
| }, |
| { |
| "epoch": 0.8533333333333334, |
| "grad_norm": 1.6648372637355544, |
| "learning_rate": 9.011988712651295e-06, |
| "loss": 0.0344, |
| "step": 320 |
| }, |
| { |
| "epoch": 0.88, |
| "grad_norm": 0.49471094793678266, |
| "learning_rate": 8.917438669556307e-06, |
| "loss": 0.0332, |
| "step": 330 |
| }, |
| { |
| "epoch": 0.9066666666666666, |
| "grad_norm": 4.093981624105955, |
| "learning_rate": 8.819113721267385e-06, |
| "loss": 0.0357, |
| "step": 340 |
| }, |
| { |
| "epoch": 0.9333333333333333, |
| "grad_norm": 2.999015503453908, |
| "learning_rate": 8.717108615243081e-06, |
| "loss": 0.0432, |
| "step": 350 |
| }, |
| { |
| "epoch": 0.96, |
| "grad_norm": 1.5409883491156575, |
| "learning_rate": 8.611521645199532e-06, |
| "loss": 0.0389, |
| "step": 360 |
| }, |
| { |
| "epoch": 0.9866666666666667, |
| "grad_norm": 1.7355752046628126, |
| "learning_rate": 8.502454556393071e-06, |
| "loss": 0.0345, |
| "step": 370 |
| }, |
| { |
| "epoch": 1.0133333333333334, |
| "grad_norm": 0.6290142419411443, |
| "learning_rate": 8.390012447576931e-06, |
| "loss": 0.0352, |
| "step": 380 |
| }, |
| { |
| "epoch": 1.04, |
| "grad_norm": 0.998999378757009, |
| "learning_rate": 8.274303669726427e-06, |
| "loss": 0.037, |
| "step": 390 |
| }, |
| { |
| "epoch": 1.0666666666666667, |
| "grad_norm": 1.7203257499840563, |
| "learning_rate": 8.155439721630265e-06, |
| "loss": 0.0304, |
| "step": 400 |
| }, |
| { |
| "epoch": 1.0933333333333333, |
| "grad_norm": 1.4374612432793097, |
| "learning_rate": 8.03353514244857e-06, |
| "loss": 0.0216, |
| "step": 410 |
| }, |
| { |
| "epoch": 1.12, |
| "grad_norm": 0.579554465372659, |
| "learning_rate": 7.908707401341146e-06, |
| "loss": 0.0323, |
| "step": 420 |
| }, |
| { |
| "epoch": 1.1466666666666667, |
| "grad_norm": 2.773200563476286, |
| "learning_rate": 7.781076784272377e-06, |
| "loss": 0.0341, |
| "step": 430 |
| }, |
| { |
| "epoch": 1.1733333333333333, |
| "grad_norm": 3.550540828329406, |
| "learning_rate": 7.650766278101762e-06, |
| "loss": 0.0329, |
| "step": 440 |
| }, |
| { |
| "epoch": 1.2, |
| "grad_norm": 0.5515580193304647, |
| "learning_rate": 7.51790145207188e-06, |
| "loss": 0.0268, |
| "step": 450 |
| }, |
| { |
| "epoch": 1.2266666666666666, |
| "grad_norm": 1.283409960615874, |
| "learning_rate": 7.382610336807887e-06, |
| "loss": 0.0218, |
| "step": 460 |
| }, |
| { |
| "epoch": 1.2533333333333334, |
| "grad_norm": 0.9095799044130223, |
| "learning_rate": 7.245023300945203e-06, |
| "loss": 0.0413, |
| "step": 470 |
| }, |
| { |
| "epoch": 1.28, |
| "grad_norm": 2.4887934586907696, |
| "learning_rate": 7.1052729255042645e-06, |
| "loss": 0.0308, |
| "step": 480 |
| }, |
| { |
| "epoch": 1.3066666666666666, |
| "grad_norm": 0.7141213123224076, |
| "learning_rate": 6.963493876133367e-06, |
| "loss": 0.0332, |
| "step": 490 |
| }, |
| { |
| "epoch": 1.3333333333333333, |
| "grad_norm": 0.9149870982144377, |
| "learning_rate": 6.81982277334275e-06, |
| "loss": 0.024, |
| "step": 500 |
| }, |
| { |
| "epoch": 1.3599999999999999, |
| "grad_norm": 1.295195973673907, |
| "learning_rate": 6.674398060854931e-06, |
| "loss": 0.0238, |
| "step": 510 |
| }, |
| { |
| "epoch": 1.3866666666666667, |
| "grad_norm": 0.7554872779425962, |
| "learning_rate": 6.527359872198166e-06, |
| "loss": 0.022, |
| "step": 520 |
| }, |
| { |
| "epoch": 1.4133333333333333, |
| "grad_norm": 0.6242502684574066, |
| "learning_rate": 6.378849895671594e-06, |
| "loss": 0.0242, |
| "step": 530 |
| }, |
| { |
| "epoch": 1.44, |
| "grad_norm": 0.9830147127712261, |
| "learning_rate": 6.229011237812172e-06, |
| "loss": 0.0318, |
| "step": 540 |
| }, |
| { |
| "epoch": 1.4666666666666668, |
| "grad_norm": 0.9146134481301997, |
| "learning_rate": 6.0779882854949745e-06, |
| "loss": 0.0294, |
| "step": 550 |
| }, |
| { |
| "epoch": 1.4933333333333334, |
| "grad_norm": 0.9811594902690147, |
| "learning_rate": 5.925926566799754e-06, |
| "loss": 0.026, |
| "step": 560 |
| }, |
| { |
| "epoch": 1.52, |
| "grad_norm": 0.4851403666625478, |
| "learning_rate": 5.7729726107777855e-06, |
| "loss": 0.027, |
| "step": 570 |
| }, |
| { |
| "epoch": 1.5466666666666666, |
| "grad_norm": 0.2544634724888273, |
| "learning_rate": 5.6192738062542e-06, |
| "loss": 0.0284, |
| "step": 580 |
| }, |
| { |
| "epoch": 1.5733333333333333, |
| "grad_norm": 0.36644989714339743, |
| "learning_rate": 5.464978259801797e-06, |
| "loss": 0.024, |
| "step": 590 |
| }, |
| { |
| "epoch": 1.6, |
| "grad_norm": 0.43988741518108126, |
| "learning_rate": 5.3102346530232365e-06, |
| "loss": 0.0223, |
| "step": 600 |
| }, |
| { |
| "epoch": 1.6266666666666667, |
| "grad_norm": 0.5226214040502056, |
| "learning_rate": 5.155192099279113e-06, |
| "loss": 0.0249, |
| "step": 610 |
| }, |
| { |
| "epoch": 1.6533333333333333, |
| "grad_norm": 1.1119970846827298, |
| "learning_rate": 5e-06, |
| "loss": 0.0253, |
| "step": 620 |
| }, |
| { |
| "epoch": 1.6800000000000002, |
| "grad_norm": 0.8680971082218792, |
| "learning_rate": 4.844807900720888e-06, |
| "loss": 0.0284, |
| "step": 630 |
| }, |
| { |
| "epoch": 1.7066666666666666, |
| "grad_norm": 1.2771195764125927, |
| "learning_rate": 4.689765346976765e-06, |
| "loss": 0.031, |
| "step": 640 |
| }, |
| { |
| "epoch": 1.7333333333333334, |
| "grad_norm": 1.2987869328099824, |
| "learning_rate": 4.535021740198202e-06, |
| "loss": 0.0285, |
| "step": 650 |
| }, |
| { |
| "epoch": 1.76, |
| "grad_norm": 0.5503557889607777, |
| "learning_rate": 4.3807261937458005e-06, |
| "loss": 0.0221, |
| "step": 660 |
| }, |
| { |
| "epoch": 1.7866666666666666, |
| "grad_norm": 0.34195500176254995, |
| "learning_rate": 4.227027389222215e-06, |
| "loss": 0.0302, |
| "step": 670 |
| }, |
| { |
| "epoch": 1.8133333333333335, |
| "grad_norm": 0.5321038179644965, |
| "learning_rate": 4.074073433200249e-06, |
| "loss": 0.0251, |
| "step": 680 |
| }, |
| { |
| "epoch": 1.8399999999999999, |
| "grad_norm": 0.6459786858896845, |
| "learning_rate": 3.9220117145050254e-06, |
| "loss": 0.0272, |
| "step": 690 |
| }, |
| { |
| "epoch": 1.8666666666666667, |
| "grad_norm": 0.185882280385459, |
| "learning_rate": 3.7709887621878305e-06, |
| "loss": 0.0233, |
| "step": 700 |
| }, |
| { |
| "epoch": 1.8933333333333333, |
| "grad_norm": 0.2565813341134651, |
| "learning_rate": 3.621150104328407e-06, |
| "loss": 0.0278, |
| "step": 710 |
| }, |
| { |
| "epoch": 1.92, |
| "grad_norm": 3.1620511689525883, |
| "learning_rate": 3.4726401278018353e-06, |
| "loss": 0.0201, |
| "step": 720 |
| }, |
| { |
| "epoch": 1.9466666666666668, |
| "grad_norm": 1.1210855653638465, |
| "learning_rate": 3.3256019391450696e-06, |
| "loss": 0.0264, |
| "step": 730 |
| }, |
| { |
| "epoch": 1.9733333333333334, |
| "grad_norm": 1.1321594665504457, |
| "learning_rate": 3.180177226657251e-06, |
| "loss": 0.0275, |
| "step": 740 |
| }, |
| { |
| "epoch": 2.0, |
| "grad_norm": 0.46250821232538014, |
| "learning_rate": 3.0365061238666336e-06, |
| "loss": 0.026, |
| "step": 750 |
| }, |
| { |
| "epoch": 2.026666666666667, |
| "grad_norm": 0.6774924836452516, |
| "learning_rate": 2.8947270744957385e-06, |
| "loss": 0.0205, |
| "step": 760 |
| }, |
| { |
| "epoch": 2.0533333333333332, |
| "grad_norm": 0.583612934420677, |
| "learning_rate": 2.7549766990547973e-06, |
| "loss": 0.0212, |
| "step": 770 |
| }, |
| { |
| "epoch": 2.08, |
| "grad_norm": 0.2854747824255563, |
| "learning_rate": 2.6173896631921134e-06, |
| "loss": 0.0206, |
| "step": 780 |
| }, |
| { |
| "epoch": 2.1066666666666665, |
| "grad_norm": 0.9164854943563306, |
| "learning_rate": 2.4820985479281184e-06, |
| "loss": 0.0185, |
| "step": 790 |
| }, |
| { |
| "epoch": 2.1333333333333333, |
| "grad_norm": 0.2507431366650127, |
| "learning_rate": 2.3492337218982396e-06, |
| "loss": 0.0215, |
| "step": 800 |
| }, |
| { |
| "epoch": 2.16, |
| "grad_norm": 0.2683693148125547, |
| "learning_rate": 2.2189232157276247e-06, |
| "loss": 0.0159, |
| "step": 810 |
| }, |
| { |
| "epoch": 2.1866666666666665, |
| "grad_norm": 1.8732417076656713, |
| "learning_rate": 2.0912925986588547e-06, |
| "loss": 0.0184, |
| "step": 820 |
| }, |
| { |
| "epoch": 2.2133333333333334, |
| "grad_norm": 0.4107367017375117, |
| "learning_rate": 1.9664648575514316e-06, |
| "loss": 0.0177, |
| "step": 830 |
| }, |
| { |
| "epoch": 2.24, |
| "grad_norm": 0.6028137557406312, |
| "learning_rate": 1.8445602783697375e-06, |
| "loss": 0.0208, |
| "step": 840 |
| }, |
| { |
| "epoch": 2.2666666666666666, |
| "grad_norm": 0.61431790944023, |
| "learning_rate": 1.7256963302735752e-06, |
| "loss": 0.0222, |
| "step": 850 |
| }, |
| { |
| "epoch": 2.2933333333333334, |
| "grad_norm": 1.7863302074699874, |
| "learning_rate": 1.6099875524230707e-06, |
| "loss": 0.0207, |
| "step": 860 |
| }, |
| { |
| "epoch": 2.32, |
| "grad_norm": 0.30948586663760247, |
| "learning_rate": 1.4975454436069292e-06, |
| "loss": 0.0191, |
| "step": 870 |
| }, |
| { |
| "epoch": 2.3466666666666667, |
| "grad_norm": 0.21356918780539055, |
| "learning_rate": 1.3884783548004704e-06, |
| "loss": 0.0172, |
| "step": 880 |
| }, |
| { |
| "epoch": 2.3733333333333335, |
| "grad_norm": 0.4293833130975588, |
| "learning_rate": 1.2828913847569185e-06, |
| "loss": 0.0165, |
| "step": 890 |
| }, |
| { |
| "epoch": 2.4, |
| "grad_norm": 0.7665664160011331, |
| "learning_rate": 1.1808862787326176e-06, |
| "loss": 0.0212, |
| "step": 900 |
| }, |
| { |
| "epoch": 2.4266666666666667, |
| "grad_norm": 0.7757194968554726, |
| "learning_rate": 1.0825613304436938e-06, |
| "loss": 0.0154, |
| "step": 910 |
| }, |
| { |
| "epoch": 2.453333333333333, |
| "grad_norm": 0.7605435517474121, |
| "learning_rate": 9.880112873487068e-07, |
| "loss": 0.0159, |
| "step": 920 |
| }, |
| { |
| "epoch": 2.48, |
| "grad_norm": 0.33268130417226893, |
| "learning_rate": 8.973272593485011e-07, |
| "loss": 0.0174, |
| "step": 930 |
| }, |
| { |
| "epoch": 2.506666666666667, |
| "grad_norm": 0.3270317530223883, |
| "learning_rate": 8.105966309912966e-07, |
| "loss": 0.0214, |
| "step": 940 |
| }, |
| { |
| "epoch": 2.533333333333333, |
| "grad_norm": 0.7628137287702192, |
| "learning_rate": 7.279029772675572e-07, |
| "loss": 0.0193, |
| "step": 950 |
| }, |
| { |
| "epoch": 2.56, |
| "grad_norm": 0.46415652247522604, |
| "learning_rate": 6.493259830758325e-07, |
| "loss": 0.0185, |
| "step": 960 |
| }, |
| { |
| "epoch": 2.586666666666667, |
| "grad_norm": 0.6591115001059403, |
| "learning_rate": 5.749413664371312e-07, |
| "loss": 0.0166, |
| "step": 970 |
| }, |
| { |
| "epoch": 2.6133333333333333, |
| "grad_norm": 0.4849845049586004, |
| "learning_rate": 5.04820805531866e-07, |
| "loss": 0.0145, |
| "step": 980 |
| }, |
| { |
| "epoch": 2.64, |
| "grad_norm": 0.8516889515066723, |
| "learning_rate": 4.390318696296247e-07, |
| "loss": 0.0243, |
| "step": 990 |
| }, |
| { |
| "epoch": 2.6666666666666665, |
| "grad_norm": 1.4789190891682085, |
| "learning_rate": 3.776379539783709e-07, |
| "loss": 0.0139, |
| "step": 1000 |
| }, |
| { |
| "epoch": 2.6933333333333334, |
| "grad_norm": 1.6081836376889684, |
| "learning_rate": 3.2069821871579255e-07, |
| "loss": 0.0215, |
| "step": 1010 |
| }, |
| { |
| "epoch": 2.7199999999999998, |
| "grad_norm": 0.4144713820139759, |
| "learning_rate": 2.682675318616618e-07, |
| "loss": 0.0209, |
| "step": 1020 |
| }, |
| { |
| "epoch": 2.7466666666666666, |
| "grad_norm": 0.21158980680599782, |
| "learning_rate": 2.203964164461597e-07, |
| "loss": 0.0248, |
| "step": 1030 |
| }, |
| { |
| "epoch": 2.7733333333333334, |
| "grad_norm": 0.5299302810713866, |
| "learning_rate": 1.7713100182508604e-07, |
| "loss": 0.0185, |
| "step": 1040 |
| }, |
| { |
| "epoch": 2.8, |
| "grad_norm": 2.5027386573103887, |
| "learning_rate": 1.385129792288986e-07, |
| "loss": 0.0217, |
| "step": 1050 |
| }, |
| { |
| "epoch": 2.8266666666666667, |
| "grad_norm": 0.4368601523839903, |
| "learning_rate": 1.0457956158838545e-07, |
| "loss": 0.0207, |
| "step": 1060 |
| }, |
| { |
| "epoch": 2.8533333333333335, |
| "grad_norm": 0.31429096587158417, |
| "learning_rate": 7.536344767570536e-08, |
| "loss": 0.0169, |
| "step": 1070 |
| }, |
| { |
| "epoch": 2.88, |
| "grad_norm": 1.0945209730105396, |
| "learning_rate": 5.089279059533658e-08, |
| "loss": 0.0157, |
| "step": 1080 |
| }, |
| { |
| "epoch": 2.9066666666666667, |
| "grad_norm": 0.5327154717784401, |
| "learning_rate": 3.119117065530808e-08, |
| "loss": 0.019, |
| "step": 1090 |
| }, |
| { |
| "epoch": 2.9333333333333336, |
| "grad_norm": 0.4860071901324206, |
| "learning_rate": 1.627757264484442e-08, |
| "loss": 0.0156, |
| "step": 1100 |
| }, |
| { |
| "epoch": 2.96, |
| "grad_norm": 0.3189562486618297, |
| "learning_rate": 6.166367540325624e-09, |
| "loss": 0.0203, |
| "step": 1110 |
| }, |
| { |
| "epoch": 2.986666666666667, |
| "grad_norm": 0.8355348751875977, |
| "learning_rate": 8.672986571894859e-10, |
| "loss": 0.0219, |
| "step": 1120 |
| }, |
| { |
| "epoch": 3.0, |
| "step": 1125, |
| "total_flos": 19972198760448.0, |
| "train_loss": 0.035565850959883794, |
| "train_runtime": 10521.2384, |
| "train_samples_per_second": 6.843, |
| "train_steps_per_second": 0.107 |
| } |
| ], |
| "logging_steps": 10, |
| "max_steps": 1125, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 3, |
| "save_steps": 10, |
| "stateful_callbacks": { |
| "TrainerControl": { |
| "args": { |
| "should_epoch_stop": false, |
| "should_evaluate": false, |
| "should_log": false, |
| "should_save": true, |
| "should_training_stop": true |
| }, |
| "attributes": {} |
| } |
| }, |
| "total_flos": 19972198760448.0, |
| "train_batch_size": 2, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|