| { | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 2.0, | |
| "eval_steps": 500, | |
| "global_step": 15000, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.02666666666666667, | |
| "grad_norm": 1.8224557638168335, | |
| "learning_rate": 0.00019895986131484198, | |
| "loss": 0.5652, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 0.05333333333333334, | |
| "grad_norm": 1.010162353515625, | |
| "learning_rate": 0.00019789305240698761, | |
| "loss": 0.5615, | |
| "step": 400 | |
| }, | |
| { | |
| "epoch": 0.08, | |
| "grad_norm": 0.7284229397773743, | |
| "learning_rate": 0.00019682624349913323, | |
| "loss": 0.5847, | |
| "step": 600 | |
| }, | |
| { | |
| "epoch": 0.10666666666666667, | |
| "grad_norm": 0.9393308758735657, | |
| "learning_rate": 0.00019575943459127886, | |
| "loss": 0.5545, | |
| "step": 800 | |
| }, | |
| { | |
| "epoch": 0.13333333333333333, | |
| "grad_norm": 0.915951669216156, | |
| "learning_rate": 0.00019469262568342445, | |
| "loss": 0.5794, | |
| "step": 1000 | |
| }, | |
| { | |
| "epoch": 0.16, | |
| "grad_norm": 0.9032522439956665, | |
| "learning_rate": 0.0001936258167755701, | |
| "loss": 0.6067, | |
| "step": 1200 | |
| }, | |
| { | |
| "epoch": 0.18666666666666668, | |
| "grad_norm": 0.6736401915550232, | |
| "learning_rate": 0.0001925590078677157, | |
| "loss": 0.5701, | |
| "step": 1400 | |
| }, | |
| { | |
| "epoch": 0.21333333333333335, | |
| "grad_norm": 1.775130271911621, | |
| "learning_rate": 0.0001914921989598613, | |
| "loss": 0.5895, | |
| "step": 1600 | |
| }, | |
| { | |
| "epoch": 0.24, | |
| "grad_norm": 1.1148632764816284, | |
| "learning_rate": 0.00019042539005200695, | |
| "loss": 0.6095, | |
| "step": 1800 | |
| }, | |
| { | |
| "epoch": 0.26666666666666666, | |
| "grad_norm": 0.9489474296569824, | |
| "learning_rate": 0.00018935858114415256, | |
| "loss": 0.6109, | |
| "step": 2000 | |
| }, | |
| { | |
| "epoch": 0.29333333333333333, | |
| "grad_norm": 0.783237874507904, | |
| "learning_rate": 0.0001882917722362982, | |
| "loss": 0.5866, | |
| "step": 2200 | |
| }, | |
| { | |
| "epoch": 0.32, | |
| "grad_norm": 1.6665730476379395, | |
| "learning_rate": 0.00018722496332844378, | |
| "loss": 0.5762, | |
| "step": 2400 | |
| }, | |
| { | |
| "epoch": 0.3466666666666667, | |
| "grad_norm": 1.291765570640564, | |
| "learning_rate": 0.00018615815442058942, | |
| "loss": 0.6123, | |
| "step": 2600 | |
| }, | |
| { | |
| "epoch": 0.37333333333333335, | |
| "grad_norm": 1.536110520362854, | |
| "learning_rate": 0.00018509134551273503, | |
| "loss": 0.5878, | |
| "step": 2800 | |
| }, | |
| { | |
| "epoch": 0.4, | |
| "grad_norm": 2.170196771621704, | |
| "learning_rate": 0.00018402453660488067, | |
| "loss": 0.5954, | |
| "step": 3000 | |
| }, | |
| { | |
| "epoch": 0.4266666666666667, | |
| "grad_norm": 0.9499145150184631, | |
| "learning_rate": 0.00018295772769702628, | |
| "loss": 0.6159, | |
| "step": 3200 | |
| }, | |
| { | |
| "epoch": 0.4533333333333333, | |
| "grad_norm": 1.2118113040924072, | |
| "learning_rate": 0.0001818909187891719, | |
| "loss": 0.639, | |
| "step": 3400 | |
| }, | |
| { | |
| "epoch": 0.48, | |
| "grad_norm": 0.9366052150726318, | |
| "learning_rate": 0.00018082410988131753, | |
| "loss": 0.6232, | |
| "step": 3600 | |
| }, | |
| { | |
| "epoch": 0.5066666666666667, | |
| "grad_norm": 1.1474961042404175, | |
| "learning_rate": 0.00017975730097346312, | |
| "loss": 0.5993, | |
| "step": 3800 | |
| }, | |
| { | |
| "epoch": 0.5333333333333333, | |
| "grad_norm": 1.5155959129333496, | |
| "learning_rate": 0.00017869049206560876, | |
| "loss": 0.6139, | |
| "step": 4000 | |
| }, | |
| { | |
| "epoch": 0.56, | |
| "grad_norm": 2.1921544075012207, | |
| "learning_rate": 0.00017762368315775437, | |
| "loss": 0.6352, | |
| "step": 4200 | |
| }, | |
| { | |
| "epoch": 0.5866666666666667, | |
| "grad_norm": 1.1144263744354248, | |
| "learning_rate": 0.0001765568742499, | |
| "loss": 0.6004, | |
| "step": 4400 | |
| }, | |
| { | |
| "epoch": 0.6133333333333333, | |
| "grad_norm": 1.6893116235733032, | |
| "learning_rate": 0.00017549006534204562, | |
| "loss": 0.6312, | |
| "step": 4600 | |
| }, | |
| { | |
| "epoch": 0.64, | |
| "grad_norm": 1.4080637693405151, | |
| "learning_rate": 0.00017442325643419123, | |
| "loss": 0.6002, | |
| "step": 4800 | |
| }, | |
| { | |
| "epoch": 0.6666666666666666, | |
| "grad_norm": 0.4908393621444702, | |
| "learning_rate": 0.00017335644752633687, | |
| "loss": 0.603, | |
| "step": 5000 | |
| }, | |
| { | |
| "epoch": 0.6933333333333334, | |
| "grad_norm": 0.5237169861793518, | |
| "learning_rate": 0.00017228963861848245, | |
| "loss": 0.6179, | |
| "step": 5200 | |
| }, | |
| { | |
| "epoch": 0.72, | |
| "grad_norm": 0.4859675168991089, | |
| "learning_rate": 0.0001712228297106281, | |
| "loss": 0.6421, | |
| "step": 5400 | |
| }, | |
| { | |
| "epoch": 0.7466666666666667, | |
| "grad_norm": 1.4541916847229004, | |
| "learning_rate": 0.0001701560208027737, | |
| "loss": 0.615, | |
| "step": 5600 | |
| }, | |
| { | |
| "epoch": 0.7733333333333333, | |
| "grad_norm": 2.2076306343078613, | |
| "learning_rate": 0.00016908921189491934, | |
| "loss": 0.6419, | |
| "step": 5800 | |
| }, | |
| { | |
| "epoch": 0.8, | |
| "grad_norm": 1.6922993659973145, | |
| "learning_rate": 0.00016802240298706495, | |
| "loss": 0.6234, | |
| "step": 6000 | |
| }, | |
| { | |
| "epoch": 0.8266666666666667, | |
| "grad_norm": 0.6677654385566711, | |
| "learning_rate": 0.00016695559407921057, | |
| "loss": 0.5954, | |
| "step": 6200 | |
| }, | |
| { | |
| "epoch": 0.8533333333333334, | |
| "grad_norm": 0.704343855381012, | |
| "learning_rate": 0.0001658887851713562, | |
| "loss": 0.6175, | |
| "step": 6400 | |
| }, | |
| { | |
| "epoch": 0.88, | |
| "grad_norm": 0.9924121499061584, | |
| "learning_rate": 0.0001648219762635018, | |
| "loss": 0.6172, | |
| "step": 6600 | |
| }, | |
| { | |
| "epoch": 0.9066666666666666, | |
| "grad_norm": 1.5889892578125, | |
| "learning_rate": 0.00016375516735564743, | |
| "loss": 0.6131, | |
| "step": 6800 | |
| }, | |
| { | |
| "epoch": 0.9333333333333333, | |
| "grad_norm": 1.3223360776901245, | |
| "learning_rate": 0.00016268835844779304, | |
| "loss": 0.632, | |
| "step": 7000 | |
| }, | |
| { | |
| "epoch": 0.96, | |
| "grad_norm": 0.9497195482254028, | |
| "learning_rate": 0.00016162154953993868, | |
| "loss": 0.6314, | |
| "step": 7200 | |
| }, | |
| { | |
| "epoch": 0.9866666666666667, | |
| "grad_norm": 1.2201488018035889, | |
| "learning_rate": 0.0001605547406320843, | |
| "loss": 0.6003, | |
| "step": 7400 | |
| }, | |
| { | |
| "epoch": 1.0133333333333334, | |
| "grad_norm": 0.9246127605438232, | |
| "learning_rate": 0.0001594879317242299, | |
| "loss": 0.5296, | |
| "step": 7600 | |
| }, | |
| { | |
| "epoch": 1.04, | |
| "grad_norm": 0.8949518203735352, | |
| "learning_rate": 0.00015842112281637554, | |
| "loss": 0.4514, | |
| "step": 7800 | |
| }, | |
| { | |
| "epoch": 1.0666666666666667, | |
| "grad_norm": 0.639042317867279, | |
| "learning_rate": 0.00015735431390852112, | |
| "loss": 0.4582, | |
| "step": 8000 | |
| }, | |
| { | |
| "epoch": 1.0933333333333333, | |
| "grad_norm": 0.9326872229576111, | |
| "learning_rate": 0.00015628750500066676, | |
| "loss": 0.4339, | |
| "step": 8200 | |
| }, | |
| { | |
| "epoch": 1.12, | |
| "grad_norm": 1.5695537328720093, | |
| "learning_rate": 0.00015522069609281237, | |
| "loss": 0.4511, | |
| "step": 8400 | |
| }, | |
| { | |
| "epoch": 1.1466666666666667, | |
| "grad_norm": 0.8884285092353821, | |
| "learning_rate": 0.000154153887184958, | |
| "loss": 0.4151, | |
| "step": 8600 | |
| }, | |
| { | |
| "epoch": 1.1733333333333333, | |
| "grad_norm": 0.9930616617202759, | |
| "learning_rate": 0.00015308707827710362, | |
| "loss": 0.4551, | |
| "step": 8800 | |
| }, | |
| { | |
| "epoch": 1.2, | |
| "grad_norm": 1.1548641920089722, | |
| "learning_rate": 0.00015202026936924923, | |
| "loss": 0.4594, | |
| "step": 9000 | |
| }, | |
| { | |
| "epoch": 1.2266666666666666, | |
| "grad_norm": 0.7928484082221985, | |
| "learning_rate": 0.00015095346046139487, | |
| "loss": 0.4704, | |
| "step": 9200 | |
| }, | |
| { | |
| "epoch": 1.2533333333333334, | |
| "grad_norm": 2.5043861865997314, | |
| "learning_rate": 0.00014988665155354046, | |
| "loss": 0.5059, | |
| "step": 9400 | |
| }, | |
| { | |
| "epoch": 1.28, | |
| "grad_norm": 1.363883376121521, | |
| "learning_rate": 0.0001488198426456861, | |
| "loss": 0.4488, | |
| "step": 9600 | |
| }, | |
| { | |
| "epoch": 1.3066666666666666, | |
| "grad_norm": 1.1422014236450195, | |
| "learning_rate": 0.0001477530337378317, | |
| "loss": 0.4636, | |
| "step": 9800 | |
| }, | |
| { | |
| "epoch": 1.3333333333333333, | |
| "grad_norm": 0.7344350218772888, | |
| "learning_rate": 0.00014668622482997735, | |
| "loss": 0.4694, | |
| "step": 10000 | |
| }, | |
| { | |
| "epoch": 1.3599999999999999, | |
| "grad_norm": 2.64691162109375, | |
| "learning_rate": 0.00014561941592212296, | |
| "loss": 0.4494, | |
| "step": 10200 | |
| }, | |
| { | |
| "epoch": 1.3866666666666667, | |
| "grad_norm": 0.8812822103500366, | |
| "learning_rate": 0.00014455260701426857, | |
| "loss": 0.4881, | |
| "step": 10400 | |
| }, | |
| { | |
| "epoch": 1.4133333333333333, | |
| "grad_norm": 2.2142817974090576, | |
| "learning_rate": 0.0001434857981064142, | |
| "loss": 0.4651, | |
| "step": 10600 | |
| }, | |
| { | |
| "epoch": 1.44, | |
| "grad_norm": 1.6976217031478882, | |
| "learning_rate": 0.0001424189891985598, | |
| "loss": 0.4591, | |
| "step": 10800 | |
| }, | |
| { | |
| "epoch": 1.4666666666666668, | |
| "grad_norm": 1.3944759368896484, | |
| "learning_rate": 0.00014135218029070543, | |
| "loss": 0.475, | |
| "step": 11000 | |
| }, | |
| { | |
| "epoch": 1.4933333333333334, | |
| "grad_norm": 1.502564787864685, | |
| "learning_rate": 0.00014028537138285104, | |
| "loss": 0.4752, | |
| "step": 11200 | |
| }, | |
| { | |
| "epoch": 1.52, | |
| "grad_norm": 0.7984268069267273, | |
| "learning_rate": 0.00013921856247499668, | |
| "loss": 0.4641, | |
| "step": 11400 | |
| }, | |
| { | |
| "epoch": 1.5466666666666666, | |
| "grad_norm": 1.7251499891281128, | |
| "learning_rate": 0.0001381517535671423, | |
| "loss": 0.4791, | |
| "step": 11600 | |
| }, | |
| { | |
| "epoch": 1.5733333333333333, | |
| "grad_norm": 1.0267277956008911, | |
| "learning_rate": 0.0001370849446592879, | |
| "loss": 0.4511, | |
| "step": 11800 | |
| }, | |
| { | |
| "epoch": 1.6, | |
| "grad_norm": 2.1689605712890625, | |
| "learning_rate": 0.00013601813575143354, | |
| "loss": 0.4613, | |
| "step": 12000 | |
| }, | |
| { | |
| "epoch": 1.6266666666666667, | |
| "grad_norm": 1.6752183437347412, | |
| "learning_rate": 0.00013495132684357913, | |
| "loss": 0.4765, | |
| "step": 12200 | |
| }, | |
| { | |
| "epoch": 1.6533333333333333, | |
| "grad_norm": 0.49789512157440186, | |
| "learning_rate": 0.00013388451793572477, | |
| "loss": 0.4735, | |
| "step": 12400 | |
| }, | |
| { | |
| "epoch": 1.6800000000000002, | |
| "grad_norm": 0.8861690759658813, | |
| "learning_rate": 0.00013281770902787038, | |
| "loss": 0.4647, | |
| "step": 12600 | |
| }, | |
| { | |
| "epoch": 1.7066666666666666, | |
| "grad_norm": 1.4024194478988647, | |
| "learning_rate": 0.00013175090012001602, | |
| "loss": 0.4566, | |
| "step": 12800 | |
| }, | |
| { | |
| "epoch": 1.7333333333333334, | |
| "grad_norm": 1.691872239112854, | |
| "learning_rate": 0.00013068409121216163, | |
| "loss": 0.4646, | |
| "step": 13000 | |
| }, | |
| { | |
| "epoch": 1.76, | |
| "grad_norm": 1.8841276168823242, | |
| "learning_rate": 0.00012961728230430724, | |
| "loss": 0.47, | |
| "step": 13200 | |
| }, | |
| { | |
| "epoch": 1.7866666666666666, | |
| "grad_norm": 2.0173470973968506, | |
| "learning_rate": 0.00012855047339645288, | |
| "loss": 0.5013, | |
| "step": 13400 | |
| }, | |
| { | |
| "epoch": 1.8133333333333335, | |
| "grad_norm": 0.7734861373901367, | |
| "learning_rate": 0.00012748366448859846, | |
| "loss": 0.474, | |
| "step": 13600 | |
| }, | |
| { | |
| "epoch": 1.8399999999999999, | |
| "grad_norm": 0.8500189781188965, | |
| "learning_rate": 0.0001264168555807441, | |
| "loss": 0.4881, | |
| "step": 13800 | |
| }, | |
| { | |
| "epoch": 1.8666666666666667, | |
| "grad_norm": 1.2855855226516724, | |
| "learning_rate": 0.0001253500466728897, | |
| "loss": 0.4784, | |
| "step": 14000 | |
| }, | |
| { | |
| "epoch": 1.8933333333333333, | |
| "grad_norm": 2.410865306854248, | |
| "learning_rate": 0.00012428323776503535, | |
| "loss": 0.4673, | |
| "step": 14200 | |
| }, | |
| { | |
| "epoch": 1.92, | |
| "grad_norm": 0.5624301433563232, | |
| "learning_rate": 0.00012321642885718096, | |
| "loss": 0.4781, | |
| "step": 14400 | |
| }, | |
| { | |
| "epoch": 1.9466666666666668, | |
| "grad_norm": 2.08925461769104, | |
| "learning_rate": 0.0001221496199493266, | |
| "loss": 0.4613, | |
| "step": 14600 | |
| }, | |
| { | |
| "epoch": 1.9733333333333334, | |
| "grad_norm": 2.586411476135254, | |
| "learning_rate": 0.00012108281104147221, | |
| "loss": 0.5001, | |
| "step": 14800 | |
| }, | |
| { | |
| "epoch": 2.0, | |
| "grad_norm": 1.7612062692642212, | |
| "learning_rate": 0.00012001600213361781, | |
| "loss": 0.4566, | |
| "step": 15000 | |
| } | |
| ], | |
| "logging_steps": 200, | |
| "max_steps": 37500, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 5, | |
| "save_steps": 500, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": false | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 1.1669474815034573e+17, | |
| "train_batch_size": 1, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |