| { | |
| "best_global_step": null, | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 0.11666666666666667, | |
| "eval_steps": 500, | |
| "global_step": 700, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.0016666666666666668, | |
| "grad_norm": 0.17955420911312103, | |
| "learning_rate": 1.2272727272727271e-05, | |
| "loss": 10.305491638183593, | |
| "step": 10 | |
| }, | |
| { | |
| "epoch": 0.0033333333333333335, | |
| "grad_norm": 0.10135336220264435, | |
| "learning_rate": 2.5909090909090906e-05, | |
| "loss": 9.537527465820313, | |
| "step": 20 | |
| }, | |
| { | |
| "epoch": 0.005, | |
| "grad_norm": 0.07960466295480728, | |
| "learning_rate": 3.954545454545454e-05, | |
| "loss": 9.106172180175781, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 0.006666666666666667, | |
| "grad_norm": 0.06795097142457962, | |
| "learning_rate": 5.318181818181818e-05, | |
| "loss": 8.718563842773438, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 0.008333333333333333, | |
| "grad_norm": 0.05100312456488609, | |
| "learning_rate": 6.68181818181818e-05, | |
| "loss": 8.348831176757812, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 0.01, | |
| "grad_norm": 0.04906494542956352, | |
| "learning_rate": 8.045454545454545e-05, | |
| "loss": 7.987481689453125, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 0.011666666666666667, | |
| "grad_norm": 0.04696398228406906, | |
| "learning_rate": 9.40909090909091e-05, | |
| "loss": 7.68848876953125, | |
| "step": 70 | |
| }, | |
| { | |
| "epoch": 0.013333333333333334, | |
| "grad_norm": 0.061917733401060104, | |
| "learning_rate": 0.00010772727272727271, | |
| "loss": 7.5045921325683596, | |
| "step": 80 | |
| }, | |
| { | |
| "epoch": 0.015, | |
| "grad_norm": 0.057658903300762177, | |
| "learning_rate": 0.00012136363636363636, | |
| "loss": 7.318255615234375, | |
| "step": 90 | |
| }, | |
| { | |
| "epoch": 0.016666666666666666, | |
| "grad_norm": 0.07039465755224228, | |
| "learning_rate": 0.000135, | |
| "loss": 7.1057685852050785, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 0.018333333333333333, | |
| "grad_norm": 0.07016664743423462, | |
| "learning_rate": 0.00014863636363636362, | |
| "loss": 6.860664367675781, | |
| "step": 110 | |
| }, | |
| { | |
| "epoch": 0.02, | |
| "grad_norm": 0.05617974326014519, | |
| "learning_rate": 0.00016227272727272726, | |
| "loss": 6.646616363525391, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 0.021666666666666667, | |
| "grad_norm": 0.06325174123048782, | |
| "learning_rate": 0.00017590909090909088, | |
| "loss": 6.355916213989258, | |
| "step": 130 | |
| }, | |
| { | |
| "epoch": 0.023333333333333334, | |
| "grad_norm": 0.055446118116378784, | |
| "learning_rate": 0.00018954545454545453, | |
| "loss": 6.141727447509766, | |
| "step": 140 | |
| }, | |
| { | |
| "epoch": 0.025, | |
| "grad_norm": 0.054804038256406784, | |
| "learning_rate": 0.00020318181818181815, | |
| "loss": 5.897381591796875, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 0.02666666666666667, | |
| "grad_norm": 0.0623275451362133, | |
| "learning_rate": 0.00021681818181818182, | |
| "loss": 5.885671234130859, | |
| "step": 160 | |
| }, | |
| { | |
| "epoch": 0.028333333333333332, | |
| "grad_norm": 0.07681386917829514, | |
| "learning_rate": 0.00023045454545454544, | |
| "loss": 5.685733032226563, | |
| "step": 170 | |
| }, | |
| { | |
| "epoch": 0.03, | |
| "grad_norm": 0.04866230487823486, | |
| "learning_rate": 0.00024409090909090905, | |
| "loss": 5.53424072265625, | |
| "step": 180 | |
| }, | |
| { | |
| "epoch": 0.03166666666666667, | |
| "grad_norm": 0.04755285009741783, | |
| "learning_rate": 0.0002577272727272727, | |
| "loss": 5.486316299438476, | |
| "step": 190 | |
| }, | |
| { | |
| "epoch": 0.03333333333333333, | |
| "grad_norm": 0.04537806287407875, | |
| "learning_rate": 0.0002713636363636363, | |
| "loss": 5.251799011230469, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 0.035, | |
| "grad_norm": 0.06503544747829437, | |
| "learning_rate": 0.000285, | |
| "loss": 5.205155944824218, | |
| "step": 210 | |
| }, | |
| { | |
| "epoch": 0.03666666666666667, | |
| "grad_norm": 0.047095887362957, | |
| "learning_rate": 0.0002986363636363636, | |
| "loss": 5.0513874053955075, | |
| "step": 220 | |
| }, | |
| { | |
| "epoch": 0.03833333333333333, | |
| "grad_norm": 0.04293389245867729, | |
| "learning_rate": 0.000299998205309827, | |
| "loss": 5.07093505859375, | |
| "step": 230 | |
| }, | |
| { | |
| "epoch": 0.04, | |
| "grad_norm": 0.03894070163369179, | |
| "learning_rate": 0.00029999200149769797, | |
| "loss": 4.897030258178711, | |
| "step": 240 | |
| }, | |
| { | |
| "epoch": 0.041666666666666664, | |
| "grad_norm": 0.03855148330330849, | |
| "learning_rate": 0.0002999813665901747, | |
| "loss": 4.875085067749024, | |
| "step": 250 | |
| }, | |
| { | |
| "epoch": 0.043333333333333335, | |
| "grad_norm": 0.0404694639146328, | |
| "learning_rate": 0.00029996630090143596, | |
| "loss": 4.785137939453125, | |
| "step": 260 | |
| }, | |
| { | |
| "epoch": 0.045, | |
| "grad_norm": 0.04759955033659935, | |
| "learning_rate": 0.0002999468048765554, | |
| "loss": 4.664665985107422, | |
| "step": 270 | |
| }, | |
| { | |
| "epoch": 0.04666666666666667, | |
| "grad_norm": 0.040492940694093704, | |
| "learning_rate": 0.0002999228790914889, | |
| "loss": 4.679857635498047, | |
| "step": 280 | |
| }, | |
| { | |
| "epoch": 0.04833333333333333, | |
| "grad_norm": 0.03861634433269501, | |
| "learning_rate": 0.0002998945242530568, | |
| "loss": 4.589862060546875, | |
| "step": 290 | |
| }, | |
| { | |
| "epoch": 0.05, | |
| "grad_norm": 0.03984590247273445, | |
| "learning_rate": 0.0002998617411989239, | |
| "loss": 4.600507354736328, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 0.051666666666666666, | |
| "grad_norm": 0.04622051492333412, | |
| "learning_rate": 0.00029982453089757413, | |
| "loss": 4.467031097412109, | |
| "step": 310 | |
| }, | |
| { | |
| "epoch": 0.05333333333333334, | |
| "grad_norm": 0.043236907571554184, | |
| "learning_rate": 0.00029978289444828194, | |
| "loss": 4.450032806396484, | |
| "step": 320 | |
| }, | |
| { | |
| "epoch": 0.055, | |
| "grad_norm": 0.03891831263899803, | |
| "learning_rate": 0.0002997368330810802, | |
| "loss": 4.394803237915039, | |
| "step": 330 | |
| }, | |
| { | |
| "epoch": 0.056666666666666664, | |
| "grad_norm": 0.041397932916879654, | |
| "learning_rate": 0.0002996863481567235, | |
| "loss": 4.410647201538086, | |
| "step": 340 | |
| }, | |
| { | |
| "epoch": 0.058333333333333334, | |
| "grad_norm": 0.03689548373222351, | |
| "learning_rate": 0.0002996314411666482, | |
| "loss": 4.301704406738281, | |
| "step": 350 | |
| }, | |
| { | |
| "epoch": 0.06, | |
| "grad_norm": 0.038849372416734695, | |
| "learning_rate": 0.0002995721137329282, | |
| "loss": 4.242988967895508, | |
| "step": 360 | |
| }, | |
| { | |
| "epoch": 0.06166666666666667, | |
| "grad_norm": 0.03877558186650276, | |
| "learning_rate": 0.00029950836760822704, | |
| "loss": 4.151651763916016, | |
| "step": 370 | |
| }, | |
| { | |
| "epoch": 0.06333333333333334, | |
| "grad_norm": 0.03422855585813522, | |
| "learning_rate": 0.0002994402046757462, | |
| "loss": 4.228427124023438, | |
| "step": 380 | |
| }, | |
| { | |
| "epoch": 0.065, | |
| "grad_norm": 0.040397658944129944, | |
| "learning_rate": 0.0002993676269491695, | |
| "loss": 4.222199249267578, | |
| "step": 390 | |
| }, | |
| { | |
| "epoch": 0.06666666666666667, | |
| "grad_norm": 0.03786230832338333, | |
| "learning_rate": 0.0002992906365726033, | |
| "loss": 4.117541885375976, | |
| "step": 400 | |
| }, | |
| { | |
| "epoch": 0.06833333333333333, | |
| "grad_norm": 0.0379491001367569, | |
| "learning_rate": 0.00029920923582051377, | |
| "loss": 4.12406005859375, | |
| "step": 410 | |
| }, | |
| { | |
| "epoch": 0.07, | |
| "grad_norm": 0.03680192679166794, | |
| "learning_rate": 0.00029912342709765904, | |
| "loss": 4.020008850097656, | |
| "step": 420 | |
| }, | |
| { | |
| "epoch": 0.07166666666666667, | |
| "grad_norm": 0.03528207913041115, | |
| "learning_rate": 0.0002990332129390185, | |
| "loss": 3.9816268920898437, | |
| "step": 430 | |
| }, | |
| { | |
| "epoch": 0.07333333333333333, | |
| "grad_norm": 0.03580179810523987, | |
| "learning_rate": 0.00029893859600971793, | |
| "loss": 3.980207061767578, | |
| "step": 440 | |
| }, | |
| { | |
| "epoch": 0.075, | |
| "grad_norm": 0.034479495137929916, | |
| "learning_rate": 0.0002988395791049506, | |
| "loss": 4.027605819702148, | |
| "step": 450 | |
| }, | |
| { | |
| "epoch": 0.07666666666666666, | |
| "grad_norm": 0.034174006432294846, | |
| "learning_rate": 0.00029873616514989487, | |
| "loss": 3.981894683837891, | |
| "step": 460 | |
| }, | |
| { | |
| "epoch": 0.07833333333333334, | |
| "grad_norm": 0.0394420325756073, | |
| "learning_rate": 0.00029862835719962757, | |
| "loss": 3.915305328369141, | |
| "step": 470 | |
| }, | |
| { | |
| "epoch": 0.08, | |
| "grad_norm": 0.03507312014698982, | |
| "learning_rate": 0.00029851615843903405, | |
| "loss": 3.907708740234375, | |
| "step": 480 | |
| }, | |
| { | |
| "epoch": 0.08166666666666667, | |
| "grad_norm": 0.035838689655065536, | |
| "learning_rate": 0.0002983995721827137, | |
| "loss": 3.8745994567871094, | |
| "step": 490 | |
| }, | |
| { | |
| "epoch": 0.08333333333333333, | |
| "grad_norm": 0.03250565007328987, | |
| "learning_rate": 0.00029827860187488247, | |
| "loss": 3.863072967529297, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 0.085, | |
| "grad_norm": 0.037158895283937454, | |
| "learning_rate": 0.00029815325108927063, | |
| "loss": 3.7035972595214846, | |
| "step": 510 | |
| }, | |
| { | |
| "epoch": 0.08666666666666667, | |
| "grad_norm": 0.03817693144083023, | |
| "learning_rate": 0.00029802352352901757, | |
| "loss": 3.784911346435547, | |
| "step": 520 | |
| }, | |
| { | |
| "epoch": 0.08833333333333333, | |
| "grad_norm": 0.03666158393025398, | |
| "learning_rate": 0.0002978894230265623, | |
| "loss": 3.753315734863281, | |
| "step": 530 | |
| }, | |
| { | |
| "epoch": 0.09, | |
| "grad_norm": 0.03293011710047722, | |
| "learning_rate": 0.0002977509535435302, | |
| "loss": 3.711289978027344, | |
| "step": 540 | |
| }, | |
| { | |
| "epoch": 0.09166666666666666, | |
| "grad_norm": 0.03294748812913895, | |
| "learning_rate": 0.00029760811917061607, | |
| "loss": 3.7139713287353517, | |
| "step": 550 | |
| }, | |
| { | |
| "epoch": 0.09333333333333334, | |
| "grad_norm": 0.03147300332784653, | |
| "learning_rate": 0.00029746092412746296, | |
| "loss": 3.583917999267578, | |
| "step": 560 | |
| }, | |
| { | |
| "epoch": 0.095, | |
| "grad_norm": 0.03498848155140877, | |
| "learning_rate": 0.000297309372762538, | |
| "loss": 3.6284183502197265, | |
| "step": 570 | |
| }, | |
| { | |
| "epoch": 0.09666666666666666, | |
| "grad_norm": 0.030913719907402992, | |
| "learning_rate": 0.0002971534695530037, | |
| "loss": 3.5620845794677733, | |
| "step": 580 | |
| }, | |
| { | |
| "epoch": 0.09833333333333333, | |
| "grad_norm": 0.030253689736127853, | |
| "learning_rate": 0.00029699321910458556, | |
| "loss": 3.5500133514404295, | |
| "step": 590 | |
| }, | |
| { | |
| "epoch": 0.1, | |
| "grad_norm": 0.03715764731168747, | |
| "learning_rate": 0.00029682862615143616, | |
| "loss": 3.5795806884765624, | |
| "step": 600 | |
| }, | |
| { | |
| "epoch": 0.10166666666666667, | |
| "grad_norm": 0.032984547317028046, | |
| "learning_rate": 0.00029665969555599535, | |
| "loss": 3.6005035400390626, | |
| "step": 610 | |
| }, | |
| { | |
| "epoch": 0.10333333333333333, | |
| "grad_norm": 0.03254346922039986, | |
| "learning_rate": 0.0002964864323088464, | |
| "loss": 3.54862060546875, | |
| "step": 620 | |
| }, | |
| { | |
| "epoch": 0.105, | |
| "grad_norm": 0.03320642560720444, | |
| "learning_rate": 0.00029630884152856874, | |
| "loss": 3.534542465209961, | |
| "step": 630 | |
| }, | |
| { | |
| "epoch": 0.10666666666666667, | |
| "grad_norm": 0.031381070613861084, | |
| "learning_rate": 0.00029612692846158676, | |
| "loss": 3.502734375, | |
| "step": 640 | |
| }, | |
| { | |
| "epoch": 0.10833333333333334, | |
| "grad_norm": 0.03120303899049759, | |
| "learning_rate": 0.00029594069848201476, | |
| "loss": 3.481256103515625, | |
| "step": 650 | |
| }, | |
| { | |
| "epoch": 0.11, | |
| "grad_norm": 0.03503166139125824, | |
| "learning_rate": 0.00029575015709149813, | |
| "loss": 3.464976501464844, | |
| "step": 660 | |
| }, | |
| { | |
| "epoch": 0.11166666666666666, | |
| "grad_norm": 0.03037203475832939, | |
| "learning_rate": 0.0002955553099190508, | |
| "loss": 3.3426334381103517, | |
| "step": 670 | |
| }, | |
| { | |
| "epoch": 0.11333333333333333, | |
| "grad_norm": 0.030078619718551636, | |
| "learning_rate": 0.0002953561627208891, | |
| "loss": 3.386351776123047, | |
| "step": 680 | |
| }, | |
| { | |
| "epoch": 0.115, | |
| "grad_norm": 0.030806683003902435, | |
| "learning_rate": 0.0002951527213802617, | |
| "loss": 3.241590118408203, | |
| "step": 690 | |
| }, | |
| { | |
| "epoch": 0.11666666666666667, | |
| "grad_norm": 0.03040868043899536, | |
| "learning_rate": 0.00029494499190727566, | |
| "loss": 3.414640426635742, | |
| "step": 700 | |
| } | |
| ], | |
| "logging_steps": 10, | |
| "max_steps": 6000, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 9223372036854775807, | |
| "save_steps": 100, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": false | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 1.06588538929152e+17, | |
| "train_batch_size": 4, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |