{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 0.11666666666666667, "eval_steps": 500, "global_step": 700, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0016666666666666668, "grad_norm": 0.17955420911312103, "learning_rate": 1.2272727272727271e-05, "loss": 10.305491638183593, "step": 10 }, { "epoch": 0.0033333333333333335, "grad_norm": 0.10135336220264435, "learning_rate": 2.5909090909090906e-05, "loss": 9.537527465820313, "step": 20 }, { "epoch": 0.005, "grad_norm": 0.07960466295480728, "learning_rate": 3.954545454545454e-05, "loss": 9.106172180175781, "step": 30 }, { "epoch": 0.006666666666666667, "grad_norm": 0.06795097142457962, "learning_rate": 5.318181818181818e-05, "loss": 8.718563842773438, "step": 40 }, { "epoch": 0.008333333333333333, "grad_norm": 0.05100312456488609, "learning_rate": 6.68181818181818e-05, "loss": 8.348831176757812, "step": 50 }, { "epoch": 0.01, "grad_norm": 0.04906494542956352, "learning_rate": 8.045454545454545e-05, "loss": 7.987481689453125, "step": 60 }, { "epoch": 0.011666666666666667, "grad_norm": 0.04696398228406906, "learning_rate": 9.40909090909091e-05, "loss": 7.68848876953125, "step": 70 }, { "epoch": 0.013333333333333334, "grad_norm": 0.061917733401060104, "learning_rate": 0.00010772727272727271, "loss": 7.5045921325683596, "step": 80 }, { "epoch": 0.015, "grad_norm": 0.057658903300762177, "learning_rate": 0.00012136363636363636, "loss": 7.318255615234375, "step": 90 }, { "epoch": 0.016666666666666666, "grad_norm": 0.07039465755224228, "learning_rate": 0.000135, "loss": 7.1057685852050785, "step": 100 }, { "epoch": 0.018333333333333333, "grad_norm": 0.07016664743423462, "learning_rate": 0.00014863636363636362, "loss": 6.860664367675781, "step": 110 }, { "epoch": 0.02, "grad_norm": 0.05617974326014519, "learning_rate": 0.00016227272727272726, "loss": 6.646616363525391, "step": 120 }, { "epoch": 0.021666666666666667, "grad_norm": 0.06325174123048782, "learning_rate": 0.00017590909090909088, "loss": 6.355916213989258, "step": 130 }, { "epoch": 0.023333333333333334, "grad_norm": 0.055446118116378784, "learning_rate": 0.00018954545454545453, "loss": 6.141727447509766, "step": 140 }, { "epoch": 0.025, "grad_norm": 0.054804038256406784, "learning_rate": 0.00020318181818181815, "loss": 5.897381591796875, "step": 150 }, { "epoch": 0.02666666666666667, "grad_norm": 0.0623275451362133, "learning_rate": 0.00021681818181818182, "loss": 5.885671234130859, "step": 160 }, { "epoch": 0.028333333333333332, "grad_norm": 0.07681386917829514, "learning_rate": 0.00023045454545454544, "loss": 5.685733032226563, "step": 170 }, { "epoch": 0.03, "grad_norm": 0.04866230487823486, "learning_rate": 0.00024409090909090905, "loss": 5.53424072265625, "step": 180 }, { "epoch": 0.03166666666666667, "grad_norm": 0.04755285009741783, "learning_rate": 0.0002577272727272727, "loss": 5.486316299438476, "step": 190 }, { "epoch": 0.03333333333333333, "grad_norm": 0.04537806287407875, "learning_rate": 0.0002713636363636363, "loss": 5.251799011230469, "step": 200 }, { "epoch": 0.035, "grad_norm": 0.06503544747829437, "learning_rate": 0.000285, "loss": 5.205155944824218, "step": 210 }, { "epoch": 0.03666666666666667, "grad_norm": 0.047095887362957, "learning_rate": 0.0002986363636363636, "loss": 5.0513874053955075, "step": 220 }, { "epoch": 0.03833333333333333, "grad_norm": 0.04293389245867729, "learning_rate": 0.000299998205309827, "loss": 5.07093505859375, "step": 230 }, { "epoch": 0.04, "grad_norm": 0.03894070163369179, "learning_rate": 0.00029999200149769797, "loss": 4.897030258178711, "step": 240 }, { "epoch": 0.041666666666666664, "grad_norm": 0.03855148330330849, "learning_rate": 0.0002999813665901747, "loss": 4.875085067749024, "step": 250 }, { "epoch": 0.043333333333333335, "grad_norm": 0.0404694639146328, "learning_rate": 0.00029996630090143596, "loss": 4.785137939453125, "step": 260 }, { "epoch": 0.045, "grad_norm": 0.04759955033659935, "learning_rate": 0.0002999468048765554, "loss": 4.664665985107422, "step": 270 }, { "epoch": 0.04666666666666667, "grad_norm": 0.040492940694093704, "learning_rate": 0.0002999228790914889, "loss": 4.679857635498047, "step": 280 }, { "epoch": 0.04833333333333333, "grad_norm": 0.03861634433269501, "learning_rate": 0.0002998945242530568, "loss": 4.589862060546875, "step": 290 }, { "epoch": 0.05, "grad_norm": 0.03984590247273445, "learning_rate": 0.0002998617411989239, "loss": 4.600507354736328, "step": 300 }, { "epoch": 0.051666666666666666, "grad_norm": 0.04622051492333412, "learning_rate": 0.00029982453089757413, "loss": 4.467031097412109, "step": 310 }, { "epoch": 0.05333333333333334, "grad_norm": 0.043236907571554184, "learning_rate": 0.00029978289444828194, "loss": 4.450032806396484, "step": 320 }, { "epoch": 0.055, "grad_norm": 0.03891831263899803, "learning_rate": 0.0002997368330810802, "loss": 4.394803237915039, "step": 330 }, { "epoch": 0.056666666666666664, "grad_norm": 0.041397932916879654, "learning_rate": 0.0002996863481567235, "loss": 4.410647201538086, "step": 340 }, { "epoch": 0.058333333333333334, "grad_norm": 0.03689548373222351, "learning_rate": 0.0002996314411666482, "loss": 4.301704406738281, "step": 350 }, { "epoch": 0.06, "grad_norm": 0.038849372416734695, "learning_rate": 0.0002995721137329282, "loss": 4.242988967895508, "step": 360 }, { "epoch": 0.06166666666666667, "grad_norm": 0.03877558186650276, "learning_rate": 0.00029950836760822704, "loss": 4.151651763916016, "step": 370 }, { "epoch": 0.06333333333333334, "grad_norm": 0.03422855585813522, "learning_rate": 0.0002994402046757462, "loss": 4.228427124023438, "step": 380 }, { "epoch": 0.065, "grad_norm": 0.040397658944129944, "learning_rate": 0.0002993676269491695, "loss": 4.222199249267578, "step": 390 }, { "epoch": 0.06666666666666667, "grad_norm": 0.03786230832338333, "learning_rate": 0.0002992906365726033, "loss": 4.117541885375976, "step": 400 }, { "epoch": 0.06833333333333333, "grad_norm": 0.0379491001367569, "learning_rate": 0.00029920923582051377, "loss": 4.12406005859375, "step": 410 }, { "epoch": 0.07, "grad_norm": 0.03680192679166794, "learning_rate": 0.00029912342709765904, "loss": 4.020008850097656, "step": 420 }, { "epoch": 0.07166666666666667, "grad_norm": 0.03528207913041115, "learning_rate": 0.0002990332129390185, "loss": 3.9816268920898437, "step": 430 }, { "epoch": 0.07333333333333333, "grad_norm": 0.03580179810523987, "learning_rate": 0.00029893859600971793, "loss": 3.980207061767578, "step": 440 }, { "epoch": 0.075, "grad_norm": 0.034479495137929916, "learning_rate": 0.0002988395791049506, "loss": 4.027605819702148, "step": 450 }, { "epoch": 0.07666666666666666, "grad_norm": 0.034174006432294846, "learning_rate": 0.00029873616514989487, "loss": 3.981894683837891, "step": 460 }, { "epoch": 0.07833333333333334, "grad_norm": 0.0394420325756073, "learning_rate": 0.00029862835719962757, "loss": 3.915305328369141, "step": 470 }, { "epoch": 0.08, "grad_norm": 0.03507312014698982, "learning_rate": 0.00029851615843903405, "loss": 3.907708740234375, "step": 480 }, { "epoch": 0.08166666666666667, "grad_norm": 0.035838689655065536, "learning_rate": 0.0002983995721827137, "loss": 3.8745994567871094, "step": 490 }, { "epoch": 0.08333333333333333, "grad_norm": 0.03250565007328987, "learning_rate": 0.00029827860187488247, "loss": 3.863072967529297, "step": 500 }, { "epoch": 0.085, "grad_norm": 0.037158895283937454, "learning_rate": 0.00029815325108927063, "loss": 3.7035972595214846, "step": 510 }, { "epoch": 0.08666666666666667, "grad_norm": 0.03817693144083023, "learning_rate": 0.00029802352352901757, "loss": 3.784911346435547, "step": 520 }, { "epoch": 0.08833333333333333, "grad_norm": 0.03666158393025398, "learning_rate": 0.0002978894230265623, "loss": 3.753315734863281, "step": 530 }, { "epoch": 0.09, "grad_norm": 0.03293011710047722, "learning_rate": 0.0002977509535435302, "loss": 3.711289978027344, "step": 540 }, { "epoch": 0.09166666666666666, "grad_norm": 0.03294748812913895, "learning_rate": 0.00029760811917061607, "loss": 3.7139713287353517, "step": 550 }, { "epoch": 0.09333333333333334, "grad_norm": 0.03147300332784653, "learning_rate": 0.00029746092412746296, "loss": 3.583917999267578, "step": 560 }, { "epoch": 0.095, "grad_norm": 0.03498848155140877, "learning_rate": 0.000297309372762538, "loss": 3.6284183502197265, "step": 570 }, { "epoch": 0.09666666666666666, "grad_norm": 0.030913719907402992, "learning_rate": 0.0002971534695530037, "loss": 3.5620845794677733, "step": 580 }, { "epoch": 0.09833333333333333, "grad_norm": 0.030253689736127853, "learning_rate": 0.00029699321910458556, "loss": 3.5500133514404295, "step": 590 }, { "epoch": 0.1, "grad_norm": 0.03715764731168747, "learning_rate": 0.00029682862615143616, "loss": 3.5795806884765624, "step": 600 }, { "epoch": 0.10166666666666667, "grad_norm": 0.032984547317028046, "learning_rate": 0.00029665969555599535, "loss": 3.6005035400390626, "step": 610 }, { "epoch": 0.10333333333333333, "grad_norm": 0.03254346922039986, "learning_rate": 0.0002964864323088464, "loss": 3.54862060546875, "step": 620 }, { "epoch": 0.105, "grad_norm": 0.03320642560720444, "learning_rate": 0.00029630884152856874, "loss": 3.534542465209961, "step": 630 }, { "epoch": 0.10666666666666667, "grad_norm": 0.031381070613861084, "learning_rate": 0.00029612692846158676, "loss": 3.502734375, "step": 640 }, { "epoch": 0.10833333333333334, "grad_norm": 0.03120303899049759, "learning_rate": 0.00029594069848201476, "loss": 3.481256103515625, "step": 650 }, { "epoch": 0.11, "grad_norm": 0.03503166139125824, "learning_rate": 0.00029575015709149813, "loss": 3.464976501464844, "step": 660 }, { "epoch": 0.11166666666666666, "grad_norm": 0.03037203475832939, "learning_rate": 0.0002955553099190508, "loss": 3.3426334381103517, "step": 670 }, { "epoch": 0.11333333333333333, "grad_norm": 0.030078619718551636, "learning_rate": 0.0002953561627208891, "loss": 3.386351776123047, "step": 680 }, { "epoch": 0.115, "grad_norm": 0.030806683003902435, "learning_rate": 0.0002951527213802617, "loss": 3.241590118408203, "step": 690 }, { "epoch": 0.11666666666666667, "grad_norm": 0.03040868043899536, "learning_rate": 0.00029494499190727566, "loss": 3.414640426635742, "step": 700 } ], "logging_steps": 10, "max_steps": 6000, "num_input_tokens_seen": 0, "num_train_epochs": 9223372036854775807, "save_steps": 100, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 1.06588538929152e+17, "train_batch_size": 4, "trial_name": null, "trial_params": null }