{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.11666666666666667,
  "eval_steps": 500,
  "global_step": 700,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0016666666666666668,
      "grad_norm": 0.17955420911312103,
      "learning_rate": 1.2272727272727271e-05,
      "loss": 10.305491638183593,
      "step": 10
    },
    {
      "epoch": 0.0033333333333333335,
      "grad_norm": 0.10135336220264435,
      "learning_rate": 2.5909090909090906e-05,
      "loss": 9.537527465820313,
      "step": 20
    },
    {
      "epoch": 0.005,
      "grad_norm": 0.07960466295480728,
      "learning_rate": 3.954545454545454e-05,
      "loss": 9.106172180175781,
      "step": 30
    },
    {
      "epoch": 0.006666666666666667,
      "grad_norm": 0.06795097142457962,
      "learning_rate": 5.318181818181818e-05,
      "loss": 8.718563842773438,
      "step": 40
    },
    {
      "epoch": 0.008333333333333333,
      "grad_norm": 0.05100312456488609,
      "learning_rate": 6.68181818181818e-05,
      "loss": 8.348831176757812,
      "step": 50
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.04906494542956352,
      "learning_rate": 8.045454545454545e-05,
      "loss": 7.987481689453125,
      "step": 60
    },
    {
      "epoch": 0.011666666666666667,
      "grad_norm": 0.04696398228406906,
      "learning_rate": 9.40909090909091e-05,
      "loss": 7.68848876953125,
      "step": 70
    },
    {
      "epoch": 0.013333333333333334,
      "grad_norm": 0.061917733401060104,
      "learning_rate": 0.00010772727272727271,
      "loss": 7.5045921325683596,
      "step": 80
    },
    {
      "epoch": 0.015,
      "grad_norm": 0.057658903300762177,
      "learning_rate": 0.00012136363636363636,
      "loss": 7.318255615234375,
      "step": 90
    },
    {
      "epoch": 0.016666666666666666,
      "grad_norm": 0.07039465755224228,
      "learning_rate": 0.000135,
      "loss": 7.1057685852050785,
      "step": 100
    },
    {
      "epoch": 0.018333333333333333,
      "grad_norm": 0.07016664743423462,
      "learning_rate": 0.00014863636363636362,
      "loss": 6.860664367675781,
      "step": 110
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.05617974326014519,
      "learning_rate": 0.00016227272727272726,
      "loss": 6.646616363525391,
      "step": 120
    },
    {
      "epoch": 0.021666666666666667,
      "grad_norm": 0.06325174123048782,
      "learning_rate": 0.00017590909090909088,
      "loss": 6.355916213989258,
      "step": 130
    },
    {
      "epoch": 0.023333333333333334,
      "grad_norm": 0.055446118116378784,
      "learning_rate": 0.00018954545454545453,
      "loss": 6.141727447509766,
      "step": 140
    },
    {
      "epoch": 0.025,
      "grad_norm": 0.054804038256406784,
      "learning_rate": 0.00020318181818181815,
      "loss": 5.897381591796875,
      "step": 150
    },
    {
      "epoch": 0.02666666666666667,
      "grad_norm": 0.0623275451362133,
      "learning_rate": 0.00021681818181818182,
      "loss": 5.885671234130859,
      "step": 160
    },
    {
      "epoch": 0.028333333333333332,
      "grad_norm": 0.07681386917829514,
      "learning_rate": 0.00023045454545454544,
      "loss": 5.685733032226563,
      "step": 170
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.04866230487823486,
      "learning_rate": 0.00024409090909090905,
      "loss": 5.53424072265625,
      "step": 180
    },
    {
      "epoch": 0.03166666666666667,
      "grad_norm": 0.04755285009741783,
      "learning_rate": 0.0002577272727272727,
      "loss": 5.486316299438476,
      "step": 190
    },
    {
      "epoch": 0.03333333333333333,
      "grad_norm": 0.04537806287407875,
      "learning_rate": 0.0002713636363636363,
      "loss": 5.251799011230469,
      "step": 200
    },
    {
      "epoch": 0.035,
      "grad_norm": 0.06503544747829437,
      "learning_rate": 0.000285,
      "loss": 5.205155944824218,
      "step": 210
    },
    {
      "epoch": 0.03666666666666667,
      "grad_norm": 0.047095887362957,
      "learning_rate": 0.0002986363636363636,
      "loss": 5.0513874053955075,
      "step": 220
    },
    {
      "epoch": 0.03833333333333333,
      "grad_norm": 0.04293389245867729,
      "learning_rate": 0.000299998205309827,
      "loss": 5.07093505859375,
      "step": 230
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.03894070163369179,
      "learning_rate": 0.00029999200149769797,
      "loss": 4.897030258178711,
      "step": 240
    },
    {
      "epoch": 0.041666666666666664,
      "grad_norm": 0.03855148330330849,
      "learning_rate": 0.0002999813665901747,
      "loss": 4.875085067749024,
      "step": 250
    },
    {
      "epoch": 0.043333333333333335,
      "grad_norm": 0.0404694639146328,
      "learning_rate": 0.00029996630090143596,
      "loss": 4.785137939453125,
      "step": 260
    },
    {
      "epoch": 0.045,
      "grad_norm": 0.04759955033659935,
      "learning_rate": 0.0002999468048765554,
      "loss": 4.664665985107422,
      "step": 270
    },
    {
      "epoch": 0.04666666666666667,
      "grad_norm": 0.040492940694093704,
      "learning_rate": 0.0002999228790914889,
      "loss": 4.679857635498047,
      "step": 280
    },
    {
      "epoch": 0.04833333333333333,
      "grad_norm": 0.03861634433269501,
      "learning_rate": 0.0002998945242530568,
      "loss": 4.589862060546875,
      "step": 290
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.03984590247273445,
      "learning_rate": 0.0002998617411989239,
      "loss": 4.600507354736328,
      "step": 300
    },
    {
      "epoch": 0.051666666666666666,
      "grad_norm": 0.04622051492333412,
      "learning_rate": 0.00029982453089757413,
      "loss": 4.467031097412109,
      "step": 310
    },
    {
      "epoch": 0.05333333333333334,
      "grad_norm": 0.043236907571554184,
      "learning_rate": 0.00029978289444828194,
      "loss": 4.450032806396484,
      "step": 320
    },
    {
      "epoch": 0.055,
      "grad_norm": 0.03891831263899803,
      "learning_rate": 0.0002997368330810802,
      "loss": 4.394803237915039,
      "step": 330
    },
    {
      "epoch": 0.056666666666666664,
      "grad_norm": 0.041397932916879654,
      "learning_rate": 0.0002996863481567235,
      "loss": 4.410647201538086,
      "step": 340
    },
    {
      "epoch": 0.058333333333333334,
      "grad_norm": 0.03689548373222351,
      "learning_rate": 0.0002996314411666482,
      "loss": 4.301704406738281,
      "step": 350
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.038849372416734695,
      "learning_rate": 0.0002995721137329282,
      "loss": 4.242988967895508,
      "step": 360
    },
    {
      "epoch": 0.06166666666666667,
      "grad_norm": 0.03877558186650276,
      "learning_rate": 0.00029950836760822704,
      "loss": 4.151651763916016,
      "step": 370
    },
    {
      "epoch": 0.06333333333333334,
      "grad_norm": 0.03422855585813522,
      "learning_rate": 0.0002994402046757462,
      "loss": 4.228427124023438,
      "step": 380
    },
    {
      "epoch": 0.065,
      "grad_norm": 0.040397658944129944,
      "learning_rate": 0.0002993676269491695,
      "loss": 4.222199249267578,
      "step": 390
    },
    {
      "epoch": 0.06666666666666667,
      "grad_norm": 0.03786230832338333,
      "learning_rate": 0.0002992906365726033,
      "loss": 4.117541885375976,
      "step": 400
    },
    {
      "epoch": 0.06833333333333333,
      "grad_norm": 0.0379491001367569,
      "learning_rate": 0.00029920923582051377,
      "loss": 4.12406005859375,
      "step": 410
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.03680192679166794,
      "learning_rate": 0.00029912342709765904,
      "loss": 4.020008850097656,
      "step": 420
    },
    {
      "epoch": 0.07166666666666667,
      "grad_norm": 0.03528207913041115,
      "learning_rate": 0.0002990332129390185,
      "loss": 3.9816268920898437,
      "step": 430
    },
    {
      "epoch": 0.07333333333333333,
      "grad_norm": 0.03580179810523987,
      "learning_rate": 0.00029893859600971793,
      "loss": 3.980207061767578,
      "step": 440
    },
    {
      "epoch": 0.075,
      "grad_norm": 0.034479495137929916,
      "learning_rate": 0.0002988395791049506,
      "loss": 4.027605819702148,
      "step": 450
    },
    {
      "epoch": 0.07666666666666666,
      "grad_norm": 0.034174006432294846,
      "learning_rate": 0.00029873616514989487,
      "loss": 3.981894683837891,
      "step": 460
    },
    {
      "epoch": 0.07833333333333334,
      "grad_norm": 0.0394420325756073,
      "learning_rate": 0.00029862835719962757,
      "loss": 3.915305328369141,
      "step": 470
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.03507312014698982,
      "learning_rate": 0.00029851615843903405,
      "loss": 3.907708740234375,
      "step": 480
    },
    {
      "epoch": 0.08166666666666667,
      "grad_norm": 0.035838689655065536,
      "learning_rate": 0.0002983995721827137,
      "loss": 3.8745994567871094,
      "step": 490
    },
    {
      "epoch": 0.08333333333333333,
      "grad_norm": 0.03250565007328987,
      "learning_rate": 0.00029827860187488247,
      "loss": 3.863072967529297,
      "step": 500
    },
    {
      "epoch": 0.085,
      "grad_norm": 0.037158895283937454,
      "learning_rate": 0.00029815325108927063,
      "loss": 3.7035972595214846,
      "step": 510
    },
    {
      "epoch": 0.08666666666666667,
      "grad_norm": 0.03817693144083023,
      "learning_rate": 0.00029802352352901757,
      "loss": 3.784911346435547,
      "step": 520
    },
    {
      "epoch": 0.08833333333333333,
      "grad_norm": 0.03666158393025398,
      "learning_rate": 0.0002978894230265623,
      "loss": 3.753315734863281,
      "step": 530
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.03293011710047722,
      "learning_rate": 0.0002977509535435302,
      "loss": 3.711289978027344,
      "step": 540
    },
    {
      "epoch": 0.09166666666666666,
      "grad_norm": 0.03294748812913895,
      "learning_rate": 0.00029760811917061607,
      "loss": 3.7139713287353517,
      "step": 550
    },
    {
      "epoch": 0.09333333333333334,
      "grad_norm": 0.03147300332784653,
      "learning_rate": 0.00029746092412746296,
      "loss": 3.583917999267578,
      "step": 560
    },
    {
      "epoch": 0.095,
      "grad_norm": 0.03498848155140877,
      "learning_rate": 0.000297309372762538,
      "loss": 3.6284183502197265,
      "step": 570
    },
    {
      "epoch": 0.09666666666666666,
      "grad_norm": 0.030913719907402992,
      "learning_rate": 0.0002971534695530037,
      "loss": 3.5620845794677733,
      "step": 580
    },
    {
      "epoch": 0.09833333333333333,
      "grad_norm": 0.030253689736127853,
      "learning_rate": 0.00029699321910458556,
      "loss": 3.5500133514404295,
      "step": 590
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.03715764731168747,
      "learning_rate": 0.00029682862615143616,
      "loss": 3.5795806884765624,
      "step": 600
    },
    {
      "epoch": 0.10166666666666667,
      "grad_norm": 0.032984547317028046,
      "learning_rate": 0.00029665969555599535,
      "loss": 3.6005035400390626,
      "step": 610
    },
    {
      "epoch": 0.10333333333333333,
      "grad_norm": 0.03254346922039986,
      "learning_rate": 0.0002964864323088464,
      "loss": 3.54862060546875,
      "step": 620
    },
    {
      "epoch": 0.105,
      "grad_norm": 0.03320642560720444,
      "learning_rate": 0.00029630884152856874,
      "loss": 3.534542465209961,
      "step": 630
    },
    {
      "epoch": 0.10666666666666667,
      "grad_norm": 0.031381070613861084,
      "learning_rate": 0.00029612692846158676,
      "loss": 3.502734375,
      "step": 640
    },
    {
      "epoch": 0.10833333333333334,
      "grad_norm": 0.03120303899049759,
      "learning_rate": 0.00029594069848201476,
      "loss": 3.481256103515625,
      "step": 650
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.03503166139125824,
      "learning_rate": 0.00029575015709149813,
      "loss": 3.464976501464844,
      "step": 660
    },
    {
      "epoch": 0.11166666666666666,
      "grad_norm": 0.03037203475832939,
      "learning_rate": 0.0002955553099190508,
      "loss": 3.3426334381103517,
      "step": 670
    },
    {
      "epoch": 0.11333333333333333,
      "grad_norm": 0.030078619718551636,
      "learning_rate": 0.0002953561627208891,
      "loss": 3.386351776123047,
      "step": 680
    },
    {
      "epoch": 0.115,
      "grad_norm": 0.030806683003902435,
      "learning_rate": 0.0002951527213802617,
      "loss": 3.241590118408203,
      "step": 690
    },
    {
      "epoch": 0.11666666666666667,
      "grad_norm": 0.03040868043899536,
      "learning_rate": 0.00029494499190727566,
      "loss": 3.414640426635742,
      "step": 700
    }
  ],
  "logging_steps": 10,
  "max_steps": 6000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.06588538929152e+17,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}