{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.9411764705882355,
  "eval_steps": 20,
  "global_step": 111,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.05378151260504202,
      "grad_norm": 0.012224463745951653,
      "learning_rate": 0.001981818181818182,
      "loss": 2.4733,
      "step": 2
    },
    {
      "epoch": 0.10756302521008404,
      "grad_norm": 0.04710804298520088,
      "learning_rate": 0.0019454545454545456,
      "loss": 2.4443,
      "step": 4
    },
    {
      "epoch": 0.16134453781512606,
      "grad_norm": 0.09238269925117493,
      "learning_rate": 0.0019090909090909091,
      "loss": 2.3956,
      "step": 6
    },
    {
      "epoch": 0.21512605042016808,
      "grad_norm": 0.17334744334220886,
      "learning_rate": 0.0018727272727272729,
      "loss": 2.4043,
      "step": 8
    },
    {
      "epoch": 0.2689075630252101,
      "grad_norm": 0.11766365170478821,
      "learning_rate": 0.0018363636363636364,
      "loss": 2.385,
      "step": 10
    },
    {
      "epoch": 0.3226890756302521,
      "grad_norm": 0.1385774314403534,
      "learning_rate": 0.0018000000000000002,
      "loss": 2.3933,
      "step": 12
    },
    {
      "epoch": 0.3764705882352941,
      "grad_norm": 0.1210022047162056,
      "learning_rate": 0.0017636363636363637,
      "loss": 2.3733,
      "step": 14
    },
    {
      "epoch": 0.43025210084033616,
      "grad_norm": 0.11510306596755981,
      "learning_rate": 0.0017272727272727272,
      "loss": 2.3297,
      "step": 16
    },
    {
      "epoch": 0.48403361344537815,
      "grad_norm": 0.08369912207126617,
      "learning_rate": 0.001690909090909091,
      "loss": 2.351,
      "step": 18
    },
    {
      "epoch": 0.5378151260504201,
      "grad_norm": 0.09298688918352127,
      "learning_rate": 0.0016545454545454545,
      "loss": 2.3175,
      "step": 20
    },
    {
      "epoch": 0.5378151260504201,
      "eval_loss": 2.3251912593841553,
      "eval_runtime": 84.2914,
      "eval_samples_per_second": 14.118,
      "eval_steps_per_second": 1.768,
      "step": 20
    },
    {
      "epoch": 0.5915966386554622,
      "grad_norm": 0.10441266000270844,
      "learning_rate": 0.0016181818181818183,
      "loss": 2.3643,
      "step": 22
    },
    {
      "epoch": 0.6453781512605042,
      "grad_norm": 0.09343012422323227,
      "learning_rate": 0.0015818181818181818,
      "loss": 2.3391,
      "step": 24
    },
    {
      "epoch": 0.6991596638655462,
      "grad_norm": 0.09008985757827759,
      "learning_rate": 0.0015454545454545454,
      "loss": 2.2984,
      "step": 26
    },
    {
      "epoch": 0.7529411764705882,
      "grad_norm": 0.08069847524166107,
      "learning_rate": 0.0015090909090909091,
      "loss": 2.3202,
      "step": 28
    },
    {
      "epoch": 0.8067226890756303,
      "grad_norm": 0.08655106276273727,
      "learning_rate": 0.0014727272727272727,
      "loss": 2.3438,
      "step": 30
    },
    {
      "epoch": 0.8605042016806723,
      "grad_norm": 0.08203998953104019,
      "learning_rate": 0.0014363636363636362,
      "loss": 2.2862,
      "step": 32
    },
    {
      "epoch": 0.9142857142857143,
      "grad_norm": 0.10055471211671829,
      "learning_rate": 0.0014,
      "loss": 2.3448,
      "step": 34
    },
    {
      "epoch": 0.9680672268907563,
      "grad_norm": 0.08500978350639343,
      "learning_rate": 0.0013636363636363635,
      "loss": 2.3221,
      "step": 36
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.16502036154270172,
      "learning_rate": 0.0013272727272727275,
      "loss": 2.3438,
      "step": 38
    },
    {
      "epoch": 1.053781512605042,
      "grad_norm": 0.08134379237890244,
      "learning_rate": 0.001290909090909091,
      "loss": 2.3075,
      "step": 40
    },
    {
      "epoch": 1.053781512605042,
      "eval_loss": 2.299827814102173,
      "eval_runtime": 84.1245,
      "eval_samples_per_second": 14.146,
      "eval_steps_per_second": 1.771,
      "step": 40
    },
    {
      "epoch": 1.107563025210084,
      "grad_norm": 0.09189953655004501,
      "learning_rate": 0.0012545454545454546,
      "loss": 2.2457,
      "step": 42
    },
    {
      "epoch": 1.1613445378151261,
      "grad_norm": 0.09041959792375565,
      "learning_rate": 0.0012181818181818183,
      "loss": 2.2977,
      "step": 44
    },
    {
      "epoch": 1.2151260504201682,
      "grad_norm": 0.08456366509199142,
      "learning_rate": 0.0011818181818181819,
      "loss": 2.2843,
      "step": 46
    },
    {
      "epoch": 1.26890756302521,
      "grad_norm": 0.08097781240940094,
      "learning_rate": 0.0011454545454545454,
      "loss": 2.2328,
      "step": 48
    },
    {
      "epoch": 1.322689075630252,
      "grad_norm": 0.10243827849626541,
      "learning_rate": 0.0011090909090909092,
      "loss": 2.254,
      "step": 50
    },
    {
      "epoch": 1.3764705882352941,
      "grad_norm": 0.09242815524339676,
      "learning_rate": 0.0010727272727272727,
      "loss": 2.3295,
      "step": 52
    },
    {
      "epoch": 1.4302521008403362,
      "grad_norm": 0.09403648227453232,
      "learning_rate": 0.0010363636363636365,
      "loss": 2.2749,
      "step": 54
    },
    {
      "epoch": 1.4840336134453782,
      "grad_norm": 0.09187959879636765,
      "learning_rate": 0.001,
      "loss": 2.2606,
      "step": 56
    },
    {
      "epoch": 1.53781512605042,
      "grad_norm": 0.09116198122501373,
      "learning_rate": 0.0009636363636363637,
      "loss": 2.2676,
      "step": 58
    },
    {
      "epoch": 1.5915966386554623,
      "grad_norm": 0.08270075172185898,
      "learning_rate": 0.0009272727272727273,
      "loss": 2.2741,
      "step": 60
    },
    {
      "epoch": 1.5915966386554623,
      "eval_loss": 2.3082737922668457,
      "eval_runtime": 84.2709,
      "eval_samples_per_second": 14.121,
      "eval_steps_per_second": 1.768,
      "step": 60
    },
    {
      "epoch": 1.6453781512605041,
      "grad_norm": 0.09275200217962265,
      "learning_rate": 0.0008909090909090909,
      "loss": 2.2582,
      "step": 62
    },
    {
      "epoch": 1.6991596638655462,
      "grad_norm": 0.09241969138383865,
      "learning_rate": 0.0008545454545454545,
      "loss": 2.2554,
      "step": 64
    },
    {
      "epoch": 1.7529411764705882,
      "grad_norm": 0.08338718116283417,
      "learning_rate": 0.0008181818181818183,
      "loss": 2.2244,
      "step": 66
    },
    {
      "epoch": 1.8067226890756303,
      "grad_norm": 0.09568168222904205,
      "learning_rate": 0.0007818181818181819,
      "loss": 2.2719,
      "step": 68
    },
    {
      "epoch": 1.8605042016806723,
      "grad_norm": 0.0905410498380661,
      "learning_rate": 0.0007454545454545455,
      "loss": 2.2505,
      "step": 70
    },
    {
      "epoch": 1.9142857142857141,
      "grad_norm": 0.08841802924871445,
      "learning_rate": 0.0007090909090909091,
      "loss": 2.3005,
      "step": 72
    },
    {
      "epoch": 1.9680672268907564,
      "grad_norm": 0.09013470262289047,
      "learning_rate": 0.0006727272727272728,
      "loss": 2.2682,
      "step": 74
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.19737772643566132,
      "learning_rate": 0.0006363636363636364,
      "loss": 2.3476,
      "step": 76
    },
    {
      "epoch": 2.053781512605042,
      "grad_norm": 0.0839110016822815,
      "learning_rate": 0.0006,
      "loss": 2.2338,
      "step": 78
    },
    {
      "epoch": 2.107563025210084,
      "grad_norm": 0.10582801699638367,
      "learning_rate": 0.0005636363636363636,
      "loss": 2.2257,
      "step": 80
    },
    {
      "epoch": 2.107563025210084,
      "eval_loss": 2.304074764251709,
      "eval_runtime": 84.3347,
      "eval_samples_per_second": 14.11,
      "eval_steps_per_second": 1.767,
      "step": 80
    },
    {
      "epoch": 2.161344537815126,
      "grad_norm": 0.09145358949899673,
      "learning_rate": 0.0005272727272727272,
      "loss": 2.2488,
      "step": 82
    },
    {
      "epoch": 2.215126050420168,
      "grad_norm": 0.08459240943193436,
      "learning_rate": 0.0004909090909090909,
      "loss": 2.2518,
      "step": 84
    },
    {
      "epoch": 2.26890756302521,
      "grad_norm": 0.09590018540620804,
      "learning_rate": 0.00045454545454545455,
      "loss": 2.2324,
      "step": 86
    },
    {
      "epoch": 2.3226890756302523,
      "grad_norm": 0.10032965242862701,
      "learning_rate": 0.00041818181818181814,
      "loss": 2.2099,
      "step": 88
    },
    {
      "epoch": 2.376470588235294,
      "grad_norm": 0.09092257171869278,
      "learning_rate": 0.00038181818181818184,
      "loss": 2.2077,
      "step": 90
    },
    {
      "epoch": 2.4302521008403364,
      "grad_norm": 0.10066290944814682,
      "learning_rate": 0.00034545454545454544,
      "loss": 2.2629,
      "step": 92
    },
    {
      "epoch": 2.484033613445378,
      "grad_norm": 0.0973694771528244,
      "learning_rate": 0.0003090909090909091,
      "loss": 2.2292,
      "step": 94
    },
    {
      "epoch": 2.53781512605042,
      "grad_norm": 0.09254106879234314,
      "learning_rate": 0.00027272727272727274,
      "loss": 2.1923,
      "step": 96
    },
    {
      "epoch": 2.5915966386554623,
      "grad_norm": 0.10056042671203613,
      "learning_rate": 0.00023636363636363636,
      "loss": 2.2445,
      "step": 98
    },
    {
      "epoch": 2.645378151260504,
      "grad_norm": 0.09601625055074692,
      "learning_rate": 0.0002,
      "loss": 2.2605,
      "step": 100
    },
    {
      "epoch": 2.645378151260504,
      "eval_loss": 2.3115394115448,
      "eval_runtime": 84.2807,
      "eval_samples_per_second": 14.119,
      "eval_steps_per_second": 1.768,
      "step": 100
    },
    {
      "epoch": 2.6991596638655464,
      "grad_norm": 0.09498832374811172,
      "learning_rate": 0.00016363636363636363,
      "loss": 2.215,
      "step": 102
    },
    {
      "epoch": 2.7529411764705882,
      "grad_norm": 0.09191343188285828,
      "learning_rate": 0.00012727272727272725,
      "loss": 2.2116,
      "step": 104
    },
    {
      "epoch": 2.80672268907563,
      "grad_norm": 0.10717286169528961,
      "learning_rate": 9.090909090909092e-05,
      "loss": 2.2435,
      "step": 106
    },
    {
      "epoch": 2.8605042016806723,
      "grad_norm": 0.09715902805328369,
      "learning_rate": 5.4545454545454546e-05,
      "loss": 2.2196,
      "step": 108
    },
    {
      "epoch": 2.914285714285714,
      "grad_norm": 0.10500436276197433,
      "learning_rate": 1.8181818181818182e-05,
      "loss": 2.2351,
      "step": 110
    },
    {
      "epoch": 2.9411764705882355,
      "step": 111,
      "total_flos": 8.1776874848256e+17,
      "train_loss": 2.2894913076280474,
      "train_runtime": 2825.7191,
      "train_samples_per_second": 10.107,
      "train_steps_per_second": 0.039
    },
    {
      "epoch": 2.9411764705882355,
      "eval_loss": 2.311664342880249,
      "eval_runtime": 84.4111,
      "eval_samples_per_second": 14.098,
      "eval_steps_per_second": 1.765,
      "step": 111
    },
    {
      "epoch": 2.9411764705882355,
      "eval_loss": 2.3323311805725098,
      "eval_runtime": 84.1513,
      "eval_samples_per_second": 14.141,
      "eval_steps_per_second": 1.771,
      "step": 111
    }
  ],
  "logging_steps": 2,
  "max_steps": 111,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 8.1776874848256e+17,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}