{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.11637073463718609,
  "global_step": 3100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "learning_rate": 0.0002,
      "loss": 3.5545,
      "step": 25
    },
    {
      "epoch": 0.0,
      "learning_rate": 0.0002,
      "loss": 3.3808,
      "step": 50
    },
    {
      "epoch": 0.0,
      "learning_rate": 0.0002,
      "loss": 3.2177,
      "step": 75
    },
    {
      "epoch": 0.0,
      "learning_rate": 0.0002,
      "loss": 3.14,
      "step": 100
    },
    {
      "epoch": 0.0,
      "learning_rate": 0.0002,
      "loss": 3.135,
      "step": 125
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.0002,
      "loss": 3.0592,
      "step": 150
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.0002,
      "loss": 3.083,
      "step": 175
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.0002,
      "loss": 3.0834,
      "step": 200
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.0002,
      "loss": 3.1127,
      "step": 225
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.0002,
      "loss": 2.9984,
      "step": 250
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.0002,
      "loss": 3.0828,
      "step": 275
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.0002,
      "loss": 2.9751,
      "step": 300
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.0002,
      "loss": 3.0941,
      "step": 325
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.0002,
      "loss": 2.9631,
      "step": 350
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.0002,
      "loss": 3.0859,
      "step": 375
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0002,
      "loss": 2.9828,
      "step": 400
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0002,
      "loss": 3.0143,
      "step": 425
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0002,
      "loss": 2.9813,
      "step": 450
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0002,
      "loss": 3.0787,
      "step": 475
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0002,
      "loss": 3.0272,
      "step": 500
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0002,
      "loss": 3.0479,
      "step": 525
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0002,
      "loss": 2.9969,
      "step": 550
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0002,
      "loss": 3.0361,
      "step": 575
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0002,
      "loss": 2.9057,
      "step": 600
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0002,
      "loss": 2.965,
      "step": 625
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0002,
      "loss": 2.9288,
      "step": 650
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0002,
      "loss": 2.9974,
      "step": 675
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0002,
      "loss": 2.945,
      "step": 700
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0002,
      "loss": 3.045,
      "step": 725
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0002,
      "loss": 2.9497,
      "step": 750
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0002,
      "loss": 3.011,
      "step": 775
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0002,
      "loss": 2.9471,
      "step": 800
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0002,
      "loss": 3.0071,
      "step": 825
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0002,
      "loss": 2.8933,
      "step": 850
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0002,
      "loss": 3.012,
      "step": 875
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0002,
      "loss": 2.922,
      "step": 900
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0002,
      "loss": 3.0512,
      "step": 925
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0002,
      "loss": 2.9355,
      "step": 950
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0002,
      "loss": 3.0477,
      "step": 975
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0002,
      "loss": 2.9325,
      "step": 1000
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0002,
      "loss": 2.9595,
      "step": 1025
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0002,
      "loss": 2.8729,
      "step": 1050
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0002,
      "loss": 3.0294,
      "step": 1075
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0002,
      "loss": 2.9156,
      "step": 1100
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0002,
      "loss": 2.9877,
      "step": 1125
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0002,
      "loss": 2.9953,
      "step": 1150
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0002,
      "loss": 2.9605,
      "step": 1175
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0002,
      "loss": 2.8817,
      "step": 1200
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0002,
      "loss": 2.9458,
      "step": 1225
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0002,
      "loss": 2.8464,
      "step": 1250
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0002,
      "loss": 2.9767,
      "step": 1275
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0002,
      "loss": 2.9091,
      "step": 1300
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0002,
      "loss": 2.9615,
      "step": 1325
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0002,
      "loss": 2.8904,
      "step": 1350
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0002,
      "loss": 2.9142,
      "step": 1375
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0002,
      "loss": 2.8625,
      "step": 1400
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0002,
      "loss": 3.0317,
      "step": 1425
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0002,
      "loss": 2.8543,
      "step": 1450
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002,
      "loss": 2.9401,
      "step": 1475
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002,
      "loss": 2.8642,
      "step": 1500
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002,
      "loss": 2.9703,
      "step": 1525
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002,
      "loss": 2.8528,
      "step": 1550
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002,
      "loss": 2.9115,
      "step": 1575
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002,
      "loss": 2.773,
      "step": 1600
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002,
      "loss": 2.9731,
      "step": 1625
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002,
      "loss": 2.8812,
      "step": 1650
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002,
      "loss": 2.9683,
      "step": 1675
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002,
      "loss": 2.8224,
      "step": 1700
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002,
      "loss": 2.9658,
      "step": 1725
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002,
      "loss": 2.8459,
      "step": 1750
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002,
      "loss": 2.9334,
      "step": 1775
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002,
      "loss": 2.8489,
      "step": 1800
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002,
      "loss": 2.9709,
      "step": 1825
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002,
      "loss": 2.8089,
      "step": 1850
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002,
      "loss": 2.9309,
      "step": 1875
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002,
      "loss": 2.7292,
      "step": 1900
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002,
      "loss": 2.8867,
      "step": 1925
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002,
      "loss": 2.8445,
      "step": 1950
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002,
      "loss": 2.9522,
      "step": 1975
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0002,
      "loss": 2.8645,
      "step": 2000
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0002,
      "loss": 2.9292,
      "step": 2025
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0002,
      "loss": 2.8197,
      "step": 2050
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0002,
      "loss": 2.9131,
      "step": 2075
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0002,
      "loss": 2.7743,
      "step": 2100
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0002,
      "loss": 2.8766,
      "step": 2125
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0002,
      "loss": 2.8322,
      "step": 2150
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0002,
      "loss": 2.8837,
      "step": 2175
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0002,
      "loss": 2.8804,
      "step": 2200
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0002,
      "loss": 2.9015,
      "step": 2225
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0002,
      "loss": 2.8675,
      "step": 2250
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0002,
      "loss": 2.8653,
      "step": 2275
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0002,
      "loss": 2.7899,
      "step": 2300
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0002,
      "loss": 2.9419,
      "step": 2325
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0002,
      "loss": 2.8745,
      "step": 2350
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0002,
      "loss": 2.939,
      "step": 2375
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0002,
      "loss": 2.8301,
      "step": 2400
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0002,
      "loss": 2.9117,
      "step": 2425
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0002,
      "loss": 2.8191,
      "step": 2450
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0002,
      "loss": 2.8762,
      "step": 2475
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0002,
      "loss": 2.8237,
      "step": 2500
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0002,
      "loss": 2.8568,
      "step": 2525
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0002,
      "loss": 2.8007,
      "step": 2550
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0002,
      "loss": 2.917,
      "step": 2575
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0002,
      "loss": 2.8378,
      "step": 2600
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0002,
      "loss": 2.931,
      "step": 2625
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0002,
      "loss": 2.7476,
      "step": 2650
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0002,
      "loss": 2.8783,
      "step": 2675
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0002,
      "loss": 2.7566,
      "step": 2700
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0002,
      "loss": 2.8552,
      "step": 2725
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0002,
      "loss": 2.762,
      "step": 2750
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0002,
      "loss": 2.8504,
      "step": 2775
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0002,
      "loss": 2.7906,
      "step": 2800
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0002,
      "loss": 2.9305,
      "step": 2825
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0002,
      "loss": 2.7938,
      "step": 2850
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0002,
      "loss": 2.8926,
      "step": 2875
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0002,
      "loss": 2.8061,
      "step": 2900
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0002,
      "loss": 2.8761,
      "step": 2925
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0002,
      "loss": 2.7909,
      "step": 2950
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0002,
      "loss": 2.8898,
      "step": 2975
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0002,
      "loss": 2.7425,
      "step": 3000
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0002,
      "loss": 2.9364,
      "step": 3025
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0002,
      "loss": 2.7867,
      "step": 3050
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0002,
      "loss": 2.8904,
      "step": 3075
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0002,
      "loss": 2.8158,
      "step": 3100
    }
  ],
  "max_steps": 26639,
  "num_train_epochs": 1,
  "total_flos": 1.183808995344384e+16,
  "trial_name": null,
  "trial_params": null
}