{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 4.571428571428571,
  "global_step": 4000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.11,
      "learning_rate": 1e-06,
      "loss": 0.0566,
      "step": 100
    },
    {
      "epoch": 0.23,
      "learning_rate": 1e-06,
      "loss": 0.0563,
      "step": 200
    },
    {
      "epoch": 0.34,
      "learning_rate": 1e-06,
      "loss": 0.0557,
      "step": 300
    },
    {
      "epoch": 0.46,
      "learning_rate": 1e-06,
      "loss": 0.0571,
      "step": 400
    },
    {
      "epoch": 0.57,
      "learning_rate": 1e-06,
      "loss": 0.0569,
      "step": 500
    },
    {
      "epoch": 0.69,
      "learning_rate": 1e-06,
      "loss": 0.0555,
      "step": 600
    },
    {
      "epoch": 0.8,
      "learning_rate": 1e-06,
      "loss": 0.0542,
      "step": 700
    },
    {
      "epoch": 0.91,
      "learning_rate": 1e-06,
      "loss": 0.0502,
      "step": 800
    },
    {
      "epoch": 1.03,
      "learning_rate": 1e-06,
      "loss": 0.0553,
      "step": 900
    },
    {
      "epoch": 1.14,
      "learning_rate": 1e-06,
      "loss": 0.0555,
      "step": 1000
    },
    {
      "epoch": 1.26,
      "learning_rate": 1e-06,
      "loss": 0.0545,
      "step": 1100
    },
    {
      "epoch": 1.37,
      "learning_rate": 1e-06,
      "loss": 0.0544,
      "step": 1200
    },
    {
      "epoch": 1.49,
      "learning_rate": 1e-06,
      "loss": 0.0543,
      "step": 1300
    },
    {
      "epoch": 1.6,
      "learning_rate": 1e-06,
      "loss": 0.0519,
      "step": 1400
    },
    {
      "epoch": 1.71,
      "learning_rate": 1e-06,
      "loss": 0.0518,
      "step": 1500
    },
    {
      "epoch": 1.83,
      "learning_rate": 1e-06,
      "loss": 0.0583,
      "step": 1600
    },
    {
      "epoch": 1.94,
      "learning_rate": 1e-06,
      "loss": 0.0552,
      "step": 1700
    },
    {
      "epoch": 2.06,
      "learning_rate": 1e-06,
      "loss": 0.0541,
      "step": 1800
    },
    {
      "epoch": 2.17,
      "learning_rate": 1e-06,
      "loss": 0.0534,
      "step": 1900
    },
    {
      "epoch": 2.29,
      "learning_rate": 1e-06,
      "loss": 0.0561,
      "step": 2000
    },
    {
      "epoch": 2.4,
      "learning_rate": 1e-06,
      "loss": 0.0527,
      "step": 2100
    },
    {
      "epoch": 2.51,
      "learning_rate": 1e-06,
      "loss": 0.0537,
      "step": 2200
    },
    {
      "epoch": 2.63,
      "learning_rate": 1e-06,
      "loss": 0.0567,
      "step": 2300
    },
    {
      "epoch": 2.74,
      "learning_rate": 1e-06,
      "loss": 0.0542,
      "step": 2400
    },
    {
      "epoch": 2.86,
      "learning_rate": 1e-06,
      "loss": 0.0549,
      "step": 2500
    },
    {
      "epoch": 2.97,
      "learning_rate": 1e-06,
      "loss": 0.0512,
      "step": 2600
    },
    {
      "epoch": 3.09,
      "learning_rate": 1e-06,
      "loss": 0.0519,
      "step": 2700
    },
    {
      "epoch": 3.2,
      "learning_rate": 1e-06,
      "loss": 0.056,
      "step": 2800
    },
    {
      "epoch": 3.31,
      "learning_rate": 1e-06,
      "loss": 0.0502,
      "step": 2900
    },
    {
      "epoch": 3.43,
      "learning_rate": 1e-06,
      "loss": 0.0527,
      "step": 3000
    },
    {
      "epoch": 3.54,
      "learning_rate": 1e-06,
      "loss": 0.0555,
      "step": 3100
    },
    {
      "epoch": 3.66,
      "learning_rate": 1e-06,
      "loss": 0.057,
      "step": 3200
    },
    {
      "epoch": 3.77,
      "learning_rate": 1e-06,
      "loss": 0.0545,
      "step": 3300
    },
    {
      "epoch": 3.89,
      "learning_rate": 1e-06,
      "loss": 0.0549,
      "step": 3400
    },
    {
      "epoch": 4.0,
      "learning_rate": 1e-06,
      "loss": 0.0552,
      "step": 3500
    },
    {
      "epoch": 4.11,
      "learning_rate": 1e-06,
      "loss": 0.0528,
      "step": 3600
    },
    {
      "epoch": 4.23,
      "learning_rate": 1e-06,
      "loss": 0.0543,
      "step": 3700
    },
    {
      "epoch": 4.34,
      "learning_rate": 1e-06,
      "loss": 0.0546,
      "step": 3800
    },
    {
      "epoch": 4.46,
      "learning_rate": 1e-06,
      "loss": 0.0527,
      "step": 3900
    },
    {
      "epoch": 4.57,
      "learning_rate": 1e-06,
      "loss": 0.0529,
      "step": 4000
    }
  ],
  "max_steps": 10000,
  "num_train_epochs": 12,
  "total_flos": 1.210700351020204e+18,
  "trial_name": null,
  "trial_params": null
}