{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 14.024390243902438,
  "eval_steps": 200,
  "global_step": 4600,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.61,
      "learning_rate": 0.0002,
      "loss": 0.1872,
      "step": 200
    },
    {
      "epoch": 0.61,
      "eval_runtime": 75.0556,
      "eval_samples_per_second": 3.677,
      "eval_steps_per_second": 0.24,
      "step": 200
    },
    {
      "epoch": 1.22,
      "learning_rate": 0.0002,
      "loss": 0.0954,
      "step": 400
    },
    {
      "epoch": 1.22,
      "eval_runtime": 74.9815,
      "eval_samples_per_second": 3.681,
      "eval_steps_per_second": 0.24,
      "step": 400
    },
    {
      "epoch": 1.83,
      "learning_rate": 0.0002,
      "loss": 0.0797,
      "step": 600
    },
    {
      "epoch": 1.83,
      "eval_runtime": 75.1061,
      "eval_samples_per_second": 3.675,
      "eval_steps_per_second": 0.24,
      "step": 600
    },
    {
      "epoch": 2.44,
      "learning_rate": 0.0002,
      "loss": 0.06,
      "step": 800
    },
    {
      "epoch": 2.44,
      "eval_runtime": 74.9943,
      "eval_samples_per_second": 3.68,
      "eval_steps_per_second": 0.24,
      "step": 800
    },
    {
      "epoch": 3.05,
      "learning_rate": 0.0002,
      "loss": 0.0551,
      "step": 1000
    },
    {
      "epoch": 3.05,
      "eval_runtime": 74.9839,
      "eval_samples_per_second": 3.681,
      "eval_steps_per_second": 0.24,
      "step": 1000
    },
    {
      "epoch": 3.66,
      "learning_rate": 0.0002,
      "loss": 0.0422,
      "step": 1200
    },
    {
      "epoch": 3.66,
      "eval_runtime": 75.0437,
      "eval_samples_per_second": 3.678,
      "eval_steps_per_second": 0.24,
      "step": 1200
    },
    {
      "epoch": 4.27,
      "learning_rate": 0.0002,
      "loss": 0.041,
      "step": 1400
    },
    {
      "epoch": 4.27,
      "eval_runtime": 74.9611,
      "eval_samples_per_second": 3.682,
      "eval_steps_per_second": 0.24,
      "step": 1400
    },
    {
      "epoch": 4.88,
      "learning_rate": 0.0002,
      "loss": 0.038,
      "step": 1600
    },
    {
      "epoch": 4.88,
      "eval_runtime": 75.1592,
      "eval_samples_per_second": 3.672,
      "eval_steps_per_second": 0.239,
      "step": 1600
    },
    {
      "epoch": 5.49,
      "learning_rate": 0.0002,
      "loss": 0.0348,
      "step": 1800
    },
    {
      "epoch": 5.49,
      "eval_runtime": 75.1286,
      "eval_samples_per_second": 3.674,
      "eval_steps_per_second": 0.24,
      "step": 1800
    },
    {
      "epoch": 6.1,
      "learning_rate": 0.0002,
      "loss": 0.0366,
      "step": 2000
    },
    {
      "epoch": 6.1,
      "eval_runtime": 34.8655,
      "eval_samples_per_second": 7.916,
      "eval_steps_per_second": 0.516,
      "step": 2000
    },
    {
      "epoch": 6.71,
      "learning_rate": 0.0002,
      "loss": 0.0355,
      "step": 2200
    },
    {
      "epoch": 6.71,
      "eval_runtime": 34.8275,
      "eval_samples_per_second": 7.925,
      "eval_steps_per_second": 0.517,
      "step": 2200
    },
    {
      "epoch": 7.32,
      "learning_rate": 0.0002,
      "loss": 0.034,
      "step": 2400
    },
    {
      "epoch": 7.32,
      "eval_runtime": 34.837,
      "eval_samples_per_second": 7.923,
      "eval_steps_per_second": 0.517,
      "step": 2400
    },
    {
      "epoch": 7.93,
      "learning_rate": 0.0002,
      "loss": 0.0317,
      "step": 2600
    },
    {
      "epoch": 7.93,
      "eval_runtime": 34.829,
      "eval_samples_per_second": 7.924,
      "eval_steps_per_second": 0.517,
      "step": 2600
    },
    {
      "epoch": 8.54,
      "learning_rate": 0.0002,
      "loss": 0.029,
      "step": 2800
    },
    {
      "epoch": 8.54,
      "eval_runtime": 34.8248,
      "eval_samples_per_second": 7.925,
      "eval_steps_per_second": 0.517,
      "step": 2800
    },
    {
      "epoch": 9.15,
      "learning_rate": 0.0002,
      "loss": 0.0289,
      "step": 3000
    },
    {
      "epoch": 9.15,
      "eval_runtime": 34.8563,
      "eval_samples_per_second": 7.918,
      "eval_steps_per_second": 0.516,
      "step": 3000
    },
    {
      "epoch": 9.76,
      "learning_rate": 0.0002,
      "loss": 0.0271,
      "step": 3200
    },
    {
      "epoch": 9.76,
      "eval_runtime": 34.8437,
      "eval_samples_per_second": 7.921,
      "eval_steps_per_second": 0.517,
      "step": 3200
    },
    {
      "epoch": 10.37,
      "learning_rate": 0.0002,
      "loss": 0.0268,
      "step": 3400
    },
    {
      "epoch": 10.37,
      "eval_runtime": 34.8527,
      "eval_samples_per_second": 7.919,
      "eval_steps_per_second": 0.516,
      "step": 3400
    },
    {
      "epoch": 10.98,
      "learning_rate": 0.0002,
      "loss": 0.0271,
      "step": 3600
    },
    {
      "epoch": 10.98,
      "eval_runtime": 34.8248,
      "eval_samples_per_second": 7.925,
      "eval_steps_per_second": 0.517,
      "step": 3600
    },
    {
      "epoch": 11.59,
      "learning_rate": 0.0002,
      "loss": 0.026,
      "step": 3800
    },
    {
      "epoch": 11.59,
      "eval_runtime": 34.8416,
      "eval_samples_per_second": 7.922,
      "eval_steps_per_second": 0.517,
      "step": 3800
    },
    {
      "epoch": 12.2,
      "learning_rate": 0.0002,
      "loss": 0.0269,
      "step": 4000
    },
    {
      "epoch": 12.2,
      "eval_runtime": 34.822,
      "eval_samples_per_second": 7.926,
      "eval_steps_per_second": 0.517,
      "step": 4000
    },
    {
      "epoch": 12.8,
      "learning_rate": 0.0002,
      "loss": 0.0286,
      "step": 4200
    },
    {
      "epoch": 12.8,
      "eval_runtime": 34.8403,
      "eval_samples_per_second": 7.922,
      "eval_steps_per_second": 0.517,
      "step": 4200
    },
    {
      "epoch": 13.41,
      "learning_rate": 0.0002,
      "loss": 0.0282,
      "step": 4400
    },
    {
      "epoch": 13.41,
      "eval_runtime": 34.8362,
      "eval_samples_per_second": 7.923,
      "eval_steps_per_second": 0.517,
      "step": 4400
    },
    {
      "epoch": 14.02,
      "learning_rate": 0.0002,
      "loss": 0.0286,
      "step": 4600
    },
    {
      "epoch": 14.02,
      "eval_runtime": 34.8156,
      "eval_samples_per_second": 7.927,
      "eval_steps_per_second": 0.517,
      "step": 4600
    }
  ],
  "logging_steps": 200,
  "max_steps": 4920,
  "num_train_epochs": 15,
  "save_steps": 200,
  "total_flos": 1.4816796692447232e+18,
  "trial_name": null,
  "trial_params": null
}