File size: 2,296 Bytes

2183d3f

{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "global_step": 4371,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.34,
      "learning_rate": 8.85609700297415e-06,
      "loss": 4.762,
      "step": 500
    },
    {
      "epoch": 0.69,
      "learning_rate": 7.712194005948296e-06,
      "loss": 4.203,
      "step": 1000
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.39857932925224304,
      "eval_loss": 3.2222137451171875,
      "eval_runtime": 10.1814,
      "eval_samples_per_second": 124.442,
      "eval_steps_per_second": 15.617,
      "step": 1457
    },
    {
      "epoch": 1.03,
      "learning_rate": 6.568291008922444e-06,
      "loss": 3.7248,
      "step": 1500
    },
    {
      "epoch": 1.37,
      "learning_rate": 5.424388011896592e-06,
      "loss": 3.3024,
      "step": 2000
    },
    {
      "epoch": 1.72,
      "learning_rate": 4.28048501487074e-06,
      "loss": 3.0923,
      "step": 2500
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.5051302313804626,
      "eval_loss": 2.6549134254455566,
      "eval_runtime": 10.1792,
      "eval_samples_per_second": 124.469,
      "eval_steps_per_second": 15.62,
      "step": 2914
    },
    {
      "epoch": 2.06,
      "learning_rate": 3.136582017844887e-06,
      "loss": 2.8691,
      "step": 3000
    },
    {
      "epoch": 2.4,
      "learning_rate": 1.992679020819035e-06,
      "loss": 2.6311,
      "step": 3500
    },
    {
      "epoch": 2.75,
      "learning_rate": 8.487760237931825e-07,
      "loss": 2.5685,
      "step": 4000
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.5272296667098999,
      "eval_loss": 2.5027120113372803,
      "eval_runtime": 10.1656,
      "eval_samples_per_second": 124.635,
      "eval_steps_per_second": 15.641,
      "step": 4371
    },
    {
      "epoch": 3.0,
      "step": 4371,
      "total_flos": 1151412634864512.0,
      "train_loss": 3.3223501191044313,
      "train_runtime": 1362.0086,
      "train_samples_per_second": 25.663,
      "train_steps_per_second": 3.209
    }
  ],
  "max_steps": 4371,
  "num_train_epochs": 3,
  "total_flos": 1151412634864512.0,
  "trial_name": null,
  "trial_params": null
}