{
  "best_global_step": 800,
  "best_metric": 0.8280864357948303,
  "best_model_checkpoint": "/workspace/model/finetuned/checkpoint-800",
  "epoch": 4.848484848484849,
  "eval_steps": 25,
  "global_step": 800,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.15151515151515152,
      "grad_norm": 180.98402404785156,
      "learning_rate": 2.7e-06,
      "loss": 30.8939,
      "step": 25
    },
    {
      "epoch": 0.15151515151515152,
      "eval_loss": 2.02256441116333,
      "eval_runtime": 26.9436,
      "eval_samples_per_second": 21.786,
      "eval_steps_per_second": 2.746,
      "step": 25
    },
    {
      "epoch": 0.30303030303030304,
      "grad_norm": 385.3758544921875,
      "learning_rate": 6.45e-06,
      "loss": 28.2375,
      "step": 50
    },
    {
      "epoch": 0.30303030303030304,
      "eval_loss": 1.5823099613189697,
      "eval_runtime": 27.0059,
      "eval_samples_per_second": 21.736,
      "eval_steps_per_second": 2.74,
      "step": 50
    },
    {
      "epoch": 0.45454545454545453,
      "grad_norm": 30.632709503173828,
      "learning_rate": 1.02e-05,
      "loss": 21.1384,
      "step": 75
    },
    {
      "epoch": 0.45454545454545453,
      "eval_loss": 1.216854214668274,
      "eval_runtime": 26.9681,
      "eval_samples_per_second": 21.766,
      "eval_steps_per_second": 2.744,
      "step": 75
    },
    {
      "epoch": 0.6060606060606061,
      "grad_norm": 9.063393592834473,
      "learning_rate": 1.395e-05,
      "loss": 18.6661,
      "step": 100
    },
    {
      "epoch": 0.6060606060606061,
      "eval_loss": 1.1212154626846313,
      "eval_runtime": 26.8008,
      "eval_samples_per_second": 21.902,
      "eval_steps_per_second": 2.761,
      "step": 100
    },
    {
      "epoch": 0.7575757575757576,
      "grad_norm": 10.971136093139648,
      "learning_rate": 1.77e-05,
      "loss": 17.3687,
      "step": 125
    },
    {
      "epoch": 0.7575757575757576,
      "eval_loss": 1.0298739671707153,
      "eval_runtime": 26.8143,
      "eval_samples_per_second": 21.891,
      "eval_steps_per_second": 2.76,
      "step": 125
    },
    {
      "epoch": 0.9090909090909091,
      "grad_norm": 8.818650245666504,
      "learning_rate": 2.145e-05,
      "loss": 15.8605,
      "step": 150
    },
    {
      "epoch": 0.9090909090909091,
      "eval_loss": 0.9787100553512573,
      "eval_runtime": 26.571,
      "eval_samples_per_second": 22.092,
      "eval_steps_per_second": 2.785,
      "step": 150
    },
    {
      "epoch": 1.0606060606060606,
      "grad_norm": 11.700923919677734,
      "learning_rate": 2.52e-05,
      "loss": 15.163,
      "step": 175
    },
    {
      "epoch": 1.0606060606060606,
      "eval_loss": 0.9414308667182922,
      "eval_runtime": 26.626,
      "eval_samples_per_second": 22.046,
      "eval_steps_per_second": 2.779,
      "step": 175
    },
    {
      "epoch": 1.2121212121212122,
      "grad_norm": 10.862292289733887,
      "learning_rate": 2.895e-05,
      "loss": 14.6871,
      "step": 200
    },
    {
      "epoch": 1.2121212121212122,
      "eval_loss": 0.9198422431945801,
      "eval_runtime": 26.7039,
      "eval_samples_per_second": 21.982,
      "eval_steps_per_second": 2.771,
      "step": 200
    },
    {
      "epoch": 1.3636363636363638,
      "grad_norm": 11.315472602844238,
      "learning_rate": 2.9136e-05,
      "loss": 14.8471,
      "step": 225
    },
    {
      "epoch": 1.3636363636363638,
      "eval_loss": 0.9041078686714172,
      "eval_runtime": 26.5947,
      "eval_samples_per_second": 22.072,
      "eval_steps_per_second": 2.783,
      "step": 225
    },
    {
      "epoch": 1.5151515151515151,
      "grad_norm": 12.701277732849121,
      "learning_rate": 2.7936e-05,
      "loss": 14.163,
      "step": 250
    },
    {
      "epoch": 1.5151515151515151,
      "eval_loss": 0.8926578760147095,
      "eval_runtime": 26.7046,
      "eval_samples_per_second": 21.981,
      "eval_steps_per_second": 2.771,
      "step": 250
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 11.456862449645996,
      "learning_rate": 2.6736e-05,
      "loss": 14.0006,
      "step": 275
    },
    {
      "epoch": 1.6666666666666665,
      "eval_loss": 0.8840105533599854,
      "eval_runtime": 26.5642,
      "eval_samples_per_second": 22.097,
      "eval_steps_per_second": 2.786,
      "step": 275
    },
    {
      "epoch": 1.8181818181818183,
      "grad_norm": 11.606865882873535,
      "learning_rate": 2.5536e-05,
      "loss": 14.0325,
      "step": 300
    },
    {
      "epoch": 1.8181818181818183,
      "eval_loss": 0.8764263987541199,
      "eval_runtime": 26.4677,
      "eval_samples_per_second": 22.178,
      "eval_steps_per_second": 2.796,
      "step": 300
    },
    {
      "epoch": 1.9696969696969697,
      "grad_norm": 11.702313423156738,
      "learning_rate": 2.4336000000000002e-05,
      "loss": 14.1239,
      "step": 325
    },
    {
      "epoch": 1.9696969696969697,
      "eval_loss": 0.8708490133285522,
      "eval_runtime": 26.714,
      "eval_samples_per_second": 21.973,
      "eval_steps_per_second": 2.77,
      "step": 325
    },
    {
      "epoch": 2.121212121212121,
      "grad_norm": 13.907278060913086,
      "learning_rate": 2.3136e-05,
      "loss": 13.6706,
      "step": 350
    },
    {
      "epoch": 2.121212121212121,
      "eval_loss": 0.8656915426254272,
      "eval_runtime": 26.7031,
      "eval_samples_per_second": 21.982,
      "eval_steps_per_second": 2.771,
      "step": 350
    },
    {
      "epoch": 2.2727272727272725,
      "grad_norm": 13.098384857177734,
      "learning_rate": 2.1935999999999998e-05,
      "loss": 13.5478,
      "step": 375
    },
    {
      "epoch": 2.2727272727272725,
      "eval_loss": 0.8606927394866943,
      "eval_runtime": 26.6066,
      "eval_samples_per_second": 22.062,
      "eval_steps_per_second": 2.781,
      "step": 375
    },
    {
      "epoch": 2.4242424242424243,
      "grad_norm": 15.584559440612793,
      "learning_rate": 2.0736000000000003e-05,
      "loss": 13.5654,
      "step": 400
    },
    {
      "epoch": 2.4242424242424243,
      "eval_loss": 0.8570966720581055,
      "eval_runtime": 26.7383,
      "eval_samples_per_second": 21.954,
      "eval_steps_per_second": 2.768,
      "step": 400
    },
    {
      "epoch": 2.5757575757575757,
      "grad_norm": 14.500994682312012,
      "learning_rate": 1.9536e-05,
      "loss": 13.4998,
      "step": 425
    },
    {
      "epoch": 2.5757575757575757,
      "eval_loss": 0.8537192940711975,
      "eval_runtime": 26.82,
      "eval_samples_per_second": 21.887,
      "eval_steps_per_second": 2.759,
      "step": 425
    },
    {
      "epoch": 2.7272727272727275,
      "grad_norm": 13.635045051574707,
      "learning_rate": 1.8336e-05,
      "loss": 13.3694,
      "step": 450
    },
    {
      "epoch": 2.7272727272727275,
      "eval_loss": 0.8501807451248169,
      "eval_runtime": 26.631,
      "eval_samples_per_second": 22.042,
      "eval_steps_per_second": 2.779,
      "step": 450
    },
    {
      "epoch": 2.878787878787879,
      "grad_norm": 14.899593353271484,
      "learning_rate": 1.7136000000000003e-05,
      "loss": 13.3274,
      "step": 475
    },
    {
      "epoch": 2.878787878787879,
      "eval_loss": 0.8472868204116821,
      "eval_runtime": 26.7572,
      "eval_samples_per_second": 21.938,
      "eval_steps_per_second": 2.766,
      "step": 475
    },
    {
      "epoch": 3.0303030303030303,
      "grad_norm": 14.57861614227295,
      "learning_rate": 1.5936e-05,
      "loss": 13.1797,
      "step": 500
    },
    {
      "epoch": 3.0303030303030303,
      "eval_loss": 0.8451663255691528,
      "eval_runtime": 26.9575,
      "eval_samples_per_second": 21.775,
      "eval_steps_per_second": 2.745,
      "step": 500
    },
    {
      "epoch": 3.1818181818181817,
      "grad_norm": 15.23614501953125,
      "learning_rate": 1.4736000000000001e-05,
      "loss": 13.221,
      "step": 525
    },
    {
      "epoch": 3.1818181818181817,
      "eval_loss": 0.8429368734359741,
      "eval_runtime": 26.6839,
      "eval_samples_per_second": 21.998,
      "eval_steps_per_second": 2.773,
      "step": 525
    },
    {
      "epoch": 3.3333333333333335,
      "grad_norm": 16.392993927001953,
      "learning_rate": 1.3536e-05,
      "loss": 13.1811,
      "step": 550
    },
    {
      "epoch": 3.3333333333333335,
      "eval_loss": 0.8409376740455627,
      "eval_runtime": 26.569,
      "eval_samples_per_second": 22.093,
      "eval_steps_per_second": 2.785,
      "step": 550
    },
    {
      "epoch": 3.484848484848485,
      "grad_norm": 14.45429515838623,
      "learning_rate": 1.2336e-05,
      "loss": 12.7355,
      "step": 575
    },
    {
      "epoch": 3.484848484848485,
      "eval_loss": 0.8386228084564209,
      "eval_runtime": 26.5967,
      "eval_samples_per_second": 22.07,
      "eval_steps_per_second": 2.782,
      "step": 575
    },
    {
      "epoch": 3.6363636363636362,
      "grad_norm": 15.168094635009766,
      "learning_rate": 1.1136e-05,
      "loss": 13.0834,
      "step": 600
    },
    {
      "epoch": 3.6363636363636362,
      "eval_loss": 0.8364977240562439,
      "eval_runtime": 26.5442,
      "eval_samples_per_second": 22.114,
      "eval_steps_per_second": 2.788,
      "step": 600
    },
    {
      "epoch": 3.787878787878788,
      "grad_norm": 16.040002822875977,
      "learning_rate": 9.936e-06,
      "loss": 13.1575,
      "step": 625
    },
    {
      "epoch": 3.787878787878788,
      "eval_loss": 0.8345832824707031,
      "eval_runtime": 26.5067,
      "eval_samples_per_second": 22.145,
      "eval_steps_per_second": 2.792,
      "step": 625
    },
    {
      "epoch": 3.9393939393939394,
      "grad_norm": 16.534528732299805,
      "learning_rate": 8.736e-06,
      "loss": 12.8282,
      "step": 650
    },
    {
      "epoch": 3.9393939393939394,
      "eval_loss": 0.832955539226532,
      "eval_runtime": 26.6209,
      "eval_samples_per_second": 22.05,
      "eval_steps_per_second": 2.78,
      "step": 650
    },
    {
      "epoch": 4.090909090909091,
      "grad_norm": 15.697587966918945,
      "learning_rate": 7.5359999999999995e-06,
      "loss": 12.707,
      "step": 675
    },
    {
      "epoch": 4.090909090909091,
      "eval_loss": 0.8321042656898499,
      "eval_runtime": 26.6706,
      "eval_samples_per_second": 22.009,
      "eval_steps_per_second": 2.775,
      "step": 675
    },
    {
      "epoch": 4.242424242424242,
      "grad_norm": 16.229135513305664,
      "learning_rate": 6.336e-06,
      "loss": 12.7864,
      "step": 700
    },
    {
      "epoch": 4.242424242424242,
      "eval_loss": 0.8310558795928955,
      "eval_runtime": 26.5267,
      "eval_samples_per_second": 22.129,
      "eval_steps_per_second": 2.79,
      "step": 700
    },
    {
      "epoch": 4.393939393939394,
      "grad_norm": 16.64604377746582,
      "learning_rate": 5.136e-06,
      "loss": 12.937,
      "step": 725
    },
    {
      "epoch": 4.393939393939394,
      "eval_loss": 0.8296888470649719,
      "eval_runtime": 26.5659,
      "eval_samples_per_second": 22.096,
      "eval_steps_per_second": 2.786,
      "step": 725
    },
    {
      "epoch": 4.545454545454545,
      "grad_norm": 16.23679542541504,
      "learning_rate": 3.936e-06,
      "loss": 12.8632,
      "step": 750
    },
    {
      "epoch": 4.545454545454545,
      "eval_loss": 0.828894317150116,
      "eval_runtime": 26.6204,
      "eval_samples_per_second": 22.051,
      "eval_steps_per_second": 2.78,
      "step": 750
    },
    {
      "epoch": 4.696969696969697,
      "grad_norm": 16.246938705444336,
      "learning_rate": 2.736e-06,
      "loss": 13.111,
      "step": 775
    },
    {
      "epoch": 4.696969696969697,
      "eval_loss": 0.828315794467926,
      "eval_runtime": 26.5355,
      "eval_samples_per_second": 22.121,
      "eval_steps_per_second": 2.789,
      "step": 775
    },
    {
      "epoch": 4.848484848484849,
      "grad_norm": 17.31324577331543,
      "learning_rate": 1.5360000000000002e-06,
      "loss": 13.0132,
      "step": 800
    },
    {
      "epoch": 4.848484848484849,
      "eval_loss": 0.8280864357948303,
      "eval_runtime": 26.4945,
      "eval_samples_per_second": 22.156,
      "eval_steps_per_second": 2.793,
      "step": 800
    }
  ],
  "logging_steps": 25,
  "max_steps": 825,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 1,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 5.596536164371661e+17,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}