{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.8018018018018018,
  "eval_steps": 500,
  "global_step": 50,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.36036036036036034,
      "grad_norm": 0.5300200581550598,
      "learning_rate": 9.259259259259259e-07,
      "logits/chosen": 1.7405741214752197,
      "logits/rejected": 1.663368582725525,
      "logps/chosen": -97.57881164550781,
      "logps/rejected": -70.59793853759766,
      "loss": 0.6938,
      "rewards/accuracies": 0.4375,
      "rewards/chosen": 0.0018835498485714197,
      "rewards/margins": -0.0008800366776995361,
      "rewards/rejected": 0.0027635858859866858,
      "step": 10
    },
    {
      "epoch": 0.7207207207207207,
      "grad_norm": 0.4883837401866913,
      "learning_rate": 1.8518518518518519e-06,
      "logits/chosen": 1.8280715942382812,
      "logits/rejected": 1.8215343952178955,
      "logps/chosen": -90.60624694824219,
      "logps/rejected": -79.04981994628906,
      "loss": 0.6945,
      "rewards/accuracies": 0.4749999940395355,
      "rewards/chosen": 0.0014454321935772896,
      "rewards/margins": -0.004174981266260147,
      "rewards/rejected": 0.005620413459837437,
      "step": 20
    },
    {
      "epoch": 1.0810810810810811,
      "grad_norm": 0.5554109215736389,
      "learning_rate": 2.7777777777777783e-06,
      "logits/chosen": 1.7980501651763916,
      "logits/rejected": 1.841104507446289,
      "logps/chosen": -80.78228759765625,
      "logps/rejected": -85.08882141113281,
      "loss": 0.693,
      "rewards/accuracies": 0.4749999940395355,
      "rewards/chosen": 0.0042568682692945,
      "rewards/margins": -0.0038191028870642185,
      "rewards/rejected": 0.008075973019003868,
      "step": 30
    },
    {
      "epoch": 1.4414414414414414,
      "grad_norm": 0.537497341632843,
      "learning_rate": 3.7037037037037037e-06,
      "logits/chosen": 1.7320470809936523,
      "logits/rejected": 1.7411377429962158,
      "logps/chosen": -82.24813842773438,
      "logps/rejected": -80.90709686279297,
      "loss": 0.6952,
      "rewards/accuracies": 0.42500001192092896,
      "rewards/chosen": -0.00350201572291553,
      "rewards/margins": -0.012091752141714096,
      "rewards/rejected": 0.008589735254645348,
      "step": 40
    },
    {
      "epoch": 1.8018018018018018,
      "grad_norm": 0.5023094415664673,
      "learning_rate": 4.62962962962963e-06,
      "logits/chosen": 1.8292573690414429,
      "logits/rejected": 1.8632844686508179,
      "logps/chosen": -85.98481750488281,
      "logps/rejected": -86.14008331298828,
      "loss": 0.6928,
      "rewards/accuracies": 0.4124999940395355,
      "rewards/chosen": 0.00168000184930861,
      "rewards/margins": -0.011136507615447044,
      "rewards/rejected": 0.01281650923192501,
      "step": 50
    }
  ],
  "logging_steps": 10,
  "max_steps": 540,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 20,
  "save_steps": 50,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.6964857967201485e+17,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}