{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9984,
  "eval_steps": 50,
  "global_step": 312,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.028125,
      "completions/max_length": 1536.0,
      "completions/max_terminated_length": 1430.2,
      "completions/mean_length": 166.39462890625,
      "completions/mean_terminated_length": 126.74219970703125,
      "completions/min_length": 2.0,
      "completions/min_terminated_length": 2.0,
      "epoch": 0.016,
      "grad_norm": 0.0278764758259058,
      "learning_rate": 3.1249999999999997e-07,
      "loss": 0.0308,
      "num_tokens": 13404233.0,
      "reward": 0.435546875,
      "reward_std": 0.3221697866916656,
      "rewards/accuracy_reward": 0.2009765625,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.6701171875,
      "rewards/mean_confidence_reward": 0.0,
      "step": 5
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.02431640625,
      "completions/max_length": 1536.0,
      "completions/max_terminated_length": 1472.4,
      "completions/mean_length": 162.2275390625,
      "completions/mean_terminated_length": 128.01040344238282,
      "completions/min_length": 2.0,
      "completions/min_terminated_length": 2.0,
      "epoch": 0.032,
      "grad_norm": 0.022988498210906982,
      "learning_rate": 6.249999999999999e-07,
      "loss": 0.038,
      "num_tokens": 27022115.0,
      "reward": 0.462451171875,
      "reward_std": 0.3004496514797211,
      "rewards/accuracy_reward": 0.19091796875,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.733984375,
      "rewards/mean_confidence_reward": 0.0,
      "step": 10
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00947265625,
      "completions/max_length": 1536.0,
      "completions/max_terminated_length": 1380.6,
      "completions/mean_length": 117.775,
      "completions/mean_terminated_length": 104.22791290283203,
      "completions/min_length": 3.6,
      "completions/min_terminated_length": 3.6,
      "epoch": 0.048,
      "grad_norm": 0.025120964273810387,
      "learning_rate": 9.374999999999999e-07,
      "loss": 0.0318,
      "num_tokens": 40133187.0,
      "reward": 0.583056640625,
      "reward_std": 0.2110624998807907,
      "rewards/accuracy_reward": 0.24814453125,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.91796875,
      "rewards/mean_confidence_reward": 0.0,
      "step": 15
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0048828125,
      "completions/max_length": 1536.0,
      "completions/max_terminated_length": 1017.2,
      "completions/mean_length": 87.47548828125,
      "completions/mean_terminated_length": 80.37409057617188,
      "completions/min_length": 8.8,
      "completions/min_terminated_length": 8.8,
      "epoch": 0.064,
      "grad_norm": 0.00622530234977603,
      "learning_rate": 1e-06,
      "loss": 0.0215,
      "num_tokens": 52803656.0,
      "reward": 0.6568359375,
      "reward_std": 0.15337491929531097,
      "rewards/accuracy_reward": 0.3328125,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.980859375,
      "rewards/mean_confidence_reward": 0.0,
      "step": 20
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0005859375,
      "completions/max_length": 1171.8,
      "completions/max_terminated_length": 593.8,
      "completions/mean_length": 73.31455078125,
      "completions/mean_terminated_length": 72.45734252929688,
      "completions/min_length": 13.6,
      "completions/min_terminated_length": 13.6,
      "epoch": 0.08,
      "grad_norm": 0.01711602509021759,
      "learning_rate": 1e-06,
      "loss": 0.0012,
      "num_tokens": 65343869.0,
      "reward": 0.697216796875,
      "reward_std": 0.1176684021949768,
      "rewards/accuracy_reward": 0.39697265625,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.9974609375,
      "rewards/mean_confidence_reward": 0.0,
      "step": 25
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00029296875,
      "completions/max_length": 1257.4,
      "completions/max_terminated_length": 598.0,
      "completions/mean_length": 72.3849609375,
      "completions/mean_terminated_length": 71.9559326171875,
      "completions/min_length": 18.0,
      "completions/min_terminated_length": 18.0,
      "epoch": 0.096,
      "grad_norm": 0.0022409269586205482,
      "learning_rate": 1e-06,
      "loss": 0.0002,
      "num_tokens": 77986019.0,
      "reward": 0.699267578125,
      "reward_std": 0.10926563590765,
      "rewards/accuracy_reward": 0.4005859375,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.99794921875,
      "rewards/mean_confidence_reward": 0.0,
      "step": 30
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.000390625,
      "completions/max_length": 1141.6,
      "completions/max_terminated_length": 687.8,
      "completions/mean_length": 75.8130859375,
      "completions/mean_terminated_length": 75.24237976074218,
      "completions/min_length": 19.8,
      "completions/min_terminated_length": 19.8,
      "epoch": 0.112,
      "grad_norm": 0.002861637622117996,
      "learning_rate": 1e-06,
      "loss": 0.0027,
      "num_tokens": 90728137.0,
      "reward": 0.71552734375,
      "reward_std": 0.1081365168094635,
      "rewards/accuracy_reward": 0.43212890625,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.99892578125,
      "rewards/mean_confidence_reward": 0.0,
      "step": 35
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00048828125,
      "completions/max_length": 1178.2,
      "completions/max_terminated_length": 563.4,
      "completions/mean_length": 79.030859375,
      "completions/mean_terminated_length": 78.31913757324219,
      "completions/min_length": 20.8,
      "completions/min_terminated_length": 20.8,
      "epoch": 0.128,
      "grad_norm": 0.0015531065873801708,
      "learning_rate": 1e-06,
      "loss": 0.0023,
      "num_tokens": 103310405.0,
      "reward": 0.713525390625,
      "reward_std": 0.09464964717626571,
      "rewards/accuracy_reward": 0.4279296875,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.99912109375,
      "rewards/mean_confidence_reward": 0.0,
      "step": 40
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00048828125,
      "completions/max_length": 1106.2,
      "completions/max_terminated_length": 417.8,
      "completions/mean_length": 77.76083984375,
      "completions/mean_terminated_length": 77.0487274169922,
      "completions/min_length": 17.6,
      "completions/min_terminated_length": 17.6,
      "epoch": 0.144,
      "grad_norm": 0.0022233380004763603,
      "learning_rate": 1e-06,
      "loss": 0.0017,
      "num_tokens": 115913428.0,
      "reward": 0.76220703125,
      "reward_std": 0.09807199090719224,
      "rewards/accuracy_reward": 0.52548828125,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.99892578125,
      "rewards/mean_confidence_reward": 0.0,
      "step": 45
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0001953125,
      "completions/max_length": 853.4,
      "completions/max_terminated_length": 390.8,
      "completions/mean_length": 79.07109375,
      "completions/mean_terminated_length": 78.78670043945313,
      "completions/min_length": 23.6,
      "completions/min_terminated_length": 23.6,
      "epoch": 0.16,
      "grad_norm": 0.0017749707913026214,
      "learning_rate": 1e-06,
      "loss": 0.001,
      "num_tokens": 128600364.0,
      "reward": 0.7380859375,
      "reward_std": 0.09451625794172287,
      "rewards/accuracy_reward": 0.4765625,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.999609375,
      "rewards/mean_confidence_reward": 0.0,
      "step": 50
    },
    {
      "epoch": 0.16,
      "eval_completions/clipped_ratio": 0.0,
      "eval_completions/max_length": 232.5,
      "eval_completions/max_terminated_length": 232.5,
      "eval_completions/mean_length": 82.95326042175293,
      "eval_completions/mean_terminated_length": 82.95326042175293,
      "eval_completions/min_length": 28.25,
      "eval_completions/min_terminated_length": 28.25,
      "eval_loss": 0.0,
      "eval_num_tokens": 128600364.0,
      "eval_reward": 0.69140625,
      "eval_reward_std": 0.24272222816944122,
      "eval_rewards/accuracy_reward": 0.3828125,
      "eval_rewards/brier_reward": 0.0,
      "eval_rewards/confidence_one_or_zero": 0.0,
      "eval_rewards/format_reward": 1.0,
      "eval_rewards/mean_confidence_reward": 0.0,
      "eval_runtime": 13.311,
      "eval_samples_per_second": 37.563,
      "eval_steps_per_second": 0.301,
      "step": 50
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00029296875,
      "completions/max_length": 834.6,
      "completions/max_terminated_length": 366.6,
      "completions/mean_length": 83.1912109375,
      "completions/mean_terminated_length": 82.76549530029297,
      "completions/min_length": 21.0,
      "completions/min_terminated_length": 21.0,
      "epoch": 0.176,
      "grad_norm": 0.0019512384897097945,
      "learning_rate": 1e-06,
      "loss": 0.0016,
      "num_tokens": 141545682.0,
      "reward": 0.733056640625,
      "reward_std": 0.095227712392807,
      "rewards/accuracy_reward": 0.46650390625,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.999609375,
      "rewards/mean_confidence_reward": 0.0,
      "step": 55
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00048828125,
      "completions/max_length": 1311.4,
      "completions/max_terminated_length": 485.4,
      "completions/mean_length": 86.99189453125,
      "completions/mean_terminated_length": 86.28425750732421,
      "completions/min_length": 22.6,
      "completions/min_terminated_length": 22.6,
      "epoch": 0.192,
      "grad_norm": 0.0016324262833222747,
      "learning_rate": 1e-06,
      "loss": 0.0021,
      "num_tokens": 154107615.0,
      "reward": 0.74697265625,
      "reward_std": 0.08921304196119309,
      "rewards/accuracy_reward": 0.4947265625,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.99921875,
      "rewards/mean_confidence_reward": 0.0,
      "step": 60
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.000390625,
      "completions/max_length": 1086.2,
      "completions/max_terminated_length": 592.6,
      "completions/mean_length": 90.79443359375,
      "completions/mean_terminated_length": 90.22920989990234,
      "completions/min_length": 28.2,
      "completions/min_terminated_length": 28.2,
      "epoch": 0.208,
      "grad_norm": 0.0016499038320034742,
      "learning_rate": 1e-06,
      "loss": 0.0023,
      "num_tokens": 166925894.0,
      "reward": 0.77353515625,
      "reward_std": 0.08650225400924683,
      "rewards/accuracy_reward": 0.54765625,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.9994140625,
      "rewards/mean_confidence_reward": 0.0,
      "step": 65
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0009765625,
      "completions/max_length": 1338.6,
      "completions/max_terminated_length": 731.0,
      "completions/mean_length": 96.20087890625,
      "completions/mean_terminated_length": 94.7965301513672,
      "completions/min_length": 28.6,
      "completions/min_terminated_length": 28.6,
      "epoch": 0.224,
      "grad_norm": 0.001517058233730495,
      "learning_rate": 1e-06,
      "loss": 0.002,
      "num_tokens": 179920495.0,
      "reward": 0.74716796875,
      "reward_std": 0.08538677096366883,
      "rewards/accuracy_reward": 0.49560546875,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.99873046875,
      "rewards/mean_confidence_reward": 0.0,
      "step": 70
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00107421875,
      "completions/max_length": 1536.0,
      "completions/max_terminated_length": 574.4,
      "completions/mean_length": 97.76240234375,
      "completions/mean_terminated_length": 96.21627960205078,
      "completions/min_length": 25.4,
      "completions/min_terminated_length": 25.4,
      "epoch": 0.24,
      "grad_norm": 0.0017738911556079984,
      "learning_rate": 1e-06,
      "loss": 0.0028,
      "num_tokens": 193029582.0,
      "reward": 0.77578125,
      "reward_std": 0.09508010596036912,
      "rewards/accuracy_reward": 0.55283203125,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.99873046875,
      "rewards/mean_confidence_reward": 0.0,
      "step": 75
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0009765625,
      "completions/max_length": 1319.4,
      "completions/max_terminated_length": 417.2,
      "completions/mean_length": 96.47294921875,
      "completions/mean_terminated_length": 95.06647644042968,
      "completions/min_length": 30.6,
      "completions/min_terminated_length": 30.6,
      "epoch": 0.256,
      "grad_norm": 0.0015991576947271824,
      "learning_rate": 1e-06,
      "loss": 0.0029,
      "num_tokens": 205928601.0,
      "reward": 0.75869140625,
      "reward_std": 0.08824991285800934,
      "rewards/accuracy_reward": 0.518359375,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.9990234375,
      "rewards/mean_confidence_reward": 0.0,
      "step": 80
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00087890625,
      "completions/max_length": 1536.0,
      "completions/max_terminated_length": 459.0,
      "completions/mean_length": 99.259765625,
      "completions/mean_terminated_length": 97.99633331298828,
      "completions/min_length": 31.0,
      "completions/min_terminated_length": 31.0,
      "epoch": 0.272,
      "grad_norm": 0.0014954438665881753,
      "learning_rate": 1e-06,
      "loss": 0.0026,
      "num_tokens": 218767037.0,
      "reward": 0.7568359375,
      "reward_std": 0.08405127227306367,
      "rewards/accuracy_reward": 0.51484375,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.998828125,
      "rewards/mean_confidence_reward": 0.0,
      "step": 85
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00068359375,
      "completions/max_length": 1149.6,
      "completions/max_terminated_length": 682.4,
      "completions/mean_length": 94.7064453125,
      "completions/mean_terminated_length": 93.72140197753906,
      "completions/min_length": 32.2,
      "completions/min_terminated_length": 32.2,
      "epoch": 0.288,
      "grad_norm": 0.0017134748632088304,
      "learning_rate": 1e-06,
      "loss": 0.0026,
      "num_tokens": 231551327.0,
      "reward": 0.7654296875,
      "reward_std": 0.08652912825345993,
      "rewards/accuracy_reward": 0.53154296875,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.99931640625,
      "rewards/mean_confidence_reward": 0.0,
      "step": 90
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00078125,
      "completions/max_length": 1091.0,
      "completions/max_terminated_length": 413.2,
      "completions/mean_length": 94.5794921875,
      "completions/mean_terminated_length": 93.45206604003906,
      "completions/min_length": 34.4,
      "completions/min_terminated_length": 34.4,
      "epoch": 0.304,
      "grad_norm": 0.002114097587764263,
      "learning_rate": 1e-06,
      "loss": 0.0031,
      "num_tokens": 244306093.0,
      "reward": 0.762939453125,
      "reward_std": 0.08613481372594833,
      "rewards/accuracy_reward": 0.52705078125,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.998828125,
      "rewards/mean_confidence_reward": 0.0,
      "step": 95
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0005859375,
      "completions/max_length": 1399.2,
      "completions/max_terminated_length": 458.8,
      "completions/mean_length": 91.70283203125,
      "completions/mean_terminated_length": 90.85653686523438,
      "completions/min_length": 33.8,
      "completions/min_terminated_length": 33.8,
      "epoch": 0.32,
      "grad_norm": 0.00154271034989506,
      "learning_rate": 1e-06,
      "loss": 0.0023,
      "num_tokens": 257190154.0,
      "reward": 0.77060546875,
      "reward_std": 0.06635084152221679,
      "rewards/accuracy_reward": 0.5419921875,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.99921875,
      "rewards/mean_confidence_reward": 0.0,
      "step": 100
    },
    {
      "epoch": 0.32,
      "eval_completions/clipped_ratio": 0.0,
      "eval_completions/max_length": 232.5,
      "eval_completions/max_terminated_length": 232.5,
      "eval_completions/mean_length": 93.95743560791016,
      "eval_completions/mean_terminated_length": 93.95743560791016,
      "eval_completions/min_length": 41.75,
      "eval_completions/min_terminated_length": 41.75,
      "eval_loss": 0.0,
      "eval_num_tokens": 257190154.0,
      "eval_reward": 0.712890625,
      "eval_reward_std": 0.2481144778430462,
      "eval_rewards/accuracy_reward": 0.42578125,
      "eval_rewards/brier_reward": 0.0,
      "eval_rewards/confidence_one_or_zero": 0.0,
      "eval_rewards/format_reward": 1.0,
      "eval_rewards/mean_confidence_reward": 0.0,
      "eval_runtime": 14.235,
      "eval_samples_per_second": 35.125,
      "eval_steps_per_second": 0.281,
      "step": 100
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00146484375,
      "completions/max_length": 1536.0,
      "completions/max_terminated_length": 624.2,
      "completions/mean_length": 94.64306640625,
      "completions/mean_terminated_length": 92.5290313720703,
      "completions/min_length": 30.4,
      "completions/min_terminated_length": 30.4,
      "epoch": 0.336,
      "grad_norm": 0.001522217644378543,
      "learning_rate": 1e-06,
      "loss": 0.0043,
      "num_tokens": 269738051.0,
      "reward": 0.77568359375,
      "reward_std": 0.07683707624673844,
      "rewards/accuracy_reward": 0.5529296875,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.9984375,
      "rewards/mean_confidence_reward": 0.0,
      "step": 105
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001171875,
      "completions/max_length": 1307.4,
      "completions/max_terminated_length": 435.8,
      "completions/mean_length": 94.1294921875,
      "completions/mean_terminated_length": 92.43776245117188,
      "completions/min_length": 21.8,
      "completions/min_terminated_length": 21.8,
      "epoch": 0.352,
      "grad_norm": 0.001526491018012166,
      "learning_rate": 1e-06,
      "loss": 0.0039,
      "num_tokens": 282818673.0,
      "reward": 0.745751953125,
      "reward_std": 0.08200332224369049,
      "rewards/accuracy_reward": 0.49306640625,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.9984375,
      "rewards/mean_confidence_reward": 0.0,
      "step": 110
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0013671875,
      "completions/max_length": 1536.0,
      "completions/max_terminated_length": 588.4,
      "completions/mean_length": 92.6953125,
      "completions/mean_terminated_length": 90.7186294555664,
      "completions/min_length": 30.6,
      "completions/min_terminated_length": 30.6,
      "epoch": 0.368,
      "grad_norm": 0.0013903952203691006,
      "learning_rate": 1e-06,
      "loss": 0.0039,
      "num_tokens": 295689665.0,
      "reward": 0.754443359375,
      "reward_std": 0.07026491463184356,
      "rewards/accuracy_reward": 0.5103515625,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.99853515625,
      "rewards/mean_confidence_reward": 0.0,
      "step": 115
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0009765625,
      "completions/max_length": 1296.6,
      "completions/max_terminated_length": 561.2,
      "completions/mean_length": 91.94736328125,
      "completions/mean_terminated_length": 90.53576354980468,
      "completions/min_length": 32.0,
      "completions/min_terminated_length": 32.0,
      "epoch": 0.384,
      "grad_norm": 0.0018187090754508972,
      "learning_rate": 1e-06,
      "loss": 0.0033,
      "num_tokens": 308344038.0,
      "reward": 0.7708984375,
      "reward_std": 0.07117158472537995,
      "rewards/accuracy_reward": 0.54296875,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.998828125,
      "rewards/mean_confidence_reward": 0.0,
      "step": 120
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001171875,
      "completions/max_length": 1305.0,
      "completions/max_terminated_length": 520.2,
      "completions/mean_length": 89.5787109375,
      "completions/mean_terminated_length": 87.88221435546875,
      "completions/min_length": 29.4,
      "completions/min_terminated_length": 29.4,
      "epoch": 0.4,
      "grad_norm": 0.0016340231522917747,
      "learning_rate": 1e-06,
      "loss": 0.0038,
      "num_tokens": 321154092.0,
      "reward": 0.76103515625,
      "reward_std": 0.07767283618450165,
      "rewards/accuracy_reward": 0.52333984375,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.99873046875,
      "rewards/mean_confidence_reward": 0.0,
      "step": 125
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00068359375,
      "completions/max_length": 1244.4,
      "completions/max_terminated_length": 590.0,
      "completions/mean_length": 89.6955078125,
      "completions/mean_terminated_length": 88.70513153076172,
      "completions/min_length": 31.8,
      "completions/min_terminated_length": 31.8,
      "epoch": 0.416,
      "grad_norm": 0.0015821981942281127,
      "learning_rate": 1e-06,
      "loss": 0.0019,
      "num_tokens": 333810078.0,
      "reward": 0.764208984375,
      "reward_std": 0.06756853386759758,
      "rewards/accuracy_reward": 0.5291015625,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.99931640625,
      "rewards/mean_confidence_reward": 0.0,
      "step": 130
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00048828125,
      "completions/max_length": 1174.4,
      "completions/max_terminated_length": 537.0,
      "completions/mean_length": 90.36181640625,
      "completions/mean_terminated_length": 89.65568542480469,
      "completions/min_length": 35.0,
      "completions/min_terminated_length": 35.0,
      "epoch": 0.432,
      "grad_norm": 0.0014525202568620443,
      "learning_rate": 1e-06,
      "loss": 0.0025,
      "num_tokens": 346606039.0,
      "reward": 0.7806640625,
      "reward_std": 0.06507465690374374,
      "rewards/accuracy_reward": 0.56181640625,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.99951171875,
      "rewards/mean_confidence_reward": 0.0,
      "step": 135
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00068359375,
      "completions/max_length": 1301.0,
      "completions/max_terminated_length": 503.6,
      "completions/mean_length": 94.90302734375,
      "completions/mean_terminated_length": 93.91733856201172,
      "completions/min_length": 42.2,
      "completions/min_terminated_length": 42.2,
      "epoch": 0.448,
      "grad_norm": 0.0015080425655469298,
      "learning_rate": 1e-06,
      "loss": 0.0023,
      "num_tokens": 359386966.0,
      "reward": 0.76650390625,
      "reward_std": 0.069513601064682,
      "rewards/accuracy_reward": 0.53369140625,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.99931640625,
      "rewards/mean_confidence_reward": 0.0,
      "step": 140
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00185546875,
      "completions/max_length": 1536.0,
      "completions/max_terminated_length": 541.6,
      "completions/mean_length": 99.85595703125,
      "completions/mean_terminated_length": 97.19031372070313,
      "completions/min_length": 40.8,
      "completions/min_terminated_length": 40.8,
      "epoch": 0.464,
      "grad_norm": 0.0010223939316347241,
      "learning_rate": 1e-06,
      "loss": 0.0047,
      "num_tokens": 372436627.0,
      "reward": 0.7345703125,
      "reward_std": 0.05768234580755234,
      "rewards/accuracy_reward": 0.47109375,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.998046875,
      "rewards/mean_confidence_reward": 0.0,
      "step": 145
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00068359375,
      "completions/max_length": 1303.2,
      "completions/max_terminated_length": 405.6,
      "completions/mean_length": 98.14833984375,
      "completions/mean_terminated_length": 97.16446533203126,
      "completions/min_length": 43.8,
      "completions/min_terminated_length": 43.8,
      "epoch": 0.48,
      "grad_norm": 0.0016905076336115599,
      "learning_rate": 1e-06,
      "loss": 0.0023,
      "num_tokens": 385346018.0,
      "reward": 0.769873046875,
      "reward_std": 0.07736360728740692,
      "rewards/accuracy_reward": 0.5408203125,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.99892578125,
      "rewards/mean_confidence_reward": 0.0,
      "step": 150
    },
    {
      "epoch": 0.48,
      "eval_completions/clipped_ratio": 0.001953125,
      "eval_completions/max_length": 582.5,
      "eval_completions/max_terminated_length": 264.0,
      "eval_completions/mean_length": 101.61126136779785,
      "eval_completions/mean_terminated_length": 98.80445098876953,
      "eval_completions/min_length": 51.25,
      "eval_completions/min_terminated_length": 51.25,
      "eval_loss": 0.0,
      "eval_num_tokens": 385346018.0,
      "eval_reward": 0.7265625,
      "eval_reward_std": 0.2514254078269005,
      "eval_rewards/accuracy_reward": 0.455078125,
      "eval_rewards/brier_reward": 0.0,
      "eval_rewards/confidence_one_or_zero": 0.0,
      "eval_rewards/format_reward": 0.998046875,
      "eval_rewards/mean_confidence_reward": 0.0,
      "eval_runtime": 24.3286,
      "eval_samples_per_second": 20.552,
      "eval_steps_per_second": 0.164,
      "step": 150
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00078125,
      "completions/max_length": 1536.0,
      "completions/max_terminated_length": 386.0,
      "completions/mean_length": 97.898046875,
      "completions/mean_terminated_length": 96.7735092163086,
      "completions/min_length": 40.2,
      "completions/min_terminated_length": 40.2,
      "epoch": 0.496,
      "grad_norm": 0.001528796274214983,
      "learning_rate": 1e-06,
      "loss": 0.0029,
      "num_tokens": 398512654.0,
      "reward": 0.7744140625,
      "reward_std": 0.0720748171210289,
      "rewards/accuracy_reward": 0.549609375,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.99921875,
      "rewards/mean_confidence_reward": 0.0,
      "step": 155
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00048828125,
      "completions/max_length": 1317.0,
      "completions/max_terminated_length": 399.8,
      "completions/mean_length": 95.37158203125,
      "completions/mean_terminated_length": 94.66787719726562,
      "completions/min_length": 40.8,
      "completions/min_terminated_length": 40.8,
      "epoch": 0.512,
      "grad_norm": 0.00132983538787812,
      "learning_rate": 1e-06,
      "loss": 0.0025,
      "num_tokens": 411491243.0,
      "reward": 0.779931640625,
      "reward_std": 0.06670133695006371,
      "rewards/accuracy_reward": 0.56044921875,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.9994140625,
      "rewards/mean_confidence_reward": 0.0,
      "step": 160
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0009765625,
      "completions/max_length": 1341.4,
      "completions/max_terminated_length": 662.8,
      "completions/mean_length": 96.72470703125,
      "completions/mean_terminated_length": 95.31717834472656,
      "completions/min_length": 42.0,
      "completions/min_terminated_length": 42.0,
      "epoch": 0.528,
      "grad_norm": 0.001326797646470368,
      "learning_rate": 1e-06,
      "loss": 0.0037,
      "num_tokens": 424367560.0,
      "reward": 0.77578125,
      "reward_std": 0.06582950651645661,
      "rewards/accuracy_reward": 0.5525390625,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.9990234375,
      "rewards/mean_confidence_reward": 0.0,
      "step": 165
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0001953125,
      "completions/max_length": 699.4,
      "completions/max_terminated_length": 456.6,
      "completions/mean_length": 93.36513671875,
      "completions/mean_terminated_length": 93.0830810546875,
      "completions/min_length": 34.2,
      "completions/min_terminated_length": 34.2,
      "epoch": 0.544,
      "grad_norm": 0.0017570438794791698,
      "learning_rate": 1e-06,
      "loss": 0.0018,
      "num_tokens": 437343523.0,
      "reward": 0.796533203125,
      "reward_std": 0.07356481105089188,
      "rewards/accuracy_reward": 0.593359375,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.99970703125,
      "rewards/mean_confidence_reward": 0.0,
      "step": 170
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 444.8,
      "completions/max_terminated_length": 444.8,
      "completions/mean_length": 91.45390625,
      "completions/mean_terminated_length": 91.45390625,
      "completions/min_length": 41.8,
      "completions/min_terminated_length": 41.8,
      "epoch": 0.56,
      "grad_norm": 0.0014896654756739736,
      "learning_rate": 1e-06,
      "loss": 0.0009,
      "num_tokens": 449957739.0,
      "reward": 0.76611328125,
      "reward_std": 0.060523012280464174,
      "rewards/accuracy_reward": 0.53232421875,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.99990234375,
      "rewards/mean_confidence_reward": 0.0,
      "step": 175
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.000390625,
      "completions/max_length": 1289.4,
      "completions/max_terminated_length": 382.2,
      "completions/mean_length": 90.7419921875,
      "completions/mean_terminated_length": 90.17736206054687,
      "completions/min_length": 43.0,
      "completions/min_terminated_length": 43.0,
      "epoch": 0.576,
      "grad_norm": 0.0016016842564567924,
      "learning_rate": 1e-06,
      "loss": 0.0008,
      "num_tokens": 462929881.0,
      "reward": 0.764111328125,
      "reward_std": 0.05608753189444542,
      "rewards/accuracy_reward": 0.52861328125,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.999609375,
      "rewards/mean_confidence_reward": 0.0,
      "step": 180
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 9.765625e-05,
      "completions/max_length": 603.8,
      "completions/max_terminated_length": 356.0,
      "completions/mean_length": 91.03701171875,
      "completions/mean_terminated_length": 90.8958251953125,
      "completions/min_length": 42.6,
      "completions/min_terminated_length": 42.6,
      "epoch": 0.592,
      "grad_norm": 0.0013300231657922268,
      "learning_rate": 1e-06,
      "loss": 0.0014,
      "num_tokens": 475886132.0,
      "reward": 0.763671875,
      "reward_std": 0.06121245920658112,
      "rewards/accuracy_reward": 0.52744140625,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.99990234375,
      "rewards/mean_confidence_reward": 0.0,
      "step": 185
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00029296875,
      "completions/max_length": 831.0,
      "completions/max_terminated_length": 363.8,
      "completions/mean_length": 94.77607421875,
      "completions/mean_terminated_length": 94.35356140136719,
      "completions/min_length": 42.6,
      "completions/min_terminated_length": 42.6,
      "epoch": 0.608,
      "grad_norm": 0.001449022558517754,
      "learning_rate": 1e-06,
      "loss": 0.0015,
      "num_tokens": 488712447.0,
      "reward": 0.776220703125,
      "reward_std": 0.055175574868917464,
      "rewards/accuracy_reward": 0.55283203125,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.999609375,
      "rewards/mean_confidence_reward": 0.0,
      "step": 190
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 9.765625e-05,
      "completions/max_length": 719.8,
      "completions/max_terminated_length": 511.4,
      "completions/mean_length": 95.49326171875,
      "completions/mean_terminated_length": 95.3530044555664,
      "completions/min_length": 42.2,
      "completions/min_terminated_length": 42.2,
      "epoch": 0.624,
      "grad_norm": 0.0016013348940759897,
      "learning_rate": 1e-06,
      "loss": 0.0005,
      "num_tokens": 501890522.0,
      "reward": 0.770703125,
      "reward_std": 0.06375713348388672,
      "rewards/accuracy_reward": 0.54150390625,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.99990234375,
      "rewards/mean_confidence_reward": 0.0,
      "step": 195
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.001171875,
      "completions/max_length": 1310.4,
      "completions/max_terminated_length": 450.2,
      "completions/mean_length": 97.82939453125,
      "completions/mean_terminated_length": 96.14148406982422,
      "completions/min_length": 43.8,
      "completions/min_terminated_length": 43.8,
      "epoch": 0.64,
      "grad_norm": 0.00144854630343616,
      "learning_rate": 1e-06,
      "loss": 0.0031,
      "num_tokens": 515091303.0,
      "reward": 0.79462890625,
      "reward_std": 0.05500866025686264,
      "rewards/accuracy_reward": 0.5904296875,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.998828125,
      "rewards/mean_confidence_reward": 0.0,
      "step": 200
    },
    {
      "epoch": 0.64,
      "eval_completions/clipped_ratio": 0.0,
      "eval_completions/max_length": 226.5,
      "eval_completions/max_terminated_length": 226.5,
      "eval_completions/mean_length": 97.45433807373047,
      "eval_completions/mean_terminated_length": 97.45433807373047,
      "eval_completions/min_length": 48.5,
      "eval_completions/min_terminated_length": 48.5,
      "eval_loss": 0.0,
      "eval_num_tokens": 515091303.0,
      "eval_reward": 0.7216796875,
      "eval_reward_std": 0.24690637737512589,
      "eval_rewards/accuracy_reward": 0.443359375,
      "eval_rewards/brier_reward": 0.0,
      "eval_rewards/confidence_one_or_zero": 0.0,
      "eval_rewards/format_reward": 1.0,
      "eval_rewards/mean_confidence_reward": 0.0,
      "eval_runtime": 14.5533,
      "eval_samples_per_second": 34.357,
      "eval_steps_per_second": 0.275,
      "step": 200
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0001953125,
      "completions/max_length": 809.0,
      "completions/max_terminated_length": 348.2,
      "completions/mean_length": 95.0333984375,
      "completions/mean_terminated_length": 94.75228271484374,
      "completions/min_length": 42.4,
      "completions/min_terminated_length": 42.4,
      "epoch": 0.656,
      "grad_norm": 0.0017163316952064633,
      "learning_rate": 1e-06,
      "loss": 0.0013,
      "num_tokens": 527777309.0,
      "reward": 0.75673828125,
      "reward_std": 0.060856021195650103,
      "rewards/accuracy_reward": 0.513671875,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.9998046875,
      "rewards/mean_confidence_reward": 0.0,
      "step": 205
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.000390625,
      "completions/max_length": 828.2,
      "completions/max_terminated_length": 388.2,
      "completions/mean_length": 95.4216796875,
      "completions/mean_terminated_length": 94.85912628173828,
      "completions/min_length": 41.4,
      "completions/min_terminated_length": 41.4,
      "epoch": 0.672,
      "grad_norm": 0.0013491360004991293,
      "learning_rate": 1e-06,
      "loss": 0.0013,
      "num_tokens": 540524187.0,
      "reward": 0.768115234375,
      "reward_std": 0.05722193792462349,
      "rewards/accuracy_reward": 0.53662109375,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.999609375,
      "rewards/mean_confidence_reward": 0.0,
      "step": 210
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.000390625,
      "completions/max_length": 1050.6,
      "completions/max_terminated_length": 373.2,
      "completions/mean_length": 95.3826171875,
      "completions/mean_terminated_length": 94.82014465332031,
      "completions/min_length": 43.8,
      "completions/min_terminated_length": 43.8,
      "epoch": 0.688,
      "grad_norm": 0.0017077566590160131,
      "learning_rate": 1e-06,
      "loss": 0.0011,
      "num_tokens": 553311145.0,
      "reward": 0.779443359375,
      "reward_std": 0.06311368122696877,
      "rewards/accuracy_reward": 0.55927734375,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.999609375,
      "rewards/mean_confidence_reward": 0.0,
      "step": 215
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.000390625,
      "completions/max_length": 810.0,
      "completions/max_terminated_length": 377.8,
      "completions/mean_length": 90.67568359375,
      "completions/mean_terminated_length": 90.11159210205078,
      "completions/min_length": 42.6,
      "completions/min_terminated_length": 42.6,
      "epoch": 0.704,
      "grad_norm": 0.0018953669350594282,
      "learning_rate": 1e-06,
      "loss": 0.001,
      "num_tokens": 565962128.0,
      "reward": 0.78388671875,
      "reward_std": 0.05257489308714867,
      "rewards/accuracy_reward": 0.5681640625,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.999609375,
      "rewards/mean_confidence_reward": 0.0,
      "step": 220
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0005859375,
      "completions/max_length": 1065.6,
      "completions/max_terminated_length": 403.6,
      "completions/mean_length": 91.39638671875,
      "completions/mean_terminated_length": 90.54814147949219,
      "completions/min_length": 43.6,
      "completions/min_terminated_length": 43.6,
      "epoch": 0.72,
      "grad_norm": 0.0019243984716013074,
      "learning_rate": 1e-06,
      "loss": 0.0025,
      "num_tokens": 578764203.0,
      "reward": 0.790576171875,
      "reward_std": 0.05948638021945953,
      "rewards/accuracy_reward": 0.58173828125,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.9994140625,
      "rewards/mean_confidence_reward": 0.0,
      "step": 225
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00078125,
      "completions/max_length": 1299.8,
      "completions/max_terminated_length": 342.0,
      "completions/mean_length": 91.9408203125,
      "completions/mean_terminated_length": 90.81210021972656,
      "completions/min_length": 45.0,
      "completions/min_terminated_length": 45.0,
      "epoch": 0.736,
      "grad_norm": 0.0013582052197307348,
      "learning_rate": 1e-06,
      "loss": 0.002,
      "num_tokens": 591501581.0,
      "reward": 0.79150390625,
      "reward_std": 0.05623424053192139,
      "rewards/accuracy_reward": 0.5837890625,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.99921875,
      "rewards/mean_confidence_reward": 0.0,
      "step": 230
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0001953125,
      "completions/max_length": 565.0,
      "completions/max_terminated_length": 327.2,
      "completions/mean_length": 91.51416015625,
      "completions/mean_terminated_length": 91.23197326660156,
      "completions/min_length": 43.8,
      "completions/min_terminated_length": 43.8,
      "epoch": 0.752,
      "grad_norm": 0.0015649450942873955,
      "learning_rate": 1e-06,
      "loss": 0.0001,
      "num_tokens": 604522206.0,
      "reward": 0.7857421875,
      "reward_std": 0.05413587838411331,
      "rewards/accuracy_reward": 0.5716796875,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.9998046875,
      "rewards/mean_confidence_reward": 0.0,
      "step": 235
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.000390625,
      "completions/max_length": 646.2,
      "completions/max_terminated_length": 607.4,
      "completions/mean_length": 94.9529296875,
      "completions/mean_terminated_length": 94.39071350097656,
      "completions/min_length": 42.4,
      "completions/min_terminated_length": 42.4,
      "epoch": 0.768,
      "grad_norm": 0.0017648260109126568,
      "learning_rate": 1e-06,
      "loss": 0.0017,
      "num_tokens": 617283548.0,
      "reward": 0.761279296875,
      "reward_std": 0.057571640610694884,
      "rewards/accuracy_reward": 0.52294921875,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.999609375,
      "rewards/mean_confidence_reward": 0.0,
      "step": 240
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 413.6,
      "completions/max_terminated_length": 413.6,
      "completions/mean_length": 93.616015625,
      "completions/mean_terminated_length": 93.616015625,
      "completions/min_length": 43.8,
      "completions/min_terminated_length": 43.8,
      "epoch": 0.784,
      "grad_norm": 0.0011762650683522224,
      "learning_rate": 1e-06,
      "loss": 0.0006,
      "num_tokens": 630272864.0,
      "reward": 0.7892578125,
      "reward_std": 0.05626345500349998,
      "rewards/accuracy_reward": 0.578515625,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 1.0,
      "rewards/mean_confidence_reward": 0.0,
      "step": 245
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 326.8,
      "completions/max_terminated_length": 326.8,
      "completions/mean_length": 92.14990234375,
      "completions/mean_terminated_length": 92.14990234375,
      "completions/min_length": 44.6,
      "completions/min_terminated_length": 44.6,
      "epoch": 0.8,
      "grad_norm": 0.0013073732843622565,
      "learning_rate": 1e-06,
      "loss": 0.0002,
      "num_tokens": 643083359.0,
      "reward": 0.804052734375,
      "reward_std": 0.05071377567946911,
      "rewards/accuracy_reward": 0.60810546875,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 1.0,
      "rewards/mean_confidence_reward": 0.0,
      "step": 250
    },
    {
      "epoch": 0.8,
      "eval_completions/clipped_ratio": 0.0,
      "eval_completions/max_length": 236.75,
      "eval_completions/max_terminated_length": 236.75,
      "eval_completions/mean_length": 91.57341003417969,
      "eval_completions/mean_terminated_length": 91.57341003417969,
      "eval_completions/min_length": 49.5,
      "eval_completions/min_terminated_length": 49.5,
      "eval_loss": 0.0,
      "eval_num_tokens": 643083359.0,
      "eval_reward": 0.7265625,
      "eval_reward_std": 0.24742106348276138,
      "eval_rewards/accuracy_reward": 0.453125,
      "eval_rewards/brier_reward": 0.0,
      "eval_rewards/confidence_one_or_zero": 0.0,
      "eval_rewards/format_reward": 1.0,
      "eval_rewards/mean_confidence_reward": 0.0,
      "eval_runtime": 14.2768,
      "eval_samples_per_second": 35.022,
      "eval_steps_per_second": 0.28,
      "step": 250
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0001953125,
      "completions/max_length": 588.8,
      "completions/max_terminated_length": 456.2,
      "completions/mean_length": 89.20595703125,
      "completions/mean_terminated_length": 88.92289428710937,
      "completions/min_length": 43.2,
      "completions/min_terminated_length": 43.2,
      "epoch": 0.816,
      "grad_norm": 0.0019169868901371956,
      "learning_rate": 1e-06,
      "loss": 0.0008,
      "num_tokens": 655952316.0,
      "reward": 0.805029296875,
      "reward_std": 0.054716046899557114,
      "rewards/accuracy_reward": 0.61025390625,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.9998046875,
      "rewards/mean_confidence_reward": 0.0,
      "step": 255
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 462.6,
      "completions/max_terminated_length": 462.6,
      "completions/mean_length": 91.78896484375,
      "completions/mean_terminated_length": 91.78896484375,
      "completions/min_length": 42.0,
      "completions/min_terminated_length": 42.0,
      "epoch": 0.832,
      "grad_norm": 0.0014281836338341236,
      "learning_rate": 1e-06,
      "loss": 0.0002,
      "num_tokens": 668756907.0,
      "reward": 0.790087890625,
      "reward_std": 0.0539084292948246,
      "rewards/accuracy_reward": 0.58017578125,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 1.0,
      "rewards/mean_confidence_reward": 0.0,
      "step": 260
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 9.765625e-05,
      "completions/max_length": 663.6,
      "completions/max_terminated_length": 417.8,
      "completions/mean_length": 91.91787109375,
      "completions/mean_terminated_length": 91.77665557861329,
      "completions/min_length": 45.4,
      "completions/min_terminated_length": 45.4,
      "epoch": 0.848,
      "grad_norm": 0.001417965511791408,
      "learning_rate": 1e-06,
      "loss": 0.0009,
      "num_tokens": 681568834.0,
      "reward": 0.77236328125,
      "reward_std": 0.0536438025534153,
      "rewards/accuracy_reward": 0.54482421875,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.99990234375,
      "rewards/mean_confidence_reward": 0.0,
      "step": 265
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.000390625,
      "completions/max_length": 1059.4,
      "completions/max_terminated_length": 416.2,
      "completions/mean_length": 94.8748046875,
      "completions/mean_terminated_length": 94.31214294433593,
      "completions/min_length": 42.8,
      "completions/min_terminated_length": 42.8,
      "epoch": 0.864,
      "grad_norm": 0.0025267351884394884,
      "learning_rate": 1e-06,
      "loss": 0.0014,
      "num_tokens": 694383488.0,
      "reward": 0.809716796875,
      "reward_std": 0.05303701683878899,
      "rewards/accuracy_reward": 0.61982421875,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.999609375,
      "rewards/mean_confidence_reward": 0.0,
      "step": 270
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 9.765625e-05,
      "completions/max_length": 592.0,
      "completions/max_terminated_length": 383.0,
      "completions/mean_length": 94.92939453125,
      "completions/mean_terminated_length": 94.78859100341796,
      "completions/min_length": 45.4,
      "completions/min_terminated_length": 45.4,
      "epoch": 0.88,
      "grad_norm": 0.001522132777608931,
      "learning_rate": 1e-06,
      "loss": 0.0011,
      "num_tokens": 707358957.0,
      "reward": 0.760546875,
      "reward_std": 0.055512601137161256,
      "rewards/accuracy_reward": 0.52119140625,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.99990234375,
      "rewards/mean_confidence_reward": 0.0,
      "step": 275
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 9.765625e-05,
      "completions/max_length": 572.6,
      "completions/max_terminated_length": 337.0,
      "completions/mean_length": 97.50546875,
      "completions/mean_terminated_length": 97.36535034179687,
      "completions/min_length": 44.0,
      "completions/min_terminated_length": 44.0,
      "epoch": 0.896,
      "grad_norm": 0.0011945873266085982,
      "learning_rate": 1e-06,
      "loss": 0.001,
      "num_tokens": 720324581.0,
      "reward": 0.784912109375,
      "reward_std": 0.04334753602743149,
      "rewards/accuracy_reward": 0.569921875,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.99990234375,
      "rewards/mean_confidence_reward": 0.0,
      "step": 280
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0001953125,
      "completions/max_length": 960.6,
      "completions/max_terminated_length": 469.8,
      "completions/mean_length": 97.699609375,
      "completions/mean_terminated_length": 97.41859893798828,
      "completions/min_length": 42.0,
      "completions/min_terminated_length": 42.0,
      "epoch": 0.912,
      "grad_norm": 0.0012196388561278582,
      "learning_rate": 1e-06,
      "loss": 0.0008,
      "num_tokens": 733232641.0,
      "reward": 0.781201171875,
      "reward_std": 0.0503702849149704,
      "rewards/accuracy_reward": 0.56259765625,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.9998046875,
      "rewards/mean_confidence_reward": 0.0,
      "step": 285
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 9.765625e-05,
      "completions/max_length": 527.2,
      "completions/max_terminated_length": 509.0,
      "completions/mean_length": 94.194921875,
      "completions/mean_terminated_length": 94.05436248779297,
      "completions/min_length": 39.6,
      "completions/min_terminated_length": 39.6,
      "epoch": 0.928,
      "grad_norm": 0.0010627944720909,
      "learning_rate": 1e-06,
      "loss": 0.0004,
      "num_tokens": 746080333.0,
      "reward": 0.77783203125,
      "reward_std": 0.0477489285171032,
      "rewards/accuracy_reward": 0.55576171875,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.99990234375,
      "rewards/mean_confidence_reward": 0.0,
      "step": 290
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0001953125,
      "completions/max_length": 830.8,
      "completions/max_terminated_length": 384.8,
      "completions/mean_length": 96.19130859375,
      "completions/mean_terminated_length": 95.91045227050782,
      "completions/min_length": 41.0,
      "completions/min_terminated_length": 41.0,
      "epoch": 0.944,
      "grad_norm": 0.0012808856554329395,
      "learning_rate": 1e-06,
      "loss": 0.0014,
      "num_tokens": 758897076.0,
      "reward": 0.774853515625,
      "reward_std": 0.06085398942232132,
      "rewards/accuracy_reward": 0.54990234375,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.9998046875,
      "rewards/mean_confidence_reward": 0.0,
      "step": 295
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 9.765625e-05,
      "completions/max_length": 618.6,
      "completions/max_terminated_length": 385.6,
      "completions/mean_length": 95.019921875,
      "completions/mean_terminated_length": 94.87908020019532,
      "completions/min_length": 41.6,
      "completions/min_terminated_length": 41.6,
      "epoch": 0.96,
      "grad_norm": 0.001602579141035676,
      "learning_rate": 1e-06,
      "loss": 0.0006,
      "num_tokens": 771666720.0,
      "reward": 0.77060546875,
      "reward_std": 0.047741709649562834,
      "rewards/accuracy_reward": 0.54130859375,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.99990234375,
      "rewards/mean_confidence_reward": 0.0,
      "step": 300
    },
    {
      "epoch": 0.96,
      "eval_completions/clipped_ratio": 0.0,
      "eval_completions/max_length": 212.5,
      "eval_completions/max_terminated_length": 212.5,
      "eval_completions/mean_length": 94.41190719604492,
      "eval_completions/mean_terminated_length": 94.41190719604492,
      "eval_completions/min_length": 51.0,
      "eval_completions/min_terminated_length": 51.0,
      "eval_loss": 0.0,
      "eval_num_tokens": 771666720.0,
      "eval_reward": 0.7158203125,
      "eval_reward_std": 0.24653732031583786,
      "eval_rewards/accuracy_reward": 0.431640625,
      "eval_rewards/brier_reward": 0.0,
      "eval_rewards/confidence_one_or_zero": 0.0,
      "eval_rewards/format_reward": 1.0,
      "eval_rewards/mean_confidence_reward": 0.0,
      "eval_runtime": 13.6738,
      "eval_samples_per_second": 36.566,
      "eval_steps_per_second": 0.293,
      "step": 300
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0005859375,
      "completions/max_length": 1112.6,
      "completions/max_terminated_length": 416.8,
      "completions/mean_length": 95.6703125,
      "completions/mean_terminated_length": 94.82695617675782,
      "completions/min_length": 39.8,
      "completions/min_terminated_length": 39.8,
      "epoch": 0.976,
      "grad_norm": 0.0012756388168781996,
      "learning_rate": 1e-06,
      "loss": 0.0017,
      "num_tokens": 784363824.0,
      "reward": 0.789599609375,
      "reward_std": 0.05751314386725426,
      "rewards/accuracy_reward": 0.57978515625,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.9994140625,
      "rewards/mean_confidence_reward": 0.0,
      "step": 305
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.00029296875,
      "completions/max_length": 813.6,
      "completions/max_terminated_length": 335.2,
      "completions/mean_length": 93.523046875,
      "completions/mean_terminated_length": 93.10098266601562,
      "completions/min_length": 41.8,
      "completions/min_terminated_length": 41.8,
      "epoch": 0.992,
      "grad_norm": 0.0012513543479144573,
      "learning_rate": 1e-06,
      "loss": 0.001,
      "num_tokens": 797306300.0,
      "reward": 0.778857421875,
      "reward_std": 0.04584160037338734,
      "rewards/accuracy_reward": 0.5580078125,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.99970703125,
      "rewards/mean_confidence_reward": 0.0,
      "step": 310
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 341.0,
      "completions/max_terminated_length": 341.0,
      "completions/mean_length": 92.21929550170898,
      "completions/mean_terminated_length": 92.21929550170898,
      "completions/min_length": 40.5,
      "completions/min_terminated_length": 40.5,
      "epoch": 0.9984,
      "num_tokens": 802441496.0,
      "reward": 0.784912109375,
      "reward_std": 0.055518221110105515,
      "rewards/accuracy_reward": 0.570556640625,
      "rewards/brier_reward": 0.0,
      "rewards/confidence_one_or_zero": 0.0,
      "rewards/format_reward": 0.999267578125,
      "rewards/mean_confidence_reward": 0.0,
      "step": 312,
      "total_flos": 0.0,
      "train_loss": 0.0036987085283889873,
      "train_runtime": 71191.4821,
      "train_samples_per_second": 0.281,
      "train_steps_per_second": 0.004
    }
  ],
  "logging_steps": 5,
  "max_steps": 312,
  "num_input_tokens_seen": 802441496,
  "num_train_epochs": 1,
  "save_steps": 60,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}