{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.4,
  "eval_steps": 500,
  "global_step": 100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 434.0,
      "completions/max_terminated_length": 434.0,
      "completions/mean_length": 293.75,
      "completions/mean_terminated_length": 335.7142857142857,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.004,
      "format_failures": 0.0,
      "grad_norm": 0.5197089910507202,
      "kl": 0.0,
      "learning_rate": 0.0,
      "loss": 0.0278,
      "num_tokens": 9800.0,
      "reward": 0.3660714328289032,
      "reward_std": 0.36236491799354553,
      "step": 1
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 278.0,
      "completions/max_terminated_length": 278.0,
      "completions/mean_length": 134.875,
      "completions/mean_terminated_length": 154.14285714285714,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 51.0,
      "epoch": 0.008,
      "format_failures": 0.0,
      "grad_norm": 1.8656461238861084,
      "kl": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.1584,
      "num_tokens": 19920.0,
      "reward": 0.34375,
      "reward_std": 0.48065245151519775,
      "step": 2
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 261.0,
      "completions/max_terminated_length": 261.0,
      "completions/mean_length": 176.625,
      "completions/mean_terminated_length": 201.85714285714286,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.012,
      "format_failures": 0.0,
      "grad_norm": 7.7805867195129395,
      "kl": 1.0173164680600166,
      "learning_rate": 1e-06,
      "loss": 0.0063,
      "num_tokens": 28896.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "step": 3
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 332.0,
      "completions/max_terminated_length": 332.0,
      "completions/mean_length": 216.625,
      "completions/mean_terminated_length": 247.57142857142858,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.016,
      "format_failures": 0.0,
      "grad_norm": 0.34460729360580444,
      "kl": 0.005293647991493344,
      "learning_rate": 1e-06,
      "loss": 0.0149,
      "num_tokens": 35688.0,
      "reward": 0.316850483417511,
      "reward_std": 0.19629573822021484,
      "step": 4
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 141.0,
      "completions/max_terminated_length": 141.0,
      "completions/mean_length": 107.75,
      "completions/mean_terminated_length": 123.14285714285714,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 109.0,
      "epoch": 0.02,
      "format_failures": 0.0,
      "grad_norm": 1.950016975402832,
      "kl": 0.19140876829624176,
      "learning_rate": 1e-06,
      "loss": -0.0265,
      "num_tokens": 44320.0,
      "reward": 0.25,
      "reward_std": 0.4629100561141968,
      "step": 5
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 480.0,
      "completions/max_terminated_length": 480.0,
      "completions/mean_length": 347.375,
      "completions/mean_terminated_length": 397.0,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 316.0,
      "epoch": 0.024,
      "format_failures": 0.0,
      "grad_norm": 0.27606070041656494,
      "kl": 0.004609360825270414,
      "learning_rate": 1e-06,
      "loss": 0.019,
      "num_tokens": 55480.0,
      "reward": 0.20555555820465088,
      "reward_std": 0.22662308812141418,
      "step": 6
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 98.0,
      "completions/max_terminated_length": 98.0,
      "completions/mean_length": 54.75,
      "completions/mean_terminated_length": 62.57142857142857,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 36.0,
      "epoch": 0.028,
      "format_failures": 0.0,
      "grad_norm": 1.512669563293457,
      "kl": 0.0004560185334412381,
      "learning_rate": 1e-06,
      "loss": 0.1926,
      "num_tokens": 76568.0,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "step": 7
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 380.0,
      "completions/max_terminated_length": 380.0,
      "completions/mean_length": 189.75,
      "completions/mean_terminated_length": 216.85714285714286,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 94.0,
      "epoch": 0.032,
      "format_failures": 0.0,
      "grad_norm": 1.6258090734481812,
      "kl": 0.133640818297863,
      "learning_rate": 1e-06,
      "loss": 0.0094,
      "num_tokens": 88120.0,
      "reward": 0.05000000074505806,
      "reward_std": 0.1414213478565216,
      "step": 8
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 1412.0,
      "completions/max_terminated_length": 1412.0,
      "completions/mean_length": 426.125,
      "completions/mean_terminated_length": 487.0,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 218.0,
      "epoch": 0.036,
      "format_failures": 1.0,
      "grad_norm": 0.3745494782924652,
      "kl": 0.0010488361003808677,
      "learning_rate": 1e-06,
      "loss": -0.1003,
      "num_tokens": 110584.0,
      "reward": 0.05859375,
      "reward_std": 0.1657281517982483,
      "step": 9
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 62.0,
      "completions/max_terminated_length": 62.0,
      "completions/mean_length": 41.25,
      "completions/mean_terminated_length": 47.142857142857146,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 35.0,
      "epoch": 0.04,
      "format_failures": 0.0,
      "grad_norm": 6.635150909423828,
      "kl": 1.000607669353485,
      "learning_rate": 1e-06,
      "loss": -0.0558,
      "num_tokens": 115888.0,
      "reward": 0.125,
      "reward_std": 0.3535533845424652,
      "step": 10
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.375,
      "completions/max_length": 126.0,
      "completions/max_terminated_length": 126.0,
      "completions/mean_length": 60.25,
      "completions/mean_terminated_length": 96.4,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 62.0,
      "epoch": 0.044,
      "format_failures": 0.0,
      "grad_norm": 5.5436906814575195,
      "kl": 0.534478023648262,
      "learning_rate": 1e-06,
      "loss": -0.1301,
      "num_tokens": 123984.0,
      "reward": 0.375,
      "reward_std": 0.5175491571426392,
      "step": 11
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.25,
      "completions/max_length": 2047.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 702.625,
      "completions/mean_terminated_length": 936.8333333333334,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 341.0,
      "epoch": 0.048,
      "format_failures": 0.0,
      "grad_norm": 0.34704723954200745,
      "kl": 0.0009783765999600291,
      "learning_rate": 1e-06,
      "loss": 0.0431,
      "num_tokens": 146192.0,
      "reward": 0.38749998807907104,
      "reward_std": 0.4181165099143982,
      "step": 12
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 122.0,
      "completions/max_terminated_length": 122.0,
      "completions/mean_length": 40.375,
      "completions/mean_terminated_length": 46.142857142857146,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 20.0,
      "epoch": 0.052,
      "format_failures": 0.0,
      "grad_norm": 0.004240340553224087,
      "kl": 0.004628603579476476,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "num_tokens": 166896.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "step": 13
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 973.0,
      "completions/max_terminated_length": 973.0,
      "completions/mean_length": 452.5,
      "completions/mean_terminated_length": 517.1428571428571,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 275.0,
      "epoch": 0.056,
      "format_failures": 0.0,
      "grad_norm": 0.18779706954956055,
      "kl": 0.0052806169260293245,
      "learning_rate": 1e-06,
      "loss": 0.0313,
      "num_tokens": 185392.0,
      "reward": 0.11513157933950424,
      "reward_std": 0.16955535113811493,
      "step": 14
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 304.0,
      "completions/max_terminated_length": 304.0,
      "completions/mean_length": 202.0,
      "completions/mean_terminated_length": 230.85714285714286,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.06,
      "format_failures": 0.0,
      "grad_norm": 0.6387383341789246,
      "kl": 0.02643415331840515,
      "learning_rate": 1e-06,
      "loss": 0.0717,
      "num_tokens": 193056.0,
      "reward": 0.53125,
      "reward_std": 0.31045761704444885,
      "step": 15
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 203.0,
      "completions/max_terminated_length": 203.0,
      "completions/mean_length": 151.25,
      "completions/mean_terminated_length": 172.85714285714286,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.064,
      "format_failures": 0.0,
      "grad_norm": 0.2569343149662018,
      "kl": 0.09986447170376778,
      "learning_rate": 1e-06,
      "loss": 0.0006,
      "num_tokens": 201256.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "step": 16
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 295.0,
      "completions/max_terminated_length": 295.0,
      "completions/mean_length": 192.0,
      "completions/mean_terminated_length": 219.42857142857142,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 22.0,
      "epoch": 0.068,
      "format_failures": 1.0,
      "grad_norm": 0.04395958036184311,
      "kl": 0.027548893354833126,
      "learning_rate": 1e-06,
      "loss": 0.0001,
      "num_tokens": 209920.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "step": 17
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.5,
      "completions/max_length": 44.0,
      "completions/max_terminated_length": 44.0,
      "completions/mean_length": 20.125,
      "completions/mean_terminated_length": 40.25,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 39.0,
      "epoch": 0.072,
      "format_failures": 0.0,
      "grad_norm": 0.16681237518787384,
      "kl": 0.03394318092614412,
      "learning_rate": 1e-06,
      "loss": 0.0009,
      "num_tokens": 214144.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "step": 18
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 527.0,
      "completions/max_terminated_length": 527.0,
      "completions/mean_length": 215.75,
      "completions/mean_terminated_length": 246.57142857142858,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 18.0,
      "epoch": 0.076,
      "format_failures": 0.0,
      "grad_norm": 0.5867045521736145,
      "kl": 0.00954199954867363,
      "learning_rate": 1e-06,
      "loss": -0.2047,
      "num_tokens": 234096.0,
      "reward": 0.1666666716337204,
      "reward_std": 0.35634833574295044,
      "step": 19
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 169.0,
      "completions/max_terminated_length": 169.0,
      "completions/mean_length": 91.75,
      "completions/mean_terminated_length": 104.85714285714286,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 66.0,
      "epoch": 0.08,
      "format_failures": 0.0,
      "grad_norm": 2.331188917160034,
      "kl": 0.05314544588327408,
      "learning_rate": 1e-06,
      "loss": 0.048,
      "num_tokens": 243464.0,
      "reward": 0.21875,
      "reward_std": 0.36443448066711426,
      "step": 20
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 130.0,
      "completions/max_terminated_length": 130.0,
      "completions/mean_length": 81.25,
      "completions/mean_terminated_length": 92.85714285714286,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 57.0,
      "epoch": 0.084,
      "format_failures": 0.0,
      "grad_norm": 1.2006300687789917,
      "kl": 0.07363329455256462,
      "learning_rate": 1e-06,
      "loss": 0.0094,
      "num_tokens": 250720.0,
      "reward": 0.21875,
      "reward_std": 0.33905068039894104,
      "step": 21
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 197.0,
      "completions/max_terminated_length": 197.0,
      "completions/mean_length": 82.0,
      "completions/mean_terminated_length": 93.71428571428571,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 27.0,
      "epoch": 0.088,
      "format_failures": 0.0,
      "grad_norm": 1.3736180067062378,
      "kl": 0.04446508176624775,
      "learning_rate": 1e-06,
      "loss": -0.0541,
      "num_tokens": 257944.0,
      "reward": 0.0535714291036129,
      "reward_std": 0.15152288973331451,
      "step": 22
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 544.0,
      "completions/max_terminated_length": 544.0,
      "completions/mean_length": 242.75,
      "completions/mean_terminated_length": 277.42857142857144,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 38.0,
      "epoch": 0.092,
      "format_failures": 0.0,
      "grad_norm": 0.9332400560379028,
      "kl": 0.026759919710457325,
      "learning_rate": 1e-06,
      "loss": -0.0979,
      "num_tokens": 270512.0,
      "reward": 0.17383432388305664,
      "reward_std": 0.5423066020011902,
      "step": 23
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 334.0,
      "completions/max_terminated_length": 334.0,
      "completions/mean_length": 193.875,
      "completions/mean_terminated_length": 221.57142857142858,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 114.0,
      "epoch": 0.096,
      "format_failures": 0.0,
      "grad_norm": 0.5741273164749146,
      "kl": 0.061491173692047596,
      "learning_rate": 1e-06,
      "loss": 0.0724,
      "num_tokens": 279544.0,
      "reward": 0.3214285969734192,
      "reward_std": 0.3162277638912201,
      "step": 24
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 191.0,
      "completions/max_terminated_length": 191.0,
      "completions/mean_length": 131.625,
      "completions/mean_terminated_length": 150.42857142857142,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 109.0,
      "epoch": 0.1,
      "format_failures": 0.0,
      "grad_norm": 0.8438379168510437,
      "kl": 0.10757053177803755,
      "learning_rate": 1e-06,
      "loss": -0.0168,
      "num_tokens": 285872.0,
      "reward": 0.3083333373069763,
      "reward_std": 0.3443548381328583,
      "step": 25
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 345.0,
      "completions/max_terminated_length": 345.0,
      "completions/mean_length": 224.0,
      "completions/mean_terminated_length": 256.0,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 151.0,
      "epoch": 0.104,
      "format_failures": 0.0,
      "grad_norm": 0.6450461149215698,
      "kl": 0.04460714943706989,
      "learning_rate": 1e-06,
      "loss": 0.0276,
      "num_tokens": 293816.0,
      "reward": 0.3494505286216736,
      "reward_std": 0.3268265724182129,
      "step": 26
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 210.0,
      "completions/max_terminated_length": 210.0,
      "completions/mean_length": 110.375,
      "completions/mean_terminated_length": 126.14285714285714,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 68.0,
      "epoch": 0.108,
      "format_failures": 0.0,
      "grad_norm": 0.17123964428901672,
      "kl": 0.09914526715874672,
      "learning_rate": 1e-06,
      "loss": 0.0006,
      "num_tokens": 300160.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "step": 27
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 128.0,
      "completions/max_terminated_length": 128.0,
      "completions/mean_length": 82.5,
      "completions/mean_terminated_length": 94.28571428571429,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 86.0,
      "epoch": 0.112,
      "format_failures": 0.0,
      "grad_norm": 0.9953401684761047,
      "kl": 0.18897472321987152,
      "learning_rate": 1e-06,
      "loss": 0.002,
      "num_tokens": 307720.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "step": 28
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 335.0,
      "completions/max_terminated_length": 335.0,
      "completions/mean_length": 229.375,
      "completions/mean_terminated_length": 262.14285714285717,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.116,
      "format_failures": 0.0,
      "grad_norm": 2.1179044246673584,
      "kl": 0.013377793598920107,
      "learning_rate": 1e-06,
      "loss": 0.3156,
      "num_tokens": 328920.0,
      "reward": 0.3519230782985687,
      "reward_std": 0.3794543743133545,
      "step": 29
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 184.0,
      "completions/max_terminated_length": 184.0,
      "completions/mean_length": 131.375,
      "completions/mean_terminated_length": 150.14285714285714,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 14.0,
      "epoch": 0.12,
      "format_failures": 0.0,
      "grad_norm": 1.2885483503341675,
      "kl": 0.009146903175860643,
      "learning_rate": 1e-06,
      "loss": -0.0387,
      "num_tokens": 335880.0,
      "reward": 0.25,
      "reward_std": 0.4629100561141968,
      "step": 30
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 1936.0,
      "completions/max_terminated_length": 1936.0,
      "completions/mean_length": 410.0,
      "completions/mean_terminated_length": 468.57142857142856,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 15.0,
      "epoch": 0.124,
      "format_failures": 1.0,
      "grad_norm": 1.5897152423858643,
      "kl": 0.06828754395246506,
      "learning_rate": 1e-06,
      "loss": 0.0215,
      "num_tokens": 358104.0,
      "reward": 0.45494991540908813,
      "reward_std": 0.48848965764045715,
      "step": 31
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 366.0,
      "completions/max_terminated_length": 366.0,
      "completions/mean_length": 202.375,
      "completions/mean_terminated_length": 231.28571428571428,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.128,
      "format_failures": 0.0,
      "grad_norm": 0.8364682793617249,
      "kl": 0.12048156931996346,
      "learning_rate": 1e-06,
      "loss": 0.0898,
      "num_tokens": 365656.0,
      "reward": 0.4521104097366333,
      "reward_std": 0.2924821972846985,
      "step": 32
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 68.0,
      "completions/max_terminated_length": 68.0,
      "completions/mean_length": 48.875,
      "completions/mean_terminated_length": 55.857142857142854,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 46.0,
      "epoch": 0.132,
      "format_failures": 0.0,
      "grad_norm": 1.7178492546081543,
      "kl": 0.13572826609015465,
      "learning_rate": 1e-06,
      "loss": -0.0249,
      "num_tokens": 371392.0,
      "reward": 0.125,
      "reward_std": 0.3535533845424652,
      "step": 33
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 435.0,
      "completions/max_terminated_length": 435.0,
      "completions/mean_length": 293.5,
      "completions/mean_terminated_length": 335.42857142857144,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.136,
      "format_failures": 1.0,
      "grad_norm": 0.9806227087974548,
      "kl": 0.012222900055348873,
      "learning_rate": 1e-06,
      "loss": 0.3233,
      "num_tokens": 392240.0,
      "reward": 0.47658732533454895,
      "reward_std": 0.4081757962703705,
      "step": 34
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 97.0,
      "completions/max_terminated_length": 97.0,
      "completions/mean_length": 64.875,
      "completions/mean_terminated_length": 74.14285714285714,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 43.0,
      "epoch": 0.14,
      "format_failures": 0.0,
      "grad_norm": 0.8304542303085327,
      "kl": 0.031799230724573135,
      "learning_rate": 1e-06,
      "loss": 0.0113,
      "num_tokens": 396792.0,
      "reward": 0.6166666746139526,
      "reward_std": 0.31773003935813904,
      "step": 35
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 265.0,
      "completions/max_terminated_length": 265.0,
      "completions/mean_length": 114.25,
      "completions/mean_terminated_length": 130.57142857142858,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 39.0,
      "epoch": 0.144,
      "format_failures": 0.0,
      "grad_norm": 1.793579339981079,
      "kl": 0.6158746182918549,
      "learning_rate": 1e-06,
      "loss": 0.0043,
      "num_tokens": 404472.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "step": 36
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 233.0,
      "completions/max_terminated_length": 233.0,
      "completions/mean_length": 169.75,
      "completions/mean_terminated_length": 194.0,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.148,
      "format_failures": 0.0,
      "grad_norm": 0.3936280906200409,
      "kl": 0.04245052766054869,
      "learning_rate": 1e-06,
      "loss": -0.0153,
      "num_tokens": 411600.0,
      "reward": 0.5294643044471741,
      "reward_std": 0.21430060267448425,
      "step": 37
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 152.0,
      "completions/max_terminated_length": 152.0,
      "completions/mean_length": 74.625,
      "completions/mean_terminated_length": 85.28571428571429,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 59.0,
      "epoch": 0.152,
      "format_failures": 0.0,
      "grad_norm": 0.592628002166748,
      "kl": 0.14406441897153854,
      "learning_rate": 1e-06,
      "loss": -0.0363,
      "num_tokens": 417456.0,
      "reward": 0.0555555559694767,
      "reward_std": 0.11878278106451035,
      "step": 38
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 726.0,
      "completions/max_terminated_length": 726.0,
      "completions/mean_length": 330.25,
      "completions/mean_terminated_length": 377.42857142857144,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 196.0,
      "epoch": 0.156,
      "format_failures": 0.0,
      "grad_norm": 0.7340777516365051,
      "kl": 0.02144559659063816,
      "learning_rate": 1e-06,
      "loss": 0.0557,
      "num_tokens": 439208.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.2828426957130432,
      "step": 39
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 625.0,
      "completions/max_terminated_length": 625.0,
      "completions/mean_length": 336.0,
      "completions/mean_terminated_length": 384.0,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.16,
      "format_failures": 0.0,
      "grad_norm": 0.32950443029403687,
      "kl": 0.018678720109164715,
      "learning_rate": 1e-06,
      "loss": 0.1579,
      "num_tokens": 464616.0,
      "reward": 0.68376624584198,
      "reward_std": 0.16028425097465515,
      "step": 40
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 91.0,
      "completions/max_terminated_length": 91.0,
      "completions/mean_length": 53.75,
      "completions/mean_terminated_length": 61.42857142857143,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 39.0,
      "epoch": 0.164,
      "format_failures": 0.0,
      "grad_norm": 15.617924690246582,
      "kl": 2.1802964210510254,
      "learning_rate": 1e-06,
      "loss": -0.1623,
      "num_tokens": 473272.0,
      "reward": 0.4464285671710968,
      "reward_std": 0.49744242429733276,
      "step": 41
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 74.0,
      "completions/max_terminated_length": 74.0,
      "completions/mean_length": 62.625,
      "completions/mean_terminated_length": 71.57142857142857,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 69.0,
      "epoch": 0.168,
      "format_failures": 0.0,
      "grad_norm": 0.5167672634124756,
      "kl": 0.192179337143898,
      "learning_rate": 1e-06,
      "loss": 0.0018,
      "num_tokens": 477896.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "step": 42
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 187.0,
      "completions/max_terminated_length": 187.0,
      "completions/mean_length": 124.625,
      "completions/mean_terminated_length": 142.42857142857142,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 57.0,
      "epoch": 0.172,
      "format_failures": 1.0,
      "grad_norm": 1.7434178590774536,
      "kl": 0.43839313089847565,
      "learning_rate": 1e-06,
      "loss": -0.0081,
      "num_tokens": 485584.0,
      "reward": 0.1041666716337204,
      "reward_std": 0.19795581698417664,
      "step": 43
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.5,
      "completions/max_length": 53.0,
      "completions/max_terminated_length": 53.0,
      "completions/mean_length": 21.5,
      "completions/mean_terminated_length": 43.0,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 33.0,
      "epoch": 0.176,
      "format_failures": 0.0,
      "grad_norm": 0.19118274748325348,
      "kl": 0.021482082083821297,
      "learning_rate": 1e-06,
      "loss": 0.0007,
      "num_tokens": 491072.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "step": 44
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 184.0,
      "completions/max_terminated_length": 184.0,
      "completions/mean_length": 101.375,
      "completions/mean_terminated_length": 115.85714285714286,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 64.0,
      "epoch": 0.18,
      "format_failures": 0.0,
      "grad_norm": 0.5414936542510986,
      "kl": 0.23846322298049927,
      "learning_rate": 1e-06,
      "loss": 0.0026,
      "num_tokens": 501048.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "step": 45
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 184.0,
      "completions/max_terminated_length": 184.0,
      "completions/mean_length": 105.25,
      "completions/mean_terminated_length": 120.28571428571429,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 60.0,
      "epoch": 0.184,
      "format_failures": 0.0,
      "grad_norm": 1.3124736547470093,
      "kl": 0.02640421688556671,
      "learning_rate": 1e-06,
      "loss": 0.0418,
      "num_tokens": 509688.0,
      "reward": 0.3333333432674408,
      "reward_std": 0.35634833574295044,
      "step": 46
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 308.0,
      "completions/max_terminated_length": 308.0,
      "completions/mean_length": 222.625,
      "completions/mean_terminated_length": 254.42857142857142,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 140.0,
      "epoch": 0.188,
      "format_failures": 0.0,
      "grad_norm": 0.6642023324966431,
      "kl": 0.038137754425406456,
      "learning_rate": 1e-06,
      "loss": -0.0281,
      "num_tokens": 516136.0,
      "reward": 0.5722222328186035,
      "reward_std": 0.3752013146877289,
      "step": 47
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 220.0,
      "completions/max_terminated_length": 220.0,
      "completions/mean_length": 139.0,
      "completions/mean_terminated_length": 158.85714285714286,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 52.0,
      "epoch": 0.192,
      "format_failures": 0.0,
      "grad_norm": 1.5801048278808594,
      "kl": 0.31588232330977917,
      "learning_rate": 1e-06,
      "loss": -0.0356,
      "num_tokens": 525216.0,
      "reward": 0.16785714030265808,
      "reward_std": 0.3453776240348816,
      "step": 48
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 142.0,
      "completions/max_terminated_length": 142.0,
      "completions/mean_length": 103.0,
      "completions/mean_terminated_length": 117.71428571428571,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 72.0,
      "epoch": 0.196,
      "format_failures": 0.0,
      "grad_norm": 1.5228773355484009,
      "kl": 0.3656068593263626,
      "learning_rate": 1e-06,
      "loss": -0.0299,
      "num_tokens": 532920.0,
      "reward": 0.0833333358168602,
      "reward_std": 0.15430335700511932,
      "step": 49
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 167.0,
      "completions/max_terminated_length": 167.0,
      "completions/mean_length": 58.625,
      "completions/mean_terminated_length": 67.0,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 23.0,
      "epoch": 0.2,
      "format_failures": 0.0,
      "grad_norm": 2.357253074645996,
      "kl": 0.021084215957671404,
      "learning_rate": 1e-06,
      "loss": -0.1241,
      "num_tokens": 539800.0,
      "reward": 0.24715909361839294,
      "reward_std": 0.3969031274318695,
      "step": 50
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.375,
      "completions/max_length": 79.0,
      "completions/max_terminated_length": 79.0,
      "completions/mean_length": 47.5,
      "completions/mean_terminated_length": 76.0,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 74.0,
      "epoch": 0.204,
      "format_failures": 0.0,
      "grad_norm": 3.9780025482177734,
      "kl": 0.04299665614962578,
      "learning_rate": 1e-06,
      "loss": -0.0066,
      "num_tokens": 547080.0,
      "reward": 0.75,
      "reward_std": 0.38832157850265503,
      "step": 51
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 377.0,
      "completions/max_terminated_length": 377.0,
      "completions/mean_length": 245.0,
      "completions/mean_terminated_length": 280.0,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 236.0,
      "epoch": 0.208,
      "format_failures": 0.0,
      "grad_norm": 0.824322521686554,
      "kl": 0.04343542829155922,
      "learning_rate": 1e-06,
      "loss": -0.394,
      "num_tokens": 565368.0,
      "reward": 0.3678571581840515,
      "reward_std": 0.38505232334136963,
      "step": 52
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 313.0,
      "completions/max_terminated_length": 313.0,
      "completions/mean_length": 223.5,
      "completions/mean_terminated_length": 255.42857142857142,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 229.0,
      "epoch": 0.212,
      "format_failures": 0.0,
      "grad_norm": 0.8966130018234253,
      "kl": 0.022847690619528294,
      "learning_rate": 1e-06,
      "loss": 0.0523,
      "num_tokens": 584552.0,
      "reward": 0.09375,
      "reward_std": 0.2651650309562683,
      "step": 53
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 463.0,
      "completions/max_terminated_length": 463.0,
      "completions/mean_length": 301.75,
      "completions/mean_terminated_length": 344.85714285714283,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 222.0,
      "epoch": 0.216,
      "format_failures": 0.0,
      "grad_norm": 0.5948707461357117,
      "kl": 0.0344517957419157,
      "learning_rate": 1e-06,
      "loss": -0.0372,
      "num_tokens": 605144.0,
      "reward": 0.3611606955528259,
      "reward_std": 0.24707795679569244,
      "step": 54
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 183.0,
      "completions/max_terminated_length": 183.0,
      "completions/mean_length": 99.75,
      "completions/mean_terminated_length": 114.0,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 69.0,
      "epoch": 0.22,
      "format_failures": 0.0,
      "grad_norm": 2.431544065475464,
      "kl": 0.39844033867120743,
      "learning_rate": 1e-06,
      "loss": 0.0435,
      "num_tokens": 612304.0,
      "reward": 0.3895833492279053,
      "reward_std": 0.4363391399383545,
      "step": 55
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 189.0,
      "completions/max_terminated_length": 189.0,
      "completions/mean_length": 158.875,
      "completions/mean_terminated_length": 181.57142857142858,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 170.0,
      "epoch": 0.224,
      "format_failures": 0.0,
      "grad_norm": 3.419069528579712,
      "kl": 0.18863588571548462,
      "learning_rate": 1e-06,
      "loss": -0.0102,
      "num_tokens": 619832.0,
      "reward": 0.3333333432674408,
      "reward_std": 0.4714045226573944,
      "step": 56
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 560.0,
      "completions/max_terminated_length": 560.0,
      "completions/mean_length": 250.5,
      "completions/mean_terminated_length": 286.2857142857143,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.228,
      "format_failures": 0.0,
      "grad_norm": 0.0427495501935482,
      "kl": 0.06415125727653503,
      "learning_rate": 1e-06,
      "loss": 0.0002,
      "num_tokens": 632688.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "step": 57
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 95.0,
      "completions/max_terminated_length": 95.0,
      "completions/mean_length": 62.0,
      "completions/mean_terminated_length": 70.85714285714286,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 55.0,
      "epoch": 0.232,
      "format_failures": 0.0,
      "grad_norm": 1.9774202108383179,
      "kl": 0.05197676923125982,
      "learning_rate": 1e-06,
      "loss": -0.0204,
      "num_tokens": 637680.0,
      "reward": 0.125,
      "reward_std": 0.3535533845424652,
      "step": 58
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 1235.0,
      "completions/max_terminated_length": 1235.0,
      "completions/mean_length": 317.5,
      "completions/mean_terminated_length": 362.85714285714283,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 29.0,
      "epoch": 0.236,
      "format_failures": 0.0,
      "grad_norm": 0.3588317036628723,
      "kl": 0.008119639242067933,
      "learning_rate": 1e-06,
      "loss": 0.0679,
      "num_tokens": 662240.0,
      "reward": 0.0625,
      "reward_std": 0.1767766922712326,
      "step": 59
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 482.0,
      "completions/max_terminated_length": 482.0,
      "completions/mean_length": 302.625,
      "completions/mean_terminated_length": 345.85714285714283,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 224.0,
      "epoch": 0.24,
      "format_failures": 0.0,
      "grad_norm": 0.43694156408309937,
      "kl": 0.13442928344011307,
      "learning_rate": 1e-06,
      "loss": 0.035,
      "num_tokens": 671136.0,
      "reward": 0.4389880895614624,
      "reward_std": 0.314676970243454,
      "step": 60
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 155.0,
      "completions/max_terminated_length": 155.0,
      "completions/mean_length": 76.625,
      "completions/mean_terminated_length": 87.57142857142857,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 62.0,
      "epoch": 0.244,
      "format_failures": 0.0,
      "grad_norm": 2.0356831550598145,
      "kl": 0.10412658751010895,
      "learning_rate": 1e-06,
      "loss": 0.0941,
      "num_tokens": 678296.0,
      "reward": 0.2856481671333313,
      "reward_std": 0.44585946202278137,
      "step": 61
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 526.0,
      "completions/max_terminated_length": 526.0,
      "completions/mean_length": 302.125,
      "completions/mean_terminated_length": 345.2857142857143,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 173.0,
      "epoch": 0.248,
      "format_failures": 0.0,
      "grad_norm": 0.2828364074230194,
      "kl": 0.06026838719844818,
      "learning_rate": 1e-06,
      "loss": 0.0307,
      "num_tokens": 688328.0,
      "reward": 0.37730082869529724,
      "reward_std": 0.22057875990867615,
      "step": 62
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 1564.0,
      "completions/max_terminated_length": 1564.0,
      "completions/mean_length": 436.5,
      "completions/mean_terminated_length": 498.85714285714283,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 278.0,
      "epoch": 0.252,
      "format_failures": 0.0,
      "grad_norm": 0.460735559463501,
      "kl": 0.03187366481870413,
      "learning_rate": 1e-06,
      "loss": 0.3464,
      "num_tokens": 710552.0,
      "reward": 0.7753968238830566,
      "reward_std": 0.3274153470993042,
      "step": 63
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 183.0,
      "completions/max_terminated_length": 183.0,
      "completions/mean_length": 112.0,
      "completions/mean_terminated_length": 128.0,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 77.0,
      "epoch": 0.256,
      "format_failures": 0.0,
      "grad_norm": 0.9710547924041748,
      "kl": 0.056045059114694595,
      "learning_rate": 1e-06,
      "loss": 0.397,
      "num_tokens": 730936.0,
      "reward": 0.4721861779689789,
      "reward_std": 0.31307727098464966,
      "step": 64
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 282.0,
      "completions/max_terminated_length": 282.0,
      "completions/mean_length": 181.25,
      "completions/mean_terminated_length": 207.14285714285714,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.26,
      "format_failures": 0.0,
      "grad_norm": 0.5494914054870605,
      "kl": 0.17688407003879547,
      "learning_rate": 1e-06,
      "loss": 0.0636,
      "num_tokens": 737640.0,
      "reward": 0.4345238208770752,
      "reward_std": 0.24914170801639557,
      "step": 65
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 782.0,
      "completions/max_terminated_length": 782.0,
      "completions/mean_length": 442.625,
      "completions/mean_terminated_length": 505.85714285714283,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 371.0,
      "epoch": 0.264,
      "format_failures": 0.0,
      "grad_norm": 0.2535926103591919,
      "kl": 0.027257385663688183,
      "learning_rate": 1e-06,
      "loss": 0.0455,
      "num_tokens": 749424.0,
      "reward": 0.4035714268684387,
      "reward_std": 0.21609759330749512,
      "step": 66
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 536.0,
      "completions/max_terminated_length": 536.0,
      "completions/mean_length": 360.375,
      "completions/mean_terminated_length": 411.85714285714283,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 286.0,
      "epoch": 0.268,
      "format_failures": 0.0,
      "grad_norm": 0.2211979627609253,
      "kl": 0.03450755029916763,
      "learning_rate": 1e-06,
      "loss": -0.0173,
      "num_tokens": 758368.0,
      "reward": 0.26453372836112976,
      "reward_std": 0.18241503834724426,
      "step": 67
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 324.0,
      "completions/max_terminated_length": 324.0,
      "completions/mean_length": 171.0,
      "completions/mean_terminated_length": 195.42857142857142,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 64.0,
      "epoch": 0.272,
      "format_failures": 0.0,
      "grad_norm": 1.1518077850341797,
      "kl": 0.7764540687203407,
      "learning_rate": 1e-06,
      "loss": 0.0543,
      "num_tokens": 769808.0,
      "reward": 0.20863094925880432,
      "reward_std": 0.1800907701253891,
      "step": 68
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 255.0,
      "completions/max_terminated_length": 255.0,
      "completions/mean_length": 146.875,
      "completions/mean_terminated_length": 167.85714285714286,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 90.0,
      "epoch": 0.276,
      "format_failures": 0.0,
      "grad_norm": 1.4199182987213135,
      "kl": 0.03853025659918785,
      "learning_rate": 1e-06,
      "loss": -0.3424,
      "num_tokens": 787960.0,
      "reward": 0.29305553436279297,
      "reward_std": 0.3426187038421631,
      "step": 69
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 497.0,
      "completions/max_terminated_length": 497.0,
      "completions/mean_length": 260.25,
      "completions/mean_terminated_length": 297.42857142857144,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.28,
      "format_failures": 0.0,
      "grad_norm": 0.95790034532547,
      "kl": 0.04087948985397816,
      "learning_rate": 1e-06,
      "loss": -0.0072,
      "num_tokens": 808840.0,
      "reward": 0.30420100688934326,
      "reward_std": 0.21492989361286163,
      "step": 70
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 457.0,
      "completions/max_terminated_length": 457.0,
      "completions/mean_length": 277.125,
      "completions/mean_terminated_length": 316.7142857142857,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 222.0,
      "epoch": 0.284,
      "format_failures": 0.0,
      "grad_norm": 0.6122504472732544,
      "kl": 0.043809447437524796,
      "learning_rate": 1e-06,
      "loss": 0.0844,
      "num_tokens": 820184.0,
      "reward": 0.4826388657093048,
      "reward_std": 0.40854451060295105,
      "step": 71
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.625,
      "completions/max_length": 130.0,
      "completions/max_terminated_length": 130.0,
      "completions/mean_length": 31.875,
      "completions/mean_terminated_length": 85.0,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 62.0,
      "epoch": 0.288,
      "format_failures": 0.0,
      "grad_norm": 3.6429221630096436,
      "kl": 0.14530150592327118,
      "learning_rate": 1e-06,
      "loss": -0.3358,
      "num_tokens": 828280.0,
      "reward": 0.625,
      "reward_std": 0.41547447443008423,
      "step": 72
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 2028.0,
      "completions/max_terminated_length": 2028.0,
      "completions/mean_length": 568.375,
      "completions/mean_terminated_length": 649.5714285714286,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 233.0,
      "epoch": 0.292,
      "format_failures": 0.0,
      "grad_norm": 0.340351402759552,
      "kl": 0.04210643842816353,
      "learning_rate": 1e-06,
      "loss": 0.1705,
      "num_tokens": 850536.0,
      "reward": 0.255952388048172,
      "reward_std": 0.28989601135253906,
      "step": 73
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 298.0,
      "completions/max_terminated_length": 298.0,
      "completions/mean_length": 243.5,
      "completions/mean_terminated_length": 278.2857142857143,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 271.0,
      "epoch": 0.296,
      "format_failures": 0.0,
      "grad_norm": 16.964588165283203,
      "kl": 2.3798545002937317,
      "learning_rate": 1e-06,
      "loss": 0.0303,
      "num_tokens": 861552.0,
      "reward": 0.5833333730697632,
      "reward_std": 0.4629100263118744,
      "step": 74
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 545.0,
      "completions/max_terminated_length": 545.0,
      "completions/mean_length": 225.375,
      "completions/mean_terminated_length": 257.57142857142856,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 163.0,
      "epoch": 0.3,
      "format_failures": 0.0,
      "grad_norm": 0.23826824128627777,
      "kl": 0.033232852816581726,
      "learning_rate": 1e-06,
      "loss": 0.0132,
      "num_tokens": 872312.0,
      "reward": 0.20226716995239258,
      "reward_std": 0.15315401554107666,
      "step": 75
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 222.0,
      "completions/max_terminated_length": 222.0,
      "completions/mean_length": 145.75,
      "completions/mean_terminated_length": 166.57142857142858,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 62.0,
      "epoch": 0.304,
      "format_failures": 0.0,
      "grad_norm": 1.913487434387207,
      "kl": 1.3894951939582825,
      "learning_rate": 1e-06,
      "loss": -0.0165,
      "num_tokens": 879880.0,
      "reward": 0.17698413133621216,
      "reward_std": 0.1964721530675888,
      "step": 76
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 264.0,
      "completions/max_terminated_length": 264.0,
      "completions/mean_length": 155.0,
      "completions/mean_terminated_length": 177.14285714285714,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 92.0,
      "epoch": 0.308,
      "format_failures": 0.0,
      "grad_norm": 2.5412757396698,
      "kl": 1.028398334980011,
      "learning_rate": 1e-06,
      "loss": 0.0962,
      "num_tokens": 887960.0,
      "reward": 0.45376986265182495,
      "reward_std": 0.3097318112850189,
      "step": 77
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 536.0,
      "completions/max_terminated_length": 536.0,
      "completions/mean_length": 286.375,
      "completions/mean_terminated_length": 327.2857142857143,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 176.0,
      "epoch": 0.312,
      "format_failures": 0.0,
      "grad_norm": 0.6730135679244995,
      "kl": 0.0538824163377285,
      "learning_rate": 1e-06,
      "loss": 0.1157,
      "num_tokens": 898928.0,
      "reward": 0.20416666567325592,
      "reward_std": 0.3781481683254242,
      "step": 78
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.375,
      "completions/max_length": 188.0,
      "completions/max_terminated_length": 188.0,
      "completions/mean_length": 99.25,
      "completions/mean_terminated_length": 158.8,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 48.0,
      "epoch": 0.316,
      "format_failures": 0.0,
      "grad_norm": 1.8478459119796753,
      "kl": 0.015719112940132618,
      "learning_rate": 1e-06,
      "loss": -0.134,
      "num_tokens": 908336.0,
      "reward": 0.75,
      "reward_std": 0.4629100561141968,
      "step": 79
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 290.0,
      "completions/max_terminated_length": 290.0,
      "completions/mean_length": 218.0,
      "completions/mean_terminated_length": 249.14285714285714,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.32,
      "format_failures": 0.0,
      "grad_norm": 4.647150039672852,
      "kl": 1.3871727883815765,
      "learning_rate": 1e-06,
      "loss": 0.0114,
      "num_tokens": 919144.0,
      "reward": 0.515625,
      "reward_std": 0.5194326043128967,
      "step": 80
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 61.0,
      "completions/max_terminated_length": 61.0,
      "completions/mean_length": 44.75,
      "completions/mean_terminated_length": 51.142857142857146,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 42.0,
      "epoch": 0.324,
      "format_failures": 0.0,
      "grad_norm": 4.4413957595825195,
      "kl": 1.4963605403900146,
      "learning_rate": 1e-06,
      "loss": 0.0199,
      "num_tokens": 924120.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "step": 81
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 158.0,
      "completions/max_terminated_length": 158.0,
      "completions/mean_length": 114.0,
      "completions/mean_terminated_length": 130.28571428571428,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 70.0,
      "epoch": 0.328,
      "format_failures": 0.0,
      "grad_norm": 0.7050689458847046,
      "kl": 0.046199409291148186,
      "learning_rate": 1e-06,
      "loss": 0.0456,
      "num_tokens": 930960.0,
      "reward": 0.5011904835700989,
      "reward_std": 0.24937564134597778,
      "step": 82
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 518.0,
      "completions/max_terminated_length": 518.0,
      "completions/mean_length": 449.875,
      "completions/mean_terminated_length": 514.1428571428571,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 509.0,
      "epoch": 0.332,
      "format_failures": 0.0,
      "grad_norm": 0.26836591958999634,
      "kl": 0.006152217974886298,
      "learning_rate": 1e-06,
      "loss": -0.0312,
      "num_tokens": 948424.0,
      "reward": 0.7916666865348816,
      "reward_std": 0.39591163396835327,
      "step": 83
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 246.0,
      "completions/max_terminated_length": 246.0,
      "completions/mean_length": 138.625,
      "completions/mean_terminated_length": 158.42857142857142,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 0.336,
      "format_failures": 0.0,
      "grad_norm": 1.0764328241348267,
      "kl": 0.07650505751371384,
      "learning_rate": 1e-06,
      "loss": -0.0964,
      "num_tokens": 956768.0,
      "reward": 0.3864583373069763,
      "reward_std": 0.3207734227180481,
      "step": 84
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 531.0,
      "completions/max_terminated_length": 531.0,
      "completions/mean_length": 292.0,
      "completions/mean_terminated_length": 333.7142857142857,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.34,
      "format_failures": 0.0,
      "grad_norm": 0.5540055632591248,
      "kl": 0.054012734442949295,
      "learning_rate": 1e-06,
      "loss": -0.1183,
      "num_tokens": 966600.0,
      "reward": 0.34756946563720703,
      "reward_std": 0.300673246383667,
      "step": 85
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 153.0,
      "completions/max_terminated_length": 153.0,
      "completions/mean_length": 126.0,
      "completions/mean_terminated_length": 144.0,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 104.0,
      "epoch": 0.344,
      "format_failures": 0.0,
      "grad_norm": 2.176490306854248,
      "kl": 0.14486993476748466,
      "learning_rate": 1e-06,
      "loss": 0.044,
      "num_tokens": 974040.0,
      "reward": 0.6666666269302368,
      "reward_std": 0.4714045226573944,
      "step": 86
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 163.0,
      "completions/max_terminated_length": 163.0,
      "completions/mean_length": 139.875,
      "completions/mean_terminated_length": 159.85714285714286,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.348,
      "format_failures": 0.0,
      "grad_norm": 3.048673391342163,
      "kl": 0.05823306553065777,
      "learning_rate": 1e-06,
      "loss": 1.0611,
      "num_tokens": 995888.0,
      "reward": 0.625,
      "reward_std": 0.5175491571426392,
      "step": 87
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.25,
      "completions/max_length": 281.0,
      "completions/max_terminated_length": 281.0,
      "completions/mean_length": 101.125,
      "completions/mean_terminated_length": 134.83333333333334,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 75.0,
      "epoch": 0.352,
      "format_failures": 0.0,
      "grad_norm": 1.9394124746322632,
      "kl": 0.09709636494517326,
      "learning_rate": 1e-06,
      "loss": 0.3171,
      "num_tokens": 1016272.0,
      "reward": 0.47559523582458496,
      "reward_std": 0.2696917653083801,
      "step": 88
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 160.0,
      "completions/max_terminated_length": 160.0,
      "completions/mean_length": 92.375,
      "completions/mean_terminated_length": 105.57142857142857,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 64.0,
      "epoch": 0.356,
      "format_failures": 0.0,
      "grad_norm": 1.0850152969360352,
      "kl": 0.11065866611897945,
      "learning_rate": 1e-06,
      "loss": -0.0191,
      "num_tokens": 1022584.0,
      "reward": 0.027205882593989372,
      "reward_std": 0.050595808774232864,
      "step": 89
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 238.0,
      "completions/max_terminated_length": 238.0,
      "completions/mean_length": 152.125,
      "completions/mean_terminated_length": 173.85714285714286,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.36,
      "format_failures": 0.0,
      "grad_norm": 0.7975893020629883,
      "kl": 0.4505193531513214,
      "learning_rate": 1e-06,
      "loss": 0.0489,
      "num_tokens": 1028024.0,
      "reward": 0.4837797284126282,
      "reward_std": 0.3459106385707855,
      "step": 90
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.375,
      "completions/max_length": 198.0,
      "completions/max_terminated_length": 198.0,
      "completions/mean_length": 122.875,
      "completions/mean_terminated_length": 196.6,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.364,
      "format_failures": 0.0,
      "grad_norm": 0.371446430683136,
      "kl": 0.017493599094450474,
      "learning_rate": 1e-06,
      "loss": -0.0009,
      "num_tokens": 1039176.0,
      "reward": 0.7916666865348816,
      "reward_std": 0.39591163396835327,
      "step": 91
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 368.0,
      "completions/max_terminated_length": 368.0,
      "completions/mean_length": 228.5,
      "completions/mean_terminated_length": 261.14285714285717,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.368,
      "format_failures": 0.0,
      "grad_norm": 1.6181436777114868,
      "kl": 1.322296380996704,
      "learning_rate": 1e-06,
      "loss": -0.0419,
      "num_tokens": 1047784.0,
      "reward": 0.2874999940395355,
      "reward_std": 0.39957815408706665,
      "step": 92
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 445.0,
      "completions/max_terminated_length": 445.0,
      "completions/mean_length": 250.125,
      "completions/mean_terminated_length": 285.85714285714283,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 206.0,
      "epoch": 0.372,
      "format_failures": 0.0,
      "grad_norm": 0.4590940773487091,
      "kl": 0.03011018969118595,
      "learning_rate": 1e-06,
      "loss": -0.0477,
      "num_tokens": 1058760.0,
      "reward": 0.38749998807907104,
      "reward_std": 0.3058944642543793,
      "step": 93
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 64.0,
      "completions/max_terminated_length": 64.0,
      "completions/mean_length": 55.75,
      "completions/mean_terminated_length": 63.714285714285715,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 62.0,
      "epoch": 0.376,
      "format_failures": 0.0,
      "grad_norm": 3.706254720687866,
      "kl": 0.022694013081490993,
      "learning_rate": 1e-06,
      "loss": 0.4609,
      "num_tokens": 1069792.0,
      "reward": 0.5052083730697632,
      "reward_std": 0.25630685687065125,
      "step": 94
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 297.0,
      "completions/max_terminated_length": 297.0,
      "completions/mean_length": 155.75,
      "completions/mean_terminated_length": 178.0,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 101.0,
      "epoch": 0.38,
      "format_failures": 0.0,
      "grad_norm": 1.6162223815917969,
      "kl": 0.43194980919361115,
      "learning_rate": 1e-06,
      "loss": -0.0132,
      "num_tokens": 1079864.0,
      "reward": 0.21741071343421936,
      "reward_std": 0.28225868940353394,
      "step": 95
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 141.0,
      "completions/max_terminated_length": 141.0,
      "completions/mean_length": 120.125,
      "completions/mean_terminated_length": 137.28571428571428,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.384,
      "format_failures": 0.0,
      "grad_norm": 18.852705001831055,
      "kl": 4.019676446914673,
      "learning_rate": 1e-06,
      "loss": 0.0359,
      "num_tokens": 1088416.0,
      "reward": 0.90625,
      "reward_std": 0.1293872892856598,
      "step": 96
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 81.0,
      "completions/max_terminated_length": 81.0,
      "completions/mean_length": 65.125,
      "completions/mean_terminated_length": 74.42857142857143,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 72.0,
      "epoch": 0.388,
      "format_failures": 0.0,
      "grad_norm": 0.17805831134319305,
      "kl": 0.0494217723608017,
      "learning_rate": 1e-06,
      "loss": 0.0198,
      "num_tokens": 1095056.0,
      "reward": 0.984375,
      "reward_std": 0.04419417306780815,
      "step": 97
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 63.0,
      "completions/max_terminated_length": 63.0,
      "completions/mean_length": 34.75,
      "completions/mean_terminated_length": 39.714285714285715,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 20.0,
      "epoch": 0.392,
      "format_failures": 0.0,
      "grad_norm": 1.5279428958892822,
      "kl": 0.29206034541130066,
      "learning_rate": 1e-06,
      "loss": -0.0386,
      "num_tokens": 1100752.0,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "step": 98
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 351.0,
      "completions/max_terminated_length": 351.0,
      "completions/mean_length": 249.375,
      "completions/mean_terminated_length": 285.0,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 212.0,
      "epoch": 0.396,
      "format_failures": 0.0,
      "grad_norm": 0.56284499168396,
      "kl": 0.11262823268771172,
      "learning_rate": 1e-06,
      "loss": 0.0758,
      "num_tokens": 1112056.0,
      "reward": 0.5658119916915894,
      "reward_std": 0.2206362932920456,
      "step": 99
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 194.0,
      "completions/max_terminated_length": 194.0,
      "completions/mean_length": 149.5,
      "completions/mean_terminated_length": 170.85714285714286,
      "completions/min_length": 0.0,
      "completions/min_terminated_length": 52.0,
      "epoch": 0.4,
      "format_failures": 0.0,
      "grad_norm": 2.1969668865203857,
      "kl": 0.0690736249089241,
      "learning_rate": 1e-06,
      "loss": -0.001,
      "num_tokens": 1121104.0,
      "reward": 0.75,
      "reward_std": 0.4629100561141968,
      "step": 100
    }
  ],
  "logging_steps": 1,
  "max_steps": 1000,
  "num_input_tokens_seen": 1121104,
  "num_train_epochs": 4,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": false,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}