{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.05714285714285714,
  "eval_steps": 500,
  "global_step": 50,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.671875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1734.0,
      "completions/mean_length": 1702.03125,
      "completions/mean_terminated_length": 993.6190795898438,
      "completions/min_length": 483.0,
      "completions/min_terminated_length": 483.0,
      "epoch": 0.001142857142857143,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.28377610445022583,
      "learning_rate": 0.0,
      "loss": -0.0,
      "num_tokens": 118418.0,
      "reward": -0.09800112247467041,
      "reward_std": 0.3028089702129364,
      "rewards/cosine_scaled_reward/mean": -0.09800112992525101,
      "rewards/cosine_scaled_reward/std": 0.37953105568885803,
      "step": 1
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.71875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1894.0,
      "completions/mean_length": 1738.90625,
      "completions/mean_terminated_length": 949.0,
      "completions/min_length": 435.0,
      "completions/min_terminated_length": 435.0,
      "epoch": 0.002285714285714286,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.24221572279930115,
      "learning_rate": 2e-08,
      "loss": -0.0,
      "num_tokens": 239748.0,
      "reward": 0.020556632429361343,
      "reward_std": 0.3545936942100525,
      "rewards/cosine_scaled_reward/mean": 0.020556632429361343,
      "rewards/cosine_scaled_reward/std": 0.4492928683757782,
      "step": 2
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1542.0,
      "completions/mean_length": 1964.078125,
      "completions/mean_terminated_length": 973.7999877929688,
      "completions/min_length": 733.0,
      "completions/min_terminated_length": 733.0,
      "epoch": 0.0034285714285714284,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.2472974807024002,
      "learning_rate": 4e-08,
      "loss": 0.0,
      "num_tokens": 375921.0,
      "reward": -0.20954538881778717,
      "reward_std": 0.13813795149326324,
      "rewards/cosine_scaled_reward/mean": -0.20954540371894836,
      "rewards/cosine_scaled_reward/std": 0.16814909875392914,
      "step": 3
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.484375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2010.0,
      "completions/mean_length": 1555.6875,
      "completions/mean_terminated_length": 1093.212158203125,
      "completions/min_length": 502.0,
      "completions/min_terminated_length": 502.0,
      "epoch": 0.004571428571428572,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.2868657112121582,
      "learning_rate": 6e-08,
      "loss": -0.0,
      "num_tokens": 485293.0,
      "reward": -0.12192361056804657,
      "reward_std": 0.31710442900657654,
      "rewards/cosine_scaled_reward/mean": -0.12192361056804657,
      "rewards/cosine_scaled_reward/std": 0.35428565740585327,
      "step": 4
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1758.0,
      "completions/mean_length": 1958.5625,
      "completions/mean_terminated_length": 1332.5,
      "completions/min_length": 932.0,
      "completions/min_terminated_length": 932.0,
      "epoch": 0.005714285714285714,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.2460148185491562,
      "learning_rate": 8e-08,
      "loss": -0.0,
      "num_tokens": 621457.0,
      "reward": -0.21145480871200562,
      "reward_std": 0.14890719950199127,
      "rewards/cosine_scaled_reward/mean": -0.21145479381084442,
      "rewards/cosine_scaled_reward/std": 0.20399661362171173,
      "step": 5
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1670.0,
      "completions/mean_length": 1908.375,
      "completions/mean_terminated_length": 931.0,
      "completions/min_length": 593.0,
      "completions/min_terminated_length": 593.0,
      "epoch": 0.006857142857142857,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.26549720764160156,
      "learning_rate": 1e-07,
      "loss": -0.0,
      "num_tokens": 755241.0,
      "reward": -0.2408866286277771,
      "reward_std": 0.16572487354278564,
      "rewards/cosine_scaled_reward/mean": -0.2408866286277771,
      "rewards/cosine_scaled_reward/std": 0.17492830753326416,
      "step": 6
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.8125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1955.0,
      "completions/mean_length": 1889.296875,
      "completions/mean_terminated_length": 1201.5833740234375,
      "completions/min_length": 396.0,
      "completions/min_terminated_length": 396.0,
      "epoch": 0.008,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.23518230020999908,
      "learning_rate": 1.2e-07,
      "loss": 0.0,
      "num_tokens": 886564.0,
      "reward": -0.16087877750396729,
      "reward_std": 0.24579641222953796,
      "rewards/cosine_scaled_reward/mean": -0.16087877750396729,
      "rewards/cosine_scaled_reward/std": 0.37339961528778076,
      "step": 7
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.71875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1920.0,
      "completions/mean_length": 1751.578125,
      "completions/mean_terminated_length": 994.0555419921875,
      "completions/min_length": 330.0,
      "completions/min_terminated_length": 330.0,
      "epoch": 0.009142857142857144,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.2354528158903122,
      "learning_rate": 1.4e-07,
      "loss": 0.0,
      "num_tokens": 1009081.0,
      "reward": -0.023812226951122284,
      "reward_std": 0.2823081314563751,
      "rewards/cosine_scaled_reward/mean": -0.02381223440170288,
      "rewards/cosine_scaled_reward/std": 0.4484662115573883,
      "step": 8
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.9375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1889.0,
      "completions/mean_length": 2000.59375,
      "completions/mean_terminated_length": 1289.5,
      "completions/min_length": 903.0,
      "completions/min_terminated_length": 903.0,
      "epoch": 0.010285714285714285,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.24302220344543457,
      "learning_rate": 1.6e-07,
      "loss": 0.0,
      "num_tokens": 1148575.0,
      "reward": -0.2453702688217163,
      "reward_std": 0.18811637163162231,
      "rewards/cosine_scaled_reward/mean": -0.2453702688217163,
      "rewards/cosine_scaled_reward/std": 0.22203005850315094,
      "step": 9
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1739.0,
      "completions/mean_length": 1701.140625,
      "completions/mean_terminated_length": 879.631591796875,
      "completions/min_length": 484.0,
      "completions/min_terminated_length": 484.0,
      "epoch": 0.011428571428571429,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.25642141699790955,
      "learning_rate": 1.8e-07,
      "loss": -0.0,
      "num_tokens": 1268280.0,
      "reward": -0.15177705883979797,
      "reward_std": 0.2125300019979477,
      "rewards/cosine_scaled_reward/mean": -0.15177705883979797,
      "rewards/cosine_scaled_reward/std": 0.3240113854408264,
      "step": 10
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1683.0,
      "completions/mean_length": 1950.609375,
      "completions/mean_terminated_length": 1157.571533203125,
      "completions/min_length": 584.0,
      "completions/min_terminated_length": 584.0,
      "epoch": 0.012571428571428572,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.24372951686382294,
      "learning_rate": 2e-07,
      "loss": 0.0,
      "num_tokens": 1404791.0,
      "reward": -0.23502977192401886,
      "reward_std": 0.18896539509296417,
      "rewards/cosine_scaled_reward/mean": -0.23502977192401886,
      "rewards/cosine_scaled_reward/std": 0.24224351346492767,
      "step": 11
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1944.0,
      "completions/mean_length": 1751.03125,
      "completions/mean_terminated_length": 1221.6522216796875,
      "completions/min_length": 489.0,
      "completions/min_terminated_length": 489.0,
      "epoch": 0.013714285714285714,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.28422027826309204,
      "learning_rate": 2.1999999999999998e-07,
      "loss": -0.0,
      "num_tokens": 1527801.0,
      "reward": -0.14280016720294952,
      "reward_std": 0.32843896746635437,
      "rewards/cosine_scaled_reward/mean": -0.14280015230178833,
      "rewards/cosine_scaled_reward/std": 0.41895967721939087,
      "step": 12
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.75,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1793.0,
      "completions/mean_length": 1834.453125,
      "completions/mean_terminated_length": 1193.8125,
      "completions/min_length": 783.0,
      "completions/min_terminated_length": 783.0,
      "epoch": 0.014857142857142857,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.24033738672733307,
      "learning_rate": 2.4e-07,
      "loss": 0.0,
      "num_tokens": 1656246.0,
      "reward": -0.17057427763938904,
      "reward_std": 0.24429668486118317,
      "rewards/cosine_scaled_reward/mean": -0.17057427763938904,
      "rewards/cosine_scaled_reward/std": 0.27816399931907654,
      "step": 13
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1474.0,
      "completions/mean_length": 1800.65625,
      "completions/mean_terminated_length": 1116.823486328125,
      "completions/min_length": 495.0,
      "completions/min_terminated_length": 495.0,
      "epoch": 0.016,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.2312558889389038,
      "learning_rate": 2.6e-07,
      "loss": 0.0,
      "num_tokens": 1782096.0,
      "reward": -0.11817245185375214,
      "reward_std": 0.24491220712661743,
      "rewards/cosine_scaled_reward/mean": -0.11817245930433273,
      "rewards/cosine_scaled_reward/std": 0.3942086696624756,
      "step": 14
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.71875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1636.0,
      "completions/mean_length": 1692.828125,
      "completions/mean_terminated_length": 785.1666870117188,
      "completions/min_length": 438.0,
      "completions/min_terminated_length": 438.0,
      "epoch": 0.017142857142857144,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.2563658654689789,
      "learning_rate": 2.8e-07,
      "loss": -0.0,
      "num_tokens": 1901357.0,
      "reward": -0.027107469737529755,
      "reward_std": 0.1853453516960144,
      "rewards/cosine_scaled_reward/mean": -0.027107462286949158,
      "rewards/cosine_scaled_reward/std": 0.4734213352203369,
      "step": 15
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 1.0,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 0.0,
      "completions/mean_length": 2048.0,
      "completions/mean_terminated_length": 0.0,
      "completions/min_length": 2048.0,
      "completions/min_terminated_length": 0.0,
      "epoch": 0.018285714285714287,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.24149107933044434,
      "learning_rate": 3e-07,
      "loss": -0.0,
      "num_tokens": 2042869.0,
      "reward": -0.2542623281478882,
      "reward_std": 0.14302438497543335,
      "rewards/cosine_scaled_reward/mean": -0.2542623281478882,
      "rewards/cosine_scaled_reward/std": 0.160969540476799,
      "step": 16
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1827.0,
      "completions/mean_length": 1548.75,
      "completions/mean_terminated_length": 864.5925903320312,
      "completions/min_length": 357.0,
      "completions/min_terminated_length": 357.0,
      "epoch": 0.019428571428571427,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.31088724732398987,
      "learning_rate": 3.2e-07,
      "loss": 0.0,
      "num_tokens": 2152509.0,
      "reward": -0.12113451957702637,
      "reward_std": 0.284165620803833,
      "rewards/cosine_scaled_reward/mean": -0.12113452702760696,
      "rewards/cosine_scaled_reward/std": 0.4259316623210907,
      "step": 17
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.75,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1899.0,
      "completions/mean_length": 1793.03125,
      "completions/mean_terminated_length": 1028.125,
      "completions/min_length": 531.0,
      "completions/min_terminated_length": 531.0,
      "epoch": 0.02057142857142857,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.2451843023300171,
      "learning_rate": 3.4000000000000003e-07,
      "loss": 0.0,
      "num_tokens": 2277639.0,
      "reward": -0.18317042291164398,
      "reward_std": 0.20634235441684723,
      "rewards/cosine_scaled_reward/mean": -0.18317043781280518,
      "rewards/cosine_scaled_reward/std": 0.27781662344932556,
      "step": 18
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.703125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1633.0,
      "completions/mean_length": 1735.984375,
      "completions/mean_terminated_length": 997.0,
      "completions/min_length": 462.0,
      "completions/min_terminated_length": 462.0,
      "epoch": 0.021714285714285714,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.24677637219429016,
      "learning_rate": 3.6e-07,
      "loss": 0.0,
      "num_tokens": 2399998.0,
      "reward": -0.04996331408619881,
      "reward_std": 0.2841629385948181,
      "rewards/cosine_scaled_reward/mean": -0.04996330291032791,
      "rewards/cosine_scaled_reward/std": 0.4186851680278778,
      "step": 19
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1643.0,
      "completions/mean_length": 1614.890625,
      "completions/mean_terminated_length": 842.8261108398438,
      "completions/min_length": 411.0,
      "completions/min_terminated_length": 411.0,
      "epoch": 0.022857142857142857,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.2543003559112549,
      "learning_rate": 3.7999999999999996e-07,
      "loss": -0.0,
      "num_tokens": 2514703.0,
      "reward": -0.09282197058200836,
      "reward_std": 0.2568933367729187,
      "rewards/cosine_scaled_reward/mean": -0.09282197058200836,
      "rewards/cosine_scaled_reward/std": 0.4104878604412079,
      "step": 20
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.71875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1988.0,
      "completions/mean_length": 1786.734375,
      "completions/mean_terminated_length": 1119.0555419921875,
      "completions/min_length": 348.0,
      "completions/min_terminated_length": 348.0,
      "epoch": 0.024,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.3147278130054474,
      "learning_rate": 4e-07,
      "loss": 0.0,
      "num_tokens": 2639862.0,
      "reward": -0.16029146313667297,
      "reward_std": 0.2322564721107483,
      "rewards/cosine_scaled_reward/mean": -0.16029146313667297,
      "rewards/cosine_scaled_reward/std": 0.36191171407699585,
      "step": 21
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.40625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1833.0,
      "completions/mean_length": 1300.484375,
      "completions/mean_terminated_length": 789.0263061523438,
      "completions/min_length": 287.0,
      "completions/min_terminated_length": 287.0,
      "epoch": 0.025142857142857144,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.32522445917129517,
      "learning_rate": 4.1999999999999995e-07,
      "loss": 0.0,
      "num_tokens": 2732109.0,
      "reward": 0.0033364146947860718,
      "reward_std": 0.18878400325775146,
      "rewards/cosine_scaled_reward/mean": 0.0033364109694957733,
      "rewards/cosine_scaled_reward/std": 0.45390966534614563,
      "step": 22
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.59375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1920.0,
      "completions/mean_length": 1641.03125,
      "completions/mean_terminated_length": 1046.2308349609375,
      "completions/min_length": 422.0,
      "completions/min_terminated_length": 422.0,
      "epoch": 0.026285714285714287,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.28244850039482117,
      "learning_rate": 4.3999999999999997e-07,
      "loss": 0.0,
      "num_tokens": 2847927.0,
      "reward": -0.21077856421470642,
      "reward_std": 0.24399788677692413,
      "rewards/cosine_scaled_reward/mean": -0.21077856421470642,
      "rewards/cosine_scaled_reward/std": 0.2925592362880707,
      "step": 23
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.71875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1965.0,
      "completions/mean_length": 1789.59375,
      "completions/mean_terminated_length": 1129.2222900390625,
      "completions/min_length": 560.0,
      "completions/min_terminated_length": 560.0,
      "epoch": 0.027428571428571427,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.24896308779716492,
      "learning_rate": 4.6e-07,
      "loss": -0.0,
      "num_tokens": 2973389.0,
      "reward": -0.1665852814912796,
      "reward_std": 0.307574987411499,
      "rewards/cosine_scaled_reward/mean": -0.1665852665901184,
      "rewards/cosine_scaled_reward/std": 0.4072873294353485,
      "step": 24
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.65625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1851.0,
      "completions/mean_length": 1696.40625,
      "completions/mean_terminated_length": 1025.181884765625,
      "completions/min_length": 434.0,
      "completions/min_terminated_length": 434.0,
      "epoch": 0.02857142857142857,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.262716144323349,
      "learning_rate": 4.8e-07,
      "loss": 0.0,
      "num_tokens": 3092255.0,
      "reward": -0.14361324906349182,
      "reward_std": 0.3466429114341736,
      "rewards/cosine_scaled_reward/mean": -0.14361326396465302,
      "rewards/cosine_scaled_reward/std": 0.3933021128177643,
      "step": 25
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1975.0,
      "completions/mean_length": 1973.046875,
      "completions/mean_terminated_length": 1448.375,
      "completions/min_length": 1035.0,
      "completions/min_terminated_length": 1035.0,
      "epoch": 0.029714285714285714,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.2365841567516327,
      "learning_rate": 5e-07,
      "loss": -0.0,
      "num_tokens": 3229162.0,
      "reward": -0.050574399530887604,
      "reward_std": 0.22459164261817932,
      "rewards/cosine_scaled_reward/mean": -0.050574399530887604,
      "rewards/cosine_scaled_reward/std": 0.37290775775909424,
      "step": 26
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1982.0,
      "completions/mean_length": 1878.53125,
      "completions/mean_terminated_length": 1213.6923828125,
      "completions/min_length": 498.0,
      "completions/min_terminated_length": 498.0,
      "epoch": 0.030857142857142857,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.2821083068847656,
      "learning_rate": 5.2e-07,
      "loss": 0.0,
      "num_tokens": 3359676.0,
      "reward": -0.13096781075000763,
      "reward_std": 0.26249831914901733,
      "rewards/cosine_scaled_reward/mean": -0.13096781075000763,
      "rewards/cosine_scaled_reward/std": 0.3478032350540161,
      "step": 27
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.78125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1933.0,
      "completions/mean_length": 1827.453125,
      "completions/mean_terminated_length": 1039.7857666015625,
      "completions/min_length": 419.0,
      "completions/min_terminated_length": 419.0,
      "epoch": 0.032,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.2539210915565491,
      "learning_rate": 5.4e-07,
      "loss": 0.0,
      "num_tokens": 3486969.0,
      "reward": -0.11822876334190369,
      "reward_std": 0.2370690554380417,
      "rewards/cosine_scaled_reward/mean": -0.11822875589132309,
      "rewards/cosine_scaled_reward/std": 0.4236762225627899,
      "step": 28
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.9375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 2020.5,
      "completions/mean_terminated_length": 1608.0,
      "completions/min_length": 887.0,
      "completions/min_terminated_length": 887.0,
      "epoch": 0.03314285714285714,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.23259545862674713,
      "learning_rate": 5.6e-07,
      "loss": -0.0,
      "num_tokens": 3626753.0,
      "reward": -0.20220182836055756,
      "reward_std": 0.15910759568214417,
      "rewards/cosine_scaled_reward/mean": -0.20220182836055756,
      "rewards/cosine_scaled_reward/std": 0.20781411230564117,
      "step": 29
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1662.0,
      "completions/mean_length": 1903.703125,
      "completions/mean_terminated_length": 1208.45458984375,
      "completions/min_length": 961.0,
      "completions/min_terminated_length": 961.0,
      "epoch": 0.03428571428571429,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.24027252197265625,
      "learning_rate": 5.8e-07,
      "loss": 0.0,
      "num_tokens": 3759126.0,
      "reward": -0.19193249940872192,
      "reward_std": 0.24584847688674927,
      "rewards/cosine_scaled_reward/mean": -0.19193249940872192,
      "rewards/cosine_scaled_reward/std": 0.28378522396087646,
      "step": 30
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.796875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1922.0,
      "completions/mean_length": 1847.34375,
      "completions/mean_terminated_length": 1060.1539306640625,
      "completions/min_length": 311.0,
      "completions/min_terminated_length": 311.0,
      "epoch": 0.03542857142857143,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.2703397274017334,
      "learning_rate": 6e-07,
      "loss": -0.0,
      "num_tokens": 3887852.0,
      "reward": -0.25379180908203125,
      "reward_std": 0.24661941826343536,
      "rewards/cosine_scaled_reward/mean": -0.25379180908203125,
      "rewards/cosine_scaled_reward/std": 0.29188498854637146,
      "step": 31
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1995.0,
      "completions/mean_length": 1950.3125,
      "completions/mean_terminated_length": 1479.6363525390625,
      "completions/min_length": 766.0,
      "completions/min_terminated_length": 766.0,
      "epoch": 0.036571428571428574,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.21763876080513,
      "learning_rate": 6.2e-07,
      "loss": -0.0,
      "num_tokens": 4023024.0,
      "reward": -0.16017228364944458,
      "reward_std": 0.2255343496799469,
      "rewards/cosine_scaled_reward/mean": -0.16017228364944458,
      "rewards/cosine_scaled_reward/std": 0.3709539771080017,
      "step": 32
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1957.0,
      "completions/mean_length": 1996.28125,
      "completions/mean_terminated_length": 1634.25,
      "completions/min_length": 1237.0,
      "completions/min_terminated_length": 1237.0,
      "epoch": 0.037714285714285714,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.22758260369300842,
      "learning_rate": 6.4e-07,
      "loss": -0.0,
      "num_tokens": 4162002.0,
      "reward": -0.20318198204040527,
      "reward_std": 0.18396919965744019,
      "rewards/cosine_scaled_reward/mean": -0.20318198204040527,
      "rewards/cosine_scaled_reward/std": 0.34913352131843567,
      "step": 33
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1850.0,
      "completions/mean_length": 1703.265625,
      "completions/mean_terminated_length": 1230.851806640625,
      "completions/min_length": 651.0,
      "completions/min_terminated_length": 651.0,
      "epoch": 0.038857142857142854,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.31658875942230225,
      "learning_rate": 6.6e-07,
      "loss": -0.0,
      "num_tokens": 4280563.0,
      "reward": -0.05977274850010872,
      "reward_std": 0.30437377095222473,
      "rewards/cosine_scaled_reward/mean": -0.059772733598947525,
      "rewards/cosine_scaled_reward/std": 0.4424094259738922,
      "step": 34
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.8125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1846.0,
      "completions/mean_length": 1807.546875,
      "completions/mean_terminated_length": 765.5833740234375,
      "completions/min_length": 419.0,
      "completions/min_terminated_length": 419.0,
      "epoch": 0.04,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.2792847156524658,
      "learning_rate": 6.800000000000001e-07,
      "loss": -0.0,
      "num_tokens": 4407742.0,
      "reward": -0.18658886849880219,
      "reward_std": 0.2910658121109009,
      "rewards/cosine_scaled_reward/mean": -0.18658888339996338,
      "rewards/cosine_scaled_reward/std": 0.34802255034446716,
      "step": 35
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.921875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1912.0,
      "completions/mean_length": 1995.65625,
      "completions/mean_terminated_length": 1378.0,
      "completions/min_length": 1090.0,
      "completions/min_terminated_length": 1090.0,
      "epoch": 0.04114285714285714,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.23547738790512085,
      "learning_rate": 7e-07,
      "loss": 0.0,
      "num_tokens": 4546576.0,
      "reward": -0.23918019235134125,
      "reward_std": 0.19598917663097382,
      "rewards/cosine_scaled_reward/mean": -0.23918019235134125,
      "rewards/cosine_scaled_reward/std": 0.2425125539302826,
      "step": 36
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.90625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2015.0,
      "completions/mean_length": 1994.75,
      "completions/mean_terminated_length": 1480.0,
      "completions/min_length": 545.0,
      "completions/min_terminated_length": 545.0,
      "epoch": 0.04228571428571429,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.22962674498558044,
      "learning_rate": 7.2e-07,
      "loss": -0.0,
      "num_tokens": 4685264.0,
      "reward": -0.25335729122161865,
      "reward_std": 0.15323391556739807,
      "rewards/cosine_scaled_reward/mean": -0.25335729122161865,
      "rewards/cosine_scaled_reward/std": 0.17556406557559967,
      "step": 37
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.890625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1934.0,
      "completions/mean_length": 1957.484375,
      "completions/mean_terminated_length": 1220.4285888671875,
      "completions/min_length": 965.0,
      "completions/min_terminated_length": 965.0,
      "epoch": 0.04342857142857143,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.24781912565231323,
      "learning_rate": 7.4e-07,
      "loss": -0.0,
      "num_tokens": 4822255.0,
      "reward": -0.13536512851715088,
      "reward_std": 0.19208545982837677,
      "rewards/cosine_scaled_reward/mean": -0.13536511361598969,
      "rewards/cosine_scaled_reward/std": 0.30052343010902405,
      "step": 38
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.75,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1824.0,
      "completions/mean_length": 1744.421875,
      "completions/mean_terminated_length": 833.6875,
      "completions/min_length": 317.0,
      "completions/min_terminated_length": 317.0,
      "epoch": 0.044571428571428574,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.2562144994735718,
      "learning_rate": 7.599999999999999e-07,
      "loss": -0.0,
      "num_tokens": 4944682.0,
      "reward": -0.041110455989837646,
      "reward_std": 0.21381449699401855,
      "rewards/cosine_scaled_reward/mean": -0.04111045226454735,
      "rewards/cosine_scaled_reward/std": 0.35980772972106934,
      "step": 39
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 1774.359375,
      "completions/mean_terminated_length": 1017.8235473632812,
      "completions/min_length": 445.0,
      "completions/min_terminated_length": 445.0,
      "epoch": 0.045714285714285714,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.25478634238243103,
      "learning_rate": 7.799999999999999e-07,
      "loss": 0.0,
      "num_tokens": 5068313.0,
      "reward": -0.12165145576000214,
      "reward_std": 0.17204006016254425,
      "rewards/cosine_scaled_reward/mean": -0.12165144830942154,
      "rewards/cosine_scaled_reward/std": 0.4099982678890228,
      "step": 40
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.640625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1991.0,
      "completions/mean_length": 1814.375,
      "completions/mean_terminated_length": 1397.9130859375,
      "completions/min_length": 968.0,
      "completions/min_terminated_length": 968.0,
      "epoch": 0.046857142857142854,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.21750310063362122,
      "learning_rate": 8e-07,
      "loss": 0.0,
      "num_tokens": 5195585.0,
      "reward": -0.25668060779571533,
      "reward_std": 0.2832298278808594,
      "rewards/cosine_scaled_reward/mean": -0.25668060779571533,
      "rewards/cosine_scaled_reward/std": 0.3347759544849396,
      "step": 41
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.765625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1764.0,
      "completions/mean_length": 1714.59375,
      "completions/mean_terminated_length": 625.4666748046875,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.048,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.34486907720565796,
      "learning_rate": 8.199999999999999e-07,
      "loss": -0.0,
      "num_tokens": 5315679.0,
      "reward": -0.2253742218017578,
      "reward_std": 0.1778060495853424,
      "rewards/cosine_scaled_reward/mean": -0.22537420690059662,
      "rewards/cosine_scaled_reward/std": 0.19647939503192902,
      "step": 42
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1638.0,
      "completions/mean_length": 1863.78125,
      "completions/mean_terminated_length": 976.1818237304688,
      "completions/min_length": 669.0,
      "completions/min_terminated_length": 669.0,
      "epoch": 0.04914285714285714,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.23907455801963806,
      "learning_rate": 8.399999999999999e-07,
      "loss": 0.0,
      "num_tokens": 5446577.0,
      "reward": -0.1142776757478714,
      "reward_std": 0.21804723143577576,
      "rewards/cosine_scaled_reward/mean": -0.1142776757478714,
      "rewards/cosine_scaled_reward/std": 0.3637608587741852,
      "step": 43
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.75,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1920.0,
      "completions/mean_length": 1771.125,
      "completions/mean_terminated_length": 940.5,
      "completions/min_length": 344.0,
      "completions/min_terminated_length": 344.0,
      "epoch": 0.05028571428571429,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.2888188362121582,
      "learning_rate": 8.599999999999999e-07,
      "loss": 0.0,
      "num_tokens": 5570625.0,
      "reward": -0.11845305562019348,
      "reward_std": 0.2729855477809906,
      "rewards/cosine_scaled_reward/mean": -0.11845306307077408,
      "rewards/cosine_scaled_reward/std": 0.4279690086841583,
      "step": 44
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.96875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1296.0,
      "completions/mean_length": 2020.859375,
      "completions/mean_terminated_length": 1179.5,
      "completions/min_length": 1063.0,
      "completions/min_terminated_length": 1063.0,
      "epoch": 0.05142857142857143,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.2232045829296112,
      "learning_rate": 8.799999999999999e-07,
      "loss": 0.0,
      "num_tokens": 5711616.0,
      "reward": -0.1830526441335678,
      "reward_std": 0.20074567198753357,
      "rewards/cosine_scaled_reward/mean": -0.1830526441335678,
      "rewards/cosine_scaled_reward/std": 0.3221423327922821,
      "step": 45
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1121.0,
      "completions/mean_length": 1843.328125,
      "completions/mean_terminated_length": 857.1818237304688,
      "completions/min_length": 608.0,
      "completions/min_terminated_length": 608.0,
      "epoch": 0.052571428571428575,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.2569328844547272,
      "learning_rate": 9e-07,
      "loss": 0.0,
      "num_tokens": 5840757.0,
      "reward": -0.21247822046279907,
      "reward_std": 0.17188501358032227,
      "rewards/cosine_scaled_reward/mean": -0.21247822046279907,
      "rewards/cosine_scaled_reward/std": 0.183182492852211,
      "step": 46
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.734375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 1772.984375,
      "completions/mean_terminated_length": 1012.6470336914062,
      "completions/min_length": 461.0,
      "completions/min_terminated_length": 461.0,
      "epoch": 0.053714285714285714,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.2800576090812683,
      "learning_rate": 9.2e-07,
      "loss": -0.0,
      "num_tokens": 5964628.0,
      "reward": -0.1755329668521881,
      "reward_std": 0.19662824273109436,
      "rewards/cosine_scaled_reward/mean": -0.1755329668521881,
      "rewards/cosine_scaled_reward/std": 0.3987559974193573,
      "step": 47
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.71875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1949.0,
      "completions/mean_length": 1787.046875,
      "completions/mean_terminated_length": 1120.1666259765625,
      "completions/min_length": 630.0,
      "completions/min_terminated_length": 630.0,
      "epoch": 0.054857142857142854,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.2499135434627533,
      "learning_rate": 9.399999999999999e-07,
      "loss": -0.0,
      "num_tokens": 6089543.0,
      "reward": -0.07469595968723297,
      "reward_std": 0.2802818715572357,
      "rewards/cosine_scaled_reward/mean": -0.07469595968723297,
      "rewards/cosine_scaled_reward/std": 0.39331451058387756,
      "step": 48
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.578125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1818.0,
      "completions/mean_length": 1611.65625,
      "completions/mean_terminated_length": 1013.7037353515625,
      "completions/min_length": 298.0,
      "completions/min_terminated_length": 298.0,
      "epoch": 0.056,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.2976716160774231,
      "learning_rate": 9.6e-07,
      "loss": -0.0,
      "num_tokens": 6202753.0,
      "reward": -0.14219576120376587,
      "reward_std": 0.3252427875995636,
      "rewards/cosine_scaled_reward/mean": -0.14219576120376587,
      "rewards/cosine_scaled_reward/std": 0.41946855187416077,
      "step": 49
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.828125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1916.0,
      "completions/mean_length": 1826.90625,
      "completions/mean_terminated_length": 761.6364135742188,
      "completions/min_length": 341.0,
      "completions/min_terminated_length": 341.0,
      "epoch": 0.05714285714285714,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.2344626933336258,
      "learning_rate": 9.8e-07,
      "loss": -0.0,
      "num_tokens": 6330491.0,
      "reward": -0.098542720079422,
      "reward_std": 0.20483215153217316,
      "rewards/cosine_scaled_reward/mean": -0.0985427126288414,
      "rewards/cosine_scaled_reward/std": 0.396296888589859,
      "step": 50
    }
  ],
  "logging_steps": 1,
  "max_steps": 500,
  "num_input_tokens_seen": 6330491,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}