{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.1564668769716087,
  "eval_steps": 500,
  "global_step": 2500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "clip_ratio": 0.0,
      "completion_length": 337.65625,
      "epoch": 0.002523659305993691,
      "grad_norm": 1.171084490671078,
      "kl": 0.0,
      "learning_rate": 8.333333333333334e-09,
      "loss": 0.0193,
      "reward": 0.109375,
      "reward_std": 0.1923343911767006,
      "rewards/equation_reward_func": 0.109375,
      "rewards/format_reward_func": 0.0,
      "step": 2
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 368.484375,
      "epoch": 0.005047318611987382,
      "grad_norm": 1.2877529930316658,
      "kl": 0.0003355741500854492,
      "learning_rate": 1.6666666666666667e-08,
      "loss": -0.0062,
      "reward": 0.09375,
      "reward_std": 0.13466878235340118,
      "rewards/equation_reward_func": 0.078125,
      "rewards/format_reward_func": 0.015625,
      "step": 4
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 344.21875,
      "epoch": 0.007570977917981073,
      "grad_norm": 1.1716999093508522,
      "kl": 0.00030308961868286133,
      "learning_rate": 2.5e-08,
      "loss": -0.0108,
      "reward": 0.109375,
      "reward_std": 0.16591878235340118,
      "rewards/equation_reward_func": 0.109375,
      "rewards/format_reward_func": 0.0,
      "step": 6
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 380.875,
      "epoch": 0.010094637223974764,
      "grad_norm": 0.7399346503426464,
      "kl": 0.0002759695053100586,
      "learning_rate": 3.3333333333333334e-08,
      "loss": 0.0019,
      "reward": 0.09375,
      "reward_std": 0.13466878235340118,
      "rewards/equation_reward_func": 0.09375,
      "rewards/format_reward_func": 0.0,
      "step": 8
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 352.3125,
      "epoch": 0.012618296529968454,
      "grad_norm": 0.8934114744687666,
      "kl": 0.0003285408020019531,
      "learning_rate": 4.166666666666666e-08,
      "loss": 0.0594,
      "reward": 0.1875,
      "reward_std": 0.22575797885656357,
      "rewards/equation_reward_func": 0.171875,
      "rewards/format_reward_func": 0.015625,
      "step": 10
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 269.421875,
      "epoch": 0.015141955835962145,
      "grad_norm": 1.0302878137283444,
      "kl": 0.0003936290740966797,
      "learning_rate": 5e-08,
      "loss": 0.0008,
      "reward": 0.09375,
      "reward_std": 0.1875,
      "rewards/equation_reward_func": 0.09375,
      "rewards/format_reward_func": 0.0,
      "step": 12
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 378.453125,
      "epoch": 0.017665615141955835,
      "grad_norm": 0.7879737585519899,
      "kl": 0.00029653310775756836,
      "learning_rate": 5.833333333333333e-08,
      "loss": -0.0223,
      "reward": 0.09375,
      "reward_std": 0.1610843911767006,
      "rewards/equation_reward_func": 0.09375,
      "rewards/format_reward_func": 0.0,
      "step": 14
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 356.859375,
      "epoch": 0.02018927444794953,
      "grad_norm": 0.8654168187619812,
      "kl": 0.0003643631935119629,
      "learning_rate": 6.666666666666667e-08,
      "loss": 0.0081,
      "reward": 0.140625,
      "reward_std": 0.22841878235340118,
      "rewards/equation_reward_func": 0.125,
      "rewards/format_reward_func": 0.015625,
      "step": 16
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 347.90625,
      "epoch": 0.022712933753943218,
      "grad_norm": 1.3105312427030362,
      "kl": 0.0003485679626464844,
      "learning_rate": 7.5e-08,
      "loss": 0.0175,
      "reward": 0.109375,
      "reward_std": 0.1923343911767006,
      "rewards/equation_reward_func": 0.109375,
      "rewards/format_reward_func": 0.0,
      "step": 18
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 359.359375,
      "epoch": 0.025236593059936908,
      "grad_norm": 0.5681237453227688,
      "kl": 0.00028133392333984375,
      "learning_rate": 8.333333333333333e-08,
      "loss": 0.0285,
      "reward": 0.078125,
      "reward_std": 0.15625,
      "rewards/equation_reward_func": 0.078125,
      "rewards/format_reward_func": 0.0,
      "step": 20
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 296.0625,
      "epoch": 0.0277602523659306,
      "grad_norm": 1.7097240034992127,
      "kl": 0.0003827214241027832,
      "learning_rate": 9.166666666666665e-08,
      "loss": -0.0635,
      "reward": 0.25,
      "reward_std": 0.3846687823534012,
      "rewards/equation_reward_func": 0.234375,
      "rewards/format_reward_func": 0.015625,
      "step": 22
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 311.640625,
      "epoch": 0.03028391167192429,
      "grad_norm": 1.6848405437066716,
      "kl": 0.00034159421920776367,
      "learning_rate": 1e-07,
      "loss": 0.0584,
      "reward": 0.21875,
      "reward_std": 0.33183756470680237,
      "rewards/equation_reward_func": 0.21875,
      "rewards/format_reward_func": 0.0,
      "step": 24
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 345.25,
      "epoch": 0.032807570977917984,
      "grad_norm": 1.2897269603979882,
      "kl": 0.0003357529640197754,
      "learning_rate": 1.0833333333333334e-07,
      "loss": 0.0078,
      "reward": 0.15625,
      "reward_std": 0.2596687823534012,
      "rewards/equation_reward_func": 0.15625,
      "rewards/format_reward_func": 0.0,
      "step": 26
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 322.125,
      "epoch": 0.03533123028391167,
      "grad_norm": 1.0337479975528412,
      "kl": 0.00029987096786499023,
      "learning_rate": 1.1666666666666667e-07,
      "loss": 0.0589,
      "reward": 0.109375,
      "reward_std": 0.21875,
      "rewards/equation_reward_func": 0.109375,
      "rewards/format_reward_func": 0.0,
      "step": 28
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 307.734375,
      "epoch": 0.03785488958990536,
      "grad_norm": 1.355171591527078,
      "kl": 0.0003350973129272461,
      "learning_rate": 1.25e-07,
      "loss": -0.0226,
      "reward": 0.109375,
      "reward_std": 0.1923343911767006,
      "rewards/equation_reward_func": 0.109375,
      "rewards/format_reward_func": 0.0,
      "step": 30
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 296.109375,
      "epoch": 0.04037854889589906,
      "grad_norm": 1.3845420022577954,
      "kl": 0.00032711029052734375,
      "learning_rate": 1.3333333333333334e-07,
      "loss": 0.0544,
      "reward": 0.1875,
      "reward_std": 0.2957531735301018,
      "rewards/equation_reward_func": 0.171875,
      "rewards/format_reward_func": 0.015625,
      "step": 32
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 310.84375,
      "epoch": 0.04290220820189274,
      "grad_norm": 0.9027454003391845,
      "kl": 0.0003387928009033203,
      "learning_rate": 1.4166666666666665e-07,
      "loss": 0.0031,
      "reward": 0.09375,
      "reward_std": 0.13466878235340118,
      "rewards/equation_reward_func": 0.09375,
      "rewards/format_reward_func": 0.0,
      "step": 34
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 305.6875,
      "epoch": 0.045425867507886436,
      "grad_norm": 1.5720911188201967,
      "kl": 0.0003387331962585449,
      "learning_rate": 1.5e-07,
      "loss": -0.0085,
      "reward": 0.25,
      "reward_std": 0.2957531735301018,
      "rewards/equation_reward_func": 0.234375,
      "rewards/format_reward_func": 0.015625,
      "step": 36
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 315.6875,
      "epoch": 0.04794952681388013,
      "grad_norm": 1.3409249049488285,
      "kl": 0.0003229975700378418,
      "learning_rate": 1.583333333333333e-07,
      "loss": 0.0347,
      "reward": 0.1875,
      "reward_std": 0.2596687823534012,
      "rewards/equation_reward_func": 0.1875,
      "rewards/format_reward_func": 0.0,
      "step": 38
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 347.90625,
      "epoch": 0.050473186119873815,
      "grad_norm": 0.9223154768374614,
      "kl": 0.000311434268951416,
      "learning_rate": 1.6666666666666665e-07,
      "loss": -0.0256,
      "reward": 0.109375,
      "reward_std": 0.16591878235340118,
      "rewards/equation_reward_func": 0.109375,
      "rewards/format_reward_func": 0.0,
      "step": 40
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 372.3125,
      "epoch": 0.05299684542586751,
      "grad_norm": 0.7458155595322632,
      "kl": 0.00033789873123168945,
      "learning_rate": 1.75e-07,
      "loss": -0.0132,
      "reward": 0.0625,
      "reward_std": 0.125,
      "rewards/equation_reward_func": 0.0625,
      "rewards/format_reward_func": 0.0,
      "step": 42
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 311.203125,
      "epoch": 0.0555205047318612,
      "grad_norm": 1.0548146362461552,
      "kl": 0.0003477334976196289,
      "learning_rate": 1.833333333333333e-07,
      "loss": 0.0174,
      "reward": 0.0625,
      "reward_std": 0.125,
      "rewards/equation_reward_func": 0.046875,
      "rewards/format_reward_func": 0.015625,
      "step": 44
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 325.171875,
      "epoch": 0.05804416403785489,
      "grad_norm": 0.9407950114645061,
      "kl": 0.00033271312713623047,
      "learning_rate": 1.9166666666666668e-07,
      "loss": 0.0349,
      "reward": 0.140625,
      "reward_std": 0.22841878235340118,
      "rewards/equation_reward_func": 0.125,
      "rewards/format_reward_func": 0.015625,
      "step": 46
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 285.390625,
      "epoch": 0.06056782334384858,
      "grad_norm": 1.7420309172766069,
      "kl": 0.00029987096786499023,
      "learning_rate": 2e-07,
      "loss": 0.0494,
      "reward": 0.1875,
      "reward_std": 0.2957531735301018,
      "rewards/equation_reward_func": 0.1875,
      "rewards/format_reward_func": 0.0,
      "step": 48
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 322.484375,
      "epoch": 0.06309148264984227,
      "grad_norm": 1.6438158068532482,
      "kl": 0.0003173947334289551,
      "learning_rate": 2.0833333333333333e-07,
      "loss": 0.0093,
      "reward": 0.078125,
      "reward_std": 0.15625,
      "rewards/equation_reward_func": 0.078125,
      "rewards/format_reward_func": 0.0,
      "step": 50
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 287.65625,
      "epoch": 0.06561514195583597,
      "grad_norm": 1.0803070912038002,
      "kl": 0.00034546852111816406,
      "learning_rate": 2.1666666666666667e-07,
      "loss": 0.0018,
      "reward": 0.15625,
      "reward_std": 0.2596687823534012,
      "rewards/equation_reward_func": 0.140625,
      "rewards/format_reward_func": 0.015625,
      "step": 52
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 331.40625,
      "epoch": 0.06813880126182965,
      "grad_norm": 1.4042398857100893,
      "kl": 0.0003611445426940918,
      "learning_rate": 2.25e-07,
      "loss": -0.0147,
      "reward": 0.109375,
      "reward_std": 0.1923343911767006,
      "rewards/equation_reward_func": 0.109375,
      "rewards/format_reward_func": 0.0,
      "step": 54
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 333.09375,
      "epoch": 0.07066246056782334,
      "grad_norm": 1.3442512924202874,
      "kl": 0.00036275386810302734,
      "learning_rate": 2.3333333333333333e-07,
      "loss": 0.0202,
      "reward": 0.0625,
      "reward_std": 0.125,
      "rewards/equation_reward_func": 0.0625,
      "rewards/format_reward_func": 0.0,
      "step": 56
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 346.828125,
      "epoch": 0.07318611987381704,
      "grad_norm": 1.2385090580258908,
      "kl": 0.0004100799560546875,
      "learning_rate": 2.4166666666666665e-07,
      "loss": -0.0109,
      "reward": 0.140625,
      "reward_std": 0.22841878235340118,
      "rewards/equation_reward_func": 0.140625,
      "rewards/format_reward_func": 0.0,
      "step": 58
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 330.078125,
      "epoch": 0.07570977917981073,
      "grad_norm": 1.1569519086638351,
      "kl": 0.0004101991653442383,
      "learning_rate": 2.5e-07,
      "loss": 0.0621,
      "reward": 0.203125,
      "reward_std": 0.2548343911767006,
      "rewards/equation_reward_func": 0.1875,
      "rewards/format_reward_func": 0.015625,
      "step": 60
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 353.90625,
      "epoch": 0.07823343848580441,
      "grad_norm": 0.5812516214570709,
      "kl": 0.00036031007766723633,
      "learning_rate": 2.5833333333333333e-07,
      "loss": -0.0266,
      "reward": 0.078125,
      "reward_std": 0.1298343911767006,
      "rewards/equation_reward_func": 0.078125,
      "rewards/format_reward_func": 0.0,
      "step": 62
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 296.59375,
      "epoch": 0.08075709779179811,
      "grad_norm": 1.5865646400854705,
      "kl": 0.00043904781341552734,
      "learning_rate": 2.6666666666666667e-07,
      "loss": 0.0061,
      "reward": 0.109375,
      "reward_std": 0.21875,
      "rewards/equation_reward_func": 0.109375,
      "rewards/format_reward_func": 0.0,
      "step": 64
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 304.75,
      "epoch": 0.0832807570977918,
      "grad_norm": 0.6830065179918782,
      "kl": 0.0003886222839355469,
      "learning_rate": 2.75e-07,
      "loss": 0.0474,
      "reward": 0.109375,
      "reward_std": 0.1923343911767006,
      "rewards/equation_reward_func": 0.09375,
      "rewards/format_reward_func": 0.015625,
      "step": 66
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 322.15625,
      "epoch": 0.08580441640378549,
      "grad_norm": 0.5873303372617107,
      "kl": 0.000387728214263916,
      "learning_rate": 2.833333333333333e-07,
      "loss": 0.0082,
      "reward": 0.203125,
      "reward_std": 0.2645031735301018,
      "rewards/equation_reward_func": 0.203125,
      "rewards/format_reward_func": 0.0,
      "step": 68
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 276.78125,
      "epoch": 0.08832807570977919,
      "grad_norm": 1.32146062146793,
      "kl": 0.0004919767379760742,
      "learning_rate": 2.916666666666667e-07,
      "loss": 0.0398,
      "reward": 0.15625,
      "reward_std": 0.2596687823534012,
      "rewards/equation_reward_func": 0.15625,
      "rewards/format_reward_func": 0.0,
      "step": 70
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 327.578125,
      "epoch": 0.09085173501577287,
      "grad_norm": 1.4677578034558862,
      "kl": 0.0004749298095703125,
      "learning_rate": 3e-07,
      "loss": 0.0306,
      "reward": 0.09375,
      "reward_std": 0.1875,
      "rewards/equation_reward_func": 0.078125,
      "rewards/format_reward_func": 0.015625,
      "step": 72
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 286.984375,
      "epoch": 0.09337539432176656,
      "grad_norm": 0.9142735510187358,
      "kl": 0.0005527138710021973,
      "learning_rate": 3.0833333333333333e-07,
      "loss": 0.0126,
      "reward": 0.125,
      "reward_std": 0.19716878235340118,
      "rewards/equation_reward_func": 0.109375,
      "rewards/format_reward_func": 0.015625,
      "step": 74
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 318.09375,
      "epoch": 0.09589905362776026,
      "grad_norm": 1.3198844318365706,
      "kl": 0.0005106925964355469,
      "learning_rate": 3.166666666666666e-07,
      "loss": 0.0485,
      "reward": 0.1875,
      "reward_std": 0.2957531735301018,
      "rewards/equation_reward_func": 0.1875,
      "rewards/format_reward_func": 0.0,
      "step": 76
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 321.234375,
      "epoch": 0.09842271293375394,
      "grad_norm": 1.2412310867619092,
      "kl": 0.0007541179656982422,
      "learning_rate": 3.25e-07,
      "loss": 0.0228,
      "reward": 0.203125,
      "reward_std": 0.16591878235340118,
      "rewards/equation_reward_func": 0.203125,
      "rewards/format_reward_func": 0.0,
      "step": 78
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 356.03125,
      "epoch": 0.10094637223974763,
      "grad_norm": 0.5231233622810044,
      "kl": 0.0006844401359558105,
      "learning_rate": 3.333333333333333e-07,
      "loss": 0.0055,
      "reward": 0.140625,
      "reward_std": 0.22841878235340118,
      "rewards/equation_reward_func": 0.140625,
      "rewards/format_reward_func": 0.0,
      "step": 80
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 316.984375,
      "epoch": 0.10347003154574133,
      "grad_norm": 1.3611538667137801,
      "kl": 0.0008268356323242188,
      "learning_rate": 3.4166666666666664e-07,
      "loss": -0.0317,
      "reward": 0.171875,
      "reward_std": 0.25700797885656357,
      "rewards/equation_reward_func": 0.15625,
      "rewards/format_reward_func": 0.015625,
      "step": 82
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 292.59375,
      "epoch": 0.10599369085173502,
      "grad_norm": 0.8909533050078795,
      "kl": 0.0008627176284790039,
      "learning_rate": 3.5e-07,
      "loss": 0.0149,
      "reward": 0.09375,
      "reward_std": 0.1875,
      "rewards/equation_reward_func": 0.09375,
      "rewards/format_reward_func": 0.0,
      "step": 84
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 368.71875,
      "epoch": 0.1085173501577287,
      "grad_norm": 0.5683288666492531,
      "kl": 0.0009765625,
      "learning_rate": 3.583333333333333e-07,
      "loss": 0.0274,
      "reward": 0.09375,
      "reward_std": 0.13466878235340118,
      "rewards/equation_reward_func": 0.09375,
      "rewards/format_reward_func": 0.0,
      "step": 86
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 309.140625,
      "epoch": 0.1110410094637224,
      "grad_norm": 0.5541581072106929,
      "kl": 0.0012326240539550781,
      "learning_rate": 3.666666666666666e-07,
      "loss": 0.0196,
      "reward": 0.0625,
      "reward_std": 0.09858439117670059,
      "rewards/equation_reward_func": 0.0625,
      "rewards/format_reward_func": 0.0,
      "step": 88
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 334.75,
      "epoch": 0.11356466876971609,
      "grad_norm": 1.6074936016534724,
      "kl": 0.000962376594543457,
      "learning_rate": 3.75e-07,
      "loss": 0.0154,
      "reward": 0.15625,
      "reward_std": 0.2860843911767006,
      "rewards/equation_reward_func": 0.15625,
      "rewards/format_reward_func": 0.0,
      "step": 90
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 296.875,
      "epoch": 0.11608832807570978,
      "grad_norm": 1.4650105935695117,
      "kl": 0.0016002655029296875,
      "learning_rate": 3.8333333333333335e-07,
      "loss": -0.0333,
      "reward": 0.203125,
      "reward_std": 0.2909187823534012,
      "rewards/equation_reward_func": 0.171875,
      "rewards/format_reward_func": 0.03125,
      "step": 92
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 263.5,
      "epoch": 0.11861198738170348,
      "grad_norm": 0.9088818349309317,
      "kl": 0.0020618438720703125,
      "learning_rate": 3.9166666666666664e-07,
      "loss": 0.0369,
      "reward": 0.09375,
      "reward_std": 0.1875,
      "rewards/equation_reward_func": 0.09375,
      "rewards/format_reward_func": 0.0,
      "step": 94
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 304.65625,
      "epoch": 0.12113564668769716,
      "grad_norm": 1.3521203791225198,
      "kl": 0.0018575191497802734,
      "learning_rate": 4e-07,
      "loss": 0.0725,
      "reward": 0.203125,
      "reward_std": 0.2909187823534012,
      "rewards/equation_reward_func": 0.203125,
      "rewards/format_reward_func": 0.0,
      "step": 96
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 335.28125,
      "epoch": 0.12365930599369085,
      "grad_norm": 1.3114412229746055,
      "kl": 0.0019083023071289062,
      "learning_rate": 4.083333333333333e-07,
      "loss": 0.0603,
      "reward": 0.1875,
      "reward_std": 0.2860843911767006,
      "rewards/equation_reward_func": 0.1875,
      "rewards/format_reward_func": 0.0,
      "step": 98
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 306.34375,
      "epoch": 0.12618296529968454,
      "grad_norm": 1.6285158385004537,
      "kl": 0.002373933792114258,
      "learning_rate": 4.1666666666666667e-07,
      "loss": 0.0569,
      "reward": 0.21875,
      "reward_std": 0.2957531735301018,
      "rewards/equation_reward_func": 0.1875,
      "rewards/format_reward_func": 0.03125,
      "step": 100
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 323.09375,
      "epoch": 0.12870662460567822,
      "grad_norm": 1.25776392323737,
      "kl": 0.0037255287170410156,
      "learning_rate": 4.2499999999999995e-07,
      "loss": -0.0056,
      "reward": 0.21875,
      "reward_std": 0.3582531735301018,
      "rewards/equation_reward_func": 0.203125,
      "rewards/format_reward_func": 0.015625,
      "step": 102
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 272.21875,
      "epoch": 0.13123028391167194,
      "grad_norm": 1.1463270364242302,
      "kl": 0.003769397735595703,
      "learning_rate": 4.3333333333333335e-07,
      "loss": 0.0163,
      "reward": 0.140625,
      "reward_std": 0.24733919650316238,
      "rewards/equation_reward_func": 0.109375,
      "rewards/format_reward_func": 0.03125,
      "step": 104
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 327.421875,
      "epoch": 0.13375394321766562,
      "grad_norm": 1.1401470206635906,
      "kl": 0.004462718963623047,
      "learning_rate": 4.4166666666666664e-07,
      "loss": 0.0032,
      "reward": 0.125,
      "reward_std": 0.2235843911767006,
      "rewards/equation_reward_func": 0.125,
      "rewards/format_reward_func": 0.0,
      "step": 106
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 276.34375,
      "epoch": 0.1362776025236593,
      "grad_norm": 1.2009569397449253,
      "kl": 0.004786491394042969,
      "learning_rate": 4.5e-07,
      "loss": -0.0077,
      "reward": 0.15625,
      "reward_std": 0.23325317353010178,
      "rewards/equation_reward_func": 0.140625,
      "rewards/format_reward_func": 0.015625,
      "step": 108
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 345.0,
      "epoch": 0.138801261829653,
      "grad_norm": 1.1716959252988572,
      "kl": 0.004619598388671875,
      "learning_rate": 4.5833333333333327e-07,
      "loss": -0.017,
      "reward": 0.234375,
      "reward_std": 0.2909187823534012,
      "rewards/equation_reward_func": 0.234375,
      "rewards/format_reward_func": 0.0,
      "step": 110
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 318.921875,
      "epoch": 0.14132492113564668,
      "grad_norm": 1.4232079657853254,
      "kl": 0.005761623382568359,
      "learning_rate": 4.6666666666666666e-07,
      "loss": -0.0364,
      "reward": 0.15625,
      "reward_std": 0.2596687823534012,
      "rewards/equation_reward_func": 0.15625,
      "rewards/format_reward_func": 0.0,
      "step": 112
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 325.96875,
      "epoch": 0.14384858044164037,
      "grad_norm": 1.0529596540408306,
      "kl": 0.0063533782958984375,
      "learning_rate": 4.7499999999999995e-07,
      "loss": -0.0124,
      "reward": 0.125,
      "reward_std": 0.2235843911767006,
      "rewards/equation_reward_func": 0.125,
      "rewards/format_reward_func": 0.0,
      "step": 114
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 266.015625,
      "epoch": 0.14637223974763408,
      "grad_norm": 0.4362812415063145,
      "kl": 0.013449668884277344,
      "learning_rate": 4.833333333333333e-07,
      "loss": -0.0036,
      "reward": 0.140625,
      "reward_std": 0.16591878235340118,
      "rewards/equation_reward_func": 0.140625,
      "rewards/format_reward_func": 0.0,
      "step": 116
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 312.15625,
      "epoch": 0.14889589905362777,
      "grad_norm": 1.4672649675310665,
      "kl": 0.009418487548828125,
      "learning_rate": 4.916666666666666e-07,
      "loss": 0.025,
      "reward": 0.203125,
      "reward_std": 0.3270031735301018,
      "rewards/equation_reward_func": 0.1875,
      "rewards/format_reward_func": 0.015625,
      "step": 118
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 348.140625,
      "epoch": 0.15141955835962145,
      "grad_norm": 1.1207390560425206,
      "kl": 0.007145881652832031,
      "learning_rate": 5e-07,
      "loss": 0.0095,
      "reward": 0.140625,
      "reward_std": 0.1923343911767006,
      "rewards/equation_reward_func": 0.140625,
      "rewards/format_reward_func": 0.0,
      "step": 120
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 292.421875,
      "epoch": 0.15394321766561514,
      "grad_norm": 1.700225840820748,
      "kl": 0.017663955688476562,
      "learning_rate": 4.999996722020723e-07,
      "loss": -0.0681,
      "reward": 0.265625,
      "reward_std": 0.39917195588350296,
      "rewards/equation_reward_func": 0.234375,
      "rewards/format_reward_func": 0.03125,
      "step": 122
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 311.234375,
      "epoch": 0.15646687697160883,
      "grad_norm": 1.2321421736535636,
      "kl": 0.015958786010742188,
      "learning_rate": 4.99998688809149e-07,
      "loss": 0.0464,
      "reward": 0.140625,
      "reward_std": 0.22092358767986298,
      "rewards/equation_reward_func": 0.09375,
      "rewards/format_reward_func": 0.046875,
      "step": 124
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 267.859375,
      "epoch": 0.1589905362776025,
      "grad_norm": 1.4320119831658082,
      "kl": 0.014665603637695312,
      "learning_rate": 4.999970498238088e-07,
      "loss": 0.026,
      "reward": 0.21875,
      "reward_std": 0.3221687823534012,
      "rewards/equation_reward_func": 0.21875,
      "rewards/format_reward_func": 0.0,
      "step": 126
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 279.53125,
      "epoch": 0.16151419558359623,
      "grad_norm": 1.9652091167148573,
      "kl": 0.0197296142578125,
      "learning_rate": 4.999947552503497e-07,
      "loss": -0.0046,
      "reward": 0.3125,
      "reward_std": 0.36792195588350296,
      "rewards/equation_reward_func": 0.296875,
      "rewards/format_reward_func": 0.015625,
      "step": 128
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 298.84375,
      "epoch": 0.1640378548895899,
      "grad_norm": 0.8442123637050445,
      "kl": 0.03823661804199219,
      "learning_rate": 4.99991805094789e-07,
      "loss": 0.0422,
      "reward": 0.21875,
      "reward_std": 0.125,
      "rewards/equation_reward_func": 0.21875,
      "rewards/format_reward_func": 0.0,
      "step": 130
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 311.890625,
      "epoch": 0.1665615141955836,
      "grad_norm": 1.7994603947927656,
      "kl": 0.0699005126953125,
      "learning_rate": 4.999881993648632e-07,
      "loss": 0.0193,
      "reward": 0.25,
      "reward_std": 0.3485843911767006,
      "rewards/equation_reward_func": 0.25,
      "rewards/format_reward_func": 0.0,
      "step": 132
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 326.90625,
      "epoch": 0.16908517350157728,
      "grad_norm": 1.3352039897736947,
      "kl": 0.04296684265136719,
      "learning_rate": 4.999839380700281e-07,
      "loss": -0.0941,
      "reward": 0.21875,
      "reward_std": 0.2957531735301018,
      "rewards/equation_reward_func": 0.21875,
      "rewards/format_reward_func": 0.0,
      "step": 134
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 345.96875,
      "epoch": 0.17160883280757097,
      "grad_norm": 1.7801551454741789,
      "kl": 0.057926177978515625,
      "learning_rate": 4.999790212214579e-07,
      "loss": -0.0711,
      "reward": 0.265625,
      "reward_std": 0.3895031735301018,
      "rewards/equation_reward_func": 0.265625,
      "rewards/format_reward_func": 0.0,
      "step": 136
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 352.734375,
      "epoch": 0.17413249211356466,
      "grad_norm": 1.6619672615761356,
      "kl": 0.0728302001953125,
      "learning_rate": 4.999734488320469e-07,
      "loss": 0.0399,
      "reward": 0.234375,
      "reward_std": 0.2909187823534012,
      "rewards/equation_reward_func": 0.234375,
      "rewards/format_reward_func": 0.0,
      "step": 138
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 309.1875,
      "epoch": 0.17665615141955837,
      "grad_norm": 2.170122699889295,
      "kl": 0.33940887451171875,
      "learning_rate": 4.99967220916408e-07,
      "loss": 0.075,
      "reward": 0.1875,
      "reward_std": 0.3485843911767006,
      "rewards/equation_reward_func": 0.140625,
      "rewards/format_reward_func": 0.046875,
      "step": 140
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 296.03125,
      "epoch": 0.17917981072555206,
      "grad_norm": 1.8989050120914037,
      "kl": 0.1423187255859375,
      "learning_rate": 4.99960337490873e-07,
      "loss": 0.0205,
      "reward": 0.265625,
      "reward_std": 0.345923587679863,
      "rewards/equation_reward_func": 0.25,
      "rewards/format_reward_func": 0.015625,
      "step": 142
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 312.671875,
      "epoch": 0.18170347003154574,
      "grad_norm": 1.4854968474161925,
      "kl": 0.0830841064453125,
      "learning_rate": 4.999527985734931e-07,
      "loss": -0.086,
      "reward": 0.328125,
      "reward_std": 0.3929808586835861,
      "rewards/equation_reward_func": 0.28125,
      "rewards/format_reward_func": 0.046875,
      "step": 144
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 299.078125,
      "epoch": 0.18422712933753943,
      "grad_norm": 1.321006244185726,
      "kl": 0.19840240478515625,
      "learning_rate": 4.999446041840381e-07,
      "loss": 0.0274,
      "reward": 0.21875,
      "reward_std": 0.3221687823534012,
      "rewards/equation_reward_func": 0.1875,
      "rewards/format_reward_func": 0.03125,
      "step": 146
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 326.578125,
      "epoch": 0.18675078864353312,
      "grad_norm": 1.4258238491910544,
      "kl": 0.2794761657714844,
      "learning_rate": 4.999357543439968e-07,
      "loss": 0.0622,
      "reward": 0.234375,
      "reward_std": 0.2909187823534012,
      "rewards/equation_reward_func": 0.21875,
      "rewards/format_reward_func": 0.015625,
      "step": 148
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 327.203125,
      "epoch": 0.1892744479495268,
      "grad_norm": 1.4988402935726441,
      "kl": 0.0955648422241211,
      "learning_rate": 4.99926249076577e-07,
      "loss": -0.0406,
      "reward": 0.28125,
      "reward_std": 0.32434237003326416,
      "rewards/equation_reward_func": 0.265625,
      "rewards/format_reward_func": 0.015625,
      "step": 150
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 294.078125,
      "epoch": 0.19179810725552052,
      "grad_norm": 2.1174385162689133,
      "kl": 0.6500816345214844,
      "learning_rate": 4.99916088406705e-07,
      "loss": 0.0268,
      "reward": 0.328125,
      "reward_std": 0.37803421169519424,
      "rewards/equation_reward_func": 0.296875,
      "rewards/format_reward_func": 0.03125,
      "step": 152
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 324.21875,
      "epoch": 0.1943217665615142,
      "grad_norm": 0.9646004450012226,
      "kl": 0.15819549560546875,
      "learning_rate": 4.999052723610261e-07,
      "loss": 0.0564,
      "reward": 0.328125,
      "reward_std": 0.27944982051849365,
      "rewards/equation_reward_func": 0.296875,
      "rewards/format_reward_func": 0.03125,
      "step": 154
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 315.78125,
      "epoch": 0.1968454258675079,
      "grad_norm": 1.2765286731268526,
      "kl": 0.1398162841796875,
      "learning_rate": 4.998938009679042e-07,
      "loss": 0.0412,
      "reward": 0.296875,
      "reward_std": 0.2909187823534012,
      "rewards/equation_reward_func": 0.28125,
      "rewards/format_reward_func": 0.015625,
      "step": 156
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 332.703125,
      "epoch": 0.19936908517350158,
      "grad_norm": 1.8241272149374221,
      "kl": 0.38307952880859375,
      "learning_rate": 4.998816742574213e-07,
      "loss": 0.0056,
      "reward": 0.390625,
      "reward_std": 0.48808756470680237,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.03125,
      "step": 158
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 341.578125,
      "epoch": 0.20189274447949526,
      "grad_norm": 1.2442982633592703,
      "kl": 0.1754302978515625,
      "learning_rate": 4.998688922613787e-07,
      "loss": 0.0104,
      "reward": 0.3125,
      "reward_std": 0.30542195588350296,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.0,
      "step": 160
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 370.109375,
      "epoch": 0.20441640378548895,
      "grad_norm": 1.3370851253999836,
      "kl": 0.33371734619140625,
      "learning_rate": 4.998554550132955e-07,
      "loss": 0.0588,
      "reward": 0.28125,
      "reward_std": 0.2957531735301018,
      "rewards/equation_reward_func": 0.28125,
      "rewards/format_reward_func": 0.0,
      "step": 162
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 311.609375,
      "epoch": 0.20694006309148266,
      "grad_norm": 1.8974114721903172,
      "kl": 0.24005508422851562,
      "learning_rate": 4.998413625484094e-07,
      "loss": 0.0271,
      "reward": 0.34375,
      "reward_std": 0.36042676120996475,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.03125,
      "step": 164
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 343.3125,
      "epoch": 0.20946372239747635,
      "grad_norm": 1.6074900439929163,
      "kl": 0.10601806640625,
      "learning_rate": 4.998266149036762e-07,
      "loss": 0.0439,
      "reward": 0.265625,
      "reward_std": 0.2645031735301018,
      "rewards/equation_reward_func": 0.25,
      "rewards/format_reward_func": 0.015625,
      "step": 166
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 298.78125,
      "epoch": 0.21198738170347003,
      "grad_norm": 1.3609316949655006,
      "kl": 0.36560821533203125,
      "learning_rate": 4.998112121177698e-07,
      "loss": -0.0072,
      "reward": 0.203125,
      "reward_std": 0.21875,
      "rewards/equation_reward_func": 0.203125,
      "rewards/format_reward_func": 0.0,
      "step": 168
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 340.40625,
      "epoch": 0.21451104100946372,
      "grad_norm": 1.9679464166741156,
      "kl": 1.1061363220214844,
      "learning_rate": 4.997951542310825e-07,
      "loss": 0.0923,
      "reward": 0.359375,
      "reward_std": 0.33667195588350296,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.0,
      "step": 170
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 347.78125,
      "epoch": 0.2170347003154574,
      "grad_norm": 1.6262547987972757,
      "kl": 0.28851318359375,
      "learning_rate": 4.997784412857239e-07,
      "loss": 0.0238,
      "reward": 0.359375,
      "reward_std": 0.435212604701519,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.046875,
      "step": 172
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 338.171875,
      "epoch": 0.2195583596214511,
      "grad_norm": 1.3853614123448368,
      "kl": 16.66516876220703,
      "learning_rate": 4.997610733255219e-07,
      "loss": 0.1212,
      "reward": 0.40625,
      "reward_std": 0.41325797885656357,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.015625,
      "step": 174
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 313.71875,
      "epoch": 0.2220820189274448,
      "grad_norm": 1.2100985960946966,
      "kl": 0.41574859619140625,
      "learning_rate": 4.997430503960219e-07,
      "loss": -0.0515,
      "reward": 0.25,
      "reward_std": 0.30542195588350296,
      "rewards/equation_reward_func": 0.21875,
      "rewards/format_reward_func": 0.03125,
      "step": 176
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 361.109375,
      "epoch": 0.2246056782334385,
      "grad_norm": 1.0452471640536898,
      "kl": 0.312957763671875,
      "learning_rate": 4.99724372544487e-07,
      "loss": 0.0141,
      "reward": 0.28125,
      "reward_std": 0.33928901702165604,
      "rewards/equation_reward_func": 0.234375,
      "rewards/format_reward_func": 0.046875,
      "step": 178
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 295.125,
      "epoch": 0.22712933753943218,
      "grad_norm": 1.8038975542644098,
      "kl": 0.18535614013671875,
      "learning_rate": 4.997050398198976e-07,
      "loss": -0.0121,
      "reward": 0.25,
      "reward_std": 0.3582531735301018,
      "rewards/equation_reward_func": 0.21875,
      "rewards/format_reward_func": 0.03125,
      "step": 180
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 318.796875,
      "epoch": 0.22965299684542587,
      "grad_norm": 1.7038376422818882,
      "kl": 0.32491302490234375,
      "learning_rate": 4.996850522729516e-07,
      "loss": 0.063,
      "reward": 0.25,
      "reward_std": 0.36792195588350296,
      "rewards/equation_reward_func": 0.21875,
      "rewards/format_reward_func": 0.03125,
      "step": 182
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 362.84375,
      "epoch": 0.23217665615141955,
      "grad_norm": 1.3571802543311957,
      "kl": 0.241943359375,
      "learning_rate": 4.996644099560641e-07,
      "loss": 0.0656,
      "reward": 0.28125,
      "reward_std": 0.3221687823534012,
      "rewards/equation_reward_func": 0.25,
      "rewards/format_reward_func": 0.03125,
      "step": 184
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 297.40625,
      "epoch": 0.23470031545741324,
      "grad_norm": 1.572137174081738,
      "kl": 0.6639633178710938,
      "learning_rate": 4.996431129233669e-07,
      "loss": 0.0528,
      "reward": 0.390625,
      "reward_std": 0.48276595771312714,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.046875,
      "step": 186
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 318.34375,
      "epoch": 0.23722397476340695,
      "grad_norm": 1.5045743620054517,
      "kl": 0.14240264892578125,
      "learning_rate": 4.996211612307092e-07,
      "loss": -0.0227,
      "reward": 0.40625,
      "reward_std": 0.43042195588350296,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.046875,
      "step": 188
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 312.375,
      "epoch": 0.23974763406940064,
      "grad_norm": 2.7535255649556385,
      "kl": 0.10751724243164062,
      "learning_rate": 4.995985549356567e-07,
      "loss": -0.0225,
      "reward": 0.375,
      "reward_std": 0.526789017021656,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.046875,
      "step": 190
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 298.921875,
      "epoch": 0.24227129337539433,
      "grad_norm": 1.550213091113747,
      "kl": 0.33382415771484375,
      "learning_rate": 4.995752940974918e-07,
      "loss": 0.0514,
      "reward": 0.390625,
      "reward_std": 0.2909187823534012,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.0625,
      "step": 192
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 334.4375,
      "epoch": 0.244794952681388,
      "grad_norm": 1.7754607891862697,
      "kl": 0.543212890625,
      "learning_rate": 4.995513787772133e-07,
      "loss": 0.0626,
      "reward": 0.3125,
      "reward_std": 0.33183756470680237,
      "rewards/equation_reward_func": 0.265625,
      "rewards/format_reward_func": 0.046875,
      "step": 194
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 319.5625,
      "epoch": 0.2473186119873817,
      "grad_norm": 1.6586627584316438,
      "kl": 0.8285064697265625,
      "learning_rate": 4.995268090375362e-07,
      "loss": 0.013,
      "reward": 0.375,
      "reward_std": 0.33183756470680237,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.046875,
      "step": 196
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 339.34375,
      "epoch": 0.24984227129337538,
      "grad_norm": 3.4904278708491225,
      "kl": 1.9189376831054688,
      "learning_rate": 4.995015849428921e-07,
      "loss": 0.0508,
      "reward": 0.3125,
      "reward_std": 0.35117512941360474,
      "rewards/equation_reward_func": 0.234375,
      "rewards/format_reward_func": 0.078125,
      "step": 198
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 306.734375,
      "epoch": 0.25236593059936907,
      "grad_norm": 1.94133773447197,
      "kl": 0.13396453857421875,
      "learning_rate": 4.994757065594279e-07,
      "loss": 0.0014,
      "reward": 0.46875,
      "reward_std": 0.39433756470680237,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.015625,
      "step": 200
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 322.609375,
      "epoch": 0.25488958990536276,
      "grad_norm": 1.2848229142331722,
      "kl": 0.16762161254882812,
      "learning_rate": 4.994491739550069e-07,
      "loss": 0.0091,
      "reward": 0.390625,
      "reward_std": 0.31025634706020355,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.046875,
      "step": 202
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 323.265625,
      "epoch": 0.25741324921135644,
      "grad_norm": 1.5140938143499685,
      "kl": 1.2470779418945312,
      "learning_rate": 4.994219871992076e-07,
      "loss": 0.0226,
      "reward": 0.421875,
      "reward_std": 0.4159187823534012,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.0625,
      "step": 204
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 276.828125,
      "epoch": 0.2599369085173502,
      "grad_norm": 2.0127538434617707,
      "kl": 0.4934234619140625,
      "learning_rate": 4.993941463633243e-07,
      "loss": -0.0173,
      "reward": 0.46875,
      "reward_std": 0.25,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.0,
      "step": 206
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 320.15625,
      "epoch": 0.26246056782334387,
      "grad_norm": 1.7164404523901218,
      "kl": 0.9445037841796875,
      "learning_rate": 4.993656515203662e-07,
      "loss": 0.0385,
      "reward": 0.28125,
      "reward_std": 0.34678421169519424,
      "rewards/equation_reward_func": 0.234375,
      "rewards/format_reward_func": 0.046875,
      "step": 208
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 309.703125,
      "epoch": 0.26498422712933756,
      "grad_norm": 12.56827393540074,
      "kl": 13.104347229003906,
      "learning_rate": 4.993365027450576e-07,
      "loss": 0.0569,
      "reward": 0.25,
      "reward_std": 0.3582531735301018,
      "rewards/equation_reward_func": 0.234375,
      "rewards/format_reward_func": 0.015625,
      "step": 210
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 330.609375,
      "epoch": 0.26750788643533124,
      "grad_norm": 1.4096207541192942,
      "kl": 1.0559463500976562,
      "learning_rate": 4.993067001138379e-07,
      "loss": 0.0923,
      "reward": 0.375,
      "reward_std": 0.33711542934179306,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.03125,
      "step": 212
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 312.015625,
      "epoch": 0.27003154574132493,
      "grad_norm": 1.8861994101755621,
      "kl": 0.5172500610351562,
      "learning_rate": 4.992762437048612e-07,
      "loss": 0.0073,
      "reward": 0.375,
      "reward_std": 0.45683756470680237,
      "rewards/equation_reward_func": 0.28125,
      "rewards/format_reward_func": 0.09375,
      "step": 214
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 330.40625,
      "epoch": 0.2725552050473186,
      "grad_norm": 1.4345703249893738,
      "kl": 0.31646728515625,
      "learning_rate": 4.992451335979955e-07,
      "loss": 0.0734,
      "reward": 0.390625,
      "reward_std": 0.36308756470680237,
      "rewards/equation_reward_func": 0.296875,
      "rewards/format_reward_func": 0.09375,
      "step": 216
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 348.015625,
      "epoch": 0.2750788643533123,
      "grad_norm": 1.433134143297928,
      "kl": 0.46826171875,
      "learning_rate": 4.992133698748237e-07,
      "loss": 0.1098,
      "reward": 0.328125,
      "reward_std": 0.345923587679863,
      "rewards/equation_reward_func": 0.265625,
      "rewards/format_reward_func": 0.0625,
      "step": 218
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 305.1875,
      "epoch": 0.277602523659306,
      "grad_norm": 1.7464623832187647,
      "kl": 0.4162750244140625,
      "learning_rate": 4.991809526186423e-07,
      "loss": 0.0242,
      "reward": 0.34375,
      "reward_std": 0.39433756470680237,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.03125,
      "step": 220
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 287.109375,
      "epoch": 0.2801261829652997,
      "grad_norm": 1.0565794439259077,
      "kl": 0.603485107421875,
      "learning_rate": 4.991478819144619e-07,
      "loss": 0.0323,
      "reward": 0.21875,
      "reward_std": 0.21211542934179306,
      "rewards/equation_reward_func": 0.1875,
      "rewards/format_reward_func": 0.03125,
      "step": 222
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 315.734375,
      "epoch": 0.28264984227129336,
      "grad_norm": 1.4659010573680145,
      "kl": 0.2569580078125,
      "learning_rate": 4.991141578490066e-07,
      "loss": 0.1163,
      "reward": 0.515625,
      "reward_std": 0.41809237003326416,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.125,
      "step": 224
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 310.578125,
      "epoch": 0.28517350157728705,
      "grad_norm": 1.9279873565522545,
      "kl": 1.672576904296875,
      "learning_rate": 4.990797805107137e-07,
      "loss": 0.1085,
      "reward": 0.296875,
      "reward_std": 0.36526115238666534,
      "rewards/equation_reward_func": 0.234375,
      "rewards/format_reward_func": 0.0625,
      "step": 226
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 294.6875,
      "epoch": 0.28769716088328073,
      "grad_norm": 1.9404456808398685,
      "kl": 0.14853668212890625,
      "learning_rate": 4.990447499897339e-07,
      "loss": 0.0952,
      "reward": 0.296875,
      "reward_std": 0.43086542934179306,
      "rewards/equation_reward_func": 0.171875,
      "rewards/format_reward_func": 0.125,
      "step": 228
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 280.46875,
      "epoch": 0.2902208201892745,
      "grad_norm": 2.2854996842155972,
      "kl": 0.491455078125,
      "learning_rate": 4.990090663779304e-07,
      "loss": 0.169,
      "reward": 0.375,
      "reward_std": 0.44536860287189484,
      "rewards/equation_reward_func": 0.28125,
      "rewards/format_reward_func": 0.09375,
      "step": 230
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 257.3125,
      "epoch": 0.29274447949526816,
      "grad_norm": 2.039074391915855,
      "kl": 0.42150115966796875,
      "learning_rate": 4.989727297688796e-07,
      "loss": 0.0478,
      "reward": 0.5,
      "reward_std": 0.5131464675068855,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.09375,
      "step": 232
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 244.9375,
      "epoch": 0.29526813880126185,
      "grad_norm": 1.608056816151915,
      "kl": 0.39083099365234375,
      "learning_rate": 4.989357402578699e-07,
      "loss": 0.1325,
      "reward": 0.46875,
      "reward_std": 0.466462604701519,
      "rewards/equation_reward_func": 0.28125,
      "rewards/format_reward_func": 0.1875,
      "step": 234
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 312.921875,
      "epoch": 0.29779179810725553,
      "grad_norm": 2.3164919290201986,
      "kl": 0.8742218017578125,
      "learning_rate": 4.98898097941902e-07,
      "loss": 0.0573,
      "reward": 0.4375,
      "reward_std": 0.44536860287189484,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.078125,
      "step": 236
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 270.875,
      "epoch": 0.3003154574132492,
      "grad_norm": 2.946250602088462,
      "kl": 2.6905670166015625,
      "learning_rate": 4.988598029196884e-07,
      "loss": 0.0192,
      "reward": 0.484375,
      "reward_std": 0.42776115238666534,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.171875,
      "step": 238
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 299.96875,
      "epoch": 0.3028391167192429,
      "grad_norm": 2.054953185055516,
      "kl": 1.639617919921875,
      "learning_rate": 4.988208552916535e-07,
      "loss": 0.1575,
      "reward": 0.484375,
      "reward_std": 0.37803421169519424,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.09375,
      "step": 240
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 291.328125,
      "epoch": 0.3053627760252366,
      "grad_norm": 2.188411481391122,
      "kl": 0.365570068359375,
      "learning_rate": 4.987812551599327e-07,
      "loss": 0.023,
      "reward": 0.640625,
      "reward_std": 0.5258057191967964,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.21875,
      "step": 242
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 252.546875,
      "epoch": 0.3078864353312303,
      "grad_norm": 2.5321352382993614,
      "kl": 0.447357177734375,
      "learning_rate": 4.987410026283729e-07,
      "loss": -0.0177,
      "reward": 0.53125,
      "reward_std": 0.45901115238666534,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.125,
      "step": 244
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 256.890625,
      "epoch": 0.31041009463722397,
      "grad_norm": 2.027028182787127,
      "kl": 0.6855926513671875,
      "learning_rate": 4.987000978025318e-07,
      "loss": 0.1136,
      "reward": 0.484375,
      "reward_std": 0.435212604701519,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.140625,
      "step": 246
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 277.046875,
      "epoch": 0.31293375394321765,
      "grad_norm": 1.9792053976583983,
      "kl": 0.9728240966796875,
      "learning_rate": 4.986585407896771e-07,
      "loss": 0.0585,
      "reward": 0.46875,
      "reward_std": 0.5311799347400665,
      "rewards/equation_reward_func": 0.265625,
      "rewards/format_reward_func": 0.203125,
      "step": 248
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 259.5,
      "epoch": 0.31545741324921134,
      "grad_norm": 2.492822087725155,
      "kl": 0.6622467041015625,
      "learning_rate": 4.986163316987876e-07,
      "loss": 0.069,
      "reward": 0.421875,
      "reward_std": 0.45417676120996475,
      "rewards/equation_reward_func": 0.296875,
      "rewards/format_reward_func": 0.125,
      "step": 250
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 282.21875,
      "epoch": 0.317981072555205,
      "grad_norm": 2.0637118757703585,
      "kl": 1.3087158203125,
      "learning_rate": 4.985734706405516e-07,
      "loss": -0.0102,
      "reward": 0.5,
      "reward_std": 0.582210972905159,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.125,
      "step": 252
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 246.453125,
      "epoch": 0.3205047318611987,
      "grad_norm": 2.876989887454038,
      "kl": 0.5418243408203125,
      "learning_rate": 4.985299577273672e-07,
      "loss": 0.2425,
      "reward": 0.671875,
      "reward_std": 0.5751592516899109,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.234375,
      "step": 254
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 268.328125,
      "epoch": 0.32302839116719245,
      "grad_norm": 3.5022087054961073,
      "kl": 0.95062255859375,
      "learning_rate": 4.984857930733419e-07,
      "loss": 0.2649,
      "reward": 0.703125,
      "reward_std": 0.7115055397152901,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.21875,
      "step": 256
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 216.03125,
      "epoch": 0.32555205047318614,
      "grad_norm": 3.1675497961760537,
      "kl": 0.95654296875,
      "learning_rate": 4.984409767942925e-07,
      "loss": 0.1248,
      "reward": 0.71875,
      "reward_std": 0.6200955435633659,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.359375,
      "step": 258
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 247.953125,
      "epoch": 0.3280757097791798,
      "grad_norm": 6.785129483960651,
      "kl": 33.281280517578125,
      "learning_rate": 4.983955090077444e-07,
      "loss": 0.2748,
      "reward": 0.53125,
      "reward_std": 0.6046528145670891,
      "rewards/equation_reward_func": 0.296875,
      "rewards/format_reward_func": 0.234375,
      "step": 260
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 295.546875,
      "epoch": 0.3305993690851735,
      "grad_norm": 2.826192017423608,
      "kl": 2.30914306640625,
      "learning_rate": 4.983493898329315e-07,
      "loss": 0.041,
      "reward": 0.5,
      "reward_std": 0.4796528145670891,
      "rewards/equation_reward_func": 0.265625,
      "rewards/format_reward_func": 0.234375,
      "step": 262
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 199.21875,
      "epoch": 0.3331230283911672,
      "grad_norm": 2.8461778840531315,
      "kl": 0.8499755859375,
      "learning_rate": 4.98302619390796e-07,
      "loss": 0.2631,
      "reward": 0.9375,
      "reward_std": 0.646884560585022,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.53125,
      "step": 264
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 213.40625,
      "epoch": 0.3356466876971609,
      "grad_norm": 4.310859843654363,
      "kl": 42.63629150390625,
      "learning_rate": 4.982551978039882e-07,
      "loss": 0.187,
      "reward": 0.765625,
      "reward_std": 0.5672117173671722,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.375,
      "step": 266
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 192.40625,
      "epoch": 0.33817034700315457,
      "grad_norm": 12457.949075780427,
      "kl": 4195.8980712890625,
      "learning_rate": 4.982071251968652e-07,
      "loss": 2.6655,
      "reward": 0.53125,
      "reward_std": 0.5404315665364265,
      "rewards/equation_reward_func": 0.234375,
      "rewards/format_reward_func": 0.296875,
      "step": 268
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 205.5625,
      "epoch": 0.34069400630914826,
      "grad_norm": 335.6979546372258,
      "kl": 63.790283203125,
      "learning_rate": 4.98158401695492e-07,
      "loss": 0.149,
      "reward": 0.5625,
      "reward_std": 0.5271624252200127,
      "rewards/equation_reward_func": 0.25,
      "rewards/format_reward_func": 0.3125,
      "step": 270
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 237.984375,
      "epoch": 0.34321766561514194,
      "grad_norm": 3.4282931931264993,
      "kl": 4.432861328125,
      "learning_rate": 4.981090274276405e-07,
      "loss": 0.2088,
      "reward": 0.765625,
      "reward_std": 0.4520031735301018,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.328125,
      "step": 272
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 217.3125,
      "epoch": 0.34574132492113563,
      "grad_norm": 9.532812126990846,
      "kl": 5.5966796875,
      "learning_rate": 4.980590025227887e-07,
      "loss": 0.1725,
      "reward": 0.6875,
      "reward_std": 0.5707420110702515,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.359375,
      "step": 274
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 208.625,
      "epoch": 0.3482649842271293,
      "grad_norm": 2.70058487796246,
      "kl": 5.02655029296875,
      "learning_rate": 4.980083271121214e-07,
      "loss": 0.1652,
      "reward": 0.828125,
      "reward_std": 0.5821583643555641,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.46875,
      "step": 276
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 198.046875,
      "epoch": 0.350788643533123,
      "grad_norm": 3.70321708589509,
      "kl": 2.010833740234375,
      "learning_rate": 4.979570013285285e-07,
      "loss": 0.2486,
      "reward": 0.859375,
      "reward_std": 0.622216522693634,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.4375,
      "step": 278
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 191.1875,
      "epoch": 0.35331230283911674,
      "grad_norm": 3.214128069473919,
      "kl": 2.08013916015625,
      "learning_rate": 4.979050253066063e-07,
      "loss": -0.0401,
      "reward": 0.765625,
      "reward_std": 0.6684220358729362,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.390625,
      "step": 280
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 191.609375,
      "epoch": 0.35583596214511043,
      "grad_norm": 4.893339609604776,
      "kl": 13.8153076171875,
      "learning_rate": 4.978523991826555e-07,
      "loss": 0.1691,
      "reward": 0.734375,
      "reward_std": 0.6120693907141685,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.390625,
      "step": 282
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 238.984375,
      "epoch": 0.3583596214511041,
      "grad_norm": 4.192041661359915,
      "kl": 4.19580078125,
      "learning_rate": 4.977991230946823e-07,
      "loss": 0.1483,
      "reward": 0.640625,
      "reward_std": 0.6196083277463913,
      "rewards/equation_reward_func": 0.21875,
      "rewards/format_reward_func": 0.421875,
      "step": 284
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 173.84375,
      "epoch": 0.3608832807570978,
      "grad_norm": 94.43453333973027,
      "kl": 49.73284912109375,
      "learning_rate": 4.97745197182397e-07,
      "loss": 0.2568,
      "reward": 0.921875,
      "reward_std": 0.6209124252200127,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.53125,
      "step": 286
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 205.84375,
      "epoch": 0.3634069400630915,
      "grad_norm": 3.031516922094809,
      "kl": 2.71270751953125,
      "learning_rate": 4.976906215872137e-07,
      "loss": 0.1191,
      "reward": 0.796875,
      "reward_std": 0.6529793068766594,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.34375,
      "step": 288
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 171.453125,
      "epoch": 0.3659305993690852,
      "grad_norm": 4.363506733780306,
      "kl": 2.81500244140625,
      "learning_rate": 4.976353964522509e-07,
      "loss": 0.0947,
      "reward": 0.8125,
      "reward_std": 0.6046090722084045,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.421875,
      "step": 290
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 165.171875,
      "epoch": 0.36845425867507886,
      "grad_norm": 3.6340952985053456,
      "kl": 55.09375,
      "learning_rate": 4.975795219223298e-07,
      "loss": 0.2355,
      "reward": 0.890625,
      "reward_std": 0.6815685033798218,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.546875,
      "step": 292
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 154.859375,
      "epoch": 0.37097791798107255,
      "grad_norm": 7.504159667674676,
      "kl": 2.24407958984375,
      "learning_rate": 4.97522998143975e-07,
      "loss": 0.1635,
      "reward": 0.9375,
      "reward_std": 0.5896624252200127,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.484375,
      "step": 294
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 179.5,
      "epoch": 0.37350157728706623,
      "grad_norm": 71.67062009091921,
      "kl": 14.12042236328125,
      "learning_rate": 4.974658252654134e-07,
      "loss": 0.2519,
      "reward": 0.796875,
      "reward_std": 0.6706393659114838,
      "rewards/equation_reward_func": 0.265625,
      "rewards/format_reward_func": 0.53125,
      "step": 296
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 220.59375,
      "epoch": 0.3760252365930599,
      "grad_norm": 470.8713101008204,
      "kl": 75.340087890625,
      "learning_rate": 4.974080034365746e-07,
      "loss": 0.2721,
      "reward": 0.78125,
      "reward_std": 0.5883583277463913,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.453125,
      "step": 298
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 183.03125,
      "epoch": 0.3785488958990536,
      "grad_norm": 3.278774525384749,
      "kl": 1.4725341796875,
      "learning_rate": 4.973495328090889e-07,
      "loss": 0.2125,
      "reward": 0.8125,
      "reward_std": 0.6803782135248184,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.46875,
      "step": 300
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 221.375,
      "epoch": 0.3810725552050473,
      "grad_norm": 2.754500489787392,
      "kl": 6.601806640625,
      "learning_rate": 4.972904135362894e-07,
      "loss": 0.1432,
      "reward": 0.8125,
      "reward_std": 0.6706304997205734,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.421875,
      "step": 302
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 140.234375,
      "epoch": 0.38359621451104103,
      "grad_norm": 4.221661381821235,
      "kl": 2.8837890625,
      "learning_rate": 4.97230645773209e-07,
      "loss": 0.134,
      "reward": 1.078125,
      "reward_std": 0.6473280340433121,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.625,
      "step": 304
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 160.796875,
      "epoch": 0.3861198738170347,
      "grad_norm": 3.6845453838225715,
      "kl": 3.644287109375,
      "learning_rate": 4.971702296765821e-07,
      "loss": 0.2321,
      "reward": 0.953125,
      "reward_std": 0.5922794863581657,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.578125,
      "step": 306
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 181.828125,
      "epoch": 0.3886435331230284,
      "grad_norm": 130.60304834796855,
      "kl": 23.138916015625,
      "learning_rate": 4.971091654048427e-07,
      "loss": 0.133,
      "reward": 1.0,
      "reward_std": 0.5861409977078438,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.515625,
      "step": 308
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 185.171875,
      "epoch": 0.3911671924290221,
      "grad_norm": 427.6375401261297,
      "kl": 43.5025634765625,
      "learning_rate": 4.970474531181245e-07,
      "loss": 0.2078,
      "reward": 1.0625,
      "reward_std": 0.5610732287168503,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.546875,
      "step": 310
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 159.1875,
      "epoch": 0.3936908517350158,
      "grad_norm": 4.017852440341388,
      "kl": 47.465087890625,
      "learning_rate": 4.96985092978261e-07,
      "loss": 0.1633,
      "reward": 1.0625,
      "reward_std": 0.6331982687115669,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.609375,
      "step": 312
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 120.296875,
      "epoch": 0.39621451104100947,
      "grad_norm": 14.153392226007906,
      "kl": 11.02587890625,
      "learning_rate": 4.969220851487844e-07,
      "loss": 0.1545,
      "reward": 1.296875,
      "reward_std": 0.599774681031704,
      "rewards/equation_reward_func": 0.640625,
      "rewards/format_reward_func": 0.65625,
      "step": 314
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 151.59375,
      "epoch": 0.39873817034700315,
      "grad_norm": 3.805076852982473,
      "kl": 4.658935546875,
      "learning_rate": 4.968584297949254e-07,
      "loss": 0.1416,
      "reward": 1.015625,
      "reward_std": 0.5447698757052422,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.609375,
      "step": 316
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 163.15625,
      "epoch": 0.40126182965299684,
      "grad_norm": 3.293598021025128,
      "kl": 4.0732421875,
      "learning_rate": 4.967941270836127e-07,
      "loss": 0.1781,
      "reward": 1.125,
      "reward_std": 0.4928782135248184,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.703125,
      "step": 318
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 191.5,
      "epoch": 0.4037854889589905,
      "grad_norm": 3.810392083448446,
      "kl": 95.2227783203125,
      "learning_rate": 4.967291771834726e-07,
      "loss": 0.2524,
      "reward": 0.875,
      "reward_std": 0.5271624252200127,
      "rewards/equation_reward_func": 0.265625,
      "rewards/format_reward_func": 0.609375,
      "step": 320
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 159.546875,
      "epoch": 0.4063091482649842,
      "grad_norm": 147.69678917013675,
      "kl": 72.1427001953125,
      "learning_rate": 4.966635802648288e-07,
      "loss": 0.2263,
      "reward": 0.921875,
      "reward_std": 0.5527174100279808,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.515625,
      "step": 322
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 154.75,
      "epoch": 0.4088328075709779,
      "grad_norm": 7.535390356476301,
      "kl": 3.5789794921875,
      "learning_rate": 4.965973364997015e-07,
      "loss": 0.1131,
      "reward": 1.078125,
      "reward_std": 0.4924347400665283,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.59375,
      "step": 324
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 134.25,
      "epoch": 0.4113564668769716,
      "grad_norm": 4.904252184821304,
      "kl": 4.38360595703125,
      "learning_rate": 4.965304460618072e-07,
      "loss": 0.0357,
      "reward": 1.03125,
      "reward_std": 0.5861409977078438,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.59375,
      "step": 326
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 152.109375,
      "epoch": 0.4138801261829653,
      "grad_norm": 29.314201747894316,
      "kl": 14.30682373046875,
      "learning_rate": 4.964629091265583e-07,
      "loss": 0.1119,
      "reward": 1.125,
      "reward_std": 0.6336943507194519,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.609375,
      "step": 328
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 120.671875,
      "epoch": 0.416403785488959,
      "grad_norm": 4.167665268515913,
      "kl": 2.73016357421875,
      "learning_rate": 4.963947258710626e-07,
      "loss": 0.1033,
      "reward": 0.953125,
      "reward_std": 0.6877596005797386,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.609375,
      "step": 330
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 153.421875,
      "epoch": 0.4189274447949527,
      "grad_norm": 4.209961679806649,
      "kl": 2.990020751953125,
      "learning_rate": 4.963258964741226e-07,
      "loss": 0.1249,
      "reward": 1.0625,
      "reward_std": 0.7106449156999588,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.625,
      "step": 332
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 158.921875,
      "epoch": 0.4214511041009464,
      "grad_norm": 3.8307042151776693,
      "kl": 3.30078125,
      "learning_rate": 4.962564211162355e-07,
      "loss": 0.15,
      "reward": 0.984375,
      "reward_std": 0.5337969958782196,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.546875,
      "step": 334
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 155.59375,
      "epoch": 0.42397476340694007,
      "grad_norm": 3.8027821428944346,
      "kl": 6.730712890625,
      "learning_rate": 4.961862999795923e-07,
      "loss": 0.1461,
      "reward": 1.109375,
      "reward_std": 0.651675209403038,
      "rewards/equation_reward_func": 0.609375,
      "rewards/format_reward_func": 0.5,
      "step": 336
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 119.0625,
      "epoch": 0.42649842271293376,
      "grad_norm": 3.3134574534863535,
      "kl": 3.82110595703125,
      "learning_rate": 4.961155332480774e-07,
      "loss": 0.1063,
      "reward": 1.140625,
      "reward_std": 0.6534753888845444,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.703125,
      "step": 338
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 119.90625,
      "epoch": 0.42902208201892744,
      "grad_norm": 4.161062060974822,
      "kl": 2.19873046875,
      "learning_rate": 4.960441211072685e-07,
      "loss": 0.0099,
      "reward": 1.078125,
      "reward_std": 0.6380326598882675,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.71875,
      "step": 340
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 179.125,
      "epoch": 0.43154574132492113,
      "grad_norm": 104.11303634015923,
      "kl": 29.25518798828125,
      "learning_rate": 4.959720637444355e-07,
      "loss": 0.3036,
      "reward": 1.125,
      "reward_std": 0.4647061675786972,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.734375,
      "step": 342
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 145.09375,
      "epoch": 0.4340694006309148,
      "grad_norm": 3.582466593672012,
      "kl": 6.268798828125,
      "learning_rate": 4.958993613485405e-07,
      "loss": 0.1601,
      "reward": 1.15625,
      "reward_std": 0.6033049747347832,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.671875,
      "step": 344
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 137.515625,
      "epoch": 0.4365930599369085,
      "grad_norm": 4.026079914916232,
      "kl": 5.339599609375,
      "learning_rate": 4.958260141102369e-07,
      "loss": 0.2304,
      "reward": 1.078125,
      "reward_std": 0.43701278418302536,
      "rewards/equation_reward_func": 0.28125,
      "rewards/format_reward_func": 0.796875,
      "step": 346
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 161.625,
      "epoch": 0.4391167192429022,
      "grad_norm": 5.813960297540068,
      "kl": 2.5555419921875,
      "learning_rate": 4.957520222218694e-07,
      "loss": 0.1832,
      "reward": 1.3125,
      "reward_std": 0.5306838527321815,
      "rewards/equation_reward_func": 0.578125,
      "rewards/format_reward_func": 0.734375,
      "step": 348
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 144.390625,
      "epoch": 0.4416403785488959,
      "grad_norm": 4.334072993074729,
      "kl": 198.3369140625,
      "learning_rate": 4.956773858774731e-07,
      "loss": 0.331,
      "reward": 1.171875,
      "reward_std": 0.5641863718628883,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.78125,
      "step": 350
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 172.765625,
      "epoch": 0.4441640378548896,
      "grad_norm": 4.735376812917744,
      "kl": 3.61083984375,
      "learning_rate": 4.956021052727731e-07,
      "loss": 0.0106,
      "reward": 1.125,
      "reward_std": 0.48358283936977386,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.734375,
      "step": 352
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 114.625,
      "epoch": 0.4466876971608833,
      "grad_norm": 4.304351944460873,
      "kl": 3.03759765625,
      "learning_rate": 4.955261806051839e-07,
      "loss": 0.1399,
      "reward": 1.234375,
      "reward_std": 0.5033638775348663,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.8125,
      "step": 354
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 125.375,
      "epoch": 0.449211356466877,
      "grad_norm": 3.332255535467464,
      "kl": 3.6981201171875,
      "learning_rate": 4.954496120738093e-07,
      "loss": 0.0842,
      "reward": 1.25,
      "reward_std": 0.3502618968486786,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.8125,
      "step": 356
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 178.046875,
      "epoch": 0.4517350157728707,
      "grad_norm": 4.279475679292662,
      "kl": 2.5435791015625,
      "learning_rate": 4.953723998794413e-07,
      "loss": 0.3215,
      "reward": 1.21875,
      "reward_std": 0.5474306792020798,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.734375,
      "step": 358
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 131.5625,
      "epoch": 0.45425867507886436,
      "grad_norm": 4.020302213411081,
      "kl": 3.2281494140625,
      "learning_rate": 4.952945442245597e-07,
      "loss": 0.1446,
      "reward": 1.21875,
      "reward_std": 0.49509554356336594,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.75,
      "step": 360
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 134.984375,
      "epoch": 0.45678233438485805,
      "grad_norm": 4.606601536181542,
      "kl": 3.9384765625,
      "learning_rate": 4.95216045313332e-07,
      "loss": 0.1601,
      "reward": 1.125,
      "reward_std": 0.6046090722084045,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.8125,
      "step": 362
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 145.109375,
      "epoch": 0.45930599369085173,
      "grad_norm": 4.87902899384733,
      "kl": 3.40771484375,
      "learning_rate": 4.951369033516127e-07,
      "loss": 0.2019,
      "reward": 1.0,
      "reward_std": 0.5122157782316208,
      "rewards/equation_reward_func": 0.28125,
      "rewards/format_reward_func": 0.71875,
      "step": 364
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 166.78125,
      "epoch": 0.4618296529968454,
      "grad_norm": 11.88189205921496,
      "kl": 9.81829833984375,
      "learning_rate": 4.950571185469418e-07,
      "loss": 0.0561,
      "reward": 1.203125,
      "reward_std": 0.4290652498602867,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.765625,
      "step": 366
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 120.140625,
      "epoch": 0.4643533123028391,
      "grad_norm": 5.556745645132908,
      "kl": 11.0987548828125,
      "learning_rate": 4.949766911085461e-07,
      "loss": 0.1689,
      "reward": 1.328125,
      "reward_std": 0.5201544463634491,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.875,
      "step": 368
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 111.890625,
      "epoch": 0.4668769716088328,
      "grad_norm": 2.871407126261726,
      "kl": 14.96533203125,
      "learning_rate": 4.948956212473369e-07,
      "loss": 0.0939,
      "reward": 1.078125,
      "reward_std": 0.4215700551867485,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.75,
      "step": 370
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 121.609375,
      "epoch": 0.4694006309148265,
      "grad_norm": 14.870630676969922,
      "kl": 7.4229736328125,
      "learning_rate": 4.948139091759108e-07,
      "loss": 0.082,
      "reward": 1.203125,
      "reward_std": 0.499886192381382,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.796875,
      "step": 372
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 130.96875,
      "epoch": 0.47192429022082016,
      "grad_norm": 4.7732420056845,
      "kl": 6.852783203125,
      "learning_rate": 4.947315551085478e-07,
      "loss": 0.1635,
      "reward": 1.203125,
      "reward_std": 0.5196583643555641,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.890625,
      "step": 374
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.328125,
      "epoch": 0.4744479495268139,
      "grad_norm": 9.662723848928199,
      "kl": 5.4532470703125,
      "learning_rate": 4.946485592612122e-07,
      "loss": 0.096,
      "reward": 1.28125,
      "reward_std": 0.466462604701519,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.84375,
      "step": 376
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 126.8125,
      "epoch": 0.4769716088328076,
      "grad_norm": 9.307811760121274,
      "kl": 10.520751953125,
      "learning_rate": 4.945649218515506e-07,
      "loss": 0.1739,
      "reward": 1.203125,
      "reward_std": 0.42776115238666534,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.78125,
      "step": 378
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.8125,
      "epoch": 0.4794952681388013,
      "grad_norm": 5.651577444491542,
      "kl": 8.065673828125,
      "learning_rate": 4.944806430988927e-07,
      "loss": 0.0386,
      "reward": 1.265625,
      "reward_std": 0.4427077993750572,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.84375,
      "step": 380
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 130.09375,
      "epoch": 0.48201892744479496,
      "grad_norm": 63.58395701166179,
      "kl": 41.634765625,
      "learning_rate": 4.943957232242494e-07,
      "loss": 0.2589,
      "reward": 0.921875,
      "reward_std": 0.4787921905517578,
      "rewards/equation_reward_func": 0.234375,
      "rewards/format_reward_func": 0.6875,
      "step": 382
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.578125,
      "epoch": 0.48454258675078865,
      "grad_norm": 5.459227637440765,
      "kl": 2.5047607421875,
      "learning_rate": 4.943101624503132e-07,
      "loss": 0.0123,
      "reward": 1.328125,
      "reward_std": 0.39167676120996475,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.921875,
      "step": 384
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 146.421875,
      "epoch": 0.48706624605678234,
      "grad_norm": 4.140598258945305,
      "kl": 2.4173583984375,
      "learning_rate": 4.942239610014575e-07,
      "loss": 0.2917,
      "reward": 1.296875,
      "reward_std": 0.4827222153544426,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.75,
      "step": 386
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.15625,
      "epoch": 0.489589905362776,
      "grad_norm": 330.8074243896087,
      "kl": 54.8470458984375,
      "learning_rate": 4.941371191037353e-07,
      "loss": 0.1183,
      "reward": 1.296875,
      "reward_std": 0.46167195588350296,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.84375,
      "step": 388
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.59375,
      "epoch": 0.4921135646687697,
      "grad_norm": 4.525501960962853,
      "kl": 2.96893310546875,
      "learning_rate": 4.940496369848794e-07,
      "loss": 0.0476,
      "reward": 1.390625,
      "reward_std": 0.4159187823534012,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.890625,
      "step": 390
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 115.4375,
      "epoch": 0.4946372239747634,
      "grad_norm": 667.6170948727762,
      "kl": 41.63427734375,
      "learning_rate": 4.939615148743017e-07,
      "loss": 0.2727,
      "reward": 1.3125,
      "reward_std": 0.5896624252200127,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.78125,
      "step": 392
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 138.96875,
      "epoch": 0.4971608832807571,
      "grad_norm": 4.359140195765792,
      "kl": 4.30859375,
      "learning_rate": 4.938727530030919e-07,
      "loss": 0.066,
      "reward": 1.203125,
      "reward_std": 0.5839585438370705,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.765625,
      "step": 394
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 127.734375,
      "epoch": 0.49968454258675077,
      "grad_norm": 16.447676606480382,
      "kl": 4.03369140625,
      "learning_rate": 4.937833516040176e-07,
      "loss": 0.1019,
      "reward": 1.15625,
      "reward_std": 0.5483001694083214,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.796875,
      "step": 396
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 138.453125,
      "epoch": 0.5022082018927445,
      "grad_norm": 7.5876690371019615,
      "kl": 4.47442626953125,
      "learning_rate": 4.936933109115238e-07,
      "loss": 0.1246,
      "reward": 1.09375,
      "reward_std": 0.5856886580586433,
      "rewards/equation_reward_func": 0.265625,
      "rewards/format_reward_func": 0.828125,
      "step": 398
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 121.65625,
      "epoch": 0.5047318611987381,
      "grad_norm": 21.920729439498707,
      "kl": 8.3997802734375,
      "learning_rate": 4.936026311617316e-07,
      "loss": 0.2292,
      "reward": 1.125,
      "reward_std": 0.48145299404859543,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.8125,
      "step": 400
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.90625,
      "epoch": 0.5072555205047319,
      "grad_norm": 6.059468962910346,
      "kl": 6.2808837890625,
      "learning_rate": 4.935113125924379e-07,
      "loss": 0.0479,
      "reward": 1.25,
      "reward_std": 0.5364577993750572,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.875,
      "step": 402
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 139.40625,
      "epoch": 0.5097791798107255,
      "grad_norm": 8.427065212663456,
      "kl": 6.943603515625,
      "learning_rate": 4.934193554431153e-07,
      "loss": 0.1844,
      "reward": 1.1875,
      "reward_std": 0.6257468163967133,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.75,
      "step": 404
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 154.640625,
      "epoch": 0.5123028391167193,
      "grad_norm": 17.576510608170533,
      "kl": 7.7135009765625,
      "learning_rate": 4.933267599549105e-07,
      "loss": 0.1655,
      "reward": 1.25,
      "reward_std": 0.4189092516899109,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.78125,
      "step": 406
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.96875,
      "epoch": 0.5148264984227129,
      "grad_norm": 36.80132398622161,
      "kl": 12.215087890625,
      "learning_rate": 4.932335263706445e-07,
      "loss": 0.0599,
      "reward": 1.40625,
      "reward_std": 0.3485843911767006,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.90625,
      "step": 408
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.0625,
      "epoch": 0.5173501577287066,
      "grad_norm": 636.9141559418763,
      "kl": 68.9818115234375,
      "learning_rate": 4.931396549348114e-07,
      "loss": 0.2686,
      "reward": 1.140625,
      "reward_std": 0.5584124252200127,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.75,
      "step": 410
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 123.40625,
      "epoch": 0.5198738170347004,
      "grad_norm": 7.914379160218628,
      "kl": 5.97998046875,
      "learning_rate": 4.930451458935783e-07,
      "loss": 0.0137,
      "reward": 1.21875,
      "reward_std": 0.3846687823534012,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.84375,
      "step": 412
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 128.421875,
      "epoch": 0.522397476340694,
      "grad_norm": 4.025128010094772,
      "kl": 2.3721923828125,
      "learning_rate": 4.929499994947838e-07,
      "loss": 0.0964,
      "reward": 1.1875,
      "reward_std": 0.5003734081983566,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.84375,
      "step": 414
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.390625,
      "epoch": 0.5249211356466877,
      "grad_norm": 12.082094847177048,
      "kl": 11.9775390625,
      "learning_rate": 4.928542159879385e-07,
      "loss": 0.0115,
      "reward": 1.421875,
      "reward_std": 0.3534187823534012,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.890625,
      "step": 416
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.109375,
      "epoch": 0.5274447949526814,
      "grad_norm": 4.662598493058066,
      "kl": 2.484375,
      "learning_rate": 4.927577956242234e-07,
      "loss": 0.148,
      "reward": 1.453125,
      "reward_std": 0.470923587679863,
      "rewards/equation_reward_func": 0.578125,
      "rewards/format_reward_func": 0.875,
      "step": 418
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 117.375,
      "epoch": 0.5299684542586751,
      "grad_norm": 28.1979634156417,
      "kl": 23.94830322265625,
      "learning_rate": 4.926607386564898e-07,
      "loss": 0.0809,
      "reward": 1.25,
      "reward_std": 0.48145299404859543,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.8125,
      "step": 420
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.703125,
      "epoch": 0.5324921135646687,
      "grad_norm": 2.933157892527621,
      "kl": 5.826904296875,
      "learning_rate": 4.92563045339258e-07,
      "loss": 0.0314,
      "reward": 1.28125,
      "reward_std": 0.41543156653642654,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.890625,
      "step": 422
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.65625,
      "epoch": 0.5350157728706625,
      "grad_norm": 5.9390651447392555,
      "kl": 2.972900390625,
      "learning_rate": 4.924647159287175e-07,
      "loss": 0.0481,
      "reward": 1.3125,
      "reward_std": 0.48760034888982773,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.859375,
      "step": 424
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 122.578125,
      "epoch": 0.5375394321766561,
      "grad_norm": 544.8601973620295,
      "kl": 67.971923828125,
      "learning_rate": 4.923657506827258e-07,
      "loss": 0.2922,
      "reward": 1.25,
      "reward_std": 0.5896624252200127,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.828125,
      "step": 426
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.765625,
      "epoch": 0.5400630914826499,
      "grad_norm": 18.87403032302049,
      "kl": 126.244384765625,
      "learning_rate": 4.922661498608076e-07,
      "loss": 0.2857,
      "reward": 1.171875,
      "reward_std": 0.4840700551867485,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.8125,
      "step": 428
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.8125,
      "epoch": 0.5425867507886435,
      "grad_norm": 10.242745329019982,
      "kl": 5.321533203125,
      "learning_rate": 4.921659137241543e-07,
      "loss": 0.0366,
      "reward": 1.515625,
      "reward_std": 0.40662340819835663,
      "rewards/equation_reward_func": 0.609375,
      "rewards/format_reward_func": 0.90625,
      "step": 430
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 131.515625,
      "epoch": 0.5451104100946372,
      "grad_norm": 113.55280888223776,
      "kl": 150.7593994140625,
      "learning_rate": 4.920650425356239e-07,
      "loss": 0.4585,
      "reward": 1.265625,
      "reward_std": 0.5223280340433121,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.796875,
      "step": 432
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.421875,
      "epoch": 0.5476340694006309,
      "grad_norm": 5.16162051899272,
      "kl": 4.4735107421875,
      "learning_rate": 4.919635365597389e-07,
      "loss": 0.0681,
      "reward": 1.375,
      "reward_std": 0.46867993474006653,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.890625,
      "step": 434
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 122.0,
      "epoch": 0.5501577287066246,
      "grad_norm": 5.406721135565538,
      "kl": 4.5252685546875,
      "learning_rate": 4.918613960626873e-07,
      "loss": 0.1325,
      "reward": 1.09375,
      "reward_std": 0.5056512728333473,
      "rewards/equation_reward_func": 0.25,
      "rewards/format_reward_func": 0.84375,
      "step": 436
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 114.390625,
      "epoch": 0.5526813880126183,
      "grad_norm": 4.091227327900836,
      "kl": 6.66455078125,
      "learning_rate": 4.917586213123202e-07,
      "loss": 0.1318,
      "reward": 1.3125,
      "reward_std": 0.41543156653642654,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.875,
      "step": 438
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.265625,
      "epoch": 0.555205047318612,
      "grad_norm": 4.017202268127584,
      "kl": 4.6875,
      "learning_rate": 4.916552125781528e-07,
      "loss": 0.0715,
      "reward": 1.15625,
      "reward_std": 0.38684237003326416,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.828125,
      "step": 440
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.84375,
      "epoch": 0.5577287066246057,
      "grad_norm": 4.52332961347215,
      "kl": 2.39208984375,
      "learning_rate": 4.915511701313622e-07,
      "loss": 0.0661,
      "reward": 1.421875,
      "reward_std": 0.47661860287189484,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.890625,
      "step": 442
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 133.078125,
      "epoch": 0.5602523659305993,
      "grad_norm": 10.904428973657152,
      "kl": 20.850830078125,
      "learning_rate": 4.914464942447876e-07,
      "loss": 0.2089,
      "reward": 1.203125,
      "reward_std": 0.44053421169519424,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.84375,
      "step": 444
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 119.3125,
      "epoch": 0.5627760252365931,
      "grad_norm": 4.855655258283161,
      "kl": 6.3759765625,
      "learning_rate": 4.913411851929294e-07,
      "loss": 0.0505,
      "reward": 1.265625,
      "reward_std": 0.4365167021751404,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.890625,
      "step": 446
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 133.578125,
      "epoch": 0.5652996845425867,
      "grad_norm": 4.461560229655493,
      "kl": 8.351318359375,
      "learning_rate": 4.912352432519484e-07,
      "loss": 0.035,
      "reward": 1.265625,
      "reward_std": 0.42776115238666534,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.8125,
      "step": 448
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 128.1875,
      "epoch": 0.5678233438485805,
      "grad_norm": 4.410963612000901,
      "kl": 4.22509765625,
      "learning_rate": 4.911286686996646e-07,
      "loss": 0.058,
      "reward": 1.171875,
      "reward_std": 0.4427077993750572,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.828125,
      "step": 450
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.84375,
      "epoch": 0.5703470031545741,
      "grad_norm": 34.544599576359644,
      "kl": 21.627685546875,
      "learning_rate": 4.910214618155579e-07,
      "loss": 0.0724,
      "reward": 1.15625,
      "reward_std": 0.40928421169519424,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.8125,
      "step": 452
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 118.484375,
      "epoch": 0.5728706624605678,
      "grad_norm": 5.959026098660733,
      "kl": 16.57421875,
      "learning_rate": 4.909136228807654e-07,
      "loss": 0.1622,
      "reward": 1.125,
      "reward_std": 0.531136192381382,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.796875,
      "step": 454
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 119.203125,
      "epoch": 0.5753943217665615,
      "grad_norm": 50.17288480203246,
      "kl": 38.7430419921875,
      "learning_rate": 4.908051521780824e-07,
      "loss": 0.2379,
      "reward": 1.328125,
      "reward_std": 0.4690796658396721,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.859375,
      "step": 456
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 115.171875,
      "epoch": 0.5779179810725552,
      "grad_norm": 8.548579669475115,
      "kl": 13.158935546875,
      "learning_rate": 4.906960499919605e-07,
      "loss": 0.0958,
      "reward": 1.265625,
      "reward_std": 0.5201544463634491,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.859375,
      "step": 458
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.421875,
      "epoch": 0.580441640378549,
      "grad_norm": 15.017058634620774,
      "kl": 13.509033203125,
      "learning_rate": 4.905863166085075e-07,
      "loss": 0.06,
      "reward": 1.15625,
      "reward_std": 0.46428901702165604,
      "rewards/equation_reward_func": 0.296875,
      "rewards/format_reward_func": 0.859375,
      "step": 460
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.6875,
      "epoch": 0.5829652996845426,
      "grad_norm": 89.47656007730855,
      "kl": 65.82421875,
      "learning_rate": 4.904759523154865e-07,
      "loss": 0.1113,
      "reward": 1.234375,
      "reward_std": 0.49553901702165604,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.796875,
      "step": 462
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 131.671875,
      "epoch": 0.5854889589905363,
      "grad_norm": 6.0553422174166425,
      "kl": 2.9161376953125,
      "learning_rate": 4.90364957402315e-07,
      "loss": 0.0154,
      "reward": 1.171875,
      "reward_std": 0.3798343911767006,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.828125,
      "step": 464
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 127.1875,
      "epoch": 0.58801261829653,
      "grad_norm": 37.7538112954273,
      "kl": 16.291748046875,
      "learning_rate": 4.90253332160064e-07,
      "loss": 0.2375,
      "reward": 1.375,
      "reward_std": 0.4603152498602867,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.859375,
      "step": 466
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.03125,
      "epoch": 0.5905362776025237,
      "grad_norm": 10.670784872023676,
      "kl": 5.327880859375,
      "learning_rate": 4.90141076881458e-07,
      "loss": -0.0165,
      "reward": 1.234375,
      "reward_std": 0.39695462584495544,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.859375,
      "step": 468
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 110.484375,
      "epoch": 0.5930599369085173,
      "grad_norm": 6.797467990163187,
      "kl": 56.48583984375,
      "learning_rate": 4.900281918608732e-07,
      "loss": 0.0768,
      "reward": 1.0625,
      "reward_std": 0.503851093351841,
      "rewards/equation_reward_func": 0.28125,
      "rewards/format_reward_func": 0.78125,
      "step": 470
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 152.484375,
      "epoch": 0.5955835962145111,
      "grad_norm": 9.806594797759518,
      "kl": 4.169189453125,
      "learning_rate": 4.899146773943373e-07,
      "loss": 0.2632,
      "reward": 1.28125,
      "reward_std": 0.6636313870549202,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.765625,
      "step": 472
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 136.046875,
      "epoch": 0.5981072555205047,
      "grad_norm": 5.906363446491516,
      "kl": 6.06103515625,
      "learning_rate": 4.898005337795291e-07,
      "loss": 0.0983,
      "reward": 1.265625,
      "reward_std": 0.6235383525490761,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.75,
      "step": 474
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 119.03125,
      "epoch": 0.6006309148264984,
      "grad_norm": 6.126585802005134,
      "kl": 1.96728515625,
      "learning_rate": 4.896857613157764e-07,
      "loss": 0.0495,
      "reward": 1.203125,
      "reward_std": 0.48804382234811783,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.859375,
      "step": 476
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.078125,
      "epoch": 0.6031545741324921,
      "grad_norm": 6.384679601664106,
      "kl": 10.121826171875,
      "learning_rate": 4.895703603040572e-07,
      "loss": 0.1229,
      "reward": 1.140625,
      "reward_std": 0.5390748605132103,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.8125,
      "step": 478
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.71875,
      "epoch": 0.6056782334384858,
      "grad_norm": 4.20426040385971,
      "kl": 3.8837890625,
      "learning_rate": 4.894543310469967e-07,
      "loss": -0.0064,
      "reward": 1.15625,
      "reward_std": 0.3542356640100479,
      "rewards/equation_reward_func": 0.28125,
      "rewards/format_reward_func": 0.875,
      "step": 480
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 118.84375,
      "epoch": 0.6082018927444794,
      "grad_norm": 9.609287651434984,
      "kl": 7.7249755859375,
      "learning_rate": 4.893376738488685e-07,
      "loss": 0.1113,
      "reward": 1.203125,
      "reward_std": 0.5487436428666115,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.78125,
      "step": 482
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 131.9375,
      "epoch": 0.6107255520504732,
      "grad_norm": 8.747018525934514,
      "kl": 4.73834228515625,
      "learning_rate": 4.892203890155923e-07,
      "loss": 0.225,
      "reward": 1.03125,
      "reward_std": 0.37319982051849365,
      "rewards/equation_reward_func": 0.21875,
      "rewards/format_reward_func": 0.8125,
      "step": 484
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 125.796875,
      "epoch": 0.6132492113564669,
      "grad_norm": 18.9188625800322,
      "kl": 8.4736328125,
      "learning_rate": 4.891024768547337e-07,
      "loss": 0.1991,
      "reward": 1.203125,
      "reward_std": 0.5412921905517578,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.828125,
      "step": 486
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 157.1875,
      "epoch": 0.6157728706624606,
      "grad_norm": 52.80851330228742,
      "kl": 20.53955078125,
      "learning_rate": 4.88983937675504e-07,
      "loss": 0.2793,
      "reward": 1.375,
      "reward_std": 0.43217839300632477,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.84375,
      "step": 488
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.890625,
      "epoch": 0.6182965299684543,
      "grad_norm": 8.552700030213131,
      "kl": 10.727294921875,
      "learning_rate": 4.888647717887581e-07,
      "loss": 0.1395,
      "reward": 1.21875,
      "reward_std": 0.5672205835580826,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.75,
      "step": 490
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.96875,
      "epoch": 0.6208201892744479,
      "grad_norm": 13.045612757315473,
      "kl": 7.78466796875,
      "learning_rate": 4.887449795069948e-07,
      "loss": 0.1183,
      "reward": 1.328125,
      "reward_std": 0.5298232287168503,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.828125,
      "step": 492
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 125.6875,
      "epoch": 0.6233438485804417,
      "grad_norm": 23.00922897801593,
      "kl": 16.7470703125,
      "learning_rate": 4.886245611443554e-07,
      "loss": 0.2046,
      "reward": 1.3125,
      "reward_std": 0.528962604701519,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.828125,
      "step": 494
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 163.0625,
      "epoch": 0.6258675078864353,
      "grad_norm": 5.232025374909582,
      "kl": 17.260986328125,
      "learning_rate": 4.885035170166228e-07,
      "loss": 0.2515,
      "reward": 1.203125,
      "reward_std": 0.45635034888982773,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.796875,
      "step": 496
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 137.578125,
      "epoch": 0.628391167192429,
      "grad_norm": 6.304720497895314,
      "kl": 213.513671875,
      "learning_rate": 4.883818474412213e-07,
      "loss": 0.4843,
      "reward": 1.03125,
      "reward_std": 0.5249888375401497,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.71875,
      "step": 498
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.484375,
      "epoch": 0.6309148264984227,
      "grad_norm": 11.742894410831365,
      "kl": 6.32666015625,
      "learning_rate": 4.882595527372152e-07,
      "loss": 0.1395,
      "reward": 1.328125,
      "reward_std": 0.3854856640100479,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.9375,
      "step": 500
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 78.265625,
      "epoch": 0.6334384858044164,
      "grad_norm": 121.22439192577355,
      "kl": 44.775390625,
      "learning_rate": 4.881366332253081e-07,
      "loss": 0.0546,
      "reward": 1.328125,
      "reward_std": 0.40662340819835663,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.890625,
      "step": 502
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 134.34375,
      "epoch": 0.63596214511041,
      "grad_norm": 10.675333401838524,
      "kl": 8.9013671875,
      "learning_rate": 4.880130892278419e-07,
      "loss": 0.088,
      "reward": 1.1875,
      "reward_std": 0.4549936428666115,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.8125,
      "step": 504
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 120.671875,
      "epoch": 0.6384858044164038,
      "grad_norm": 16.62754849724564,
      "kl": 12.48486328125,
      "learning_rate": 4.878889210687965e-07,
      "loss": 0.186,
      "reward": 1.25,
      "reward_std": 0.502173587679863,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.796875,
      "step": 506
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.640625,
      "epoch": 0.6410094637223974,
      "grad_norm": 7.51989420859679,
      "kl": 7.0162353515625,
      "learning_rate": 4.877641290737883e-07,
      "loss": 0.0556,
      "reward": 1.125,
      "reward_std": 0.589289017021656,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.78125,
      "step": 508
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 145.15625,
      "epoch": 0.6435331230283912,
      "grad_norm": 14.415413467198436,
      "kl": 39.1435546875,
      "learning_rate": 4.8763871357007e-07,
      "loss": 0.2121,
      "reward": 1.15625,
      "reward_std": 0.5025907382369041,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.765625,
      "step": 510
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.6875,
      "epoch": 0.6460567823343849,
      "grad_norm": 7.640395534292449,
      "kl": 6.968017578125,
      "learning_rate": 4.875126748865289e-07,
      "loss": -0.0363,
      "reward": 1.203125,
      "reward_std": 0.37053901702165604,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.828125,
      "step": 512
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 132.953125,
      "epoch": 0.6485804416403785,
      "grad_norm": 23658.02130182125,
      "kl": 3092.73876953125,
      "learning_rate": 4.873860133536869e-07,
      "loss": 9.4191,
      "reward": 1.265625,
      "reward_std": 0.3304808586835861,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.890625,
      "step": 514
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.25,
      "epoch": 0.6511041009463723,
      "grad_norm": 5.041765637984377,
      "kl": 3.7373046875,
      "learning_rate": 4.872587293036991e-07,
      "loss": 0.0466,
      "reward": 1.171875,
      "reward_std": 0.4175962880253792,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.828125,
      "step": 516
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 128.5625,
      "epoch": 0.6536277602523659,
      "grad_norm": 8.341738400782827,
      "kl": 6.843994140625,
      "learning_rate": 4.871308230703528e-07,
      "loss": 0.0857,
      "reward": 1.328125,
      "reward_std": 0.5430923700332642,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.828125,
      "step": 518
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 119.53125,
      "epoch": 0.6561514195583596,
      "grad_norm": 9.479399980627228,
      "kl": 12.0594482421875,
      "learning_rate": 4.870022949890676e-07,
      "loss": 0.142,
      "reward": 1.234375,
      "reward_std": 0.4554808586835861,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.8125,
      "step": 520
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 120.203125,
      "epoch": 0.6586750788643533,
      "grad_norm": 12.704975888041277,
      "kl": 8.595947265625,
      "learning_rate": 4.868731453968932e-07,
      "loss": 0.1722,
      "reward": 1.3125,
      "reward_std": 0.47178421169519424,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.890625,
      "step": 522
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 159.09375,
      "epoch": 0.661198738170347,
      "grad_norm": 6.726954164218104,
      "kl": 4.6334228515625,
      "learning_rate": 4.867433746325093e-07,
      "loss": 0.0915,
      "reward": 1.25,
      "reward_std": 0.5535780340433121,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.8125,
      "step": 524
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 111.4375,
      "epoch": 0.6637223974763407,
      "grad_norm": 7.710334995222449,
      "kl": 4.094970703125,
      "learning_rate": 4.866129830362246e-07,
      "loss": -0.0169,
      "reward": 1.125,
      "reward_std": 0.44536860287189484,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.796875,
      "step": 526
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 124.0625,
      "epoch": 0.6662460567823344,
      "grad_norm": 10.316353863071583,
      "kl": 1.6004638671875,
      "learning_rate": 4.864819709499761e-07,
      "loss": 0.1031,
      "reward": 1.328125,
      "reward_std": 0.5091815665364265,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.859375,
      "step": 528
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 165.21875,
      "epoch": 0.668769716088328,
      "grad_norm": 5.5296665400049205,
      "kl": 3.120361328125,
      "learning_rate": 4.863503387173275e-07,
      "loss": 0.1211,
      "reward": 1.234375,
      "reward_std": 0.37451278418302536,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.796875,
      "step": 530
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 121.984375,
      "epoch": 0.6712933753943218,
      "grad_norm": 9.542657046236698,
      "kl": 7.350341796875,
      "learning_rate": 4.86218086683469e-07,
      "loss": 0.0972,
      "reward": 1.265625,
      "reward_std": 0.36308756470680237,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.921875,
      "step": 532
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 115.125,
      "epoch": 0.6738170347003155,
      "grad_norm": 19.90929515418447,
      "kl": 21.5050048828125,
      "learning_rate": 4.860852151952163e-07,
      "loss": 0.0842,
      "reward": 1.21875,
      "reward_std": 0.45151595771312714,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.90625,
      "step": 534
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 144.046875,
      "epoch": 0.6763406940063091,
      "grad_norm": 2.7831277562438115,
      "kl": 5.219970703125,
      "learning_rate": 4.85951724601009e-07,
      "loss": 0.0603,
      "reward": 1.34375,
      "reward_std": 0.330037385225296,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.828125,
      "step": 536
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 127.859375,
      "epoch": 0.6788643533123029,
      "grad_norm": 5.397922403710664,
      "kl": 25.4464111328125,
      "learning_rate": 4.858176152509111e-07,
      "loss": 0.0741,
      "reward": 1.125,
      "reward_std": 0.6270509138703346,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.8125,
      "step": 538
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 115.21875,
      "epoch": 0.6813880126182965,
      "grad_norm": 7.644325368964507,
      "kl": 5.6524658203125,
      "learning_rate": 4.856828874966086e-07,
      "loss": 0.1307,
      "reward": 1.1875,
      "reward_std": 0.5672205835580826,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.796875,
      "step": 540
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.890625,
      "epoch": 0.6839116719242903,
      "grad_norm": 16.69282403927537,
      "kl": 9.332763671875,
      "learning_rate": 4.855475416914091e-07,
      "loss": 0.0902,
      "reward": 1.234375,
      "reward_std": 0.472601093351841,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.875,
      "step": 542
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 161.015625,
      "epoch": 0.6864353312302839,
      "grad_norm": 6.988583029654824,
      "kl": 30.544189453125,
      "learning_rate": 4.854115781902414e-07,
      "loss": 0.0531,
      "reward": 1.3125,
      "reward_std": 0.46379293501377106,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.828125,
      "step": 544
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.3125,
      "epoch": 0.6889589905362776,
      "grad_norm": 6.331419966738942,
      "kl": 16.0244140625,
      "learning_rate": 4.852749973496538e-07,
      "loss": 0.0676,
      "reward": 1.21875,
      "reward_std": 0.5117986276745796,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.828125,
      "step": 546
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.703125,
      "epoch": 0.6914826498422713,
      "grad_norm": 6.122115033690359,
      "kl": 9.8857421875,
      "learning_rate": 4.851377995278138e-07,
      "loss": 0.0468,
      "reward": 1.40625,
      "reward_std": 0.5382579788565636,
      "rewards/equation_reward_func": 0.625,
      "rewards/format_reward_func": 0.78125,
      "step": 548
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 141.3125,
      "epoch": 0.694006309148265,
      "grad_norm": 13.689468522034282,
      "kl": 27.12890625,
      "learning_rate": 4.849999850845065e-07,
      "loss": 0.0633,
      "reward": 1.171875,
      "reward_std": 0.37053901702165604,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.8125,
      "step": 550
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 133.03125,
      "epoch": 0.6965299684542586,
      "grad_norm": 18.466938495036228,
      "kl": 38.34539794921875,
      "learning_rate": 4.848615543811344e-07,
      "loss": 0.2098,
      "reward": 1.140625,
      "reward_std": 0.5148328393697739,
      "rewards/equation_reward_func": 0.296875,
      "rewards/format_reward_func": 0.84375,
      "step": 552
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 127.25,
      "epoch": 0.6990536277602524,
      "grad_norm": 16.104807650824867,
      "kl": 16.9422607421875,
      "learning_rate": 4.847225077807159e-07,
      "loss": 0.1073,
      "reward": 1.296875,
      "reward_std": 0.42558756470680237,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.90625,
      "step": 554
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 129.328125,
      "epoch": 0.701577287066246,
      "grad_norm": 9.293811568324129,
      "kl": 2.2156982421875,
      "learning_rate": 4.845828456478842e-07,
      "loss": 0.11,
      "reward": 1.4375,
      "reward_std": 0.5100421905517578,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.9375,
      "step": 556
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 159.40625,
      "epoch": 0.7041009463722397,
      "grad_norm": 8.947972341172315,
      "kl": 30.9730224609375,
      "learning_rate": 4.844425683488873e-07,
      "loss": 0.2195,
      "reward": 1.359375,
      "reward_std": 0.41809237003326416,
      "rewards/equation_reward_func": 0.578125,
      "rewards/format_reward_func": 0.78125,
      "step": 558
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 148.03125,
      "epoch": 0.7066246056782335,
      "grad_norm": 122.06063426517738,
      "kl": 72.4952392578125,
      "learning_rate": 4.843016762515859e-07,
      "loss": 0.2944,
      "reward": 1.15625,
      "reward_std": 0.5192938223481178,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.765625,
      "step": 560
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 141.609375,
      "epoch": 0.7091482649842271,
      "grad_norm": 18.270194914770148,
      "kl": 40.152587890625,
      "learning_rate": 4.841601697254531e-07,
      "loss": 0.2688,
      "reward": 1.234375,
      "reward_std": 0.49553901702165604,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.796875,
      "step": 562
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 133.453125,
      "epoch": 0.7116719242902209,
      "grad_norm": 55.031369941761945,
      "kl": 64.164794921875,
      "learning_rate": 4.840180491415733e-07,
      "loss": 0.0514,
      "reward": 1.078125,
      "reward_std": 0.4576544463634491,
      "rewards/equation_reward_func": 0.25,
      "rewards/format_reward_func": 0.828125,
      "step": 564
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 129.34375,
      "epoch": 0.7141955835962145,
      "grad_norm": 10.12928631533344,
      "kl": 11.064208984375,
      "learning_rate": 4.838753148726411e-07,
      "loss": 0.0928,
      "reward": 1.25,
      "reward_std": 0.439673587679863,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.859375,
      "step": 566
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 183.859375,
      "epoch": 0.7167192429022082,
      "grad_norm": 11.582078426099285,
      "kl": 9.43896484375,
      "learning_rate": 4.837319672929606e-07,
      "loss": 0.0746,
      "reward": 1.234375,
      "reward_std": 0.5390748605132103,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.765625,
      "step": 568
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 135.03125,
      "epoch": 0.7192429022082019,
      "grad_norm": 363.0100959050977,
      "kl": 245.464599609375,
      "learning_rate": 4.835880067784441e-07,
      "loss": 0.5915,
      "reward": 1.4375,
      "reward_std": 0.5174936428666115,
      "rewards/equation_reward_func": 0.625,
      "rewards/format_reward_func": 0.8125,
      "step": 570
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 115.875,
      "epoch": 0.7217665615141956,
      "grad_norm": 68.20079277744495,
      "kl": 48.98828125,
      "learning_rate": 4.834434337066111e-07,
      "loss": 0.2713,
      "reward": 1.34375,
      "reward_std": 0.5439092516899109,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.796875,
      "step": 572
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 114.453125,
      "epoch": 0.7242902208201892,
      "grad_norm": 13.001331212768827,
      "kl": 13.51336669921875,
      "learning_rate": 4.832982484565878e-07,
      "loss": 0.0213,
      "reward": 1.265625,
      "reward_std": 0.4616282135248184,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.875,
      "step": 574
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 130.515625,
      "epoch": 0.726813880126183,
      "grad_norm": 25.243101622834665,
      "kl": 9.338623046875,
      "learning_rate": 4.831524514091056e-07,
      "loss": 0.1279,
      "reward": 1.203125,
      "reward_std": 0.5179808586835861,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.796875,
      "step": 576
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 128.625,
      "epoch": 0.7293375394321766,
      "grad_norm": 7.25525362638753,
      "kl": 12.9561767578125,
      "learning_rate": 4.830060429465001e-07,
      "loss": 0.0803,
      "reward": 1.375,
      "reward_std": 0.36042676120996475,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 578
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 137.671875,
      "epoch": 0.7318611987381703,
      "grad_norm": 206.66812355571943,
      "kl": 76.22607421875,
      "learning_rate": 4.828590234527106e-07,
      "loss": 0.2293,
      "reward": 1.234375,
      "reward_std": 0.5716815665364265,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.84375,
      "step": 580
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 122.78125,
      "epoch": 0.7343848580441641,
      "grad_norm": 4765.1452819803235,
      "kl": 676.921875,
      "learning_rate": 4.827113933132784e-07,
      "loss": 1.3785,
      "reward": 1.21875,
      "reward_std": 0.4052667021751404,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.875,
      "step": 582
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 127.09375,
      "epoch": 0.7369085173501577,
      "grad_norm": 71.05924479911964,
      "kl": 30.284423828125,
      "learning_rate": 4.825631529153466e-07,
      "loss": 0.1557,
      "reward": 1.34375,
      "reward_std": 0.5460828393697739,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.828125,
      "step": 584
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 145.125,
      "epoch": 0.7394321766561515,
      "grad_norm": 21.982836574076064,
      "kl": 19.531982421875,
      "learning_rate": 4.82414302647658e-07,
      "loss": 0.1531,
      "reward": 1.25,
      "reward_std": 0.5342404693365097,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.828125,
      "step": 586
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 189.953125,
      "epoch": 0.7419558359621451,
      "grad_norm": 20.352964117283157,
      "kl": 6.028564453125,
      "learning_rate": 4.822648429005553e-07,
      "loss": 0.325,
      "reward": 1.171875,
      "reward_std": 0.562386192381382,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.796875,
      "step": 588
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 144.0625,
      "epoch": 0.7444794952681388,
      "grad_norm": 11.754646679036625,
      "kl": 17.73095703125,
      "learning_rate": 4.821147740659793e-07,
      "loss": 0.1404,
      "reward": 1.15625,
      "reward_std": 0.4752618968486786,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.8125,
      "step": 590
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 131.578125,
      "epoch": 0.7470031545741325,
      "grad_norm": 17.856909369815313,
      "kl": 19.031494140625,
      "learning_rate": 4.81964096537468e-07,
      "loss": 0.1623,
      "reward": 1.265625,
      "reward_std": 0.5276496410369873,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.796875,
      "step": 592
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 154.96875,
      "epoch": 0.7495268138801262,
      "grad_norm": 65.6590081632296,
      "kl": 30.67626953125,
      "learning_rate": 4.818128107101557e-07,
      "loss": 0.318,
      "reward": 1.234375,
      "reward_std": 0.43701278418302536,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.859375,
      "step": 594
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.671875,
      "epoch": 0.7520504731861198,
      "grad_norm": 16.044936267880612,
      "kl": 11.8685302734375,
      "learning_rate": 4.816609169807716e-07,
      "loss": 0.0663,
      "reward": 1.359375,
      "reward_std": 0.48804382234811783,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.828125,
      "step": 596
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 140.3125,
      "epoch": 0.7545741324921136,
      "grad_norm": 17.084529255723915,
      "kl": 4.79833984375,
      "learning_rate": 4.815084157476395e-07,
      "loss": 0.1216,
      "reward": 1.265625,
      "reward_std": 0.43701278418302536,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.875,
      "step": 598
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.78125,
      "epoch": 0.7570977917981072,
      "grad_norm": 20.499550075625297,
      "kl": 45.30859375,
      "learning_rate": 4.81355307410676e-07,
      "loss": 0.2243,
      "reward": 1.421875,
      "reward_std": 0.45945462584495544,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.875,
      "step": 600
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 160.859375,
      "epoch": 0.759621451104101,
      "grad_norm": 23.337194563128996,
      "kl": 68.84814453125,
      "learning_rate": 4.812015923713901e-07,
      "loss": 0.2948,
      "reward": 1.109375,
      "reward_std": 0.5505438223481178,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.78125,
      "step": 602
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 142.828125,
      "epoch": 0.7621451104100946,
      "grad_norm": 69.60281215471902,
      "kl": 61.06591796875,
      "learning_rate": 4.810472710328812e-07,
      "loss": 0.1786,
      "reward": 1.296875,
      "reward_std": 0.5337969958782196,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.828125,
      "step": 604
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.140625,
      "epoch": 0.7646687697160883,
      "grad_norm": 1412.8518541354442,
      "kl": 566.0693359375,
      "learning_rate": 4.808923437998392e-07,
      "loss": 0.8588,
      "reward": 1.15625,
      "reward_std": 0.45101987570524216,
      "rewards/equation_reward_func": 0.28125,
      "rewards/format_reward_func": 0.875,
      "step": 606
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 193.0625,
      "epoch": 0.7671924290220821,
      "grad_norm": 92.49231827173058,
      "kl": 263.0537109375,
      "learning_rate": 4.80736811078543e-07,
      "loss": 0.4676,
      "reward": 1.28125,
      "reward_std": 0.48760034888982773,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.796875,
      "step": 608
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 127.546875,
      "epoch": 0.7697160883280757,
      "grad_norm": 15.262837507954108,
      "kl": 64.904296875,
      "learning_rate": 4.805806732768584e-07,
      "loss": 0.2149,
      "reward": 1.28125,
      "reward_std": 0.41895299404859543,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.796875,
      "step": 610
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 128.640625,
      "epoch": 0.7722397476340694,
      "grad_norm": 31.4395843561576,
      "kl": 51.6409912109375,
      "learning_rate": 4.804239308042391e-07,
      "loss": 0.2068,
      "reward": 1.25,
      "reward_std": 0.5672205835580826,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.796875,
      "step": 612
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.53125,
      "epoch": 0.7747634069400631,
      "grad_norm": 28.51883312406484,
      "kl": 10.867919921875,
      "learning_rate": 4.802665840717238e-07,
      "loss": 0.0739,
      "reward": 1.203125,
      "reward_std": 0.47699201107025146,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.84375,
      "step": 614
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 159.015625,
      "epoch": 0.7772870662460568,
      "grad_norm": 137.7561273769225,
      "kl": 44.8358154296875,
      "learning_rate": 4.80108633491936e-07,
      "loss": 0.3705,
      "reward": 1.296875,
      "reward_std": 0.45728103816509247,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.828125,
      "step": 616
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 165.875,
      "epoch": 0.7798107255520504,
      "grad_norm": 102.5672394310413,
      "kl": 66.9931640625,
      "learning_rate": 4.799500794790826e-07,
      "loss": 0.5893,
      "reward": 1.171875,
      "reward_std": 0.44450797885656357,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.84375,
      "step": 618
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 116.3125,
      "epoch": 0.7823343848580442,
      "grad_norm": 18.435605886361248,
      "kl": 19.72265625,
      "learning_rate": 4.79790922448953e-07,
      "loss": 0.0655,
      "reward": 1.21875,
      "reward_std": 0.5421528145670891,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.8125,
      "step": 620
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 140.0625,
      "epoch": 0.7848580441640378,
      "grad_norm": 15.901098478383375,
      "kl": 10.89892578125,
      "learning_rate": 4.796311628189181e-07,
      "loss": 0.1631,
      "reward": 1.21875,
      "reward_std": 0.5786895453929901,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.828125,
      "step": 622
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 114.671875,
      "epoch": 0.7873817034700316,
      "grad_norm": 30.695907667826802,
      "kl": 53.01708984375,
      "learning_rate": 4.794708010079288e-07,
      "loss": 0.1991,
      "reward": 1.296875,
      "reward_std": 0.38945943117141724,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.859375,
      "step": 624
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 144.5625,
      "epoch": 0.7899053627760252,
      "grad_norm": 19.174861351032742,
      "kl": 17.14892578125,
      "learning_rate": 4.793098374365152e-07,
      "loss": 0.1765,
      "reward": 1.140625,
      "reward_std": 0.39478103816509247,
      "rewards/equation_reward_func": 0.25,
      "rewards/format_reward_func": 0.890625,
      "step": 626
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 114.09375,
      "epoch": 0.7924290220820189,
      "grad_norm": 15.338907577047937,
      "kl": 25.15093994140625,
      "learning_rate": 4.791482725267856e-07,
      "loss": 0.1348,
      "reward": 1.5,
      "reward_std": 0.3903200551867485,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 0.90625,
      "step": 628
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 116.9375,
      "epoch": 0.7949526813880127,
      "grad_norm": 15.320146186287815,
      "kl": 38.3505859375,
      "learning_rate": 4.789861067024252e-07,
      "loss": 0.2054,
      "reward": 1.21875,
      "reward_std": 0.5421090722084045,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.796875,
      "step": 630
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.25,
      "epoch": 0.7974763406940063,
      "grad_norm": 44.15261797906966,
      "kl": 27.3548583984375,
      "learning_rate": 4.788233403886949e-07,
      "loss": 0.0712,
      "reward": 1.40625,
      "reward_std": 0.34678421169519424,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.90625,
      "step": 632
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 131.046875,
      "epoch": 0.8,
      "grad_norm": 36.64163700930383,
      "kl": 213.388671875,
      "learning_rate": 4.786599740124302e-07,
      "loss": 0.6344,
      "reward": 1.21875,
      "reward_std": 0.4677667021751404,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.84375,
      "step": 634
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 155.203125,
      "epoch": 0.8025236593059937,
      "grad_norm": 1797.2061471948546,
      "kl": 815.3759765625,
      "learning_rate": 4.784960080020407e-07,
      "loss": 0.9905,
      "reward": 1.265625,
      "reward_std": 0.43303901702165604,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.78125,
      "step": 636
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 166.203125,
      "epoch": 0.8050473186119874,
      "grad_norm": 27.81831336770947,
      "kl": 49.600341796875,
      "learning_rate": 4.783314427875079e-07,
      "loss": 0.2165,
      "reward": 1.078125,
      "reward_std": 0.45945462584495544,
      "rewards/equation_reward_func": 0.28125,
      "rewards/format_reward_func": 0.796875,
      "step": 638
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 165.3125,
      "epoch": 0.807570977917981,
      "grad_norm": 24.249233062284105,
      "kl": 30.19482421875,
      "learning_rate": 4.78166278800385e-07,
      "loss": 0.2222,
      "reward": 1.171875,
      "reward_std": 0.5399443507194519,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.734375,
      "step": 640
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 141.265625,
      "epoch": 0.8100946372239748,
      "grad_norm": 5.961136557828377,
      "kl": 49.314453125,
      "learning_rate": 4.780005164737953e-07,
      "loss": 0.3095,
      "reward": 1.3125,
      "reward_std": 0.40178901702165604,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.890625,
      "step": 642
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 123.390625,
      "epoch": 0.8126182965299684,
      "grad_norm": 46.42913770507864,
      "kl": 21.392578125,
      "learning_rate": 4.778341562424311e-07,
      "loss": 0.2181,
      "reward": 1.375,
      "reward_std": 0.4849306792020798,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.90625,
      "step": 644
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 133.703125,
      "epoch": 0.8151419558359622,
      "grad_norm": 19.960612809651067,
      "kl": 1094.66845703125,
      "learning_rate": 4.776671985425529e-07,
      "loss": 2.907,
      "reward": 1.234375,
      "reward_std": 0.4479856640100479,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.859375,
      "step": 646
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.15625,
      "epoch": 0.8176656151419558,
      "grad_norm": 48.84959640777365,
      "kl": 49.042724609375,
      "learning_rate": 4.774996438119876e-07,
      "loss": 0.2083,
      "reward": 1.359375,
      "reward_std": 0.5883057191967964,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.859375,
      "step": 648
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 137.984375,
      "epoch": 0.8201892744479495,
      "grad_norm": 37.25605031398917,
      "kl": 43.5078125,
      "learning_rate": 4.773314924901281e-07,
      "loss": 0.2546,
      "reward": 1.21875,
      "reward_std": 0.6011313870549202,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.765625,
      "step": 650
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.0625,
      "epoch": 0.8227129337539432,
      "grad_norm": 496.5361080334453,
      "kl": 95.48095703125,
      "learning_rate": 4.771627450179314e-07,
      "loss": 0.167,
      "reward": 1.25,
      "reward_std": 0.49509554356336594,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.84375,
      "step": 652
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.953125,
      "epoch": 0.8252365930599369,
      "grad_norm": 16.89191993820032,
      "kl": 22.1650390625,
      "learning_rate": 4.769934018379184e-07,
      "loss": 0.1724,
      "reward": 1.28125,
      "reward_std": 0.45679382234811783,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.875,
      "step": 654
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 136.796875,
      "epoch": 0.8277602523659306,
      "grad_norm": 21.724756884351297,
      "kl": 19.99072265625,
      "learning_rate": 4.7682346339417157e-07,
      "loss": 0.1216,
      "reward": 1.34375,
      "reward_std": 0.5404315665364265,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.859375,
      "step": 656
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 127.28125,
      "epoch": 0.8302839116719243,
      "grad_norm": 1153.6470731013012,
      "kl": 219.6817626953125,
      "learning_rate": 4.766529301323348e-07,
      "loss": 0.7633,
      "reward": 1.390625,
      "reward_std": 0.41411860287189484,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.859375,
      "step": 658
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 138.0,
      "epoch": 0.832807570977918,
      "grad_norm": 17.626894994444353,
      "kl": 25.430908203125,
      "learning_rate": 4.7648180249961165e-07,
      "loss": 0.2006,
      "reward": 1.234375,
      "reward_std": 0.4479856640100479,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.84375,
      "step": 660
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 117.4375,
      "epoch": 0.8353312302839117,
      "grad_norm": 15.63928861880274,
      "kl": 11.70947265625,
      "learning_rate": 4.763100809447645e-07,
      "loss": 0.0946,
      "reward": 1.171875,
      "reward_std": 0.3304808586835861,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.859375,
      "step": 662
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 128.109375,
      "epoch": 0.8378548895899054,
      "grad_norm": 21.207691274248297,
      "kl": 29.835693359375,
      "learning_rate": 4.7613776591811295e-07,
      "loss": 0.0953,
      "reward": 1.265625,
      "reward_std": 0.5826544463634491,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.890625,
      "step": 664
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 145.828125,
      "epoch": 0.840378548895899,
      "grad_norm": 213.76866950361938,
      "kl": 186.702880859375,
      "learning_rate": 4.759648578715332e-07,
      "loss": 0.12,
      "reward": 1.234375,
      "reward_std": 0.4365167021751404,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.796875,
      "step": 666
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 138.71875,
      "epoch": 0.8429022082018928,
      "grad_norm": 53.34610144383759,
      "kl": 173.93896484375,
      "learning_rate": 4.7579135725845633e-07,
      "loss": 0.3978,
      "reward": 1.328125,
      "reward_std": 0.4651496410369873,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.890625,
      "step": 668
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 141.703125,
      "epoch": 0.8454258675078864,
      "grad_norm": 11.288499094992305,
      "kl": 20.1884765625,
      "learning_rate": 4.7561726453386744e-07,
      "loss": 0.138,
      "reward": 1.15625,
      "reward_std": 0.42820462584495544,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.84375,
      "step": 670
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 129.703125,
      "epoch": 0.8479495268138801,
      "grad_norm": 27.914009824399866,
      "kl": 19.2041015625,
      "learning_rate": 4.754425801543046e-07,
      "loss": 0.1167,
      "reward": 1.171875,
      "reward_std": 0.6152174100279808,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.84375,
      "step": 672
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 157.78125,
      "epoch": 0.8504731861198738,
      "grad_norm": 88.04299930925974,
      "kl": 21.94677734375,
      "learning_rate": 4.7526730457785705e-07,
      "loss": 0.3189,
      "reward": 1.125,
      "reward_std": 0.5725421905517578,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.8125,
      "step": 674
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 152.65625,
      "epoch": 0.8529968454258675,
      "grad_norm": 25.78523029291662,
      "kl": 25.3590087890625,
      "learning_rate": 4.750914382641647e-07,
      "loss": 0.0974,
      "reward": 1.09375,
      "reward_std": 0.5610294863581657,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.75,
      "step": 676
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 173.34375,
      "epoch": 0.8555205047318613,
      "grad_norm": 17.031874514599743,
      "kl": 37.06884765625,
      "learning_rate": 4.7491498167441634e-07,
      "loss": 0.263,
      "reward": 1.234375,
      "reward_std": 0.4554808586835861,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.828125,
      "step": 678
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 176.765625,
      "epoch": 0.8580441640378549,
      "grad_norm": 48.261001423988155,
      "kl": 2792.29541015625,
      "learning_rate": 4.747379352713488e-07,
      "loss": 8.7581,
      "reward": 1.21875,
      "reward_std": 0.4400469958782196,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.796875,
      "step": 680
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 114.96875,
      "epoch": 0.8605678233438486,
      "grad_norm": 18.06551837348983,
      "kl": 17.875732421875,
      "learning_rate": 4.745602995192457e-07,
      "loss": 0.1171,
      "reward": 1.1875,
      "reward_std": 0.42292676120996475,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.8125,
      "step": 682
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 160.03125,
      "epoch": 0.8630914826498423,
      "grad_norm": 24.43071654290684,
      "kl": 32.6473388671875,
      "learning_rate": 4.743820748839361e-07,
      "loss": 0.2461,
      "reward": 1.109375,
      "reward_std": 0.4536806792020798,
      "rewards/equation_reward_func": 0.28125,
      "rewards/format_reward_func": 0.828125,
      "step": 684
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 121.734375,
      "epoch": 0.865615141955836,
      "grad_norm": 11.314102264430216,
      "kl": 11.146240234375,
      "learning_rate": 4.7420326183279323e-07,
      "loss": 0.0356,
      "reward": 1.234375,
      "reward_std": 0.5562388375401497,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.734375,
      "step": 686
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 135.25,
      "epoch": 0.8681388012618296,
      "grad_norm": 1071.0287613388866,
      "kl": 197.780517578125,
      "learning_rate": 4.7402386083473364e-07,
      "loss": 0.7012,
      "reward": 1.21875,
      "reward_std": 0.4242308586835861,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.890625,
      "step": 688
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 145.859375,
      "epoch": 0.8706624605678234,
      "grad_norm": 63.786777582878415,
      "kl": 27.7867431640625,
      "learning_rate": 4.738438723602154e-07,
      "loss": 0.1566,
      "reward": 1.296875,
      "reward_std": 0.4937388375401497,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.875,
      "step": 690
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 184.953125,
      "epoch": 0.873186119873817,
      "grad_norm": 86.6091620948985,
      "kl": 49.4808349609375,
      "learning_rate": 4.736632968812373e-07,
      "loss": 0.3465,
      "reward": 1.328125,
      "reward_std": 0.5065118968486786,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.8125,
      "step": 692
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 128.484375,
      "epoch": 0.8757097791798107,
      "grad_norm": 18.74426475899078,
      "kl": 23.037109375,
      "learning_rate": 4.734821348713375e-07,
      "loss": 0.1854,
      "reward": 1.21875,
      "reward_std": 0.38286860287189484,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.828125,
      "step": 694
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 156.796875,
      "epoch": 0.8782334384858044,
      "grad_norm": 41.83976657228314,
      "kl": 17.178466796875,
      "learning_rate": 4.7330038680559224e-07,
      "loss": 0.1994,
      "reward": 1.109375,
      "reward_std": 0.3534187823534012,
      "rewards/equation_reward_func": 0.28125,
      "rewards/format_reward_func": 0.828125,
      "step": 696
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 151.375,
      "epoch": 0.8807570977917981,
      "grad_norm": 25.969612728246428,
      "kl": 34.24072265625,
      "learning_rate": 4.7311805316061473e-07,
      "loss": 0.1457,
      "reward": 1.140625,
      "reward_std": 0.5672117173671722,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.8125,
      "step": 698
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 130.4375,
      "epoch": 0.8832807570977917,
      "grad_norm": 27.28683408046988,
      "kl": 27.12841796875,
      "learning_rate": 4.7293513441455357e-07,
      "loss": 0.1267,
      "reward": 1.25,
      "reward_std": 0.4941823109984398,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.859375,
      "step": 700
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 117.453125,
      "epoch": 0.8858044164037855,
      "grad_norm": 6.071179977405477,
      "kl": 11.53125,
      "learning_rate": 4.7275163104709194e-07,
      "loss": 0.0911,
      "reward": 1.359375,
      "reward_std": 0.4159187823534012,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.890625,
      "step": 702
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 119.21875,
      "epoch": 0.8883280757097792,
      "grad_norm": 31.493994481289917,
      "kl": 11.02783203125,
      "learning_rate": 4.72567543539446e-07,
      "loss": 0.1085,
      "reward": 1.140625,
      "reward_std": 0.4651496410369873,
      "rewards/equation_reward_func": 0.265625,
      "rewards/format_reward_func": 0.875,
      "step": 704
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 156.90625,
      "epoch": 0.8908517350157729,
      "grad_norm": 256.0007518414404,
      "kl": 88.0751953125,
      "learning_rate": 4.723828723743638e-07,
      "loss": 0.4261,
      "reward": 1.375,
      "reward_std": 0.4801051542162895,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.828125,
      "step": 706
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.46875,
      "epoch": 0.8933753943217666,
      "grad_norm": 22.93632549118131,
      "kl": 214.3076171875,
      "learning_rate": 4.721976180361238e-07,
      "loss": 0.471,
      "reward": 1.328125,
      "reward_std": 0.5281019806861877,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.890625,
      "step": 708
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 127.9375,
      "epoch": 0.8958990536277602,
      "grad_norm": 31.689099748341707,
      "kl": 36.6419677734375,
      "learning_rate": 4.720117810105341e-07,
      "loss": 0.0204,
      "reward": 1.203125,
      "reward_std": 0.34194982051849365,
      "rewards/equation_reward_func": 0.28125,
      "rewards/format_reward_func": 0.921875,
      "step": 710
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 133.46875,
      "epoch": 0.898422712933754,
      "grad_norm": 24.787411947769694,
      "kl": 13.69091796875,
      "learning_rate": 4.718253617849305e-07,
      "loss": 0.1331,
      "reward": 1.328125,
      "reward_std": 0.5241282135248184,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.859375,
      "step": 712
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.609375,
      "epoch": 0.9009463722397476,
      "grad_norm": 23.01620611059466,
      "kl": 15.931884765625,
      "learning_rate": 4.7163836084817585e-07,
      "loss": 0.0795,
      "reward": 1.34375,
      "reward_std": 0.39961542934179306,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.921875,
      "step": 714
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 126.8125,
      "epoch": 0.9034700315457413,
      "grad_norm": 17.04965409448613,
      "kl": 15.074951171875,
      "learning_rate": 4.714507786906581e-07,
      "loss": 0.1433,
      "reward": 1.328125,
      "reward_std": 0.4427077993750572,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.859375,
      "step": 716
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 135.359375,
      "epoch": 0.905993690851735,
      "grad_norm": 9.400163934361284,
      "kl": 9.31591796875,
      "learning_rate": 4.712626158042897e-07,
      "loss": 0.0429,
      "reward": 1.59375,
      "reward_std": 0.32962023466825485,
      "rewards/equation_reward_func": 0.703125,
      "rewards/format_reward_func": 0.890625,
      "step": 718
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 214.90625,
      "epoch": 0.9085173501577287,
      "grad_norm": 14.35171947528143,
      "kl": 35.43939208984375,
      "learning_rate": 4.7107387268250586e-07,
      "loss": 0.2806,
      "reward": 1.171875,
      "reward_std": 0.44668156653642654,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.75,
      "step": 720
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 121.03125,
      "epoch": 0.9110410094637224,
      "grad_norm": 47.534922358376,
      "kl": 42.6142578125,
      "learning_rate": 4.708845498202635e-07,
      "loss": 0.1714,
      "reward": 1.265625,
      "reward_std": 0.42554382234811783,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.859375,
      "step": 722
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 141.453125,
      "epoch": 0.9135646687697161,
      "grad_norm": 25.974515116696303,
      "kl": 49.203125,
      "learning_rate": 4.7069464771403957e-07,
      "loss": 0.1825,
      "reward": 1.15625,
      "reward_std": 0.4884083643555641,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.84375,
      "step": 724
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 141.25,
      "epoch": 0.9160883280757098,
      "grad_norm": 15.989924417909016,
      "kl": 23.033447265625,
      "learning_rate": 4.7050416686183036e-07,
      "loss": 0.1565,
      "reward": 1.296875,
      "reward_std": 0.47661860287189484,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.90625,
      "step": 726
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 164.296875,
      "epoch": 0.9186119873817035,
      "grad_norm": 51.16012295856564,
      "kl": 45.88330078125,
      "learning_rate": 4.703131077631497e-07,
      "loss": 0.3196,
      "reward": 1.359375,
      "reward_std": 0.4690796658396721,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.875,
      "step": 728
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 170.3125,
      "epoch": 0.9211356466876972,
      "grad_norm": 26.734804418186346,
      "kl": 24.329833984375,
      "learning_rate": 4.7012147091902764e-07,
      "loss": 0.3101,
      "reward": 1.28125,
      "reward_std": 0.48710426688194275,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.828125,
      "step": 730
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 154.21875,
      "epoch": 0.9236593059936908,
      "grad_norm": 63.07049442622323,
      "kl": 30.1474609375,
      "learning_rate": 4.699292568320097e-07,
      "loss": 0.256,
      "reward": 1.203125,
      "reward_std": 0.5443964675068855,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.796875,
      "step": 732
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 132.5625,
      "epoch": 0.9261829652996846,
      "grad_norm": 19.478812137714925,
      "kl": 54.0986328125,
      "learning_rate": 4.6973646600615477e-07,
      "loss": 0.1811,
      "reward": 1.296875,
      "reward_std": 0.45417676120996475,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.828125,
      "step": 734
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 123.84375,
      "epoch": 0.9287066246056782,
      "grad_norm": 13.08516122327284,
      "kl": 9.4932861328125,
      "learning_rate": 4.6954309894703426e-07,
      "loss": 0.0807,
      "reward": 1.34375,
      "reward_std": 0.4928782135248184,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.90625,
      "step": 736
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 114.546875,
      "epoch": 0.931230283911672,
      "grad_norm": 13.843958124264272,
      "kl": 28.4051513671875,
      "learning_rate": 4.693491561617309e-07,
      "loss": 0.0688,
      "reward": 1.390625,
      "reward_std": 0.43303901702165604,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.875,
      "step": 738
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 167.921875,
      "epoch": 0.9337539432176656,
      "grad_norm": 20.57201843263023,
      "kl": 45.4671630859375,
      "learning_rate": 4.691546381588369e-07,
      "loss": 0.4395,
      "reward": 1.09375,
      "reward_std": 0.45064646750688553,
      "rewards/equation_reward_func": 0.25,
      "rewards/format_reward_func": 0.84375,
      "step": 740
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 173.28125,
      "epoch": 0.9362776025236593,
      "grad_norm": 209.54177396869494,
      "kl": 151.467529296875,
      "learning_rate": 4.689595454484531e-07,
      "loss": 0.5171,
      "reward": 1.234375,
      "reward_std": 0.5791330188512802,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.859375,
      "step": 742
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 123.875,
      "epoch": 0.938801261829653,
      "grad_norm": 48.96624933099809,
      "kl": 47.75830078125,
      "learning_rate": 4.6876387854218744e-07,
      "loss": 0.1398,
      "reward": 1.265625,
      "reward_std": 0.5086854845285416,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.890625,
      "step": 744
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 136.296875,
      "epoch": 0.9413249211356467,
      "grad_norm": 12.461634698146463,
      "kl": 19.381103515625,
      "learning_rate": 4.6856763795315344e-07,
      "loss": 0.0785,
      "reward": 1.5,
      "reward_std": 0.37319982051849365,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.9375,
      "step": 746
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 166.328125,
      "epoch": 0.9438485804416403,
      "grad_norm": 12.18419929698489,
      "kl": 74.877685546875,
      "learning_rate": 4.6837082419596936e-07,
      "loss": 0.3367,
      "reward": 1.203125,
      "reward_std": 0.47134073823690414,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.859375,
      "step": 748
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 120.328125,
      "epoch": 0.9463722397476341,
      "grad_norm": 45.63409361926837,
      "kl": 45.283935546875,
      "learning_rate": 4.681734377867561e-07,
      "loss": 0.3187,
      "reward": 1.265625,
      "reward_std": 0.5030342116951942,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.84375,
      "step": 750
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 156.453125,
      "epoch": 0.9488958990536278,
      "grad_norm": 26.613804937423097,
      "kl": 50.11669921875,
      "learning_rate": 4.6797547924313673e-07,
      "loss": 0.2001,
      "reward": 1.28125,
      "reward_std": 0.4928782135248184,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.8125,
      "step": 752
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 162.359375,
      "epoch": 0.9514195583596214,
      "grad_norm": 24.19738931857172,
      "kl": 40.40771484375,
      "learning_rate": 4.677769490842343e-07,
      "loss": 0.2147,
      "reward": 1.40625,
      "reward_std": 0.3582531735301018,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.890625,
      "step": 754
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 122.578125,
      "epoch": 0.9539432176656152,
      "grad_norm": 22.307584059563084,
      "kl": 29.97686767578125,
      "learning_rate": 4.675778478306711e-07,
      "loss": 0.1611,
      "reward": 1.375,
      "reward_std": 0.2860843911767006,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.953125,
      "step": 756
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 150.578125,
      "epoch": 0.9564668769716088,
      "grad_norm": 42.61160667712417,
      "kl": 75.413818359375,
      "learning_rate": 4.673781760045669e-07,
      "loss": 0.2725,
      "reward": 1.40625,
      "reward_std": 0.3485843911767006,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.84375,
      "step": 758
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 158.9375,
      "epoch": 0.9589905362776026,
      "grad_norm": 24.50735287530186,
      "kl": 47.400390625,
      "learning_rate": 4.6717793412953776e-07,
      "loss": 0.2671,
      "reward": 1.078125,
      "reward_std": 0.4924347400665283,
      "rewards/equation_reward_func": 0.296875,
      "rewards/format_reward_func": 0.78125,
      "step": 760
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 152.484375,
      "epoch": 0.9615141955835962,
      "grad_norm": 17.227586111462866,
      "kl": 18.105712890625,
      "learning_rate": 4.6697712273069467e-07,
      "loss": 0.1065,
      "reward": 1.375,
      "reward_std": 0.42292676120996475,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.84375,
      "step": 762
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 143.578125,
      "epoch": 0.9640378548895899,
      "grad_norm": 21.77524747431917,
      "kl": 13.482421875,
      "learning_rate": 4.6677574233464224e-07,
      "loss": 0.1514,
      "reward": 1.265625,
      "reward_std": 0.4484028145670891,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.859375,
      "step": 764
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 169.3125,
      "epoch": 0.9665615141955836,
      "grad_norm": 11.246890376473198,
      "kl": 21.2705078125,
      "learning_rate": 4.665737934694769e-07,
      "loss": 0.1807,
      "reward": 1.25,
      "reward_std": 0.4475421905517578,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.890625,
      "step": 766
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 221.015625,
      "epoch": 0.9690851735015773,
      "grad_norm": 28.535842552353827,
      "kl": 54.117431640625,
      "learning_rate": 4.6637127666478617e-07,
      "loss": 0.3359,
      "reward": 1.015625,
      "reward_std": 0.42026595771312714,
      "rewards/equation_reward_func": 0.28125,
      "rewards/format_reward_func": 0.734375,
      "step": 768
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 151.46875,
      "epoch": 0.9716088328075709,
      "grad_norm": 11.430643282915014,
      "kl": 16.0755615234375,
      "learning_rate": 4.6616819245164655e-07,
      "loss": 0.2493,
      "reward": 1.296875,
      "reward_std": 0.2548343911767006,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.90625,
      "step": 770
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 178.140625,
      "epoch": 0.9741324921135647,
      "grad_norm": 6.566556545048058,
      "kl": 18.152587890625,
      "learning_rate": 4.6596454136262294e-07,
      "loss": 0.1951,
      "reward": 1.171875,
      "reward_std": 0.5161806792020798,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.84375,
      "step": 772
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 168.09375,
      "epoch": 0.9766561514195583,
      "grad_norm": 53.21241774119099,
      "kl": 58.9305419921875,
      "learning_rate": 4.6576032393176643e-07,
      "loss": 0.2819,
      "reward": 1.21875,
      "reward_std": 0.46428901702165604,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.828125,
      "step": 774
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 132.921875,
      "epoch": 0.979179810725552,
      "grad_norm": 25.69558102442064,
      "kl": 30.1162109375,
      "learning_rate": 4.6555554069461346e-07,
      "loss": 0.2137,
      "reward": 1.328125,
      "reward_std": 0.39167676120996475,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.890625,
      "step": 776
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 147.0,
      "epoch": 0.9817034700315458,
      "grad_norm": 24.240158032881048,
      "kl": 19.12841796875,
      "learning_rate": 4.653501921881843e-07,
      "loss": 0.1473,
      "reward": 1.203125,
      "reward_std": 0.45020299404859543,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.828125,
      "step": 778
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 157.09375,
      "epoch": 0.9842271293375394,
      "grad_norm": 52.325443937644934,
      "kl": 49.8232421875,
      "learning_rate": 4.651442789509813e-07,
      "loss": 0.1053,
      "reward": 1.265625,
      "reward_std": 0.48804382234811783,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.796875,
      "step": 780
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.546875,
      "epoch": 0.9867507886435332,
      "grad_norm": 14.136974680529718,
      "kl": 8.9969482421875,
      "learning_rate": 4.64937801522988e-07,
      "loss": 0.0112,
      "reward": 1.453125,
      "reward_std": 0.5166767612099648,
      "rewards/equation_reward_func": 0.609375,
      "rewards/format_reward_func": 0.84375,
      "step": 782
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 158.375,
      "epoch": 0.9892744479495268,
      "grad_norm": 67.37187241289408,
      "kl": 74.70703125,
      "learning_rate": 4.647307604456674e-07,
      "loss": 0.3737,
      "reward": 1.328125,
      "reward_std": 0.37451278418302536,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.84375,
      "step": 784
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 136.03125,
      "epoch": 0.9917981072555205,
      "grad_norm": 27.422716133482407,
      "kl": 12.1591796875,
      "learning_rate": 4.645231562619606e-07,
      "loss": 0.1723,
      "reward": 1.328125,
      "reward_std": 0.3494012728333473,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.890625,
      "step": 786
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 178.921875,
      "epoch": 0.9943217665615142,
      "grad_norm": 13.08032838455071,
      "kl": 25.62701416015625,
      "learning_rate": 4.643149895162853e-07,
      "loss": 0.1995,
      "reward": 1.125,
      "reward_std": 0.4739140570163727,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.796875,
      "step": 788
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 147.78125,
      "epoch": 0.9968454258675079,
      "grad_norm": 14.538139505823112,
      "kl": 12.2623291015625,
      "learning_rate": 4.6410626075453465e-07,
      "loss": 0.2346,
      "reward": 1.25,
      "reward_std": 0.3485843911767006,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.90625,
      "step": 790
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 123.40625,
      "epoch": 0.9993690851735015,
      "grad_norm": 16.943190289207497,
      "kl": 35.007568359375,
      "learning_rate": 4.6389697052407526e-07,
      "loss": 0.1774,
      "reward": 1.296875,
      "reward_std": 0.5012340322136879,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.890625,
      "step": 792
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 125.671875,
      "epoch": 1.0025236593059936,
      "grad_norm": 14.797154284708103,
      "kl": 8.86767578125,
      "learning_rate": 4.636871193737466e-07,
      "loss": 0.0515,
      "reward": 1.21875,
      "reward_std": 0.4264044463634491,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.875,
      "step": 794
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 127.546875,
      "epoch": 1.0050473186119875,
      "grad_norm": 8.111440584999391,
      "kl": 25.7930908203125,
      "learning_rate": 4.634767078538588e-07,
      "loss": 0.1789,
      "reward": 1.40625,
      "reward_std": 0.4488462880253792,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.921875,
      "step": 796
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 149.09375,
      "epoch": 1.0075709779179811,
      "grad_norm": 250.235311106636,
      "kl": 116.3072509765625,
      "learning_rate": 4.632657365161914e-07,
      "loss": 0.2347,
      "reward": 1.40625,
      "reward_std": 0.37319982051849365,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.859375,
      "step": 798
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 171.921875,
      "epoch": 1.0100946372239747,
      "grad_norm": 21.692625487500482,
      "kl": 56.5902099609375,
      "learning_rate": 4.630542059139923e-07,
      "loss": 0.2566,
      "reward": 1.25,
      "reward_std": 0.38684237003326416,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.828125,
      "step": 800
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 150.109375,
      "epoch": 1.0126182965299684,
      "grad_norm": 19.258806482028543,
      "kl": 113.2923583984375,
      "learning_rate": 4.628421166019758e-07,
      "loss": 0.426,
      "reward": 1.25,
      "reward_std": 0.35075797885656357,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.890625,
      "step": 802
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 114.140625,
      "epoch": 1.0151419558359622,
      "grad_norm": 4.503791958160424,
      "kl": 20.5616455078125,
      "learning_rate": 4.6262946913632126e-07,
      "loss": 0.0564,
      "reward": 1.21875,
      "reward_std": 0.36353103816509247,
      "rewards/equation_reward_func": 0.296875,
      "rewards/format_reward_func": 0.921875,
      "step": 804
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 141.78125,
      "epoch": 1.0176656151419559,
      "grad_norm": 168.54978795142497,
      "kl": 80.7484130859375,
      "learning_rate": 4.624162640746721e-07,
      "loss": 0.3816,
      "reward": 1.21875,
      "reward_std": 0.439673587679863,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.890625,
      "step": 806
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 151.890625,
      "epoch": 1.0201892744479495,
      "grad_norm": 13.098713239287,
      "kl": 49.0565185546875,
      "learning_rate": 4.622025019761336e-07,
      "loss": 0.3147,
      "reward": 1.328125,
      "reward_std": 0.5315796658396721,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.8125,
      "step": 808
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 152.296875,
      "epoch": 1.0227129337539431,
      "grad_norm": 268.2441803028848,
      "kl": 112.580078125,
      "learning_rate": 4.6198818340127196e-07,
      "loss": 0.3382,
      "reward": 1.1875,
      "reward_std": 0.3353152498602867,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.84375,
      "step": 810
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 174.5,
      "epoch": 1.025236593059937,
      "grad_norm": 23.010092426358643,
      "kl": 26.32666015625,
      "learning_rate": 4.6177330891211263e-07,
      "loss": 0.1641,
      "reward": 1.203125,
      "reward_std": 0.45417676120996475,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.796875,
      "step": 812
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 147.5625,
      "epoch": 1.0277602523659306,
      "grad_norm": 6.438513374312094,
      "kl": 68.86962890625,
      "learning_rate": 4.61557879072139e-07,
      "loss": 0.3045,
      "reward": 1.25,
      "reward_std": 0.33928901702165604,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.890625,
      "step": 814
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 161.171875,
      "epoch": 1.0302839116719242,
      "grad_norm": 14.748235314883607,
      "kl": 22.656494140625,
      "learning_rate": 4.613418944462906e-07,
      "loss": 0.2098,
      "reward": 1.3125,
      "reward_std": 0.4950518012046814,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.890625,
      "step": 816
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 135.453125,
      "epoch": 1.032807570977918,
      "grad_norm": 4.468567730251122,
      "kl": 5.7581787109375,
      "learning_rate": 4.6112535560096203e-07,
      "loss": 0.1305,
      "reward": 1.21875,
      "reward_std": 0.466462604701519,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.8125,
      "step": 818
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 156.203125,
      "epoch": 1.0353312302839117,
      "grad_norm": 27.217065085348104,
      "kl": 19.5361328125,
      "learning_rate": 4.609082631040011e-07,
      "loss": 0.1447,
      "reward": 1.15625,
      "reward_std": 0.41325797885656357,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.84375,
      "step": 820
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 163.0,
      "epoch": 1.0378548895899053,
      "grad_norm": 4.283346839707681,
      "kl": 4.152099609375,
      "learning_rate": 4.6069061752470763e-07,
      "loss": 0.1852,
      "reward": 1.234375,
      "reward_std": 0.524171955883503,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.875,
      "step": 822
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 136.328125,
      "epoch": 1.040378548895899,
      "grad_norm": 35.14657697212613,
      "kl": 37.7940673828125,
      "learning_rate": 4.6047241943383173e-07,
      "loss": 0.2955,
      "reward": 1.34375,
      "reward_std": 0.4910780340433121,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.890625,
      "step": 824
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 191.453125,
      "epoch": 1.0429022082018928,
      "grad_norm": 28.831171171740422,
      "kl": 42.6973876953125,
      "learning_rate": 4.602536694035725e-07,
      "loss": 0.2257,
      "reward": 1.3125,
      "reward_std": 0.4889044463634491,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.8125,
      "step": 826
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 124.234375,
      "epoch": 1.0454258675078865,
      "grad_norm": 12.826047903857544,
      "kl": 25.4041748046875,
      "learning_rate": 4.600343680075763e-07,
      "loss": 0.118,
      "reward": 1.390625,
      "reward_std": 0.5509172305464745,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.859375,
      "step": 828
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 126.78125,
      "epoch": 1.04794952681388,
      "grad_norm": 133.65718346045853,
      "kl": 37.86798095703125,
      "learning_rate": 4.5981451582093555e-07,
      "loss": 0.2053,
      "reward": 1.453125,
      "reward_std": 0.34194982051849365,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.921875,
      "step": 830
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 141.15625,
      "epoch": 1.0504731861198737,
      "grad_norm": 12.666382015427653,
      "kl": 39.5643310546875,
      "learning_rate": 4.5959411342018704e-07,
      "loss": 0.2171,
      "reward": 0.953125,
      "reward_std": 0.3304808586835861,
      "rewards/equation_reward_func": 0.140625,
      "rewards/format_reward_func": 0.8125,
      "step": 832
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.0,
      "epoch": 1.0529968454258676,
      "grad_norm": 11.440131762140338,
      "kl": 33.1163330078125,
      "learning_rate": 4.5937316138331025e-07,
      "loss": 0.0393,
      "reward": 1.171875,
      "reward_std": 0.5188503488898277,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.84375,
      "step": 834
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 154.75,
      "epoch": 1.0555205047318612,
      "grad_norm": 1185.1550604266313,
      "kl": 337.78759765625,
      "learning_rate": 4.591516602897262e-07,
      "loss": 1.2926,
      "reward": 1.34375,
      "reward_std": 0.46428901702165604,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.84375,
      "step": 836
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 198.765625,
      "epoch": 1.0580441640378548,
      "grad_norm": 11.59980792283046,
      "kl": 21.668701171875,
      "learning_rate": 4.589296107202957e-07,
      "loss": 0.3028,
      "reward": 1.3125,
      "reward_std": 0.4836265817284584,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.84375,
      "step": 838
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 132.90625,
      "epoch": 1.0605678233438485,
      "grad_norm": 13.683047285977782,
      "kl": 24.517333984375,
      "learning_rate": 4.5870701325731773e-07,
      "loss": 0.1537,
      "reward": 1.296875,
      "reward_std": 0.4598717764019966,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.859375,
      "step": 840
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 81.296875,
      "epoch": 1.0630914826498423,
      "grad_norm": 16.149649484347997,
      "kl": 29.5367431640625,
      "learning_rate": 4.5848386848452843e-07,
      "loss": 0.061,
      "reward": 1.359375,
      "reward_std": 0.5179808586835861,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.90625,
      "step": 842
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 191.3125,
      "epoch": 1.065615141955836,
      "grad_norm": 12.860426043227509,
      "kl": 25.599365234375,
      "learning_rate": 4.582601769870987e-07,
      "loss": 0.2746,
      "reward": 1.234375,
      "reward_std": 0.4915215075016022,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.828125,
      "step": 844
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.03125,
      "epoch": 1.0681388012618296,
      "grad_norm": 21.31805863095022,
      "kl": 50.096923828125,
      "learning_rate": 4.5803593935163363e-07,
      "loss": 0.1224,
      "reward": 1.390625,
      "reward_std": 0.37053901702165604,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.890625,
      "step": 846
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 129.015625,
      "epoch": 1.0706624605678234,
      "grad_norm": 7.9640855207881645,
      "kl": 38.595458984375,
      "learning_rate": 4.578111561661702e-07,
      "loss": 0.2065,
      "reward": 1.25,
      "reward_std": 0.37319982051849365,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.90625,
      "step": 848
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 123.328125,
      "epoch": 1.073186119873817,
      "grad_norm": 11.150569136597529,
      "kl": 15.43212890625,
      "learning_rate": 4.5758582802017597e-07,
      "loss": 0.1234,
      "reward": 1.296875,
      "reward_std": 0.4673232287168503,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.90625,
      "step": 850
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 211.765625,
      "epoch": 1.0757097791798107,
      "grad_norm": 43.24285838146903,
      "kl": 64.9356689453125,
      "learning_rate": 4.573599555045479e-07,
      "loss": 0.4681,
      "reward": 1.109375,
      "reward_std": 0.4616282135248184,
      "rewards/equation_reward_func": 0.296875,
      "rewards/format_reward_func": 0.8125,
      "step": 852
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 176.296875,
      "epoch": 1.0782334384858043,
      "grad_norm": 8.23246020019417,
      "kl": 11.8717041015625,
      "learning_rate": 4.571335392116103e-07,
      "loss": 0.3185,
      "reward": 1.25,
      "reward_std": 0.6275032535195351,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.796875,
      "step": 854
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.0625,
      "epoch": 1.0807570977917982,
      "grad_norm": 7.422223653699492,
      "kl": 16.326171875,
      "learning_rate": 4.569065797351135e-07,
      "loss": 0.1038,
      "reward": 1.328125,
      "reward_std": 0.4479856640100479,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.890625,
      "step": 856
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 149.890625,
      "epoch": 1.0832807570977918,
      "grad_norm": 16.172747838386368,
      "kl": 41.6300048828125,
      "learning_rate": 4.5667907767023215e-07,
      "loss": 0.2193,
      "reward": 1.421875,
      "reward_std": 0.4501592516899109,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 0.828125,
      "step": 858
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.125,
      "epoch": 1.0858044164037854,
      "grad_norm": 6.680263819620163,
      "kl": 7.4189453125,
      "learning_rate": 4.5645103361356407e-07,
      "loss": 0.0354,
      "reward": 1.359375,
      "reward_std": 0.42776115238666534,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.875,
      "step": 860
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 111.421875,
      "epoch": 1.088328075709779,
      "grad_norm": 18.130335441780627,
      "kl": 13.8787841796875,
      "learning_rate": 4.5622244816312815e-07,
      "loss": 0.0604,
      "reward": 1.25,
      "reward_std": 0.36570462584495544,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.84375,
      "step": 862
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 141.984375,
      "epoch": 1.090851735015773,
      "grad_norm": 30.21753601688968,
      "kl": 36.550048828125,
      "learning_rate": 4.559933219183631e-07,
      "loss": 0.1706,
      "reward": 1.3125,
      "reward_std": 0.48320943117141724,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.875,
      "step": 864
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 139.171875,
      "epoch": 1.0933753943217666,
      "grad_norm": 9.480022559743627,
      "kl": 27.724853515625,
      "learning_rate": 4.557636554801257e-07,
      "loss": 0.1731,
      "reward": 1.46875,
      "reward_std": 0.28428421169519424,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.90625,
      "step": 866
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 154.71875,
      "epoch": 1.0958990536277602,
      "grad_norm": 65.13068386261996,
      "kl": 66.35693359375,
      "learning_rate": 4.555334494506895e-07,
      "loss": 0.3698,
      "reward": 1.265625,
      "reward_std": 0.5316234081983566,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.8125,
      "step": 868
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 114.65625,
      "epoch": 1.098422712933754,
      "grad_norm": 12.947265092180384,
      "kl": 14.4014892578125,
      "learning_rate": 4.55302704433743e-07,
      "loss": 0.0643,
      "reward": 1.40625,
      "reward_std": 0.37537340819835663,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.875,
      "step": 870
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 145.9375,
      "epoch": 1.1009463722397477,
      "grad_norm": 10.450564888527866,
      "kl": 9.1649169921875,
      "learning_rate": 4.550714210343879e-07,
      "loss": 0.1757,
      "reward": 1.28125,
      "reward_std": 0.5078248605132103,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.875,
      "step": 872
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 140.5,
      "epoch": 1.1034700315457413,
      "grad_norm": 22.616971126536587,
      "kl": 10.5833740234375,
      "learning_rate": 4.548395998591382e-07,
      "loss": 0.1782,
      "reward": 1.09375,
      "reward_std": 0.4338996410369873,
      "rewards/equation_reward_func": 0.21875,
      "rewards/format_reward_func": 0.875,
      "step": 874
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 147.1875,
      "epoch": 1.105993690851735,
      "grad_norm": 27.119258870642827,
      "kl": 18.081787109375,
      "learning_rate": 4.5460724151591783e-07,
      "loss": 0.102,
      "reward": 1.28125,
      "reward_std": 0.4264044463634491,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.84375,
      "step": 876
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 161.4375,
      "epoch": 1.1085173501577288,
      "grad_norm": 12.288727198673495,
      "kl": 28.065185546875,
      "learning_rate": 4.5437434661405945e-07,
      "loss": 0.2059,
      "reward": 1.3125,
      "reward_std": 0.4603152498602867,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.859375,
      "step": 878
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 149.984375,
      "epoch": 1.1110410094637224,
      "grad_norm": 28.751084823803765,
      "kl": 25.4326171875,
      "learning_rate": 4.541409157643027e-07,
      "loss": 0.2733,
      "reward": 1.15625,
      "reward_std": 0.3846687823534012,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.828125,
      "step": 880
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 152.0625,
      "epoch": 1.113564668769716,
      "grad_norm": 17.03829977575288,
      "kl": 36.0394287109375,
      "learning_rate": 4.5390694957879293e-07,
      "loss": 0.1841,
      "reward": 1.25,
      "reward_std": 0.6019394025206566,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.859375,
      "step": 882
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 168.859375,
      "epoch": 1.1160883280757097,
      "grad_norm": 34.98487258011045,
      "kl": 72.6959228515625,
      "learning_rate": 4.53672448671079e-07,
      "loss": 0.381,
      "reward": 1.3125,
      "reward_std": 0.4242308586835861,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.859375,
      "step": 884
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 146.9375,
      "epoch": 1.1186119873817035,
      "grad_norm": 13.58069865290714,
      "kl": 22.54132080078125,
      "learning_rate": 4.534374136561124e-07,
      "loss": 0.2028,
      "reward": 1.265625,
      "reward_std": 0.37451278418302536,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.875,
      "step": 886
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 148.640625,
      "epoch": 1.1211356466876972,
      "grad_norm": 26.903357451111802,
      "kl": 76.5960693359375,
      "learning_rate": 4.5320184515024493e-07,
      "loss": 0.4874,
      "reward": 1.359375,
      "reward_std": 0.4159187823534012,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.890625,
      "step": 888
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 176.25,
      "epoch": 1.1236593059936908,
      "grad_norm": 10.837366776804174,
      "kl": 15.5186767578125,
      "learning_rate": 4.529657437712276e-07,
      "loss": 0.3551,
      "reward": 1.375,
      "reward_std": 0.5065207630395889,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.828125,
      "step": 890
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.390625,
      "epoch": 1.1261829652996846,
      "grad_norm": 10.33178228366183,
      "kl": 9.222412109375,
      "learning_rate": 4.527291101382087e-07,
      "loss": -0.0037,
      "reward": 1.3125,
      "reward_std": 0.3582531735301018,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.921875,
      "step": 892
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 123.046875,
      "epoch": 1.1287066246056783,
      "grad_norm": 176.5326856905154,
      "kl": 60.804931640625,
      "learning_rate": 4.524919448717324e-07,
      "loss": 0.1994,
      "reward": 1.265625,
      "reward_std": 0.48587023466825485,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.875,
      "step": 894
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 167.953125,
      "epoch": 1.131230283911672,
      "grad_norm": 4.3435368153919285,
      "kl": 50.12603759765625,
      "learning_rate": 4.5225424859373684e-07,
      "loss": 0.4173,
      "reward": 1.28125,
      "reward_std": 0.48853103816509247,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.890625,
      "step": 896
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 133.15625,
      "epoch": 1.1337539432176655,
      "grad_norm": 7.918387550046919,
      "kl": 12.6414794921875,
      "learning_rate": 4.5201602192755297e-07,
      "loss": 0.1803,
      "reward": 1.625,
      "reward_std": 0.38684237003326416,
      "rewards/equation_reward_func": 0.703125,
      "rewards/format_reward_func": 0.921875,
      "step": 898
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 161.546875,
      "epoch": 1.1362776025236594,
      "grad_norm": 25.927196207072125,
      "kl": 28.32525634765625,
      "learning_rate": 4.517772654979023e-07,
      "loss": 0.2432,
      "reward": 1.21875,
      "reward_std": 0.4814092516899109,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.875,
      "step": 900
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 119.953125,
      "epoch": 1.138801261829653,
      "grad_norm": 15.486135757604162,
      "kl": 23.0989990234375,
      "learning_rate": 4.5153797993089583e-07,
      "loss": 0.062,
      "reward": 1.53125,
      "reward_std": 0.47575797885656357,
      "rewards/equation_reward_func": 0.625,
      "rewards/format_reward_func": 0.90625,
      "step": 902
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 116.3125,
      "epoch": 1.1413249211356467,
      "grad_norm": 5.789211794753667,
      "kl": 15.419677734375,
      "learning_rate": 4.51298165854032e-07,
      "loss": 0.101,
      "reward": 1.390625,
      "reward_std": 0.5337532535195351,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.890625,
      "step": 904
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 160.3125,
      "epoch": 1.1438485804416403,
      "grad_norm": 21.949153938990122,
      "kl": 55.6414794921875,
      "learning_rate": 4.510578238961954e-07,
      "loss": 0.364,
      "reward": 1.3125,
      "reward_std": 0.48320943117141724,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.875,
      "step": 906
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 123.3125,
      "epoch": 1.1463722397476341,
      "grad_norm": 37.497909031605325,
      "kl": 59.213134765625,
      "learning_rate": 4.508169546876546e-07,
      "loss": 0.2817,
      "reward": 1.4375,
      "reward_std": 0.4884083643555641,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.90625,
      "step": 908
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.21875,
      "epoch": 1.1488958990536278,
      "grad_norm": 3.632883574039305,
      "kl": 9.27166748046875,
      "learning_rate": 4.505755588600612e-07,
      "loss": 0.0605,
      "reward": 1.34375,
      "reward_std": 0.2596687823534012,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.984375,
      "step": 910
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 174.140625,
      "epoch": 1.1514195583596214,
      "grad_norm": 17.726980739143524,
      "kl": 12.0255126953125,
      "learning_rate": 4.503336370464475e-07,
      "loss": 0.2815,
      "reward": 1.359375,
      "reward_std": 0.5452659577131271,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.84375,
      "step": 912
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 138.671875,
      "epoch": 1.1539432176656153,
      "grad_norm": 19.58180198914074,
      "kl": 35.3857421875,
      "learning_rate": 4.500911898812253e-07,
      "loss": 0.2176,
      "reward": 1.296875,
      "reward_std": 0.3723391965031624,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.890625,
      "step": 914
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 180.328125,
      "epoch": 1.1564668769716089,
      "grad_norm": 57.514764778325194,
      "kl": 54.099609375,
      "learning_rate": 4.49848218000184e-07,
      "loss": 0.4598,
      "reward": 1.390625,
      "reward_std": 0.5430923700332642,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.875,
      "step": 916
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 165.90625,
      "epoch": 1.1589905362776025,
      "grad_norm": 9.114482151880173,
      "kl": 11.995361328125,
      "learning_rate": 4.4960472204048905e-07,
      "loss": 0.1675,
      "reward": 1.265625,
      "reward_std": 0.361287385225296,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.859375,
      "step": 918
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 204.625,
      "epoch": 1.1615141955835961,
      "grad_norm": 15.44230456122722,
      "kl": 26.2998046875,
      "learning_rate": 4.4936070264068016e-07,
      "loss": 0.3834,
      "reward": 1.46875,
      "reward_std": 0.31069982051849365,
      "rewards/equation_reward_func": 0.609375,
      "rewards/format_reward_func": 0.859375,
      "step": 920
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 123.203125,
      "epoch": 1.16403785488959,
      "grad_norm": 233.77578297866623,
      "kl": 256.205810546875,
      "learning_rate": 4.4911616044066993e-07,
      "loss": 0.4033,
      "reward": 1.28125,
      "reward_std": 0.37537340819835663,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.90625,
      "step": 922
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 155.0,
      "epoch": 1.1665615141955836,
      "grad_norm": 7.6228703488739225,
      "kl": 11.6334228515625,
      "learning_rate": 4.4887109608174157e-07,
      "loss": 0.1957,
      "reward": 1.328125,
      "reward_std": 0.36526115238666534,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.921875,
      "step": 924
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 191.265625,
      "epoch": 1.1690851735015773,
      "grad_norm": 10.999475364215915,
      "kl": 11.9490966796875,
      "learning_rate": 4.4862551020654785e-07,
      "loss": 0.3013,
      "reward": 1.15625,
      "reward_std": 0.4603152498602867,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.828125,
      "step": 926
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 147.96875,
      "epoch": 1.1716088328075709,
      "grad_norm": 7.4879625339005,
      "kl": 12.803466796875,
      "learning_rate": 4.4837940345910917e-07,
      "loss": 0.2209,
      "reward": 1.375,
      "reward_std": 0.47178421169519424,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.859375,
      "step": 928
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 177.71875,
      "epoch": 1.1741324921135647,
      "grad_norm": 16.031443252587405,
      "kl": 20.84375,
      "learning_rate": 4.4813277648481174e-07,
      "loss": 0.2555,
      "reward": 1.34375,
      "reward_std": 0.455037385225296,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.875,
      "step": 930
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 181.390625,
      "epoch": 1.1766561514195584,
      "grad_norm": 26.82866682243419,
      "kl": 20.3157958984375,
      "learning_rate": 4.478856299304061e-07,
      "loss": 0.2028,
      "reward": 1.1875,
      "reward_std": 0.47617512941360474,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.84375,
      "step": 932
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.40625,
      "epoch": 1.179179810725552,
      "grad_norm": 26.92478468686228,
      "kl": 22.271484375,
      "learning_rate": 4.4763796444400517e-07,
      "loss": 0.1586,
      "reward": 1.53125,
      "reward_std": 0.38152076303958893,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 0.9375,
      "step": 934
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 128.6875,
      "epoch": 1.1817034700315459,
      "grad_norm": 15.302629517158783,
      "kl": 46.069580078125,
      "learning_rate": 4.473897806750828e-07,
      "loss": 0.1673,
      "reward": 1.234375,
      "reward_std": 0.3665652498602867,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.859375,
      "step": 936
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 130.46875,
      "epoch": 1.1842271293375395,
      "grad_norm": 13.531638098516513,
      "kl": 32.3310546875,
      "learning_rate": 4.471410792744722e-07,
      "loss": 0.1184,
      "reward": 1.34375,
      "reward_std": 0.46428901702165604,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.84375,
      "step": 938
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 130.75,
      "epoch": 1.1867507886435331,
      "grad_norm": 20.489689659671942,
      "kl": 138.240234375,
      "learning_rate": 4.468918608943636e-07,
      "loss": 0.4717,
      "reward": 1.203125,
      "reward_std": 0.34809717535972595,
      "rewards/equation_reward_func": 0.28125,
      "rewards/format_reward_func": 0.921875,
      "step": 940
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 145.875,
      "epoch": 1.1892744479495267,
      "grad_norm": 29.544799928517378,
      "kl": 42.96282958984375,
      "learning_rate": 4.466421261883032e-07,
      "loss": 0.2274,
      "reward": 1.375,
      "reward_std": 0.4950518012046814,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.859375,
      "step": 942
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 114.640625,
      "epoch": 1.1917981072555206,
      "grad_norm": 11.961244360122627,
      "kl": 15.9197998046875,
      "learning_rate": 4.4639187581119116e-07,
      "loss": 0.0349,
      "reward": 1.34375,
      "reward_std": 0.41543156653642654,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.9375,
      "step": 944
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 119.140625,
      "epoch": 1.1943217665615142,
      "grad_norm": 12.525454511004133,
      "kl": 28.80303955078125,
      "learning_rate": 4.4614111041927993e-07,
      "loss": 0.161,
      "reward": 1.484375,
      "reward_std": 0.33667195588350296,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.921875,
      "step": 946
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 126.015625,
      "epoch": 1.1968454258675079,
      "grad_norm": 21.056332691886716,
      "kl": 15.6142578125,
      "learning_rate": 4.458898306701725e-07,
      "loss": 0.1505,
      "reward": 1.515625,
      "reward_std": 0.4616282135248184,
      "rewards/equation_reward_func": 0.578125,
      "rewards/format_reward_func": 0.9375,
      "step": 948
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 130.90625,
      "epoch": 1.1993690851735015,
      "grad_norm": 39.84893687336733,
      "kl": 21.75341796875,
      "learning_rate": 4.4563803722282074e-07,
      "loss": 0.2127,
      "reward": 1.4375,
      "reward_std": 0.41543156653642654,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.921875,
      "step": 950
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 128.53125,
      "epoch": 1.2018927444794953,
      "grad_norm": 8.395609417875205,
      "kl": 32.062744140625,
      "learning_rate": 4.453857307375236e-07,
      "loss": 0.2395,
      "reward": 1.375,
      "reward_std": 0.4114577993750572,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.9375,
      "step": 952
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 139.84375,
      "epoch": 1.204416403785489,
      "grad_norm": 75.09679220773849,
      "kl": 98.048095703125,
      "learning_rate": 4.451329118759254e-07,
      "loss": 0.3173,
      "reward": 1.265625,
      "reward_std": 0.558039017021656,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.828125,
      "step": 954
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 161.359375,
      "epoch": 1.2069400630914826,
      "grad_norm": 20.75541969054296,
      "kl": 25.3502197265625,
      "learning_rate": 4.448795813010142e-07,
      "loss": 0.244,
      "reward": 1.328125,
      "reward_std": 0.49553901702165604,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.875,
      "step": 956
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 144.703125,
      "epoch": 1.2094637223974765,
      "grad_norm": 11.26057940480941,
      "kl": 24.4581298828125,
      "learning_rate": 4.446257396771198e-07,
      "loss": 0.1851,
      "reward": 1.453125,
      "reward_std": 0.4290652498602867,
      "rewards/equation_reward_func": 0.578125,
      "rewards/format_reward_func": 0.875,
      "step": 958
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 123.484375,
      "epoch": 1.21198738170347,
      "grad_norm": 12.13302416790215,
      "kl": 14.44866943359375,
      "learning_rate": 4.443713876699123e-07,
      "loss": 0.0676,
      "reward": 1.359375,
      "reward_std": 0.3951544463634491,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.875,
      "step": 960
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 136.296875,
      "epoch": 1.2145110410094637,
      "grad_norm": 6.908384773245833,
      "kl": 23.1256103515625,
      "learning_rate": 4.4411652594640026e-07,
      "loss": 0.2036,
      "reward": 1.375,
      "reward_std": 0.3903200551867485,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.90625,
      "step": 962
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 149.28125,
      "epoch": 1.2170347003154574,
      "grad_norm": 4.412597522321979,
      "kl": 14.8841552734375,
      "learning_rate": 4.4386115517492873e-07,
      "loss": 0.1988,
      "reward": 1.28125,
      "reward_std": 0.4264044463634491,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.90625,
      "step": 964
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 129.296875,
      "epoch": 1.219558359621451,
      "grad_norm": 6.940612874184405,
      "kl": 80.1622314453125,
      "learning_rate": 4.4360527602517795e-07,
      "loss": 0.3932,
      "reward": 1.25,
      "reward_std": 0.4475421905517578,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.875,
      "step": 966
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 132.90625,
      "epoch": 1.2220820189274448,
      "grad_norm": 19.20879741068347,
      "kl": 18.12109375,
      "learning_rate": 4.433488891681609e-07,
      "loss": 0.1536,
      "reward": 1.53125,
      "reward_std": 0.35075797885656357,
      "rewards/equation_reward_func": 0.609375,
      "rewards/format_reward_func": 0.921875,
      "step": 968
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.125,
      "epoch": 1.2246056782334385,
      "grad_norm": 4.337407553076416,
      "kl": 2.89373779296875,
      "learning_rate": 4.4309199527622254e-07,
      "loss": 0.0965,
      "reward": 1.3125,
      "reward_std": 0.3221687823534012,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.953125,
      "step": 970
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 131.21875,
      "epoch": 1.227129337539432,
      "grad_norm": 20.524476922055175,
      "kl": 38.6778564453125,
      "learning_rate": 4.428345950230369e-07,
      "loss": 0.1633,
      "reward": 1.484375,
      "reward_std": 0.34412340819835663,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.921875,
      "step": 972
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 144.703125,
      "epoch": 1.229652996845426,
      "grad_norm": 13.918931975897701,
      "kl": 12.2744140625,
      "learning_rate": 4.425766890836062e-07,
      "loss": 0.0769,
      "reward": 1.296875,
      "reward_std": 0.4440118968486786,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.875,
      "step": 974
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 161.015625,
      "epoch": 1.2321766561514196,
      "grad_norm": 4.012287340959787,
      "kl": 2.1207275390625,
      "learning_rate": 4.423182781342588e-07,
      "loss": 0.2011,
      "reward": 1.359375,
      "reward_std": 0.35559237003326416,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.890625,
      "step": 976
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 120.265625,
      "epoch": 1.2347003154574132,
      "grad_norm": 3.925392793290342,
      "kl": 7.2987060546875,
      "learning_rate": 4.420593628526472e-07,
      "loss": 0.0497,
      "reward": 1.234375,
      "reward_std": 0.4673232287168503,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.890625,
      "step": 978
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 155.15625,
      "epoch": 1.237223974763407,
      "grad_norm": 46.44128325246175,
      "kl": 14.6767578125,
      "learning_rate": 4.417999439177465e-07,
      "loss": 0.2324,
      "reward": 1.3125,
      "reward_std": 0.4928782135248184,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.859375,
      "step": 980
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 143.140625,
      "epoch": 1.2397476340694007,
      "grad_norm": 20.031421802077812,
      "kl": 7.791015625,
      "learning_rate": 4.4154002200985274e-07,
      "loss": 0.1753,
      "reward": 1.421875,
      "reward_std": 0.3798343911767006,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.921875,
      "step": 982
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 153.953125,
      "epoch": 1.2422712933753943,
      "grad_norm": 27.51114604540997,
      "kl": 15.857177734375,
      "learning_rate": 4.412795978105807e-07,
      "loss": 0.1452,
      "reward": 1.34375,
      "reward_std": 0.4963996410369873,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.8125,
      "step": 984
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 163.984375,
      "epoch": 1.244794952681388,
      "grad_norm": 82.06967916453215,
      "kl": 6.677490234375,
      "learning_rate": 4.4101867200286256e-07,
      "loss": 0.2057,
      "reward": 1.328125,
      "reward_std": 0.5276496410369873,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.90625,
      "step": 986
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 178.203125,
      "epoch": 1.2473186119873816,
      "grad_norm": 130.87409249457053,
      "kl": 63.181396484375,
      "learning_rate": 4.407572452709458e-07,
      "loss": 0.4412,
      "reward": 1.28125,
      "reward_std": 0.45679382234811783,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.828125,
      "step": 988
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 140.40625,
      "epoch": 1.2498422712933754,
      "grad_norm": 28.888465298213408,
      "kl": 19.1212158203125,
      "learning_rate": 4.4049531830039157e-07,
      "loss": 0.1884,
      "reward": 1.53125,
      "reward_std": 0.4022061675786972,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 0.9375,
      "step": 990
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 198.75,
      "epoch": 1.252365930599369,
      "grad_norm": 123.4443341059159,
      "kl": 140.30029296875,
      "learning_rate": 4.402328917780728e-07,
      "loss": 0.6976,
      "reward": 1.28125,
      "reward_std": 0.40576278418302536,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.84375,
      "step": 992
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 209.921875,
      "epoch": 1.2548895899053627,
      "grad_norm": 3707.850212709054,
      "kl": 1622.43798828125,
      "learning_rate": 4.399699663921724e-07,
      "loss": 3.5093,
      "reward": 1.0625,
      "reward_std": 0.36792195588350296,
      "rewards/equation_reward_func": 0.203125,
      "rewards/format_reward_func": 0.859375,
      "step": 994
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 165.078125,
      "epoch": 1.2574132492113566,
      "grad_norm": 4588.75835506187,
      "kl": 985.34619140625,
      "learning_rate": 4.3970654283218167e-07,
      "loss": 3.2521,
      "reward": 1.375,
      "reward_std": 0.46428901702165604,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 996
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 217.125,
      "epoch": 1.2599369085173502,
      "grad_norm": 586.7387666142971,
      "kl": 1749.498291015625,
      "learning_rate": 4.39442621788898e-07,
      "loss": 5.8834,
      "reward": 1.21875,
      "reward_std": 0.49467839300632477,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.828125,
      "step": 998
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 153.546875,
      "epoch": 1.2624605678233438,
      "grad_norm": 4.114166967173264,
      "kl": 158.56231689453125,
      "learning_rate": 4.391782039544238e-07,
      "loss": 0.6706,
      "reward": 1.3125,
      "reward_std": 0.3485843911767006,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.875,
      "step": 1000
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 180.875,
      "epoch": 1.2649842271293377,
      "grad_norm": 55.43286135063112,
      "kl": 27.32891845703125,
      "learning_rate": 4.389132900221638e-07,
      "loss": 0.2789,
      "reward": 1.421875,
      "reward_std": 0.4175962880253792,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.890625,
      "step": 1002
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 119.125,
      "epoch": 1.2675078864353313,
      "grad_norm": 37.87311478237538,
      "kl": 23.670166015625,
      "learning_rate": 4.386478806868241e-07,
      "loss": 0.1484,
      "reward": 1.578125,
      "reward_std": 0.42558756470680237,
      "rewards/equation_reward_func": 0.71875,
      "rewards/format_reward_func": 0.859375,
      "step": 1004
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 190.0625,
      "epoch": 1.270031545741325,
      "grad_norm": 116.0089722196768,
      "kl": 20.815185546875,
      "learning_rate": 4.3838197664440944e-07,
      "loss": 0.2803,
      "reward": 1.15625,
      "reward_std": 0.5548821315169334,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.84375,
      "step": 1006
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 132.71875,
      "epoch": 1.2725552050473186,
      "grad_norm": 21.30580994064284,
      "kl": 27.097412109375,
      "learning_rate": 4.381155785922225e-07,
      "loss": 0.1864,
      "reward": 1.234375,
      "reward_std": 0.5469434633851051,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.875,
      "step": 1008
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 142.78125,
      "epoch": 1.2750788643533122,
      "grad_norm": 25.83189799421391,
      "kl": 59.68023681640625,
      "learning_rate": 4.37848687228861e-07,
      "loss": 0.2212,
      "reward": 1.359375,
      "reward_std": 0.34194982051849365,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.921875,
      "step": 1010
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.515625,
      "epoch": 1.277602523659306,
      "grad_norm": 3.182274571951739,
      "kl": 0.92401123046875,
      "learning_rate": 4.375813032542164e-07,
      "loss": -0.0198,
      "reward": 1.46875,
      "reward_std": 0.37537340819835663,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.921875,
      "step": 1012
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 129.84375,
      "epoch": 1.2801261829652997,
      "grad_norm": 36.972847077382774,
      "kl": 24.53790283203125,
      "learning_rate": 4.3731342736947194e-07,
      "loss": 0.2003,
      "reward": 1.390625,
      "reward_std": 0.47661860287189484,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.875,
      "step": 1014
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 126.96875,
      "epoch": 1.2826498422712933,
      "grad_norm": 5.715951426030703,
      "kl": 15.9427490234375,
      "learning_rate": 4.37045060277101e-07,
      "loss": 0.2039,
      "reward": 1.515625,
      "reward_std": 0.3854856640100479,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 0.921875,
      "step": 1016
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 151.296875,
      "epoch": 1.2851735015772872,
      "grad_norm": 10.357616934853052,
      "kl": 300.61700439453125,
      "learning_rate": 4.367762026808649e-07,
      "loss": 1.0781,
      "reward": 1.25,
      "reward_std": 0.33183756470680237,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.921875,
      "step": 1018
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 164.578125,
      "epoch": 1.2876971608832808,
      "grad_norm": 28.631330739290156,
      "kl": 206.698486328125,
      "learning_rate": 4.365068552858115e-07,
      "loss": 0.8014,
      "reward": 1.375,
      "reward_std": 0.4603152498602867,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 1020
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 156.296875,
      "epoch": 1.2902208201892744,
      "grad_norm": 27.837206127732472,
      "kl": 63.044921875,
      "learning_rate": 4.362370187982728e-07,
      "loss": 0.3012,
      "reward": 1.25,
      "reward_std": 0.4528200551867485,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.875,
      "step": 1022
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 126.65625,
      "epoch": 1.2927444794952683,
      "grad_norm": 61.45904298164752,
      "kl": 378.68023681640625,
      "learning_rate": 4.3596669392586363e-07,
      "loss": 1.1622,
      "reward": 1.109375,
      "reward_std": 0.36836542934179306,
      "rewards/equation_reward_func": 0.203125,
      "rewards/format_reward_func": 0.90625,
      "step": 1024
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 142.046875,
      "epoch": 1.295268138801262,
      "grad_norm": 44.216596331551806,
      "kl": 1623.697998046875,
      "learning_rate": 4.3569588137747923e-07,
      "loss": 1.3605,
      "reward": 1.203125,
      "reward_std": 0.5941234081983566,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.796875,
      "step": 1026
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 196.703125,
      "epoch": 1.2977917981072555,
      "grad_norm": 47.8418413669207,
      "kl": 39.8643798828125,
      "learning_rate": 4.3542458186329435e-07,
      "loss": 0.42,
      "reward": 1.203125,
      "reward_std": 0.41809237003326416,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.890625,
      "step": 1028
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 156.890625,
      "epoch": 1.3003154574132492,
      "grad_norm": 153.42283077930443,
      "kl": 65.971923828125,
      "learning_rate": 4.3515279609475996e-07,
      "loss": 0.3289,
      "reward": 1.265625,
      "reward_std": 0.37451278418302536,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.828125,
      "step": 1030
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 177.765625,
      "epoch": 1.3028391167192428,
      "grad_norm": 39.614084128851204,
      "kl": 104.552490234375,
      "learning_rate": 4.348805247846027e-07,
      "loss": 0.4233,
      "reward": 1.34375,
      "reward_std": 0.39429382234811783,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.828125,
      "step": 1032
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 132.6875,
      "epoch": 1.3053627760252366,
      "grad_norm": 42.92204981745492,
      "kl": 46.5767822265625,
      "learning_rate": 4.3460776864682237e-07,
      "loss": 0.3303,
      "reward": 1.484375,
      "reward_std": 0.41809237003326416,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 0.890625,
      "step": 1034
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 129.390625,
      "epoch": 1.3078864353312303,
      "grad_norm": 43.971518181328705,
      "kl": 22.0430908203125,
      "learning_rate": 4.3433452839669005e-07,
      "loss": 0.1835,
      "reward": 1.453125,
      "reward_std": 0.36308756470680237,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 0.859375,
      "step": 1036
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 175.71875,
      "epoch": 1.310410094637224,
      "grad_norm": 46.59986524102904,
      "kl": 49.7259521484375,
      "learning_rate": 4.340608047507465e-07,
      "loss": 0.3851,
      "reward": 1.234375,
      "reward_std": 0.5029904693365097,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.875,
      "step": 1038
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 159.40625,
      "epoch": 1.3129337539432178,
      "grad_norm": 1660.279951284656,
      "kl": 665.1448974609375,
      "learning_rate": 4.337865984268001e-07,
      "loss": 1.9771,
      "reward": 1.296875,
      "reward_std": 0.27944982051849365,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.890625,
      "step": 1040
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 127.640625,
      "epoch": 1.3154574132492114,
      "grad_norm": 31.88541500201617,
      "kl": 35.127685546875,
      "learning_rate": 4.335119101439249e-07,
      "loss": 0.2007,
      "reward": 1.046875,
      "reward_std": 0.283423587679863,
      "rewards/equation_reward_func": 0.171875,
      "rewards/format_reward_func": 0.875,
      "step": 1042
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 226.59375,
      "epoch": 1.317981072555205,
      "grad_norm": 75.409435847661,
      "kl": 194.5394287109375,
      "learning_rate": 4.3323674062245896e-07,
      "loss": 0.8017,
      "reward": 1.359375,
      "reward_std": 0.5337969958782196,
      "rewards/equation_reward_func": 0.609375,
      "rewards/format_reward_func": 0.75,
      "step": 1044
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 156.140625,
      "epoch": 1.3205047318611987,
      "grad_norm": 315.05263517287835,
      "kl": 315.6253662109375,
      "learning_rate": 4.3296109058400223e-07,
      "loss": 0.8105,
      "reward": 1.1875,
      "reward_std": 0.4127618968486786,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.875,
      "step": 1046
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 156.1875,
      "epoch": 1.3230283911671925,
      "grad_norm": 20.176778373592878,
      "kl": 135.53594970703125,
      "learning_rate": 4.326849607514148e-07,
      "loss": 0.6914,
      "reward": 1.109375,
      "reward_std": 0.34194982051849365,
      "rewards/equation_reward_func": 0.21875,
      "rewards/format_reward_func": 0.890625,
      "step": 1048
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 149.84375,
      "epoch": 1.3255520504731861,
      "grad_norm": 68.90205465428436,
      "kl": 38.8389892578125,
      "learning_rate": 4.324083518488151e-07,
      "loss": 0.2749,
      "reward": 1.265625,
      "reward_std": 0.470427505671978,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.859375,
      "step": 1050
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 134.96875,
      "epoch": 1.3280757097791798,
      "grad_norm": 36.072435015988056,
      "kl": 28.5146484375,
      "learning_rate": 4.3213126460157744e-07,
      "loss": 0.2419,
      "reward": 1.375,
      "reward_std": 0.5342404693365097,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.828125,
      "step": 1052
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 137.515625,
      "epoch": 1.3305993690851734,
      "grad_norm": 12.361268626648204,
      "kl": 45.22265625,
      "learning_rate": 4.318536997363311e-07,
      "loss": 0.2712,
      "reward": 1.3125,
      "reward_std": 0.47793156653642654,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.90625,
      "step": 1054
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 161.90625,
      "epoch": 1.3331230283911673,
      "grad_norm": 74.10702962400592,
      "kl": 46.31982421875,
      "learning_rate": 4.3157565798095746e-07,
      "loss": 0.3464,
      "reward": 1.140625,
      "reward_std": 0.5337532535195351,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.78125,
      "step": 1056
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 134.359375,
      "epoch": 1.3356466876971609,
      "grad_norm": 46.69274387322464,
      "kl": 60.0328369140625,
      "learning_rate": 4.312971400645886e-07,
      "loss": 0.2756,
      "reward": 1.359375,
      "reward_std": 0.4162921905517578,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.875,
      "step": 1058
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 129.625,
      "epoch": 1.3381703470031545,
      "grad_norm": 27.273754981749832,
      "kl": 137.9921875,
      "learning_rate": 4.310181467176054e-07,
      "loss": 0.3553,
      "reward": 1.390625,
      "reward_std": 0.408423587679863,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.90625,
      "step": 1060
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.703125,
      "epoch": 1.3406940063091484,
      "grad_norm": 17.003393555891225,
      "kl": 117.5289306640625,
      "learning_rate": 4.307386786716352e-07,
      "loss": 0.2707,
      "reward": 1.296875,
      "reward_std": 0.46912340819835663,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.921875,
      "step": 1062
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 168.375,
      "epoch": 1.343217665615142,
      "grad_norm": 95.51887674371795,
      "kl": 101.733154296875,
      "learning_rate": 4.304587366595505e-07,
      "loss": 0.4228,
      "reward": 1.359375,
      "reward_std": 0.34194982051849365,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.875,
      "step": 1064
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 115.265625,
      "epoch": 1.3457413249211356,
      "grad_norm": 8.996793982646603,
      "kl": 52.0570068359375,
      "learning_rate": 4.301783214154666e-07,
      "loss": 0.3127,
      "reward": 1.390625,
      "reward_std": 0.36308756470680237,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.921875,
      "step": 1066
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.671875,
      "epoch": 1.3482649842271293,
      "grad_norm": 3.582366111898072,
      "kl": 8.317138671875,
      "learning_rate": 4.298974336747397e-07,
      "loss": 0.0316,
      "reward": 1.1875,
      "reward_std": 0.30542195588350296,
      "rewards/equation_reward_func": 0.265625,
      "rewards/format_reward_func": 0.921875,
      "step": 1068
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 124.953125,
      "epoch": 1.350788643533123,
      "grad_norm": 7.091085419830913,
      "kl": 17.4884033203125,
      "learning_rate": 4.2961607417396517e-07,
      "loss": 0.1757,
      "reward": 1.453125,
      "reward_std": 0.42554382234811783,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.90625,
      "step": 1070
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 144.515625,
      "epoch": 1.3533123028391167,
      "grad_norm": 16.656665879409584,
      "kl": 7.8018798828125,
      "learning_rate": 4.293342436509756e-07,
      "loss": 0.1446,
      "reward": 1.359375,
      "reward_std": 0.435212604701519,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.875,
      "step": 1072
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 204.4375,
      "epoch": 1.3558359621451104,
      "grad_norm": 53.98786899710847,
      "kl": 74.3798828125,
      "learning_rate": 4.290519428448386e-07,
      "loss": 0.4917,
      "reward": 1.203125,
      "reward_std": 0.5316234081983566,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.78125,
      "step": 1074
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 123.515625,
      "epoch": 1.358359621451104,
      "grad_norm": 92.87815760628084,
      "kl": 99.47174072265625,
      "learning_rate": 4.287691724958551e-07,
      "loss": 0.3204,
      "reward": 1.453125,
      "reward_std": 0.4598717764019966,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.9375,
      "step": 1076
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.46875,
      "epoch": 1.3608832807570979,
      "grad_norm": 9.909778156227935,
      "kl": 30.10107421875,
      "learning_rate": 4.284859333455575e-07,
      "loss": 0.1495,
      "reward": 1.484375,
      "reward_std": 0.4423343911767006,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.953125,
      "step": 1078
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 138.40625,
      "epoch": 1.3634069400630915,
      "grad_norm": 19.170074188932734,
      "kl": 37.431884765625,
      "learning_rate": 4.282022261367073e-07,
      "loss": 0.2578,
      "reward": 1.375,
      "reward_std": 0.33711542934179306,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.9375,
      "step": 1080
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 142.421875,
      "epoch": 1.3659305993690851,
      "grad_norm": 130.854773962853,
      "kl": 89.23095703125,
      "learning_rate": 4.2791805161329363e-07,
      "loss": 0.4485,
      "reward": 1.390625,
      "reward_std": 0.41939646750688553,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.90625,
      "step": 1082
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.5,
      "epoch": 1.368454258675079,
      "grad_norm": 5.937057433089583,
      "kl": 15.8448486328125,
      "learning_rate": 4.2763341052053113e-07,
      "loss": 0.1201,
      "reward": 1.46875,
      "reward_std": 0.4207531735301018,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.9375,
      "step": 1084
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 141.359375,
      "epoch": 1.3709779179810726,
      "grad_norm": 81.91904966256071,
      "kl": 87.371337890625,
      "learning_rate": 4.273483036048577e-07,
      "loss": 0.4229,
      "reward": 1.453125,
      "reward_std": 0.3590700551867485,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.90625,
      "step": 1086
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 171.171875,
      "epoch": 1.3735015772870662,
      "grad_norm": 161.80984986368796,
      "kl": 157.8121337890625,
      "learning_rate": 4.2706273161393326e-07,
      "loss": 0.6026,
      "reward": 1.578125,
      "reward_std": 0.39695462584495544,
      "rewards/equation_reward_func": 0.6875,
      "rewards/format_reward_func": 0.890625,
      "step": 1088
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 163.671875,
      "epoch": 1.3760252365930599,
      "grad_norm": 15.499298228411591,
      "kl": 321.9598388671875,
      "learning_rate": 4.2677669529663686e-07,
      "loss": 1.0734,
      "reward": 1.28125,
      "reward_std": 0.3846687823534012,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.875,
      "step": 1090
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.125,
      "epoch": 1.3785488958990535,
      "grad_norm": 13.167309775706649,
      "kl": 32.109375,
      "learning_rate": 4.264901954030654e-07,
      "loss": 0.193,
      "reward": 1.40625,
      "reward_std": 0.35206207633018494,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.9375,
      "step": 1092
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 185.859375,
      "epoch": 1.3810725552050473,
      "grad_norm": 9632.304952933397,
      "kl": 2385.613037109375,
      "learning_rate": 4.262032326845316e-07,
      "loss": 3.8869,
      "reward": 1.171875,
      "reward_std": 0.46912340819835663,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.8125,
      "step": 1094
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 149.40625,
      "epoch": 1.383596214511041,
      "grad_norm": 32.86915429628029,
      "kl": 71.741943359375,
      "learning_rate": 4.259158078935615e-07,
      "loss": 0.292,
      "reward": 1.46875,
      "reward_std": 0.40928421169519424,
      "rewards/equation_reward_func": 0.578125,
      "rewards/format_reward_func": 0.890625,
      "step": 1096
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 138.703125,
      "epoch": 1.3861198738170346,
      "grad_norm": 37.51267523687913,
      "kl": 64.249755859375,
      "learning_rate": 4.256279217838933e-07,
      "loss": 0.4114,
      "reward": 1.375,
      "reward_std": 0.4963996410369873,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.890625,
      "step": 1098
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 149.90625,
      "epoch": 1.3886435331230285,
      "grad_norm": 61.50323922455221,
      "kl": 84.74462890625,
      "learning_rate": 4.253395751104748e-07,
      "loss": 0.3657,
      "reward": 1.21875,
      "reward_std": 0.36570462584495544,
      "rewards/equation_reward_func": 0.296875,
      "rewards/format_reward_func": 0.921875,
      "step": 1100
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 194.640625,
      "epoch": 1.391167192429022,
      "grad_norm": 49.121929443269764,
      "kl": 59.352294921875,
      "learning_rate": 4.250507686294613e-07,
      "loss": 0.3889,
      "reward": 1.375,
      "reward_std": 0.42292676120996475,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 1102
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 141.4375,
      "epoch": 1.3936908517350157,
      "grad_norm": 268.75886487270196,
      "kl": 174.408203125,
      "learning_rate": 4.2476150309821437e-07,
      "loss": 0.6213,
      "reward": 1.375,
      "reward_std": 0.2235843911767006,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.90625,
      "step": 1104
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 134.75,
      "epoch": 1.3962145110410096,
      "grad_norm": 30.18404579088817,
      "kl": 27.97900390625,
      "learning_rate": 4.24471779275299e-07,
      "loss": 0.2468,
      "reward": 1.34375,
      "reward_std": 0.47575797885656357,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.921875,
      "step": 1106
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 130.9375,
      "epoch": 1.3987381703470032,
      "grad_norm": 31.427069349082295,
      "kl": 74.9619140625,
      "learning_rate": 4.2418159792048214e-07,
      "loss": 0.2198,
      "reward": 1.25,
      "reward_std": 0.3088996410369873,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.921875,
      "step": 1108
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.546875,
      "epoch": 1.4012618296529968,
      "grad_norm": 5.034254774631319,
      "kl": 13.24737548828125,
      "learning_rate": 4.238909597947307e-07,
      "loss": 0.0568,
      "reward": 1.359375,
      "reward_std": 0.5127029940485954,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.90625,
      "step": 1110
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 172.421875,
      "epoch": 1.4037854889589905,
      "grad_norm": 562.2582812012078,
      "kl": 630.7133178710938,
      "learning_rate": 4.235998656602091e-07,
      "loss": 1.8825,
      "reward": 1.28125,
      "reward_std": 0.45679382234811783,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.84375,
      "step": 1112
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 207.453125,
      "epoch": 1.406309148264984,
      "grad_norm": 469.59853770439435,
      "kl": 536.6883544921875,
      "learning_rate": 4.2330831628027783e-07,
      "loss": 1.8913,
      "reward": 1.375,
      "reward_std": 0.40928421169519424,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.84375,
      "step": 1114
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 146.234375,
      "epoch": 1.408832807570978,
      "grad_norm": 120.88688210006465,
      "kl": 126.7808837890625,
      "learning_rate": 4.230163124194912e-07,
      "loss": 0.4631,
      "reward": 1.5,
      "reward_std": 0.4739577993750572,
      "rewards/equation_reward_func": 0.65625,
      "rewards/format_reward_func": 0.84375,
      "step": 1116
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 137.875,
      "epoch": 1.4113564668769716,
      "grad_norm": 49.24503900625119,
      "kl": 63.10626220703125,
      "learning_rate": 4.2272385484359534e-07,
      "loss": 0.3629,
      "reward": 1.34375,
      "reward_std": 0.38286860287189484,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.875,
      "step": 1118
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 155.296875,
      "epoch": 1.4138801261829652,
      "grad_norm": 8.005334154987095,
      "kl": 22.134033203125,
      "learning_rate": 4.2243094431952607e-07,
      "loss": 0.2295,
      "reward": 1.4375,
      "reward_std": 0.33183756470680237,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.875,
      "step": 1120
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 167.34375,
      "epoch": 1.416403785488959,
      "grad_norm": 85.01797824038972,
      "kl": 50.271240234375,
      "learning_rate": 4.2213758161540703e-07,
      "loss": 0.4509,
      "reward": 1.21875,
      "reward_std": 0.3846687823534012,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.90625,
      "step": 1122
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 129.625,
      "epoch": 1.4189274447949527,
      "grad_norm": 9.077158498543676,
      "kl": 26.045166015625,
      "learning_rate": 4.2184376750054785e-07,
      "loss": 0.1686,
      "reward": 1.5,
      "reward_std": 0.30542195588350296,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 0.90625,
      "step": 1124
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 131.796875,
      "epoch": 1.4214511041009463,
      "grad_norm": 48.83435743277734,
      "kl": 30.2781982421875,
      "learning_rate": 4.2154950274544173e-07,
      "loss": 0.2525,
      "reward": 1.359375,
      "reward_std": 0.3098391965031624,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.9375,
      "step": 1126
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 127.109375,
      "epoch": 1.4239747634069402,
      "grad_norm": 19.040672901443656,
      "kl": 56.6591796875,
      "learning_rate": 4.2125478812176363e-07,
      "loss": 0.3831,
      "reward": 1.40625,
      "reward_std": 0.36570462584495544,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.921875,
      "step": 1128
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 156.28125,
      "epoch": 1.4264984227129338,
      "grad_norm": 36.57097574703384,
      "kl": 86.6357421875,
      "learning_rate": 4.2095962440236843e-07,
      "loss": 0.5205,
      "reward": 1.1875,
      "reward_std": 0.5214674100279808,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.828125,
      "step": 1130
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 182.359375,
      "epoch": 1.4290220820189274,
      "grad_norm": 31.90243486586409,
      "kl": 130.050537109375,
      "learning_rate": 4.206640123612884e-07,
      "loss": 0.6257,
      "reward": 1.265625,
      "reward_std": 0.34194982051849365,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.84375,
      "step": 1132
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 143.40625,
      "epoch": 1.431545741324921,
      "grad_norm": 31.799701035021922,
      "kl": 115.054931640625,
      "learning_rate": 4.203679527737318e-07,
      "loss": 0.4707,
      "reward": 1.234375,
      "reward_std": 0.4290652498602867,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.875,
      "step": 1134
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 150.796875,
      "epoch": 1.4340694006309147,
      "grad_norm": 23.67953779384768,
      "kl": 106.051513671875,
      "learning_rate": 4.2007144641608035e-07,
      "loss": 0.6181,
      "reward": 1.140625,
      "reward_std": 0.42337023466825485,
      "rewards/equation_reward_func": 0.265625,
      "rewards/format_reward_func": 0.875,
      "step": 1136
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 162.0625,
      "epoch": 1.4365930599369086,
      "grad_norm": 29.14338665239597,
      "kl": 84.6962890625,
      "learning_rate": 4.1977449406588736e-07,
      "loss": 0.5156,
      "reward": 1.3125,
      "reward_std": 0.42070943117141724,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.890625,
      "step": 1138
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 127.0625,
      "epoch": 1.4391167192429022,
      "grad_norm": 80.21545476059626,
      "kl": 27.224609375,
      "learning_rate": 4.194770965018758e-07,
      "loss": 0.2489,
      "reward": 1.296875,
      "reward_std": 0.44053421169519424,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.9375,
      "step": 1140
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 117.625,
      "epoch": 1.4416403785488958,
      "grad_norm": 27.579130157055516,
      "kl": 46.76806640625,
      "learning_rate": 4.19179254503936e-07,
      "loss": 0.2617,
      "reward": 1.40625,
      "reward_std": 0.36570462584495544,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.9375,
      "step": 1142
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 134.734375,
      "epoch": 1.4441640378548897,
      "grad_norm": 10.619337973926498,
      "kl": 66.86376953125,
      "learning_rate": 4.188809688531241e-07,
      "loss": 0.4113,
      "reward": 1.421875,
      "reward_std": 0.3854856640100479,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.921875,
      "step": 1144
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 127.75,
      "epoch": 1.4466876971608833,
      "grad_norm": 124.5252907414306,
      "kl": 175.92376708984375,
      "learning_rate": 4.1858224033165925e-07,
      "loss": 0.6966,
      "reward": 1.484375,
      "reward_std": 0.3929808586835861,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.9375,
      "step": 1146
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 129.53125,
      "epoch": 1.449211356466877,
      "grad_norm": 13.927865469651586,
      "kl": 64.255126953125,
      "learning_rate": 4.1828306972292226e-07,
      "loss": 0.4444,
      "reward": 1.328125,
      "reward_std": 0.283423587679863,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.921875,
      "step": 1148
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 144.21875,
      "epoch": 1.4517350157728708,
      "grad_norm": 53.446796466276915,
      "kl": 84.6160888671875,
      "learning_rate": 4.1798345781145305e-07,
      "loss": 0.3618,
      "reward": 0.984375,
      "reward_std": 0.29439646750688553,
      "rewards/equation_reward_func": 0.140625,
      "rewards/format_reward_func": 0.84375,
      "step": 1150
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 173.515625,
      "epoch": 1.4542586750788644,
      "grad_norm": 22.75629407042367,
      "kl": 92.5501708984375,
      "learning_rate": 4.1768340538294914e-07,
      "loss": 0.357,
      "reward": 1.359375,
      "reward_std": 0.624886192381382,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.8125,
      "step": 1152
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 120.78125,
      "epoch": 1.456782334384858,
      "grad_norm": 23.910567877478663,
      "kl": 66.32763671875,
      "learning_rate": 4.173829132242629e-07,
      "loss": 0.2909,
      "reward": 1.40625,
      "reward_std": 0.44934237003326416,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.90625,
      "step": 1154
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.109375,
      "epoch": 1.4593059936908517,
      "grad_norm": 68.24353273859936,
      "kl": 56.1107177734375,
      "learning_rate": 4.1708198212340006e-07,
      "loss": 0.2608,
      "reward": 1.40625,
      "reward_std": 0.41895299404859543,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.9375,
      "step": 1156
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.890625,
      "epoch": 1.4618296529968453,
      "grad_norm": 187.6431879080875,
      "kl": 61.6094970703125,
      "learning_rate": 4.167806128695173e-07,
      "loss": 0.2317,
      "reward": 1.3125,
      "reward_std": 0.27461542934179306,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.953125,
      "step": 1158
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 156.8125,
      "epoch": 1.4643533123028392,
      "grad_norm": 40.26976458198621,
      "kl": 98.5888671875,
      "learning_rate": 4.1647880625292027e-07,
      "loss": 0.4101,
      "reward": 1.28125,
      "reward_std": 0.35075797885656357,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.859375,
      "step": 1160
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 129.375,
      "epoch": 1.4668769716088328,
      "grad_norm": 21.57476939195274,
      "kl": 60.0087890625,
      "learning_rate": 4.1617656306506175e-07,
      "loss": 0.3314,
      "reward": 1.46875,
      "reward_std": 0.4338996410369873,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.90625,
      "step": 1162
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 118.125,
      "epoch": 1.4694006309148264,
      "grad_norm": 8.598552069858457,
      "kl": 29.4259033203125,
      "learning_rate": 4.158738840985393e-07,
      "loss": 0.2376,
      "reward": 1.28125,
      "reward_std": 0.3221687823534012,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.9375,
      "step": 1164
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 156.640625,
      "epoch": 1.4719242902208203,
      "grad_norm": 119.1698024964359,
      "kl": 127.0762939453125,
      "learning_rate": 4.155707701470932e-07,
      "loss": 0.3742,
      "reward": 1.21875,
      "reward_std": 0.44009073823690414,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.875,
      "step": 1166
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 132.546875,
      "epoch": 1.474447949526814,
      "grad_norm": 67.04371785106294,
      "kl": 60.9991455078125,
      "learning_rate": 4.1526722200560436e-07,
      "loss": 0.4356,
      "reward": 1.375,
      "reward_std": 0.314673587679863,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.9375,
      "step": 1168
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.78125,
      "epoch": 1.4769716088328075,
      "grad_norm": 10.328282792693496,
      "kl": 41.427734375,
      "learning_rate": 4.1496324047009244e-07,
      "loss": 0.2263,
      "reward": 1.421875,
      "reward_std": 0.37803421169519424,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.90625,
      "step": 1170
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 141.15625,
      "epoch": 1.4794952681388014,
      "grad_norm": 19.237733754860198,
      "kl": 104.0772705078125,
      "learning_rate": 4.1465882633771364e-07,
      "loss": 0.5272,
      "reward": 1.4375,
      "reward_std": 0.35206207633018494,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.90625,
      "step": 1172
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.0,
      "epoch": 1.482018927444795,
      "grad_norm": 32.9296026264637,
      "kl": 47.117919921875,
      "learning_rate": 4.1435398040675844e-07,
      "loss": 0.2324,
      "reward": 1.40625,
      "reward_std": 0.252173587679863,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.96875,
      "step": 1174
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.9375,
      "epoch": 1.4845425867507887,
      "grad_norm": 9.83039149184343,
      "kl": 32.027587890625,
      "learning_rate": 4.140487034766499e-07,
      "loss": 0.2363,
      "reward": 1.3125,
      "reward_std": 0.31069982051849365,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.9375,
      "step": 1176
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 118.953125,
      "epoch": 1.4870662460567823,
      "grad_norm": 10.025220727660237,
      "kl": 50.441162109375,
      "learning_rate": 4.13742996347941e-07,
      "loss": 0.2125,
      "reward": 1.359375,
      "reward_std": 0.30586542934179306,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.875,
      "step": 1178
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.46875,
      "epoch": 1.489589905362776,
      "grad_norm": 25.90119438994922,
      "kl": 38.3037109375,
      "learning_rate": 4.1343685982231315e-07,
      "loss": 0.2667,
      "reward": 1.359375,
      "reward_std": 0.29439646750688553,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.953125,
      "step": 1180
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 129.890625,
      "epoch": 1.4921135646687698,
      "grad_norm": 33.261615158720126,
      "kl": 54.452392578125,
      "learning_rate": 4.131302947025736e-07,
      "loss": 0.2919,
      "reward": 1.390625,
      "reward_std": 0.34634073823690414,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.84375,
      "step": 1182
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 124.171875,
      "epoch": 1.4946372239747634,
      "grad_norm": 17.181273138194946,
      "kl": 44.005615234375,
      "learning_rate": 4.1282330179265377e-07,
      "loss": 0.3422,
      "reward": 1.203125,
      "reward_std": 0.408423587679863,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.890625,
      "step": 1184
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.984375,
      "epoch": 1.497160883280757,
      "grad_norm": 15.047231971598348,
      "kl": 34.7879638671875,
      "learning_rate": 4.125158818976068e-07,
      "loss": 0.2496,
      "reward": 1.421875,
      "reward_std": 0.42776115238666534,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.953125,
      "step": 1186
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 115.109375,
      "epoch": 1.4996845425867509,
      "grad_norm": 12.679745269457971,
      "kl": 65.556640625,
      "learning_rate": 4.122080358236054e-07,
      "loss": 0.3206,
      "reward": 1.34375,
      "reward_std": 0.39651115238666534,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.90625,
      "step": 1188
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 127.5,
      "epoch": 1.5022082018927445,
      "grad_norm": 86.67727872197567,
      "kl": 110.90283203125,
      "learning_rate": 4.1189976437794003e-07,
      "loss": 0.3004,
      "reward": 1.484375,
      "reward_std": 0.3665652498602867,
      "rewards/equation_reward_func": 0.609375,
      "rewards/format_reward_func": 0.875,
      "step": 1190
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 121.84375,
      "epoch": 1.5047318611987381,
      "grad_norm": 24.611534216367005,
      "kl": 123.10205078125,
      "learning_rate": 4.115910683690167e-07,
      "loss": 0.5124,
      "reward": 1.484375,
      "reward_std": 0.345923587679863,
      "rewards/equation_reward_func": 0.578125,
      "rewards/format_reward_func": 0.90625,
      "step": 1192
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.890625,
      "epoch": 1.507255520504732,
      "grad_norm": 24.88961686302427,
      "kl": 22.662841796875,
      "learning_rate": 4.1128194860635456e-07,
      "loss": 0.0841,
      "reward": 1.3125,
      "reward_std": 0.3846687823534012,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.9375,
      "step": 1194
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.9375,
      "epoch": 1.5097791798107254,
      "grad_norm": 15.686864055894242,
      "kl": 31.66845703125,
      "learning_rate": 4.1097240590058435e-07,
      "loss": 0.2448,
      "reward": 1.3125,
      "reward_std": 0.37319982051849365,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.953125,
      "step": 1196
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 150.625,
      "epoch": 1.5123028391167193,
      "grad_norm": 32.33765232560859,
      "kl": 48.907470703125,
      "learning_rate": 4.106624410634456e-07,
      "loss": 0.2612,
      "reward": 1.234375,
      "reward_std": 0.4159187823534012,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.859375,
      "step": 1198
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 120.3125,
      "epoch": 1.5148264984227129,
      "grad_norm": 3.9891303299117284,
      "kl": 118.025146484375,
      "learning_rate": 4.1035205490778496e-07,
      "loss": 0.364,
      "reward": 1.328125,
      "reward_std": 0.3040652498602867,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.90625,
      "step": 1200
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 140.09375,
      "epoch": 1.5173501577287065,
      "grad_norm": 61.116403268041644,
      "kl": 97.561279296875,
      "learning_rate": 4.1004124824755397e-07,
      "loss": 0.3541,
      "reward": 1.40625,
      "reward_std": 0.40178901702165604,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.921875,
      "step": 1202
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.265625,
      "epoch": 1.5198738170347004,
      "grad_norm": 5.7039940612108495,
      "kl": 4.45245361328125,
      "learning_rate": 4.0973002189780693e-07,
      "loss": 0.0059,
      "reward": 1.28125,
      "reward_std": 0.3410891965031624,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.9375,
      "step": 1204
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.09375,
      "epoch": 1.522397476340694,
      "grad_norm": 14.040257309877315,
      "kl": 15.31109619140625,
      "learning_rate": 4.094183766746985e-07,
      "loss": 0.1106,
      "reward": 1.484375,
      "reward_std": 0.283423587679863,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.96875,
      "step": 1206
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 138.25,
      "epoch": 1.5249211356466876,
      "grad_norm": 10.0483463587626,
      "kl": 53.75244140625,
      "learning_rate": 4.09106313395482e-07,
      "loss": 0.3835,
      "reward": 1.25,
      "reward_std": 0.3846687823534012,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.890625,
      "step": 1208
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.96875,
      "epoch": 1.5274447949526815,
      "grad_norm": 17.890856570099338,
      "kl": 18.11181640625,
      "learning_rate": 4.0879383287850713e-07,
      "loss": 0.1126,
      "reward": 1.3125,
      "reward_std": 0.45901115238666534,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.9375,
      "step": 1210
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 127.15625,
      "epoch": 1.5299684542586751,
      "grad_norm": 52.63220169725936,
      "kl": 54.25885009765625,
      "learning_rate": 4.084809359432175e-07,
      "loss": 0.3296,
      "reward": 1.3125,
      "reward_std": 0.406136192381382,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.875,
      "step": 1212
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 153.515625,
      "epoch": 1.5324921135646687,
      "grad_norm": 50.21275634799842,
      "kl": 94.60504150390625,
      "learning_rate": 4.081676234101488e-07,
      "loss": 0.4428,
      "reward": 1.15625,
      "reward_std": 0.37319982051849365,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.84375,
      "step": 1214
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.3125,
      "epoch": 1.5350157728706626,
      "grad_norm": 3.869930521239678,
      "kl": 37.3087158203125,
      "learning_rate": 4.078538961009268e-07,
      "loss": 0.156,
      "reward": 1.4375,
      "reward_std": 0.1610843911767006,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.96875,
      "step": 1216
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 134.484375,
      "epoch": 1.537539432176656,
      "grad_norm": 63.50213737181629,
      "kl": 90.665283203125,
      "learning_rate": 4.075397548382646e-07,
      "loss": 0.3958,
      "reward": 1.234375,
      "reward_std": 0.37053901702165604,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.921875,
      "step": 1218
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 138.671875,
      "epoch": 1.5400630914826499,
      "grad_norm": 22.97095286389757,
      "kl": 18.0672607421875,
      "learning_rate": 4.072252004459611e-07,
      "loss": 0.1316,
      "reward": 1.328125,
      "reward_std": 0.3802077993750572,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.890625,
      "step": 1220
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.828125,
      "epoch": 1.5425867507886435,
      "grad_norm": 9.673764240539942,
      "kl": 12.492431640625,
      "learning_rate": 4.069102337488986e-07,
      "loss": 0.0305,
      "reward": 1.4375,
      "reward_std": 0.3221687823534012,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.96875,
      "step": 1222
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 212.9375,
      "epoch": 1.5451104100946371,
      "grad_norm": 27.18119853447617,
      "kl": 98.953125,
      "learning_rate": 4.0659485557304047e-07,
      "loss": 0.7409,
      "reward": 1.390625,
      "reward_std": 0.44053421169519424,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.859375,
      "step": 1224
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 139.359375,
      "epoch": 1.547634069400631,
      "grad_norm": 50.37357488567177,
      "kl": 50.86614990234375,
      "learning_rate": 4.0627906674542924e-07,
      "loss": 0.434,
      "reward": 1.359375,
      "reward_std": 0.36304382234811783,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.859375,
      "step": 1226
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 116.265625,
      "epoch": 1.5501577287066246,
      "grad_norm": 15.319458320395308,
      "kl": 45.6214599609375,
      "learning_rate": 4.059628680941843e-07,
      "loss": 0.2779,
      "reward": 1.296875,
      "reward_std": 0.43086542934179306,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.90625,
      "step": 1228
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 123.234375,
      "epoch": 1.5526813880126182,
      "grad_norm": 55.49554595946794,
      "kl": 123.7918701171875,
      "learning_rate": 4.056462604484997e-07,
      "loss": 0.4488,
      "reward": 1.25,
      "reward_std": 0.39651115238666534,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.859375,
      "step": 1230
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 145.609375,
      "epoch": 1.555205047318612,
      "grad_norm": 57.449099455160706,
      "kl": 113.886962890625,
      "learning_rate": 4.0532924463864214e-07,
      "loss": 0.5033,
      "reward": 1.421875,
      "reward_std": 0.44053421169519424,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.890625,
      "step": 1232
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 165.46875,
      "epoch": 1.5577287066246057,
      "grad_norm": 50.14319938618764,
      "kl": 155.182861328125,
      "learning_rate": 4.050118214959486e-07,
      "loss": 0.7636,
      "reward": 1.1875,
      "reward_std": 0.47043637186288834,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.78125,
      "step": 1234
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 142.328125,
      "epoch": 1.5602523659305993,
      "grad_norm": 22.221398535837153,
      "kl": 67.5654296875,
      "learning_rate": 4.0469399185282425e-07,
      "loss": 0.3722,
      "reward": 1.25,
      "reward_std": 0.45151595771312714,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.90625,
      "step": 1236
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 117.3125,
      "epoch": 1.5627760252365932,
      "grad_norm": 17.456694902063962,
      "kl": 35.8369140625,
      "learning_rate": 4.0437575654274037e-07,
      "loss": 0.2337,
      "reward": 1.515625,
      "reward_std": 0.283423587679863,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 0.921875,
      "step": 1238
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 133.578125,
      "epoch": 1.5652996845425866,
      "grad_norm": 24.99861445334116,
      "kl": 21.53173828125,
      "learning_rate": 4.040571164002318e-07,
      "loss": 0.2024,
      "reward": 1.3125,
      "reward_std": 0.4242308586835861,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.90625,
      "step": 1240
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 129.609375,
      "epoch": 1.5678233438485805,
      "grad_norm": 22.693629233436685,
      "kl": 55.392333984375,
      "learning_rate": 4.037380722608953e-07,
      "loss": 0.2691,
      "reward": 1.265625,
      "reward_std": 0.497712604701519,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.84375,
      "step": 1242
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.140625,
      "epoch": 1.570347003154574,
      "grad_norm": 3.6399072214222343,
      "kl": 16.357421875,
      "learning_rate": 4.034186249613868e-07,
      "loss": 0.1475,
      "reward": 1.515625,
      "reward_std": 0.36308756470680237,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 0.921875,
      "step": 1244
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 168.671875,
      "epoch": 1.5728706624605677,
      "grad_norm": 64.89052965950695,
      "kl": 98.280029296875,
      "learning_rate": 4.030987753394198e-07,
      "loss": 0.6254,
      "reward": 1.234375,
      "reward_std": 0.48804382234811783,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.84375,
      "step": 1246
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.875,
      "epoch": 1.5753943217665616,
      "grad_norm": 34.915116959127985,
      "kl": 31.50408935546875,
      "learning_rate": 4.027785242337625e-07,
      "loss": 0.1897,
      "reward": 1.375,
      "reward_std": 0.3221687823534012,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.953125,
      "step": 1248
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.671875,
      "epoch": 1.5779179810725552,
      "grad_norm": 3.4492118979174524,
      "kl": 8.39739990234375,
      "learning_rate": 4.024578724842361e-07,
      "loss": 0.053,
      "reward": 1.4375,
      "reward_std": 0.3582531735301018,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.984375,
      "step": 1250
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.140625,
      "epoch": 1.5804416403785488,
      "grad_norm": 4.680652984088246,
      "kl": 8.282470703125,
      "learning_rate": 4.021368209317125e-07,
      "loss": 0.1149,
      "reward": 1.4375,
      "reward_std": 0.33711542934179306,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.96875,
      "step": 1252
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 115.59375,
      "epoch": 1.5829652996845427,
      "grad_norm": 4.112838408333896,
      "kl": 20.867919921875,
      "learning_rate": 4.018153704181119e-07,
      "loss": 0.1703,
      "reward": 1.390625,
      "reward_std": 0.34194982051849365,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.90625,
      "step": 1254
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 144.3125,
      "epoch": 1.5854889589905363,
      "grad_norm": 32.475317921433316,
      "kl": 71.909912109375,
      "learning_rate": 4.0149352178640084e-07,
      "loss": 0.3904,
      "reward": 1.296875,
      "reward_std": 0.4924347400665283,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.90625,
      "step": 1256
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.625,
      "epoch": 1.58801261829653,
      "grad_norm": 16.896349593700347,
      "kl": 35.38623046875,
      "learning_rate": 4.011712758805898e-07,
      "loss": 0.1963,
      "reward": 1.359375,
      "reward_std": 0.40662340819835663,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.96875,
      "step": 1258
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 173.390625,
      "epoch": 1.5905362776025238,
      "grad_norm": 29.04631229841814,
      "kl": 64.533203125,
      "learning_rate": 4.0084863354573116e-07,
      "loss": 0.4194,
      "reward": 1.234375,
      "reward_std": 0.42558756470680237,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.890625,
      "step": 1260
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 136.375,
      "epoch": 1.5930599369085172,
      "grad_norm": 13.968864017254846,
      "kl": 77.550048828125,
      "learning_rate": 4.0052559562791676e-07,
      "loss": 0.4483,
      "reward": 1.4375,
      "reward_std": 0.42070943117141724,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.890625,
      "step": 1262
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 147.65625,
      "epoch": 1.595583596214511,
      "grad_norm": 17.688320327009684,
      "kl": 96.5577392578125,
      "learning_rate": 4.002021629742759e-07,
      "loss": 0.5133,
      "reward": 1.34375,
      "reward_std": 0.38814646750688553,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.921875,
      "step": 1264
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.328125,
      "epoch": 1.5981072555205047,
      "grad_norm": 8.92224786243765,
      "kl": 9.349365234375,
      "learning_rate": 3.9987833643297296e-07,
      "loss": 0.0839,
      "reward": 1.421875,
      "reward_std": 0.36308756470680237,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.984375,
      "step": 1266
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 122.375,
      "epoch": 1.6006309148264983,
      "grad_norm": 30.154978490417907,
      "kl": 48.23681640625,
      "learning_rate": 3.9955411685320544e-07,
      "loss": 0.2445,
      "reward": 1.46875,
      "reward_std": 0.47178421169519424,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.90625,
      "step": 1268
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.90625,
      "epoch": 1.6031545741324922,
      "grad_norm": 10.324217123663782,
      "kl": 151.1002197265625,
      "learning_rate": 3.9922950508520126e-07,
      "loss": 0.452,
      "reward": 1.34375,
      "reward_std": 0.4475421905517578,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.890625,
      "step": 1270
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.5,
      "epoch": 1.6056782334384858,
      "grad_norm": 8.82994695094676,
      "kl": 12.130126953125,
      "learning_rate": 3.9890450198021705e-07,
      "loss": 0.1224,
      "reward": 1.59375,
      "reward_std": 0.2957531735301018,
      "rewards/equation_reward_func": 0.640625,
      "rewards/format_reward_func": 0.953125,
      "step": 1272
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.46875,
      "epoch": 1.6082018927444794,
      "grad_norm": 29.124927346733582,
      "kl": 25.177490234375,
      "learning_rate": 3.9857910839053545e-07,
      "loss": 0.2313,
      "reward": 1.234375,
      "reward_std": 0.38770299404859543,
      "rewards/equation_reward_func": 0.296875,
      "rewards/format_reward_func": 0.9375,
      "step": 1274
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 189.453125,
      "epoch": 1.6107255520504733,
      "grad_norm": 31.0185843957058,
      "kl": 97.30615234375,
      "learning_rate": 3.982533251694632e-07,
      "loss": 0.6165,
      "reward": 1.203125,
      "reward_std": 0.6191911771893501,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.78125,
      "step": 1276
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.921875,
      "epoch": 1.613249211356467,
      "grad_norm": 29.883933598492273,
      "kl": 1467.466552734375,
      "learning_rate": 3.9792715317132894e-07,
      "loss": 4.875,
      "reward": 1.28125,
      "reward_std": 0.2957531735301018,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.96875,
      "step": 1278
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 119.4375,
      "epoch": 1.6157728706624606,
      "grad_norm": 69.2609680330799,
      "kl": 60.91455078125,
      "learning_rate": 3.9760059325148063e-07,
      "loss": 0.2053,
      "reward": 1.453125,
      "reward_std": 0.41059717535972595,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.953125,
      "step": 1280
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 78.234375,
      "epoch": 1.6182965299684544,
      "grad_norm": 54.04116638158824,
      "kl": 106.861083984375,
      "learning_rate": 3.972736462662836e-07,
      "loss": 0.2706,
      "reward": 1.484375,
      "reward_std": 0.37451278418302536,
      "rewards/equation_reward_func": 0.578125,
      "rewards/format_reward_func": 0.90625,
      "step": 1282
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.53125,
      "epoch": 1.6208201892744478,
      "grad_norm": 14.40203565325943,
      "kl": 70.4375,
      "learning_rate": 3.9694631307311825e-07,
      "loss": 0.2766,
      "reward": 1.3125,
      "reward_std": 0.3617308586835861,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.890625,
      "step": 1284
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.3125,
      "epoch": 1.6233438485804417,
      "grad_norm": 10.429920793068327,
      "kl": 48.697021484375,
      "learning_rate": 3.966185945303777e-07,
      "loss": 0.1938,
      "reward": 1.5,
      "reward_std": 0.32434237003326416,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.953125,
      "step": 1286
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 119.0625,
      "epoch": 1.6258675078864353,
      "grad_norm": 46.966367802086594,
      "kl": 108.4013671875,
      "learning_rate": 3.9629049149746556e-07,
      "loss": 0.4516,
      "reward": 1.28125,
      "reward_std": 0.28825797885656357,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.90625,
      "step": 1288
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.328125,
      "epoch": 1.628391167192429,
      "grad_norm": 25.04239871985025,
      "kl": 66.3653564453125,
      "learning_rate": 3.959620048347938e-07,
      "loss": 0.1224,
      "reward": 1.4375,
      "reward_std": 0.44536860287189484,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.921875,
      "step": 1290
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 133.296875,
      "epoch": 1.6309148264984228,
      "grad_norm": 12.584218665807255,
      "kl": 60.127685546875,
      "learning_rate": 3.956331354037805e-07,
      "loss": 0.2699,
      "reward": 1.359375,
      "reward_std": 0.31553421169519424,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.875,
      "step": 1292
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 124.1875,
      "epoch": 1.6334384858044164,
      "grad_norm": 5.676624744363255,
      "kl": 142.9378662109375,
      "learning_rate": 3.953038840668473e-07,
      "loss": 0.547,
      "reward": 1.3125,
      "reward_std": 0.439673587679863,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.890625,
      "step": 1294
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 159.03125,
      "epoch": 1.63596214511041,
      "grad_norm": 22.715494417491346,
      "kl": 67.8125,
      "learning_rate": 3.949742516874175e-07,
      "loss": 0.4334,
      "reward": 1.234375,
      "reward_std": 0.4616282135248184,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.859375,
      "step": 1296
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 118.765625,
      "epoch": 1.638485804416404,
      "grad_norm": 13.807905898080914,
      "kl": 38.8111572265625,
      "learning_rate": 3.9464423912991354e-07,
      "loss": 0.2941,
      "reward": 1.40625,
      "reward_std": 0.36792195588350296,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.921875,
      "step": 1298
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 118.296875,
      "epoch": 1.6410094637223973,
      "grad_norm": 20.831079588754623,
      "kl": 57.0650634765625,
      "learning_rate": 3.9431384725975485e-07,
      "loss": 0.2559,
      "reward": 1.203125,
      "reward_std": 0.34412340819835663,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.84375,
      "step": 1300
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.578125,
      "epoch": 1.6435331230283912,
      "grad_norm": 5.401738701439091,
      "kl": 213.2822265625,
      "learning_rate": 3.9398307694335576e-07,
      "loss": 0.717,
      "reward": 1.3125,
      "reward_std": 0.36042676120996475,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.890625,
      "step": 1302
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 128.03125,
      "epoch": 1.646056782334385,
      "grad_norm": 7.871901548420997,
      "kl": 56.2998046875,
      "learning_rate": 3.9365192904812263e-07,
      "loss": 0.3153,
      "reward": 1.546875,
      "reward_std": 0.29439646750688553,
      "rewards/equation_reward_func": 0.625,
      "rewards/format_reward_func": 0.921875,
      "step": 1304
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 128.453125,
      "epoch": 1.6485804416403784,
      "grad_norm": 136.4378591019606,
      "kl": 156.62017822265625,
      "learning_rate": 3.933204044424524e-07,
      "loss": 0.5477,
      "reward": 1.28125,
      "reward_std": 0.26314646750688553,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.921875,
      "step": 1306
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 175.125,
      "epoch": 1.6511041009463723,
      "grad_norm": 76.08227948615571,
      "kl": 133.30615234375,
      "learning_rate": 3.929885039957296e-07,
      "loss": 0.5438,
      "reward": 1.421875,
      "reward_std": 0.3537921905517578,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.890625,
      "step": 1308
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.875,
      "epoch": 1.653627760252366,
      "grad_norm": 6.539528244453589,
      "kl": 1.162109375,
      "learning_rate": 3.9265622857832455e-07,
      "loss": 0.1549,
      "reward": 1.390625,
      "reward_std": 0.3534187823534012,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.953125,
      "step": 1310
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 116.53125,
      "epoch": 1.6561514195583595,
      "grad_norm": 63.317454181418285,
      "kl": 101.786865234375,
      "learning_rate": 3.9232357906159065e-07,
      "loss": 0.4515,
      "reward": 1.296875,
      "reward_std": 0.5011902898550034,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.890625,
      "step": 1312
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 76.9375,
      "epoch": 1.6586750788643534,
      "grad_norm": 6.543970210264438,
      "kl": 7.8863525390625,
      "learning_rate": 3.919905563178627e-07,
      "loss": 0.0563,
      "reward": 1.421875,
      "reward_std": 0.345923587679863,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.953125,
      "step": 1314
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 120.953125,
      "epoch": 1.661198738170347,
      "grad_norm": 23.74876066023369,
      "kl": 13.43975830078125,
      "learning_rate": 3.9165716122045374e-07,
      "loss": 0.232,
      "reward": 1.5625,
      "reward_std": 0.38684237003326416,
      "rewards/equation_reward_func": 0.609375,
      "rewards/format_reward_func": 0.953125,
      "step": 1316
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 133.90625,
      "epoch": 1.6637223974763407,
      "grad_norm": 36.27464034352205,
      "kl": 44.01123046875,
      "learning_rate": 3.9132339464365374e-07,
      "loss": 0.3773,
      "reward": 1.34375,
      "reward_std": 0.4677667021751404,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.890625,
      "step": 1318
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.90625,
      "epoch": 1.6662460567823345,
      "grad_norm": 37.40304540087427,
      "kl": 54.77978515625,
      "learning_rate": 3.909892574627266e-07,
      "loss": 0.2881,
      "reward": 1.421875,
      "reward_std": 0.25700797885656357,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.953125,
      "step": 1320
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 118.125,
      "epoch": 1.668769716088328,
      "grad_norm": 37.14925708776806,
      "kl": 70.455810546875,
      "learning_rate": 3.9065475055390814e-07,
      "loss": 0.3507,
      "reward": 1.546875,
      "reward_std": 0.27944982051849365,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 0.953125,
      "step": 1322
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 175.53125,
      "epoch": 1.6712933753943218,
      "grad_norm": 45.02914994494221,
      "kl": 189.5673828125,
      "learning_rate": 3.9031987479440365e-07,
      "loss": 0.6052,
      "reward": 1.28125,
      "reward_std": 0.42292676120996475,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.875,
      "step": 1324
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 141.25,
      "epoch": 1.6738170347003156,
      "grad_norm": 32.69736525522642,
      "kl": 99.6392822265625,
      "learning_rate": 3.899846310623859e-07,
      "loss": 0.34,
      "reward": 1.21875,
      "reward_std": 0.42820462584495544,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.859375,
      "step": 1326
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 118.953125,
      "epoch": 1.676340694006309,
      "grad_norm": 21.698732422362426,
      "kl": 56.118896484375,
      "learning_rate": 3.8964902023699234e-07,
      "loss": 0.4178,
      "reward": 1.359375,
      "reward_std": 0.40444982051849365,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.9375,
      "step": 1328
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 148.328125,
      "epoch": 1.6788643533123029,
      "grad_norm": 17.07107055483413,
      "kl": 101.813232421875,
      "learning_rate": 3.8931304319832335e-07,
      "loss": 0.5053,
      "reward": 1.140625,
      "reward_std": 0.49504293501377106,
      "rewards/equation_reward_func": 0.296875,
      "rewards/format_reward_func": 0.84375,
      "step": 1330
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 136.734375,
      "epoch": 1.6813880126182965,
      "grad_norm": 119.6027396286672,
      "kl": 117.9176025390625,
      "learning_rate": 3.889767008274395e-07,
      "loss": 0.6533,
      "reward": 1.5,
      "reward_std": 0.32564646750688553,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.9375,
      "step": 1332
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.34375,
      "epoch": 1.6839116719242901,
      "grad_norm": 16.677321180934612,
      "kl": 42.6619873046875,
      "learning_rate": 3.886399940063595e-07,
      "loss": 0.238,
      "reward": 1.5625,
      "reward_std": 0.43787340819835663,
      "rewards/equation_reward_func": 0.625,
      "rewards/format_reward_func": 0.9375,
      "step": 1334
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 156.046875,
      "epoch": 1.686435331230284,
      "grad_norm": 32.05483241917432,
      "kl": 49.7784423828125,
      "learning_rate": 3.8830292361805767e-07,
      "loss": 0.5373,
      "reward": 1.359375,
      "reward_std": 0.5263018012046814,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.859375,
      "step": 1336
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 156.890625,
      "epoch": 1.6889589905362776,
      "grad_norm": 42.78573272594703,
      "kl": 98.49462890625,
      "learning_rate": 3.879654905464618e-07,
      "loss": 0.4828,
      "reward": 1.28125,
      "reward_std": 0.41543156653642654,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.875,
      "step": 1338
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.859375,
      "epoch": 1.6914826498422713,
      "grad_norm": 131.39473110520655,
      "kl": 48.367431640625,
      "learning_rate": 3.876276956764509e-07,
      "loss": 0.2468,
      "reward": 1.484375,
      "reward_std": 0.24336542934179306,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.921875,
      "step": 1340
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 142.90625,
      "epoch": 1.694006309148265,
      "grad_norm": 17.20007681714172,
      "kl": 88.246337890625,
      "learning_rate": 3.8728953989385247e-07,
      "loss": 0.6402,
      "reward": 1.328125,
      "reward_std": 0.470923587679863,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.875,
      "step": 1342
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.015625,
      "epoch": 1.6965299684542585,
      "grad_norm": 12.841423843909546,
      "kl": 113.1204833984375,
      "learning_rate": 3.869510240854407e-07,
      "loss": 0.266,
      "reward": 1.125,
      "reward_std": 0.30320462584495544,
      "rewards/equation_reward_func": 0.21875,
      "rewards/format_reward_func": 0.90625,
      "step": 1344
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 80.15625,
      "epoch": 1.6990536277602524,
      "grad_norm": 19.566948465192286,
      "kl": 14.5421142578125,
      "learning_rate": 3.866121491389339e-07,
      "loss": 0.0951,
      "reward": 1.28125,
      "reward_std": 0.39433756470680237,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.953125,
      "step": 1346
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 119.140625,
      "epoch": 1.701577287066246,
      "grad_norm": 24.641502020786774,
      "kl": 54.86767578125,
      "learning_rate": 3.8627291594299206e-07,
      "loss": 0.3109,
      "reward": 1.265625,
      "reward_std": 0.37053901702165604,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.921875,
      "step": 1348
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 116.671875,
      "epoch": 1.7041009463722396,
      "grad_norm": 9.622847694964793,
      "kl": 21.9259033203125,
      "learning_rate": 3.859333253872146e-07,
      "loss": 0.1378,
      "reward": 1.3125,
      "reward_std": 0.30103103816509247,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.921875,
      "step": 1350
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 76.40625,
      "epoch": 1.7066246056782335,
      "grad_norm": 21.914947261800524,
      "kl": 27.5433349609375,
      "learning_rate": 3.855933783621383e-07,
      "loss": 0.1646,
      "reward": 1.375,
      "reward_std": 0.33928901702165604,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.953125,
      "step": 1352
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 139.546875,
      "epoch": 1.7091482649842271,
      "grad_norm": 13.499644434630198,
      "kl": 74.7132568359375,
      "learning_rate": 3.852530757592346e-07,
      "loss": 0.4676,
      "reward": 1.4375,
      "reward_std": 0.49467839300632477,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.875,
      "step": 1354
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 146.6875,
      "epoch": 1.7116719242902207,
      "grad_norm": 23.775953322801335,
      "kl": 108.7117919921875,
      "learning_rate": 3.849124184709073e-07,
      "loss": 0.4922,
      "reward": 1.25,
      "reward_std": 0.44934237003326416,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.875,
      "step": 1356
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.28125,
      "epoch": 1.7141955835962146,
      "grad_norm": 18.93986590715742,
      "kl": 32.6729736328125,
      "learning_rate": 3.845714073904905e-07,
      "loss": 0.2045,
      "reward": 1.359375,
      "reward_std": 0.39695462584495544,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.9375,
      "step": 1358
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 169.765625,
      "epoch": 1.7167192429022082,
      "grad_norm": 194.73230665863386,
      "kl": 244.8702392578125,
      "learning_rate": 3.8423004341224595e-07,
      "loss": 1.1779,
      "reward": 1.484375,
      "reward_std": 0.4479856640100479,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 0.890625,
      "step": 1360
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 135.015625,
      "epoch": 1.7192429022082019,
      "grad_norm": 26.525186000915454,
      "kl": 43.40667724609375,
      "learning_rate": 3.838883274313609e-07,
      "loss": 0.3219,
      "reward": 1.390625,
      "reward_std": 0.36308756470680237,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.921875,
      "step": 1362
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 143.59375,
      "epoch": 1.7217665615141957,
      "grad_norm": 17.50208279826025,
      "kl": 47.5909423828125,
      "learning_rate": 3.835462603439458e-07,
      "loss": 0.3097,
      "reward": 1.265625,
      "reward_std": 0.41059717535972595,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.84375,
      "step": 1364
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 139.375,
      "epoch": 1.7242902208201891,
      "grad_norm": 12.239079349862871,
      "kl": 99.557373046875,
      "learning_rate": 3.8320384304703146e-07,
      "loss": 0.5633,
      "reward": 1.421875,
      "reward_std": 0.4348391965031624,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.921875,
      "step": 1366
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.359375,
      "epoch": 1.726813880126183,
      "grad_norm": 4.174626855543575,
      "kl": 32.8076171875,
      "learning_rate": 3.828610764385676e-07,
      "loss": 0.2373,
      "reward": 1.328125,
      "reward_std": 0.31950797885656357,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.90625,
      "step": 1368
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 137.921875,
      "epoch": 1.7293375394321766,
      "grad_norm": 15.679492586036657,
      "kl": 59.039306640625,
      "learning_rate": 3.8251796141741945e-07,
      "loss": 0.3042,
      "reward": 1.453125,
      "reward_std": 0.46912340819835663,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.921875,
      "step": 1370
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.046875,
      "epoch": 1.7318611987381702,
      "grad_norm": 17.10999811520288,
      "kl": 27.513427734375,
      "learning_rate": 3.8217449888336626e-07,
      "loss": 0.1701,
      "reward": 1.53125,
      "reward_std": 0.375,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.96875,
      "step": 1372
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 136.640625,
      "epoch": 1.734384858044164,
      "grad_norm": 13.917910429847652,
      "kl": 61.61279296875,
      "learning_rate": 3.818306897370986e-07,
      "loss": 0.3872,
      "reward": 1.15625,
      "reward_std": 0.38684237003326416,
      "rewards/equation_reward_func": 0.265625,
      "rewards/format_reward_func": 0.890625,
      "step": 1374
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 135.78125,
      "epoch": 1.7369085173501577,
      "grad_norm": 18.114458234519432,
      "kl": 60.232666015625,
      "learning_rate": 3.8148653488021566e-07,
      "loss": 0.4713,
      "reward": 1.4375,
      "reward_std": 0.37319982051849365,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.9375,
      "step": 1376
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 152.25,
      "epoch": 1.7394321766561514,
      "grad_norm": 77.39863924564675,
      "kl": 164.0145263671875,
      "learning_rate": 3.811420352152236e-07,
      "loss": 0.6676,
      "reward": 1.390625,
      "reward_std": 0.3494012728333473,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.890625,
      "step": 1378
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 111.578125,
      "epoch": 1.7419558359621452,
      "grad_norm": 9.685059785812324,
      "kl": 41.339111328125,
      "learning_rate": 3.807971916455325e-07,
      "loss": 0.2001,
      "reward": 1.265625,
      "reward_std": 0.37053901702165604,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.9375,
      "step": 1380
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 140.96875,
      "epoch": 1.7444794952681388,
      "grad_norm": 12.314937561224344,
      "kl": 137.97509765625,
      "learning_rate": 3.804520050754545e-07,
      "loss": 0.5724,
      "reward": 1.234375,
      "reward_std": 0.33445462584495544,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.890625,
      "step": 1382
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.3125,
      "epoch": 1.7470031545741325,
      "grad_norm": 10.937680388603917,
      "kl": 85.513916015625,
      "learning_rate": 3.801064764102011e-07,
      "loss": 0.2774,
      "reward": 1.328125,
      "reward_std": 0.38200797885656357,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.921875,
      "step": 1384
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.859375,
      "epoch": 1.7495268138801263,
      "grad_norm": 299.38936119157484,
      "kl": 171.90869140625,
      "learning_rate": 3.7976060655588097e-07,
      "loss": 0.6894,
      "reward": 1.515625,
      "reward_std": 0.4787921905517578,
      "rewards/equation_reward_func": 0.578125,
      "rewards/format_reward_func": 0.9375,
      "step": 1386
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 130.125,
      "epoch": 1.7520504731861197,
      "grad_norm": 15.647114829017202,
      "kl": 34.1304931640625,
      "learning_rate": 3.7941439641949756e-07,
      "loss": 0.2428,
      "reward": 1.4375,
      "reward_std": 0.47043637186288834,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.921875,
      "step": 1388
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 150.5625,
      "epoch": 1.7545741324921136,
      "grad_norm": 15.861236013727268,
      "kl": 82.421142578125,
      "learning_rate": 3.7906784690894644e-07,
      "loss": 0.3338,
      "reward": 1.296875,
      "reward_std": 0.3723391965031624,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.90625,
      "step": 1390
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 126.578125,
      "epoch": 1.7570977917981072,
      "grad_norm": 8.972559002124328,
      "kl": 54.01080322265625,
      "learning_rate": 3.787209589330134e-07,
      "loss": 0.3337,
      "reward": 1.3125,
      "reward_std": 0.3582531735301018,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.9375,
      "step": 1392
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.796875,
      "epoch": 1.7596214511041008,
      "grad_norm": 16.976582909810716,
      "kl": 21.1376953125,
      "learning_rate": 3.783737334013716e-07,
      "loss": 0.1602,
      "reward": 1.28125,
      "reward_std": 0.1875,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.921875,
      "step": 1394
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 170.703125,
      "epoch": 1.7621451104100947,
      "grad_norm": 22.099237093914187,
      "kl": 101.5714111328125,
      "learning_rate": 3.780261712245797e-07,
      "loss": 0.5049,
      "reward": 1.21875,
      "reward_std": 0.5852715075016022,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.828125,
      "step": 1396
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 127.484375,
      "epoch": 1.7646687697160883,
      "grad_norm": 818.290225856389,
      "kl": 141.4339599609375,
      "learning_rate": 3.7767827331407877e-07,
      "loss": 0.4958,
      "reward": 1.5625,
      "reward_std": 0.41895299404859543,
      "rewards/equation_reward_func": 0.640625,
      "rewards/format_reward_func": 0.921875,
      "step": 1398
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.03125,
      "epoch": 1.767192429022082,
      "grad_norm": 18.803819052692862,
      "kl": 12.869873046875,
      "learning_rate": 3.773300405821908e-07,
      "loss": 0.0654,
      "reward": 1.5625,
      "reward_std": 0.25,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 0.96875,
      "step": 1400
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 86.59375,
      "epoch": 1.7697160883280758,
      "grad_norm": 14.712242345659538,
      "kl": 4.014892578125,
      "learning_rate": 3.7698147394211523e-07,
      "loss": 0.002,
      "reward": 1.453125,
      "reward_std": 0.23808756470680237,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.984375,
      "step": 1402
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.1875,
      "epoch": 1.7722397476340694,
      "grad_norm": 2.4675732413706672,
      "kl": 13.2242431640625,
      "learning_rate": 3.766325743079277e-07,
      "loss": 0.1788,
      "reward": 1.375,
      "reward_std": 0.28825797885656357,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.953125,
      "step": 1404
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 156.734375,
      "epoch": 1.774763406940063,
      "grad_norm": 19.25950162830293,
      "kl": 32.4593505859375,
      "learning_rate": 3.7628334259457666e-07,
      "loss": 0.3604,
      "reward": 1.40625,
      "reward_std": 0.37319982051849365,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.921875,
      "step": 1406
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 144.171875,
      "epoch": 1.777287066246057,
      "grad_norm": 16.828243348147375,
      "kl": 48.3673095703125,
      "learning_rate": 3.759337797178816e-07,
      "loss": 0.1848,
      "reward": 1.359375,
      "reward_std": 0.3929808586835861,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.828125,
      "step": 1408
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 142.34375,
      "epoch": 1.7798107255520503,
      "grad_norm": 130.62338813815649,
      "kl": 49.6634521484375,
      "learning_rate": 3.755838865945305e-07,
      "loss": 0.3651,
      "reward": 1.1875,
      "reward_std": 0.36570462584495544,
      "rewards/equation_reward_func": 0.265625,
      "rewards/format_reward_func": 0.921875,
      "step": 1410
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 161.203125,
      "epoch": 1.7823343848580442,
      "grad_norm": 25.00134855759518,
      "kl": 50.962646484375,
      "learning_rate": 3.7523366414207713e-07,
      "loss": 0.2706,
      "reward": 1.3125,
      "reward_std": 0.39429382234811783,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.875,
      "step": 1412
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 206.71875,
      "epoch": 1.7848580441640378,
      "grad_norm": 23.68657503815505,
      "kl": 113.5147705078125,
      "learning_rate": 3.7488311327893917e-07,
      "loss": 0.6838,
      "reward": 1.375,
      "reward_std": 0.5703686028718948,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.859375,
      "step": 1414
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 119.078125,
      "epoch": 1.7873817034700314,
      "grad_norm": 207.3477224973098,
      "kl": 44.9765625,
      "learning_rate": 3.745322349243954e-07,
      "loss": 0.2427,
      "reward": 1.640625,
      "reward_std": 0.31950797885656357,
      "rewards/equation_reward_func": 0.703125,
      "rewards/format_reward_func": 0.9375,
      "step": 1416
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 191.28125,
      "epoch": 1.7899053627760253,
      "grad_norm": 27.22341334273052,
      "kl": 106.707275390625,
      "learning_rate": 3.7418102999858324e-07,
      "loss": 0.6559,
      "reward": 1.359375,
      "reward_std": 0.32695943117141724,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.875,
      "step": 1418
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 125.03125,
      "epoch": 1.792429022082019,
      "grad_norm": 7.448852303371862,
      "kl": 27.2314453125,
      "learning_rate": 3.738294994224969e-07,
      "loss": 0.2004,
      "reward": 1.484375,
      "reward_std": 0.3534187823534012,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.9375,
      "step": 1420
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 153.640625,
      "epoch": 1.7949526813880126,
      "grad_norm": 30.572714533923627,
      "kl": 30.6865234375,
      "learning_rate": 3.734776441179842e-07,
      "loss": 0.3886,
      "reward": 1.546875,
      "reward_std": 0.5901496410369873,
      "rewards/equation_reward_func": 0.640625,
      "rewards/format_reward_func": 0.90625,
      "step": 1422
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 125.28125,
      "epoch": 1.7974763406940064,
      "grad_norm": 23.063877697473085,
      "kl": 95.6612548828125,
      "learning_rate": 3.7312546500774455e-07,
      "loss": 0.4932,
      "reward": 1.453125,
      "reward_std": 0.42558756470680237,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.921875,
      "step": 1424
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.03125,
      "epoch": 1.8,
      "grad_norm": 13.824280914269671,
      "kl": 76.373046875,
      "learning_rate": 3.7277296301532677e-07,
      "loss": 0.1417,
      "reward": 1.5625,
      "reward_std": 0.2235843911767006,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 0.96875,
      "step": 1426
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 119.53125,
      "epoch": 1.8025236593059937,
      "grad_norm": 15.699334898570694,
      "kl": 33.785400390625,
      "learning_rate": 3.7242013906512627e-07,
      "loss": 0.1949,
      "reward": 1.453125,
      "reward_std": 0.35559237003326416,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.921875,
      "step": 1428
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 164.34375,
      "epoch": 1.8050473186119875,
      "grad_norm": 24.43029540826047,
      "kl": 99.989501953125,
      "learning_rate": 3.720669940823826e-07,
      "loss": 0.5532,
      "reward": 1.234375,
      "reward_std": 0.408423587679863,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.875,
      "step": 1430
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.90625,
      "epoch": 1.807570977917981,
      "grad_norm": 31.281353906633118,
      "kl": 59.5093994140625,
      "learning_rate": 3.717135289931774e-07,
      "loss": 0.1783,
      "reward": 1.390625,
      "reward_std": 0.3098391965031624,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.921875,
      "step": 1432
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 141.578125,
      "epoch": 1.8100946372239748,
      "grad_norm": 35.014969348824806,
      "kl": 106.4296875,
      "learning_rate": 3.713597447244316e-07,
      "loss": 0.4626,
      "reward": 1.5625,
      "reward_std": 0.42820462584495544,
      "rewards/equation_reward_func": 0.65625,
      "rewards/format_reward_func": 0.90625,
      "step": 1434
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 160.46875,
      "epoch": 1.8126182965299684,
      "grad_norm": 65.2598394458883,
      "kl": 114.3170166015625,
      "learning_rate": 3.7100564220390323e-07,
      "loss": 0.5319,
      "reward": 1.375,
      "reward_std": 0.3678782135248184,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.90625,
      "step": 1436
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.359375,
      "epoch": 1.815141955835962,
      "grad_norm": 30.20602722219995,
      "kl": 23.110107421875,
      "learning_rate": 3.7065122236018487e-07,
      "loss": 0.1348,
      "reward": 1.421875,
      "reward_std": 0.33445462584495544,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.9375,
      "step": 1438
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 132.625,
      "epoch": 1.817665615141956,
      "grad_norm": 10.963600743109776,
      "kl": 61.9434814453125,
      "learning_rate": 3.7029648612270123e-07,
      "loss": 0.3865,
      "reward": 1.3125,
      "reward_std": 0.3353152498602867,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.921875,
      "step": 1440
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 132.390625,
      "epoch": 1.8201892744479495,
      "grad_norm": 17.653335754649756,
      "kl": 32.2564697265625,
      "learning_rate": 3.699414344217068e-07,
      "loss": 0.2985,
      "reward": 1.484375,
      "reward_std": 0.46912340819835663,
      "rewards/equation_reward_func": 0.578125,
      "rewards/format_reward_func": 0.90625,
      "step": 1442
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 149.84375,
      "epoch": 1.8227129337539432,
      "grad_norm": 42.803225837097536,
      "kl": 120.3154296875,
      "learning_rate": 3.6958606818828314e-07,
      "loss": 0.7085,
      "reward": 1.21875,
      "reward_std": 0.5364140570163727,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.84375,
      "step": 1444
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 127.5625,
      "epoch": 1.825236593059937,
      "grad_norm": 241.11008293386405,
      "kl": 126.356689453125,
      "learning_rate": 3.6923038835433687e-07,
      "loss": 0.5129,
      "reward": 1.390625,
      "reward_std": 0.2548343911767006,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.953125,
      "step": 1446
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 176.78125,
      "epoch": 1.8277602523659306,
      "grad_norm": 35.22221550831143,
      "kl": 98.19287109375,
      "learning_rate": 3.688743958525969e-07,
      "loss": 0.4152,
      "reward": 1.3125,
      "reward_std": 0.33711542934179306,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.875,
      "step": 1448
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 153.640625,
      "epoch": 1.8302839116719243,
      "grad_norm": 11.947631349745304,
      "kl": 66.3582763671875,
      "learning_rate": 3.68518091616612e-07,
      "loss": 0.4197,
      "reward": 1.3125,
      "reward_std": 0.5135198757052422,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.90625,
      "step": 1450
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 136.59375,
      "epoch": 1.8328075709779181,
      "grad_norm": 15.546472151989235,
      "kl": 83.6795654296875,
      "learning_rate": 3.681614765807486e-07,
      "loss": 0.4685,
      "reward": 1.53125,
      "reward_std": 0.43569982051849365,
      "rewards/equation_reward_func": 0.625,
      "rewards/format_reward_func": 0.90625,
      "step": 1452
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 166.203125,
      "epoch": 1.8353312302839115,
      "grad_norm": 6.615667522585636,
      "kl": 97.7061767578125,
      "learning_rate": 3.678045516801879e-07,
      "loss": 0.5378,
      "reward": 1.296875,
      "reward_std": 0.39695462584495544,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.890625,
      "step": 1454
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.140625,
      "epoch": 1.8378548895899054,
      "grad_norm": 15.515516526551435,
      "kl": 37.1610107421875,
      "learning_rate": 3.6744731785092393e-07,
      "loss": 0.1944,
      "reward": 1.390625,
      "reward_std": 0.4427077993750572,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.9375,
      "step": 1456
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.140625,
      "epoch": 1.840378548895899,
      "grad_norm": 12.787387650292596,
      "kl": 26.0538330078125,
      "learning_rate": 3.670897760297608e-07,
      "loss": 0.0752,
      "reward": 1.5,
      "reward_std": 0.3221687823534012,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.9375,
      "step": 1458
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.703125,
      "epoch": 1.8429022082018927,
      "grad_norm": 8.275759889903593,
      "kl": 22.4256591796875,
      "learning_rate": 3.6673192715431014e-07,
      "loss": 0.0749,
      "reward": 1.265625,
      "reward_std": 0.30451758950948715,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.921875,
      "step": 1460
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 125.8125,
      "epoch": 1.8454258675078865,
      "grad_norm": 70.36509931133324,
      "kl": 100.08795166015625,
      "learning_rate": 3.6637377216298903e-07,
      "loss": 0.3551,
      "reward": 1.328125,
      "reward_std": 0.5281019806861877,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.890625,
      "step": 1462
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 129.34375,
      "epoch": 1.8479495268138801,
      "grad_norm": 21.47439003906247,
      "kl": 66.13037109375,
      "learning_rate": 3.660153119950171e-07,
      "loss": 0.357,
      "reward": 1.28125,
      "reward_std": 0.3181512728333473,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.890625,
      "step": 1464
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.8125,
      "epoch": 1.8504731861198738,
      "grad_norm": 32.96970586701611,
      "kl": 46.95745849609375,
      "learning_rate": 3.6565654759041444e-07,
      "loss": 0.0621,
      "reward": 1.359375,
      "reward_std": 0.26978103816509247,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.9375,
      "step": 1466
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 144.28125,
      "epoch": 1.8529968454258676,
      "grad_norm": 935.1950389557496,
      "kl": 157.122314453125,
      "learning_rate": 3.652974798899988e-07,
      "loss": 0.7049,
      "reward": 1.328125,
      "reward_std": 0.4787484481930733,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.859375,
      "step": 1468
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.515625,
      "epoch": 1.8555205047318613,
      "grad_norm": 51.634996341173405,
      "kl": 50.648193359375,
      "learning_rate": 3.649381098353834e-07,
      "loss": 0.2243,
      "reward": 1.40625,
      "reward_std": 0.2235843911767006,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.96875,
      "step": 1470
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.984375,
      "epoch": 1.8580441640378549,
      "grad_norm": 4.610916988583397,
      "kl": 44.468994140625,
      "learning_rate": 3.6457843836897417e-07,
      "loss": 0.1137,
      "reward": 1.4375,
      "reward_std": 0.14961542934179306,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.96875,
      "step": 1472
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 141.640625,
      "epoch": 1.8605678233438487,
      "grad_norm": 68.25230885138933,
      "kl": 76.8392333984375,
      "learning_rate": 3.642184664339678e-07,
      "loss": 0.3607,
      "reward": 1.484375,
      "reward_std": 0.3895031735301018,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 0.890625,
      "step": 1474
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.609375,
      "epoch": 1.8630914826498421,
      "grad_norm": 13.902987361481008,
      "kl": 18.917724609375,
      "learning_rate": 3.638581949743487e-07,
      "loss": 0.087,
      "reward": 1.34375,
      "reward_std": 0.25,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.96875,
      "step": 1476
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.09375,
      "epoch": 1.865615141955836,
      "grad_norm": 5.938461952610598,
      "kl": 10.85540771484375,
      "learning_rate": 3.634976249348867e-07,
      "loss": -0.0077,
      "reward": 1.578125,
      "reward_std": 0.34194982051849365,
      "rewards/equation_reward_func": 0.65625,
      "rewards/format_reward_func": 0.921875,
      "step": 1478
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 115.8125,
      "epoch": 1.8681388012618296,
      "grad_norm": 9.011699548473628,
      "kl": 56.9212646484375,
      "learning_rate": 3.6313675726113475e-07,
      "loss": 0.2229,
      "reward": 1.34375,
      "reward_std": 0.35075797885656357,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.859375,
      "step": 1480
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.28125,
      "epoch": 1.8706624605678233,
      "grad_norm": 12.941456089193183,
      "kl": 19.76202392578125,
      "learning_rate": 3.6277559289942614e-07,
      "loss": 0.1015,
      "reward": 1.421875,
      "reward_std": 0.22841878235340118,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.96875,
      "step": 1482
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 120.59375,
      "epoch": 1.8731861198738171,
      "grad_norm": 29.63819001101897,
      "kl": 49.0869140625,
      "learning_rate": 3.624141327968725e-07,
      "loss": 0.2507,
      "reward": 1.375,
      "reward_std": 0.32962023466825485,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.9375,
      "step": 1484
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 194.65625,
      "epoch": 1.8757097791798107,
      "grad_norm": 53.86025596853868,
      "kl": 87.4527587890625,
      "learning_rate": 3.620523779013605e-07,
      "loss": 0.492,
      "reward": 1.328125,
      "reward_std": 0.5505438223481178,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.84375,
      "step": 1486
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.0,
      "epoch": 1.8782334384858044,
      "grad_norm": 43.291597498015506,
      "kl": 34.2147216796875,
      "learning_rate": 3.6169032916155055e-07,
      "loss": 0.1771,
      "reward": 1.234375,
      "reward_std": 0.3798343911767006,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.921875,
      "step": 1488
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 147.859375,
      "epoch": 1.8807570977917982,
      "grad_norm": 28.048168908657782,
      "kl": 134.15570068359375,
      "learning_rate": 3.6132798752687305e-07,
      "loss": 0.4174,
      "reward": 1.15625,
      "reward_std": 0.377173587679863,
      "rewards/equation_reward_func": 0.296875,
      "rewards/format_reward_func": 0.859375,
      "step": 1490
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.109375,
      "epoch": 1.8832807570977916,
      "grad_norm": 6.186215813497021,
      "kl": 45.67669677734375,
      "learning_rate": 3.6096535394752675e-07,
      "loss": 0.0351,
      "reward": 1.296875,
      "reward_std": 0.26667676120996475,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.9375,
      "step": 1492
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 120.25,
      "epoch": 1.8858044164037855,
      "grad_norm": 18.929349830072955,
      "kl": 49.0614013671875,
      "learning_rate": 3.6060242937447587e-07,
      "loss": 0.1086,
      "reward": 1.265625,
      "reward_std": 0.2645031735301018,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.90625,
      "step": 1494
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 150.234375,
      "epoch": 1.8883280757097793,
      "grad_norm": 10.683513666489992,
      "kl": 50.6822509765625,
      "learning_rate": 3.602392147594479e-07,
      "loss": 0.3205,
      "reward": 1.453125,
      "reward_std": 0.30058756470680237,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.921875,
      "step": 1496
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 136.34375,
      "epoch": 1.8908517350157727,
      "grad_norm": 11.937751137458703,
      "kl": 49.297119140625,
      "learning_rate": 3.5987571105493074e-07,
      "loss": 0.1605,
      "reward": 1.21875,
      "reward_std": 0.2596687823534012,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.890625,
      "step": 1498
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 167.984375,
      "epoch": 1.8933753943217666,
      "grad_norm": 32.87102183446702,
      "kl": 65.6319580078125,
      "learning_rate": 3.595119192141706e-07,
      "loss": 0.5065,
      "reward": 1.359375,
      "reward_std": 0.45195943117141724,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.890625,
      "step": 1500
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 124.3125,
      "epoch": 1.8958990536277602,
      "grad_norm": 12.296471134997784,
      "kl": 67.02276611328125,
      "learning_rate": 3.59147840191169e-07,
      "loss": 0.3218,
      "reward": 1.5,
      "reward_std": 0.34326278418302536,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 0.90625,
      "step": 1502
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.078125,
      "epoch": 1.8984227129337539,
      "grad_norm": 24.11052565264539,
      "kl": 20.58349609375,
      "learning_rate": 3.587834749406808e-07,
      "loss": 0.0807,
      "reward": 1.484375,
      "reward_std": 0.31025634706020355,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.953125,
      "step": 1504
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.234375,
      "epoch": 1.9009463722397477,
      "grad_norm": 10.56470450527512,
      "kl": 30.1329345703125,
      "learning_rate": 3.584188244182115e-07,
      "loss": 0.1306,
      "reward": 1.453125,
      "reward_std": 0.408423587679863,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.921875,
      "step": 1506
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.328125,
      "epoch": 1.9034700315457413,
      "grad_norm": 5.785244377843702,
      "kl": 15.0220947265625,
      "learning_rate": 3.5805388958001437e-07,
      "loss": 0.0518,
      "reward": 1.234375,
      "reward_std": 0.31950797885656357,
      "rewards/equation_reward_func": 0.296875,
      "rewards/format_reward_func": 0.9375,
      "step": 1508
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 150.234375,
      "epoch": 1.905993690851735,
      "grad_norm": 18.063785586897268,
      "kl": 40.10003662109375,
      "learning_rate": 3.5768867138308867e-07,
      "loss": 0.3077,
      "reward": 1.40625,
      "reward_std": 0.3053782135248184,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.890625,
      "step": 1510
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 170.875,
      "epoch": 1.9085173501577288,
      "grad_norm": 58.17564595756298,
      "kl": 94.3134765625,
      "learning_rate": 3.573231707851765e-07,
      "loss": 0.593,
      "reward": 1.28125,
      "reward_std": 0.376677505671978,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.921875,
      "step": 1512
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 167.109375,
      "epoch": 1.9110410094637222,
      "grad_norm": 54.75286120830942,
      "kl": 171.7257080078125,
      "learning_rate": 3.5695738874476043e-07,
      "loss": 0.7118,
      "reward": 1.265625,
      "reward_std": 0.3929808586835861,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.90625,
      "step": 1514
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 149.5625,
      "epoch": 1.913564668769716,
      "grad_norm": 25.796995763470974,
      "kl": 70.5958251953125,
      "learning_rate": 3.5659132622106145e-07,
      "loss": 0.4641,
      "reward": 1.328125,
      "reward_std": 0.408423587679863,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.90625,
      "step": 1516
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 167.703125,
      "epoch": 1.91608832807571,
      "grad_norm": 24.381536922814544,
      "kl": 303.65545654296875,
      "learning_rate": 3.562249841740357e-07,
      "loss": 1.278,
      "reward": 1.296875,
      "reward_std": 0.4616282135248184,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.875,
      "step": 1518
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 189.0,
      "epoch": 1.9186119873817034,
      "grad_norm": 139525.20543830955,
      "kl": 7314.21533203125,
      "learning_rate": 3.558583635643726e-07,
      "loss": 21.5202,
      "reward": 1.203125,
      "reward_std": 0.4744012728333473,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.84375,
      "step": 1520
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 186.0,
      "epoch": 1.9211356466876972,
      "grad_norm": 38.36118127907176,
      "kl": 128.712890625,
      "learning_rate": 3.5549146535349177e-07,
      "loss": 0.7432,
      "reward": 1.3125,
      "reward_std": 0.36353103816509247,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.84375,
      "step": 1522
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 188.4375,
      "epoch": 1.9236593059936908,
      "grad_norm": 27.941133257639873,
      "kl": 68.1611328125,
      "learning_rate": 3.5512429050354115e-07,
      "loss": 0.5865,
      "reward": 1.34375,
      "reward_std": 0.32962023466825485,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.90625,
      "step": 1524
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 150.875,
      "epoch": 1.9261829652996845,
      "grad_norm": 4.531624572326896,
      "kl": 49.9544677734375,
      "learning_rate": 3.5475683997739397e-07,
      "loss": 0.2397,
      "reward": 1.46875,
      "reward_std": 0.31287340819835663,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.921875,
      "step": 1526
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.90625,
      "epoch": 1.9287066246056783,
      "grad_norm": 15.249521577263996,
      "kl": 13.3609619140625,
      "learning_rate": 3.543891147386463e-07,
      "loss": 0.0918,
      "reward": 1.390625,
      "reward_std": 0.16591878235340118,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.96875,
      "step": 1528
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 197.203125,
      "epoch": 1.931230283911672,
      "grad_norm": 1539.8936122973398,
      "kl": 282.907958984375,
      "learning_rate": 3.5402111575161486e-07,
      "loss": 0.9179,
      "reward": 1.390625,
      "reward_std": 0.2869012728333473,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.890625,
      "step": 1530
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 133.421875,
      "epoch": 1.9337539432176656,
      "grad_norm": 15.517338852804501,
      "kl": 25.3743896484375,
      "learning_rate": 3.53652843981334e-07,
      "loss": 0.1851,
      "reward": 1.5,
      "reward_std": 0.21608919650316238,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.96875,
      "step": 1532
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 118.578125,
      "epoch": 1.9362776025236594,
      "grad_norm": 8.568980382993168,
      "kl": 53.780517578125,
      "learning_rate": 3.532843003935535e-07,
      "loss": 0.2681,
      "reward": 1.34375,
      "reward_std": 0.31069982051849365,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.9375,
      "step": 1534
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 174.875,
      "epoch": 1.9388012618296528,
      "grad_norm": 134.79400381391156,
      "kl": 268.67919921875,
      "learning_rate": 3.52915485954736e-07,
      "loss": 0.974,
      "reward": 1.171875,
      "reward_std": 0.45020299404859543,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.859375,
      "step": 1536
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 125.203125,
      "epoch": 1.9413249211356467,
      "grad_norm": 28.76403837939981,
      "kl": 28.52410888671875,
      "learning_rate": 3.525464016320543e-07,
      "loss": 0.2011,
      "reward": 1.34375,
      "reward_std": 0.3221687823534012,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.96875,
      "step": 1538
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 134.46875,
      "epoch": 1.9438485804416403,
      "grad_norm": 206.66555417152009,
      "kl": 148.5478515625,
      "learning_rate": 3.5217704839338905e-07,
      "loss": 0.6699,
      "reward": 1.25,
      "reward_std": 0.32564646750688553,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.90625,
      "step": 1540
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 121.453125,
      "epoch": 1.946372239747634,
      "grad_norm": 84.29986362263925,
      "kl": 77.1588134765625,
      "learning_rate": 3.5180742720732604e-07,
      "loss": 0.3996,
      "reward": 1.40625,
      "reward_std": 0.31069982051849365,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.953125,
      "step": 1542
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.078125,
      "epoch": 1.9488958990536278,
      "grad_norm": 6.444949898503504,
      "kl": 5.3004150390625,
      "learning_rate": 3.514375390431539e-07,
      "loss": 0.0338,
      "reward": 1.4375,
      "reward_std": 0.2596687823534012,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.953125,
      "step": 1544
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 118.609375,
      "epoch": 1.9514195583596214,
      "grad_norm": 12.354874822405398,
      "kl": 41.878662109375,
      "learning_rate": 3.5106738487086085e-07,
      "loss": 0.2091,
      "reward": 1.453125,
      "reward_std": 0.2645031735301018,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.96875,
      "step": 1546
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 132.859375,
      "epoch": 1.953943217665615,
      "grad_norm": 27.781822095875842,
      "kl": 61.79705810546875,
      "learning_rate": 3.5069696566113345e-07,
      "loss": 0.273,
      "reward": 1.390625,
      "reward_std": 0.42026595771312714,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.921875,
      "step": 1548
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 145.421875,
      "epoch": 1.956466876971609,
      "grad_norm": 10.083641358643392,
      "kl": 38.75042724609375,
      "learning_rate": 3.5032628238535266e-07,
      "loss": 0.2988,
      "reward": 1.421875,
      "reward_std": 0.26445943117141724,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.90625,
      "step": 1550
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.09375,
      "epoch": 1.9589905362776026,
      "grad_norm": 3.8331485342506375,
      "kl": 9.97509765625,
      "learning_rate": 3.4995533601559225e-07,
      "loss": 0.046,
      "reward": 1.296875,
      "reward_std": 0.30586542934179306,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.953125,
      "step": 1552
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 156.171875,
      "epoch": 1.9615141955835962,
      "grad_norm": 32.422546880430474,
      "kl": 114.26910400390625,
      "learning_rate": 3.495841275246158e-07,
      "loss": 0.4034,
      "reward": 1.328125,
      "reward_std": 0.3723391965031624,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.875,
      "step": 1554
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 129.609375,
      "epoch": 1.96403785488959,
      "grad_norm": 337.82190926869674,
      "kl": 75.47320556640625,
      "learning_rate": 3.4921265788587427e-07,
      "loss": 0.4016,
      "reward": 1.4375,
      "reward_std": 0.24070462584495544,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.9375,
      "step": 1556
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.28125,
      "epoch": 1.9665615141955834,
      "grad_norm": 9.61666777962291,
      "kl": 12.6229248046875,
      "learning_rate": 3.4884092807350364e-07,
      "loss": 0.0664,
      "reward": 1.4375,
      "reward_std": 0.23853103816509247,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.953125,
      "step": 1558
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.3125,
      "epoch": 1.9690851735015773,
      "grad_norm": 23.063974822077483,
      "kl": 12.92938232421875,
      "learning_rate": 3.484689390623218e-07,
      "loss": 0.144,
      "reward": 1.40625,
      "reward_std": 0.2235843911767006,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.9375,
      "step": 1560
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 121.5,
      "epoch": 1.971608832807571,
      "grad_norm": 14.244156822301157,
      "kl": 45.10296630859375,
      "learning_rate": 3.4809669182782665e-07,
      "loss": 0.1887,
      "reward": 1.3125,
      "reward_std": 0.36570462584495544,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.90625,
      "step": 1562
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 127.015625,
      "epoch": 1.9741324921135646,
      "grad_norm": 78.75900139496919,
      "kl": 81.927490234375,
      "learning_rate": 3.477241873461932e-07,
      "loss": 0.1979,
      "reward": 1.453125,
      "reward_std": 0.25700797885656357,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.96875,
      "step": 1564
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 130.578125,
      "epoch": 1.9766561514195584,
      "grad_norm": 695.4935134986697,
      "kl": 149.4351806640625,
      "learning_rate": 3.47351426594271e-07,
      "loss": 0.6079,
      "reward": 1.25,
      "reward_std": 0.3410891965031624,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.890625,
      "step": 1566
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.8125,
      "epoch": 1.979179810725552,
      "grad_norm": 21.71971359109996,
      "kl": 27.248046875,
      "learning_rate": 3.469784105495816e-07,
      "loss": 0.1688,
      "reward": 1.359375,
      "reward_std": 0.41809237003326416,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.953125,
      "step": 1568
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 119.140625,
      "epoch": 1.9817034700315457,
      "grad_norm": 62.37170254551466,
      "kl": 57.51025390625,
      "learning_rate": 3.466051401903162e-07,
      "loss": 0.2782,
      "reward": 1.3125,
      "reward_std": 0.2957531735301018,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.96875,
      "step": 1570
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 139.09375,
      "epoch": 1.9842271293375395,
      "grad_norm": 169.12005739098564,
      "kl": 160.00579833984375,
      "learning_rate": 3.462316164953328e-07,
      "loss": 0.715,
      "reward": 1.53125,
      "reward_std": 0.25,
      "rewards/equation_reward_func": 0.609375,
      "rewards/format_reward_func": 0.921875,
      "step": 1572
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 122.0,
      "epoch": 1.9867507886435332,
      "grad_norm": 74.93262200517779,
      "kl": 544.401123046875,
      "learning_rate": 3.4585784044415364e-07,
      "loss": 1.8283,
      "reward": 1.375,
      "reward_std": 0.34678421169519424,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.9375,
      "step": 1574
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.9375,
      "epoch": 1.9892744479495268,
      "grad_norm": 3.9426078096580914,
      "kl": 23.00262451171875,
      "learning_rate": 3.4548381301696295e-07,
      "loss": 0.1963,
      "reward": 1.65625,
      "reward_std": 0.2957531735301018,
      "rewards/equation_reward_func": 0.6875,
      "rewards/format_reward_func": 0.96875,
      "step": 1576
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 121.453125,
      "epoch": 1.9917981072555206,
      "grad_norm": 30.47831660168693,
      "kl": 44.5118408203125,
      "learning_rate": 3.4510953519460397e-07,
      "loss": 0.2058,
      "reward": 1.546875,
      "reward_std": 0.2909187823534012,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 0.953125,
      "step": 1578
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.640625,
      "epoch": 1.994321766561514,
      "grad_norm": 3.212176802890684,
      "kl": 13.44061279296875,
      "learning_rate": 3.447350079585767e-07,
      "loss": 0.09,
      "reward": 1.421875,
      "reward_std": 0.30586542934179306,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.96875,
      "step": 1580
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.046875,
      "epoch": 1.996845425867508,
      "grad_norm": 1.8495029120817923,
      "kl": 2.69244384765625,
      "learning_rate": 3.443602322910351e-07,
      "loss": 0.0392,
      "reward": 1.375,
      "reward_std": 0.26184237003326416,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.953125,
      "step": 1582
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 122.734375,
      "epoch": 1.9993690851735015,
      "grad_norm": 13.048733550956111,
      "kl": 29.22607421875,
      "learning_rate": 3.4398520917478476e-07,
      "loss": 0.1379,
      "reward": 1.34375,
      "reward_std": 0.28428421169519424,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.921875,
      "step": 1584
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 118.125,
      "epoch": 2.002523659305994,
      "grad_norm": 14.029013507018552,
      "kl": 18.92913818359375,
      "learning_rate": 3.4360993959328007e-07,
      "loss": 0.2507,
      "reward": 1.5,
      "reward_std": 0.36042676120996475,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.96875,
      "step": 1586
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.875,
      "epoch": 2.0050473186119873,
      "grad_norm": 15.645463885533237,
      "kl": 32.4644775390625,
      "learning_rate": 3.4323442453062166e-07,
      "loss": 0.2083,
      "reward": 1.515625,
      "reward_std": 0.22309717535972595,
      "rewards/equation_reward_func": 0.578125,
      "rewards/format_reward_func": 0.9375,
      "step": 1588
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 111.125,
      "epoch": 2.007570977917981,
      "grad_norm": 805.946843827636,
      "kl": 118.6981201171875,
      "learning_rate": 3.4285866497155416e-07,
      "loss": 0.4685,
      "reward": 1.375,
      "reward_std": 0.2596687823534012,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.96875,
      "step": 1590
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 180.46875,
      "epoch": 2.010094637223975,
      "grad_norm": 24.79876463200205,
      "kl": 103.82025146484375,
      "learning_rate": 3.42482661901463e-07,
      "loss": 0.5466,
      "reward": 1.34375,
      "reward_std": 0.3221687823534012,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.890625,
      "step": 1592
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.375,
      "epoch": 2.0126182965299684,
      "grad_norm": 15.537752449579475,
      "kl": 22.3468017578125,
      "learning_rate": 3.421064163063726e-07,
      "loss": 0.1722,
      "reward": 1.53125,
      "reward_std": 0.21608919650316238,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.96875,
      "step": 1594
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 145.53125,
      "epoch": 2.0151419558359622,
      "grad_norm": 63.345886962916374,
      "kl": 74.2874755859375,
      "learning_rate": 3.4172992917294304e-07,
      "loss": 0.4415,
      "reward": 1.46875,
      "reward_std": 0.38851987570524216,
      "rewards/equation_reward_func": 0.578125,
      "rewards/format_reward_func": 0.890625,
      "step": 1596
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.203125,
      "epoch": 2.0176656151419556,
      "grad_norm": 6.925171796494852,
      "kl": 35.7186279296875,
      "learning_rate": 3.4135320148846795e-07,
      "loss": 0.1784,
      "reward": 1.390625,
      "reward_std": 0.31950797885656357,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.953125,
      "step": 1598
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 148.0,
      "epoch": 2.0201892744479495,
      "grad_norm": 10.358674146197572,
      "kl": 44.3873291015625,
      "learning_rate": 3.409762342408719e-07,
      "loss": 0.3313,
      "reward": 1.375,
      "reward_std": 0.37934717535972595,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.921875,
      "step": 1600
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 136.578125,
      "epoch": 2.0227129337539433,
      "grad_norm": 10.806165571456928,
      "kl": 42.5167236328125,
      "learning_rate": 3.405990284187074e-07,
      "loss": 0.1993,
      "reward": 1.4375,
      "reward_std": 0.3449840322136879,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.90625,
      "step": 1602
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.984375,
      "epoch": 2.0252365930599368,
      "grad_norm": 24.4900032372476,
      "kl": 38.65240478515625,
      "learning_rate": 3.4022158501115277e-07,
      "loss": 0.2868,
      "reward": 1.3125,
      "reward_std": 0.252173587679863,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.953125,
      "step": 1604
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.984375,
      "epoch": 2.0277602523659306,
      "grad_norm": 17.88273353454495,
      "kl": 37.80426025390625,
      "learning_rate": 3.398439050080093e-07,
      "loss": 0.2238,
      "reward": 1.375,
      "reward_std": 0.2596687823534012,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.953125,
      "step": 1606
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 132.390625,
      "epoch": 2.0302839116719245,
      "grad_norm": 69.76215292757593,
      "kl": 86.85235595703125,
      "learning_rate": 3.3946598939969893e-07,
      "loss": 0.4442,
      "reward": 1.4375,
      "reward_std": 0.36570462584495544,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.9375,
      "step": 1608
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.84375,
      "epoch": 2.032807570977918,
      "grad_norm": 3.4317558692390664,
      "kl": 40.09521484375,
      "learning_rate": 3.390878391772612e-07,
      "loss": 0.1338,
      "reward": 1.421875,
      "reward_std": 0.28911860287189484,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.953125,
      "step": 1610
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.90625,
      "epoch": 2.0353312302839117,
      "grad_norm": 30.57887675136407,
      "kl": 78.55438232421875,
      "learning_rate": 3.3870945533235103e-07,
      "loss": 0.2365,
      "reward": 1.359375,
      "reward_std": 0.1923343911767006,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.921875,
      "step": 1612
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 120.53125,
      "epoch": 2.0378548895899056,
      "grad_norm": 10.697634555062969,
      "kl": 42.9122314453125,
      "learning_rate": 3.383308388572358e-07,
      "loss": 0.3013,
      "reward": 1.28125,
      "reward_std": 0.39212023466825485,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.90625,
      "step": 1614
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 153.65625,
      "epoch": 2.040378548895899,
      "grad_norm": 40.37920458242602,
      "kl": 69.412353515625,
      "learning_rate": 3.379519907447931e-07,
      "loss": 0.3809,
      "reward": 1.40625,
      "reward_std": 0.33183756470680237,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.890625,
      "step": 1616
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 110.765625,
      "epoch": 2.042902208201893,
      "grad_norm": 5.993487583314638,
      "kl": 13.58056640625,
      "learning_rate": 3.3757291198850814e-07,
      "loss": 0.123,
      "reward": 1.4375,
      "reward_std": 0.24819982051849365,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.953125,
      "step": 1618
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.5625,
      "epoch": 2.0454258675078862,
      "grad_norm": 35.70730970448481,
      "kl": 52.70361328125,
      "learning_rate": 3.3719360358247053e-07,
      "loss": 0.3263,
      "reward": 1.3125,
      "reward_std": 0.26933756470680237,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.96875,
      "step": 1620
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.75,
      "epoch": 2.04794952681388,
      "grad_norm": 6.005528800276981,
      "kl": 21.17236328125,
      "learning_rate": 3.368140665213725e-07,
      "loss": 0.1105,
      "reward": 1.1875,
      "reward_std": 0.3427667021751404,
      "rewards/equation_reward_func": 0.28125,
      "rewards/format_reward_func": 0.90625,
      "step": 1622
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 153.1875,
      "epoch": 2.050473186119874,
      "grad_norm": 12.979216778182787,
      "kl": 48.294189453125,
      "learning_rate": 3.364343018005057e-07,
      "loss": 0.4303,
      "reward": 1.578125,
      "reward_std": 0.345923587679863,
      "rewards/equation_reward_func": 0.65625,
      "rewards/format_reward_func": 0.921875,
      "step": 1624
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 117.875,
      "epoch": 2.0529968454258674,
      "grad_norm": 36.29103420101651,
      "kl": 52.00286865234375,
      "learning_rate": 3.3605431041575883e-07,
      "loss": 0.2948,
      "reward": 1.4375,
      "reward_std": 0.2596687823534012,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.96875,
      "step": 1626
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 127.125,
      "epoch": 2.055520504731861,
      "grad_norm": 9.10527721474948,
      "kl": 80.7425537109375,
      "learning_rate": 3.3567409336361495e-07,
      "loss": 0.349,
      "reward": 1.578125,
      "reward_std": 0.2645031735301018,
      "rewards/equation_reward_func": 0.65625,
      "rewards/format_reward_func": 0.921875,
      "step": 1628
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.375,
      "epoch": 2.058044164037855,
      "grad_norm": 17.384360995315113,
      "kl": 43.2833251953125,
      "learning_rate": 3.35293651641149e-07,
      "loss": 0.2564,
      "reward": 1.34375,
      "reward_std": 0.24070462584495544,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.953125,
      "step": 1630
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.421875,
      "epoch": 2.0605678233438485,
      "grad_norm": 17.46763552375866,
      "kl": 11.49163818359375,
      "learning_rate": 3.349129862460251e-07,
      "loss": 0.0327,
      "reward": 1.5625,
      "reward_std": 0.19716878235340118,
      "rewards/equation_reward_func": 0.609375,
      "rewards/format_reward_func": 0.953125,
      "step": 1632
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.71875,
      "epoch": 2.0630914826498423,
      "grad_norm": 5.787533056017572,
      "kl": 5.32464599609375,
      "learning_rate": 3.3453209817649377e-07,
      "loss": 0.023,
      "reward": 1.546875,
      "reward_std": 0.20200317353010178,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.984375,
      "step": 1634
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 118.84375,
      "epoch": 2.065615141955836,
      "grad_norm": 19.773276385071817,
      "kl": 30.1748046875,
      "learning_rate": 3.341509884313897e-07,
      "loss": 0.1849,
      "reward": 1.359375,
      "reward_std": 0.3173343911767006,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.9375,
      "step": 1636
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.921875,
      "epoch": 2.0681388012618296,
      "grad_norm": 3.7355950701916383,
      "kl": 9.41400146484375,
      "learning_rate": 3.337696580101286e-07,
      "loss": 0.1032,
      "reward": 1.625,
      "reward_std": 0.1875,
      "rewards/equation_reward_func": 0.640625,
      "rewards/format_reward_func": 0.984375,
      "step": 1638
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 131.515625,
      "epoch": 2.0706624605678234,
      "grad_norm": 42.455997435495576,
      "kl": 197.3023681640625,
      "learning_rate": 3.3338810791270517e-07,
      "loss": 0.8541,
      "reward": 1.09375,
      "reward_std": 0.34678421169519424,
      "rewards/equation_reward_func": 0.171875,
      "rewards/format_reward_func": 0.921875,
      "step": 1640
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 135.1875,
      "epoch": 2.073186119873817,
      "grad_norm": 15.38234698233779,
      "kl": 78.321044921875,
      "learning_rate": 3.3300633913969e-07,
      "loss": 0.2586,
      "reward": 1.359375,
      "reward_std": 0.38945943117141724,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.90625,
      "step": 1642
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.703125,
      "epoch": 2.0757097791798107,
      "grad_norm": 71.45834415405318,
      "kl": 57.4854736328125,
      "learning_rate": 3.326243526922272e-07,
      "loss": 0.3217,
      "reward": 1.328125,
      "reward_std": 0.20728103816509247,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.953125,
      "step": 1644
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.0625,
      "epoch": 2.0782334384858046,
      "grad_norm": 15.869582562909473,
      "kl": 5.78741455078125,
      "learning_rate": 3.322421495720317e-07,
      "loss": 0.0245,
      "reward": 1.4375,
      "reward_std": 0.23325317353010178,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 1.0,
      "step": 1646
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 130.34375,
      "epoch": 2.080757097791798,
      "grad_norm": 242.10357496163982,
      "kl": 112.5369873046875,
      "learning_rate": 3.318597307813866e-07,
      "loss": 0.5192,
      "reward": 1.390625,
      "reward_std": 0.31950797885656357,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.90625,
      "step": 1648
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 130.4375,
      "epoch": 2.083280757097792,
      "grad_norm": 11.909195085202173,
      "kl": 56.5902099609375,
      "learning_rate": 3.314770973231408e-07,
      "loss": 0.2106,
      "reward": 1.609375,
      "reward_std": 0.24951278418302536,
      "rewards/equation_reward_func": 0.671875,
      "rewards/format_reward_func": 0.9375,
      "step": 1650
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 126.59375,
      "epoch": 2.0858044164037857,
      "grad_norm": 133.78546973296145,
      "kl": 82.086669921875,
      "learning_rate": 3.3109425020070556e-07,
      "loss": 0.4286,
      "reward": 1.359375,
      "reward_std": 0.16591878235340118,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.953125,
      "step": 1652
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.484375,
      "epoch": 2.088328075709779,
      "grad_norm": 5.048570005364133,
      "kl": 8.88275146484375,
      "learning_rate": 3.3071119041805317e-07,
      "loss": 0.0093,
      "reward": 1.46875,
      "reward_std": 0.1875,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.984375,
      "step": 1654
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 146.90625,
      "epoch": 2.090851735015773,
      "grad_norm": 9.441766990326716,
      "kl": 42.4052734375,
      "learning_rate": 3.3032791897971307e-07,
      "loss": 0.2885,
      "reward": 1.390625,
      "reward_std": 0.283423587679863,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.921875,
      "step": 1656
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 128.5,
      "epoch": 2.0933753943217663,
      "grad_norm": 22.461562646995684,
      "kl": 24.72674560546875,
      "learning_rate": 3.2994443689076997e-07,
      "loss": 0.1493,
      "reward": 1.40625,
      "reward_std": 0.19716878235340118,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.953125,
      "step": 1658
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.078125,
      "epoch": 2.09589905362776,
      "grad_norm": 14.446052041837762,
      "kl": 66.741943359375,
      "learning_rate": 3.29560745156861e-07,
      "loss": 0.2104,
      "reward": 1.609375,
      "reward_std": 0.22092358767986298,
      "rewards/equation_reward_func": 0.640625,
      "rewards/format_reward_func": 0.96875,
      "step": 1660
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 126.859375,
      "epoch": 2.098422712933754,
      "grad_norm": 51.30825144307761,
      "kl": 113.8675537109375,
      "learning_rate": 3.2917684478417286e-07,
      "loss": 0.5665,
      "reward": 1.3125,
      "reward_std": 0.252173587679863,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.921875,
      "step": 1662
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 127.84375,
      "epoch": 2.1009463722397475,
      "grad_norm": 10.446941521362103,
      "kl": 81.765869140625,
      "learning_rate": 3.287927367794397e-07,
      "loss": 0.3568,
      "reward": 1.546875,
      "reward_std": 0.22092358767986298,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 0.953125,
      "step": 1664
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 124.09375,
      "epoch": 2.1034700315457413,
      "grad_norm": 30.33628984090425,
      "kl": 18.76812744140625,
      "learning_rate": 3.2840842214993977e-07,
      "loss": 0.2573,
      "reward": 1.296875,
      "reward_std": 0.24733919650316238,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.953125,
      "step": 1666
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.453125,
      "epoch": 2.105993690851735,
      "grad_norm": 10.959804880252776,
      "kl": 50.9093017578125,
      "learning_rate": 3.280239019034936e-07,
      "loss": 0.1194,
      "reward": 1.46875,
      "reward_std": 0.24070462584495544,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.953125,
      "step": 1668
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.828125,
      "epoch": 2.1085173501577286,
      "grad_norm": 9.934055533089712,
      "kl": 31.83172607421875,
      "learning_rate": 3.276391770484606e-07,
      "loss": 0.1853,
      "reward": 1.390625,
      "reward_std": 0.33667195588350296,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.921875,
      "step": 1670
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.890625,
      "epoch": 2.1110410094637224,
      "grad_norm": 18.20459242227757,
      "kl": 20.42340087890625,
      "learning_rate": 3.272542485937368e-07,
      "loss": 0.1195,
      "reward": 1.5,
      "reward_std": 0.2235843911767006,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.984375,
      "step": 1672
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 135.65625,
      "epoch": 2.1135646687697163,
      "grad_norm": 39.115977184634076,
      "kl": 110.82476806640625,
      "learning_rate": 3.2686911754875235e-07,
      "loss": 0.551,
      "reward": 1.5,
      "reward_std": 0.2860843911767006,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.953125,
      "step": 1674
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.484375,
      "epoch": 2.1160883280757097,
      "grad_norm": 27.30982967299284,
      "kl": 8.564453125,
      "learning_rate": 3.2648378492346847e-07,
      "loss": 0.0116,
      "reward": 1.578125,
      "reward_std": 0.20200317353010178,
      "rewards/equation_reward_func": 0.609375,
      "rewards/format_reward_func": 0.96875,
      "step": 1676
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 118.8125,
      "epoch": 2.1186119873817035,
      "grad_norm": 11.14376826651825,
      "kl": 22.7042236328125,
      "learning_rate": 3.260982517283749e-07,
      "loss": 0.2003,
      "reward": 1.46875,
      "reward_std": 0.17603103816509247,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.96875,
      "step": 1678
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 122.5625,
      "epoch": 2.121135646687697,
      "grad_norm": 23.83030628510396,
      "kl": 40.62359619140625,
      "learning_rate": 3.2571251897448763e-07,
      "loss": 0.311,
      "reward": 1.578125,
      "reward_std": 0.18483919650316238,
      "rewards/equation_reward_func": 0.640625,
      "rewards/format_reward_func": 0.9375,
      "step": 1680
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 117.25,
      "epoch": 2.123659305993691,
      "grad_norm": 31.666663321536465,
      "kl": 53.0494384765625,
      "learning_rate": 3.253265876733459e-07,
      "loss": 0.1322,
      "reward": 1.515625,
      "reward_std": 0.3534187823534012,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.96875,
      "step": 1682
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 124.65625,
      "epoch": 2.1261829652996846,
      "grad_norm": 4.244871548420023,
      "kl": 53.90606689453125,
      "learning_rate": 3.2494045883700944e-07,
      "loss": 0.1923,
      "reward": 1.359375,
      "reward_std": 0.31201278418302536,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.953125,
      "step": 1684
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 125.0,
      "epoch": 2.128706624605678,
      "grad_norm": 21.55483884734572,
      "kl": 63.6248779296875,
      "learning_rate": 3.2455413347805617e-07,
      "loss": 0.3995,
      "reward": 1.40625,
      "reward_std": 0.23853103816509247,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.9375,
      "step": 1686
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 131.40625,
      "epoch": 2.131230283911672,
      "grad_norm": 23.372362950918195,
      "kl": 106.36187744140625,
      "learning_rate": 3.241676126095792e-07,
      "loss": 0.4413,
      "reward": 1.40625,
      "reward_std": 0.3846687823534012,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.921875,
      "step": 1688
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.359375,
      "epoch": 2.1337539432176658,
      "grad_norm": 4.228708459319838,
      "kl": 16.899169921875,
      "learning_rate": 3.2378089724518457e-07,
      "loss": 0.0605,
      "reward": 1.671875,
      "reward_std": 0.283423587679863,
      "rewards/equation_reward_func": 0.71875,
      "rewards/format_reward_func": 0.953125,
      "step": 1690
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 116.9375,
      "epoch": 2.136277602523659,
      "grad_norm": 15.266518264241839,
      "kl": 46.42437744140625,
      "learning_rate": 3.233939883989882e-07,
      "loss": 0.1678,
      "reward": 1.5,
      "reward_std": 0.2596687823534012,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.9375,
      "step": 1692
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.015625,
      "epoch": 2.138801261829653,
      "grad_norm": 2.6475183194974066,
      "kl": 41.634033203125,
      "learning_rate": 3.230068870856134e-07,
      "loss": 0.2307,
      "reward": 1.65625,
      "reward_std": 0.2785891965031624,
      "rewards/equation_reward_func": 0.703125,
      "rewards/format_reward_func": 0.953125,
      "step": 1694
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.015625,
      "epoch": 2.141324921135647,
      "grad_norm": 4.859220027254827,
      "kl": 15.41741943359375,
      "learning_rate": 3.226195943201883e-07,
      "loss": 0.0964,
      "reward": 1.40625,
      "reward_std": 0.33183756470680237,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.953125,
      "step": 1696
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.96875,
      "epoch": 2.1438485804416403,
      "grad_norm": 89.37383955704114,
      "kl": 87.5130615234375,
      "learning_rate": 3.22232111118343e-07,
      "loss": 0.386,
      "reward": 1.375,
      "reward_std": 0.32651595771312714,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.9375,
      "step": 1698
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.625,
      "epoch": 2.146372239747634,
      "grad_norm": 22.205662691486904,
      "kl": 11.26708984375,
      "learning_rate": 3.218444384962071e-07,
      "loss": 0.1009,
      "reward": 1.59375,
      "reward_std": 0.13466878235340118,
      "rewards/equation_reward_func": 0.625,
      "rewards/format_reward_func": 0.96875,
      "step": 1700
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 119.46875,
      "epoch": 2.1488958990536275,
      "grad_norm": 4.011547014644873,
      "kl": 24.95819091796875,
      "learning_rate": 3.214565774704066e-07,
      "loss": 0.2034,
      "reward": 1.484375,
      "reward_std": 0.3173343911767006,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.96875,
      "step": 1702
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.1875,
      "epoch": 2.1514195583596214,
      "grad_norm": 5.45968340373587,
      "kl": 0.3599853515625,
      "learning_rate": 3.2106852905806216e-07,
      "loss": 0.0198,
      "reward": 1.53125,
      "reward_std": 0.1610843911767006,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 1.0,
      "step": 1704
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.75,
      "epoch": 2.1539432176656153,
      "grad_norm": 2.2337532223759906,
      "kl": 0.6463623046875,
      "learning_rate": 3.206802942767852e-07,
      "loss": -0.012,
      "reward": 1.625,
      "reward_std": 0.17075317353010178,
      "rewards/equation_reward_func": 0.625,
      "rewards/format_reward_func": 1.0,
      "step": 1706
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 128.203125,
      "epoch": 2.1564668769716087,
      "grad_norm": 16.531105891315036,
      "kl": 30.9727783203125,
      "learning_rate": 3.202918741446764e-07,
      "loss": 0.2787,
      "reward": 1.40625,
      "reward_std": 0.252173587679863,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.9375,
      "step": 1708
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.15625,
      "epoch": 2.1589905362776025,
      "grad_norm": 4.556891446257707,
      "kl": 6.59356689453125,
      "learning_rate": 3.199032696803222e-07,
      "loss": 0.0242,
      "reward": 1.484375,
      "reward_std": 0.21875,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.96875,
      "step": 1710
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.4375,
      "epoch": 2.1615141955835964,
      "grad_norm": 1.845090476030881,
      "kl": 13.5086669921875,
      "learning_rate": 3.1951448190279253e-07,
      "loss": 0.0683,
      "reward": 1.265625,
      "reward_std": 0.20728103816509247,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.9375,
      "step": 1712
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.75,
      "epoch": 2.1640378548895898,
      "grad_norm": 3.636034605323556,
      "kl": 9.6839599609375,
      "learning_rate": 3.1912551183163796e-07,
      "loss": 0.0016,
      "reward": 1.484375,
      "reward_std": 0.30058756470680237,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.9375,
      "step": 1714
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 127.34375,
      "epoch": 2.1665615141955836,
      "grad_norm": 2806.098808336835,
      "kl": 362.6871337890625,
      "learning_rate": 3.187363604868871e-07,
      "loss": 1.2886,
      "reward": 1.5625,
      "reward_std": 0.3410891965031624,
      "rewards/equation_reward_func": 0.640625,
      "rewards/format_reward_func": 0.921875,
      "step": 1716
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 120.453125,
      "epoch": 2.1690851735015775,
      "grad_norm": 62.250387182998615,
      "kl": 91.3114013671875,
      "learning_rate": 3.183470288890442e-07,
      "loss": 0.395,
      "reward": 1.484375,
      "reward_std": 0.3270031735301018,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.953125,
      "step": 1718
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.421875,
      "epoch": 2.171608832807571,
      "grad_norm": 62.51813377926539,
      "kl": 80.536376953125,
      "learning_rate": 3.179575180590857e-07,
      "loss": 0.3655,
      "reward": 1.296875,
      "reward_std": 0.31950797885656357,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.890625,
      "step": 1720
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 143.359375,
      "epoch": 2.1741324921135647,
      "grad_norm": 42.231082215522584,
      "kl": 58.56439208984375,
      "learning_rate": 3.1756782901845856e-07,
      "loss": 0.4166,
      "reward": 1.40625,
      "reward_std": 0.27461542934179306,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.9375,
      "step": 1722
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.875,
      "epoch": 2.176656151419558,
      "grad_norm": 12.180962179858232,
      "kl": 1.90740966796875,
      "learning_rate": 3.1717796278907684e-07,
      "loss": 0.0122,
      "reward": 1.375,
      "reward_std": 0.314673587679863,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.953125,
      "step": 1724
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 124.546875,
      "epoch": 2.179179810725552,
      "grad_norm": 11.911779196470206,
      "kl": 42.5064697265625,
      "learning_rate": 3.1678792039331916e-07,
      "loss": 0.1775,
      "reward": 1.328125,
      "reward_std": 0.33228103816509247,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.90625,
      "step": 1726
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.953125,
      "epoch": 2.181703470031546,
      "grad_norm": 5.65969265290423,
      "kl": 18.2464599609375,
      "learning_rate": 3.163977028540263e-07,
      "loss": 0.0908,
      "reward": 1.5625,
      "reward_std": 0.31069982051849365,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 0.96875,
      "step": 1728
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 110.640625,
      "epoch": 2.1842271293375393,
      "grad_norm": 2.060140864683979,
      "kl": 11.26641845703125,
      "learning_rate": 3.1600731119449827e-07,
      "loss": 0.0629,
      "reward": 1.421875,
      "reward_std": 0.15842358767986298,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.953125,
      "step": 1730
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 118.71875,
      "epoch": 2.186750788643533,
      "grad_norm": 389.07090876670657,
      "kl": 66.34930419921875,
      "learning_rate": 3.1561674643849166e-07,
      "loss": 0.2951,
      "reward": 1.453125,
      "reward_std": 0.29439646750688553,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.921875,
      "step": 1732
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 110.234375,
      "epoch": 2.189274447949527,
      "grad_norm": 42.71123226230967,
      "kl": 45.2242431640625,
      "learning_rate": 3.1522600961021707e-07,
      "loss": 0.2292,
      "reward": 1.46875,
      "reward_std": 0.22706207633018494,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.9375,
      "step": 1734
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 128.296875,
      "epoch": 2.1917981072555204,
      "grad_norm": 20.87117048873887,
      "kl": 85.78533935546875,
      "learning_rate": 3.1483510173433627e-07,
      "loss": 0.4289,
      "reward": 1.515625,
      "reward_std": 0.2548343911767006,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 0.921875,
      "step": 1736
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 147.234375,
      "epoch": 2.1943217665615142,
      "grad_norm": 28.75844715216739,
      "kl": 71.56475830078125,
      "learning_rate": 3.144440238359595e-07,
      "loss": 0.3231,
      "reward": 1.421875,
      "reward_std": 0.31950797885656357,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.875,
      "step": 1738
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 129.53125,
      "epoch": 2.196845425867508,
      "grad_norm": 24.05174060786704,
      "kl": 35.8685302734375,
      "learning_rate": 3.1405277694064305e-07,
      "loss": 0.2174,
      "reward": 1.46875,
      "reward_std": 0.2957531735301018,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.9375,
      "step": 1740
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 123.609375,
      "epoch": 2.1993690851735015,
      "grad_norm": 17.156397867920514,
      "kl": 38.9251708984375,
      "learning_rate": 3.136613620743863e-07,
      "loss": 0.2124,
      "reward": 1.5,
      "reward_std": 0.28428421169519424,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.9375,
      "step": 1742
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 143.84375,
      "epoch": 2.2018927444794953,
      "grad_norm": 107.7064501764484,
      "kl": 28.21868896484375,
      "learning_rate": 3.1326978026362905e-07,
      "loss": 0.2611,
      "reward": 1.328125,
      "reward_std": 0.2909187823534012,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.9375,
      "step": 1744
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 148.734375,
      "epoch": 2.2044164037854888,
      "grad_norm": 36.26209210781552,
      "kl": 78.6689453125,
      "learning_rate": 3.1287803253524895e-07,
      "loss": 0.4535,
      "reward": 1.296875,
      "reward_std": 0.43303901702165604,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.84375,
      "step": 1746
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.46875,
      "epoch": 2.2069400630914826,
      "grad_norm": 3.4628523270941733,
      "kl": 15.20330810546875,
      "learning_rate": 3.124861199165588e-07,
      "loss": -0.0521,
      "reward": 1.3125,
      "reward_std": 0.26933756470680237,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.96875,
      "step": 1748
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 114.125,
      "epoch": 2.2094637223974765,
      "grad_norm": 62.65971672623462,
      "kl": 69.1864013671875,
      "learning_rate": 3.120940434353037e-07,
      "loss": 0.3796,
      "reward": 1.421875,
      "reward_std": 0.24733919650316238,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.9375,
      "step": 1750
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 166.1875,
      "epoch": 2.21198738170347,
      "grad_norm": 132.16807289702308,
      "kl": 349.5697021484375,
      "learning_rate": 3.1170180411965854e-07,
      "loss": 1.2407,
      "reward": 1.15625,
      "reward_std": 0.4207531735301018,
      "rewards/equation_reward_func": 0.28125,
      "rewards/format_reward_func": 0.875,
      "step": 1752
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 119.796875,
      "epoch": 2.2145110410094637,
      "grad_norm": 3.6219793275561543,
      "kl": 71.9669189453125,
      "learning_rate": 3.1130940299822515e-07,
      "loss": 0.3637,
      "reward": 1.40625,
      "reward_std": 0.25,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.96875,
      "step": 1754
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.15625,
      "epoch": 2.2170347003154576,
      "grad_norm": 4.263265743917979,
      "kl": 20.35272216796875,
      "learning_rate": 3.1091684110002984e-07,
      "loss": 0.1482,
      "reward": 1.625,
      "reward_std": 0.2235843911767006,
      "rewards/equation_reward_func": 0.65625,
      "rewards/format_reward_func": 0.96875,
      "step": 1756
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 111.34375,
      "epoch": 2.219558359621451,
      "grad_norm": 7.6958398943003266,
      "kl": 19.341552734375,
      "learning_rate": 3.1052411945452033e-07,
      "loss": 0.1115,
      "reward": 1.375,
      "reward_std": 0.27461542934179306,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.96875,
      "step": 1758
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 123.640625,
      "epoch": 2.222082018927445,
      "grad_norm": 18.93119588257942,
      "kl": 19.08404541015625,
      "learning_rate": 3.101312390915634e-07,
      "loss": 0.2005,
      "reward": 1.234375,
      "reward_std": 0.3173343911767006,
      "rewards/equation_reward_func": 0.296875,
      "rewards/format_reward_func": 0.9375,
      "step": 1760
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 124.453125,
      "epoch": 2.2246056782334387,
      "grad_norm": 9.602747139564373,
      "kl": 44.4144287109375,
      "learning_rate": 3.0973820104144194e-07,
      "loss": 0.2894,
      "reward": 1.59375,
      "reward_std": 0.2860843911767006,
      "rewards/equation_reward_func": 0.65625,
      "rewards/format_reward_func": 0.9375,
      "step": 1762
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.875,
      "epoch": 2.227129337539432,
      "grad_norm": 4.5216506373378715,
      "kl": 26.765380859375,
      "learning_rate": 3.093450063348525e-07,
      "loss": 0.1302,
      "reward": 1.484375,
      "reward_std": 0.30586542934179306,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.953125,
      "step": 1764
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 119.046875,
      "epoch": 2.229652996845426,
      "grad_norm": 12.376967554516852,
      "kl": 58.68499755859375,
      "learning_rate": 3.0895165600290225e-07,
      "loss": 0.3076,
      "reward": 1.484375,
      "reward_std": 0.3270031735301018,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.921875,
      "step": 1766
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 133.375,
      "epoch": 2.2321766561514194,
      "grad_norm": 21.2612328353306,
      "kl": 74.93890380859375,
      "learning_rate": 3.0855815107710665e-07,
      "loss": 0.4507,
      "reward": 1.484375,
      "reward_std": 0.38200797885656357,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.921875,
      "step": 1768
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 118.4375,
      "epoch": 2.234700315457413,
      "grad_norm": 65.17383952765954,
      "kl": 68.81689453125,
      "learning_rate": 3.0816449258938656e-07,
      "loss": 0.3345,
      "reward": 1.5625,
      "reward_std": 0.25,
      "rewards/equation_reward_func": 0.609375,
      "rewards/format_reward_func": 0.953125,
      "step": 1770
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.28125,
      "epoch": 2.237223974763407,
      "grad_norm": 40.124472674796934,
      "kl": 34.97003173828125,
      "learning_rate": 3.077706815720653e-07,
      "loss": 0.1785,
      "reward": 1.5625,
      "reward_std": 0.1610843911767006,
      "rewards/equation_reward_func": 0.578125,
      "rewards/format_reward_func": 0.984375,
      "step": 1772
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 115.703125,
      "epoch": 2.2397476340694005,
      "grad_norm": 1.5308731586639357,
      "kl": 80.83099365234375,
      "learning_rate": 3.073767190578665e-07,
      "loss": 0.355,
      "reward": 1.390625,
      "reward_std": 0.1923343911767006,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.96875,
      "step": 1774
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 116.046875,
      "epoch": 2.2422712933753943,
      "grad_norm": 8.996871076075013,
      "kl": 66.37689208984375,
      "learning_rate": 3.069826060799109e-07,
      "loss": 0.2441,
      "reward": 1.4375,
      "reward_std": 0.3542356640100479,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.921875,
      "step": 1776
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.78125,
      "epoch": 2.244794952681388,
      "grad_norm": 14.62625953206237,
      "kl": 28.49774169921875,
      "learning_rate": 3.0658834367171377e-07,
      "loss": 0.1587,
      "reward": 1.5625,
      "reward_std": 0.2596687823534012,
      "rewards/equation_reward_func": 0.609375,
      "rewards/format_reward_func": 0.953125,
      "step": 1778
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 140.15625,
      "epoch": 2.2473186119873816,
      "grad_norm": 26.983755645972938,
      "kl": 40.5792236328125,
      "learning_rate": 3.0619393286718237e-07,
      "loss": 0.3323,
      "reward": 1.671875,
      "reward_std": 0.35161860287189484,
      "rewards/equation_reward_func": 0.734375,
      "rewards/format_reward_func": 0.9375,
      "step": 1780
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.78125,
      "epoch": 2.2498422712933754,
      "grad_norm": 4.020768950121283,
      "kl": 5.6363525390625,
      "learning_rate": 3.0579937470061304e-07,
      "loss": 0.0049,
      "reward": 1.421875,
      "reward_std": 0.1923343911767006,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.96875,
      "step": 1782
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.015625,
      "epoch": 2.2523659305993693,
      "grad_norm": 12.908977537026349,
      "kl": 11.43280029296875,
      "learning_rate": 3.054046702066886e-07,
      "loss": 0.0019,
      "reward": 1.234375,
      "reward_std": 0.32168156653642654,
      "rewards/equation_reward_func": 0.28125,
      "rewards/format_reward_func": 0.953125,
      "step": 1784
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.4375,
      "epoch": 2.2548895899053627,
      "grad_norm": 3.880089675637821,
      "kl": 14.81109619140625,
      "learning_rate": 3.050098204204755e-07,
      "loss": 0.064,
      "reward": 1.390625,
      "reward_std": 0.1923343911767006,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.96875,
      "step": 1786
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.984375,
      "epoch": 2.2574132492113566,
      "grad_norm": 11.701780408746256,
      "kl": 7.8372802734375,
      "learning_rate": 3.046148263774213e-07,
      "loss": 0.0556,
      "reward": 1.4375,
      "reward_std": 0.377173587679863,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.953125,
      "step": 1788
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.59375,
      "epoch": 2.25993690851735,
      "grad_norm": 5.715976149485023,
      "kl": 1.73321533203125,
      "learning_rate": 3.0421968911335195e-07,
      "loss": -0.0102,
      "reward": 1.421875,
      "reward_std": 0.23808756470680237,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.96875,
      "step": 1790
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 121.765625,
      "epoch": 2.262460567823344,
      "grad_norm": 153.5236349402842,
      "kl": 117.90838623046875,
      "learning_rate": 3.038244096644687e-07,
      "loss": 0.5024,
      "reward": 1.3125,
      "reward_std": 0.26712023466825485,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.90625,
      "step": 1792
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.734375,
      "epoch": 2.2649842271293377,
      "grad_norm": 2.7796596266741163,
      "kl": 96.82916259765625,
      "learning_rate": 3.0342898906734595e-07,
      "loss": 0.3496,
      "reward": 1.359375,
      "reward_std": 0.31950797885656357,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.921875,
      "step": 1794
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.828125,
      "epoch": 2.267507886435331,
      "grad_norm": 21.44524674091886,
      "kl": 50.5198974609375,
      "learning_rate": 3.0303342835892796e-07,
      "loss": 0.2365,
      "reward": 1.59375,
      "reward_std": 0.23325317353010178,
      "rewards/equation_reward_func": 0.65625,
      "rewards/format_reward_func": 0.9375,
      "step": 1796
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.40625,
      "epoch": 2.270031545741325,
      "grad_norm": 3.3656208282028937,
      "kl": 116.64862060546875,
      "learning_rate": 3.0263772857652676e-07,
      "loss": 0.3719,
      "reward": 1.46875,
      "reward_std": 0.28825797885656357,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.96875,
      "step": 1798
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 115.453125,
      "epoch": 2.272555205047319,
      "grad_norm": 36.63584038378353,
      "kl": 73.64105224609375,
      "learning_rate": 3.022418907578188e-07,
      "loss": 0.2922,
      "reward": 1.5,
      "reward_std": 0.21428901702165604,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.953125,
      "step": 1800
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 122.796875,
      "epoch": 2.275078864353312,
      "grad_norm": 6.506626698874847,
      "kl": 58.94976806640625,
      "learning_rate": 3.0184591594084256e-07,
      "loss": 0.2758,
      "reward": 1.234375,
      "reward_std": 0.24336542934179306,
      "rewards/equation_reward_func": 0.296875,
      "rewards/format_reward_func": 0.9375,
      "step": 1802
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 120.203125,
      "epoch": 2.277602523659306,
      "grad_norm": 52.77938403258398,
      "kl": 52.90325927734375,
      "learning_rate": 3.0144980516399587e-07,
      "loss": 0.2449,
      "reward": 1.375,
      "reward_std": 0.32564646750688553,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.921875,
      "step": 1804
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.078125,
      "epoch": 2.2801261829653,
      "grad_norm": 14.719131074379638,
      "kl": 13.4429931640625,
      "learning_rate": 3.0105355946603324e-07,
      "loss": 0.0647,
      "reward": 1.34375,
      "reward_std": 0.27461542934179306,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.96875,
      "step": 1806
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 139.125,
      "epoch": 2.2826498422712933,
      "grad_norm": 19.8091105419539,
      "kl": 109.53466796875,
      "learning_rate": 3.0065717988606256e-07,
      "loss": 0.4541,
      "reward": 1.359375,
      "reward_std": 0.3534187823534012,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.921875,
      "step": 1808
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.78125,
      "epoch": 2.285173501577287,
      "grad_norm": 3.834364217144108,
      "kl": 9.6170654296875,
      "learning_rate": 3.002606674635432e-07,
      "loss": 0.0074,
      "reward": 1.46875,
      "reward_std": 0.21608919650316238,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.953125,
      "step": 1810
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 111.46875,
      "epoch": 2.2876971608832806,
      "grad_norm": 4.96212818770807,
      "kl": 28.49560546875,
      "learning_rate": 2.9986402323828267e-07,
      "loss": 0.0841,
      "reward": 1.625,
      "reward_std": 0.25,
      "rewards/equation_reward_func": 0.703125,
      "rewards/format_reward_func": 0.921875,
      "step": 1812
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 118.765625,
      "epoch": 2.2902208201892744,
      "grad_norm": 25.55878746091678,
      "kl": 20.36822509765625,
      "learning_rate": 2.9946724825043444e-07,
      "loss": 0.1459,
      "reward": 1.34375,
      "reward_std": 0.2235843911767006,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.9375,
      "step": 1814
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.703125,
      "epoch": 2.2927444794952683,
      "grad_norm": 7.353076219255515,
      "kl": 18.59759521484375,
      "learning_rate": 2.990703435404944e-07,
      "loss": 0.1595,
      "reward": 1.4375,
      "reward_std": 0.26712023466825485,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.90625,
      "step": 1816
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 116.9375,
      "epoch": 2.2952681388012617,
      "grad_norm": 6.030580682486869,
      "kl": 23.8797607421875,
      "learning_rate": 2.98673310149299e-07,
      "loss": 0.141,
      "reward": 1.421875,
      "reward_std": 0.25700797885656357,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.9375,
      "step": 1818
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 115.015625,
      "epoch": 2.2977917981072555,
      "grad_norm": 51.46913275654648,
      "kl": 62.3729248046875,
      "learning_rate": 2.98276149118022e-07,
      "loss": 0.2697,
      "reward": 1.390625,
      "reward_std": 0.16591878235340118,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.96875,
      "step": 1820
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 133.15625,
      "epoch": 2.3003154574132494,
      "grad_norm": 3.1061030707266224,
      "kl": 37.9254150390625,
      "learning_rate": 2.978788614881719e-07,
      "loss": 0.1311,
      "reward": 1.609375,
      "reward_std": 0.23808756470680237,
      "rewards/equation_reward_func": 0.671875,
      "rewards/format_reward_func": 0.9375,
      "step": 1822
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 110.40625,
      "epoch": 2.302839116719243,
      "grad_norm": 14.915417884796637,
      "kl": 12.67138671875,
      "learning_rate": 2.974814483015892e-07,
      "loss": 0.0694,
      "reward": 1.421875,
      "reward_std": 0.25700797885656357,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.953125,
      "step": 1824
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 116.546875,
      "epoch": 2.3053627760252366,
      "grad_norm": 6.13551122862809,
      "kl": 35.048095703125,
      "learning_rate": 2.9708391060044366e-07,
      "loss": 0.1213,
      "reward": 1.5,
      "reward_std": 0.21211542934179306,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.953125,
      "step": 1826
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 145.234375,
      "epoch": 2.3078864353312305,
      "grad_norm": 16.99217008011037,
      "kl": 58.954833984375,
      "learning_rate": 2.966862494272316e-07,
      "loss": 0.2879,
      "reward": 1.359375,
      "reward_std": 0.25700797885656357,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.921875,
      "step": 1828
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 128.1875,
      "epoch": 2.310410094637224,
      "grad_norm": 20.02894115845167,
      "kl": 33.09210205078125,
      "learning_rate": 2.9628846582477303e-07,
      "loss": 0.2767,
      "reward": 1.4375,
      "reward_std": 0.1875,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.953125,
      "step": 1830
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.234375,
      "epoch": 2.3129337539432178,
      "grad_norm": 3.2504007486343562,
      "kl": 6.14984130859375,
      "learning_rate": 2.95890560836209e-07,
      "loss": -0.0393,
      "reward": 1.453125,
      "reward_std": 0.3270031735301018,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.953125,
      "step": 1832
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 124.703125,
      "epoch": 2.315457413249211,
      "grad_norm": 13.27999967040157,
      "kl": 48.68341064453125,
      "learning_rate": 2.954925355049992e-07,
      "loss": 0.2523,
      "reward": 1.375,
      "reward_std": 0.17603103816509247,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.96875,
      "step": 1834
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 114.515625,
      "epoch": 2.317981072555205,
      "grad_norm": 3.8750171568715452,
      "kl": 33.6939697265625,
      "learning_rate": 2.9509439087491835e-07,
      "loss": 0.1226,
      "reward": 1.234375,
      "reward_std": 0.21694982051849365,
      "rewards/equation_reward_func": 0.296875,
      "rewards/format_reward_func": 0.9375,
      "step": 1836
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 120.046875,
      "epoch": 2.320504731861199,
      "grad_norm": 4.798559443195017,
      "kl": 80.20855712890625,
      "learning_rate": 2.9469612799005456e-07,
      "loss": 0.3202,
      "reward": 1.34375,
      "reward_std": 0.30542195588350296,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.921875,
      "step": 1838
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 114.375,
      "epoch": 2.3230283911671923,
      "grad_norm": 52.63022984016005,
      "kl": 134.90667724609375,
      "learning_rate": 2.942977478948057e-07,
      "loss": 0.5128,
      "reward": 1.484375,
      "reward_std": 0.345923587679863,
      "rewards/equation_reward_func": 0.578125,
      "rewards/format_reward_func": 0.90625,
      "step": 1840
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 153.71875,
      "epoch": 2.325552050473186,
      "grad_norm": 99.76592606355908,
      "kl": 134.60980224609375,
      "learning_rate": 2.9389925163387715e-07,
      "loss": 0.4633,
      "reward": 1.3125,
      "reward_std": 0.27461542934179306,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.90625,
      "step": 1842
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 148.8125,
      "epoch": 2.32807570977918,
      "grad_norm": 15.942362401431522,
      "kl": 62.73291015625,
      "learning_rate": 2.9350064025227894e-07,
      "loss": 0.3693,
      "reward": 1.34375,
      "reward_std": 0.44184717535972595,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.859375,
      "step": 1844
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 123.65625,
      "epoch": 2.3305993690851734,
      "grad_norm": 20.942389718540145,
      "kl": 20.50146484375,
      "learning_rate": 2.931019147953229e-07,
      "loss": 0.2239,
      "reward": 1.4375,
      "reward_std": 0.2860843911767006,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.953125,
      "step": 1846
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.84375,
      "epoch": 2.3331230283911673,
      "grad_norm": 4.595573020773366,
      "kl": 3.95013427734375,
      "learning_rate": 2.9270307630862006e-07,
      "loss": 0.0092,
      "reward": 1.765625,
      "reward_std": 0.10341878235340118,
      "rewards/equation_reward_func": 0.765625,
      "rewards/format_reward_func": 1.0,
      "step": 1848
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.5,
      "epoch": 2.335646687697161,
      "grad_norm": 3.0131779834729775,
      "kl": 11.42425537109375,
      "learning_rate": 2.923041258380779e-07,
      "loss": 0.0911,
      "reward": 1.453125,
      "reward_std": 0.22841878235340118,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.96875,
      "step": 1850
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 115.578125,
      "epoch": 2.3381703470031545,
      "grad_norm": 3.9908872110130695,
      "kl": 62.0208740234375,
      "learning_rate": 2.919050644298975e-07,
      "loss": 0.2522,
      "reward": 1.546875,
      "reward_std": 0.1923343911767006,
      "rewards/equation_reward_func": 0.578125,
      "rewards/format_reward_func": 0.96875,
      "step": 1852
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 129.875,
      "epoch": 2.3406940063091484,
      "grad_norm": 3.1764584074753657,
      "kl": 44.82568359375,
      "learning_rate": 2.9150589313057084e-07,
      "loss": 0.3111,
      "reward": 1.578125,
      "reward_std": 0.16591878235340118,
      "rewards/equation_reward_func": 0.65625,
      "rewards/format_reward_func": 0.921875,
      "step": 1854
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.96875,
      "epoch": 2.3432176656151418,
      "grad_norm": 24.66752441759835,
      "kl": 13.685302734375,
      "learning_rate": 2.911066129868782e-07,
      "loss": 0.0927,
      "reward": 1.546875,
      "reward_std": 0.15625,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 0.953125,
      "step": 1856
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.078125,
      "epoch": 2.3457413249211356,
      "grad_norm": 3.395721319406238,
      "kl": 19.376953125,
      "learning_rate": 2.907072250458851e-07,
      "loss": 0.0794,
      "reward": 1.4375,
      "reward_std": 0.23325317353010178,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.953125,
      "step": 1858
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.078125,
      "epoch": 2.3482649842271295,
      "grad_norm": 15.28245840603603,
      "kl": 15.01373291015625,
      "learning_rate": 2.903077303549399e-07,
      "loss": 0.1363,
      "reward": 1.46875,
      "reward_std": 0.1610843911767006,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.984375,
      "step": 1860
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 115.78125,
      "epoch": 2.350788643533123,
      "grad_norm": 94.70323780748065,
      "kl": 75.369873046875,
      "learning_rate": 2.89908129961671e-07,
      "loss": 0.2252,
      "reward": 1.453125,
      "reward_std": 0.2909187823534012,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.9375,
      "step": 1862
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 121.953125,
      "epoch": 2.3533123028391167,
      "grad_norm": 23.444002775173267,
      "kl": 33.82379150390625,
      "learning_rate": 2.8950842491398355e-07,
      "loss": 0.1736,
      "reward": 1.25,
      "reward_std": 0.1875,
      "rewards/equation_reward_func": 0.296875,
      "rewards/format_reward_func": 0.953125,
      "step": 1864
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.15625,
      "epoch": 2.3558359621451106,
      "grad_norm": 5.647856071403298,
      "kl": 37.59686279296875,
      "learning_rate": 2.8910861626005773e-07,
      "loss": 0.089,
      "reward": 1.40625,
      "reward_std": 0.40576278418302536,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.9375,
      "step": 1866
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 149.0,
      "epoch": 2.358359621451104,
      "grad_norm": 34.76378388278123,
      "kl": 219.60394287109375,
      "learning_rate": 2.8870870504834494e-07,
      "loss": 0.9148,
      "reward": 1.234375,
      "reward_std": 0.22841878235340118,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.921875,
      "step": 1868
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 133.703125,
      "epoch": 2.360883280757098,
      "grad_norm": 16.390274774581027,
      "kl": 57.89947509765625,
      "learning_rate": 2.883086923275658e-07,
      "loss": 0.3323,
      "reward": 1.484375,
      "reward_std": 0.3534187823534012,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.9375,
      "step": 1870
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 121.25,
      "epoch": 2.3634069400630917,
      "grad_norm": 52.03477410194188,
      "kl": 73.65338134765625,
      "learning_rate": 2.87908579146707e-07,
      "loss": 0.2074,
      "reward": 1.390625,
      "reward_std": 0.34375,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.90625,
      "step": 1872
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.34375,
      "epoch": 2.365930599369085,
      "grad_norm": 6.463247488038574,
      "kl": 55.32171630859375,
      "learning_rate": 2.875083665550187e-07,
      "loss": 0.2233,
      "reward": 1.53125,
      "reward_std": 0.2235843911767006,
      "rewards/equation_reward_func": 0.578125,
      "rewards/format_reward_func": 0.953125,
      "step": 1874
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 129.328125,
      "epoch": 2.368454258675079,
      "grad_norm": 6.380541580918639,
      "kl": 25.8131103515625,
      "learning_rate": 2.871080556020118e-07,
      "loss": 0.1583,
      "reward": 1.484375,
      "reward_std": 0.3270031735301018,
      "rewards/equation_reward_func": 0.578125,
      "rewards/format_reward_func": 0.90625,
      "step": 1876
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 152.65625,
      "epoch": 2.3709779179810724,
      "grad_norm": 16.530611639411543,
      "kl": 68.98681640625,
      "learning_rate": 2.8670764733745506e-07,
      "loss": 0.4603,
      "reward": 1.328125,
      "reward_std": 0.5219546258449554,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.890625,
      "step": 1878
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.96875,
      "epoch": 2.3735015772870662,
      "grad_norm": 10.848352938148345,
      "kl": 22.65106201171875,
      "learning_rate": 2.863071428113726e-07,
      "loss": 0.1109,
      "reward": 1.328125,
      "reward_std": 0.30586542934179306,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.953125,
      "step": 1880
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.6875,
      "epoch": 2.37602523659306,
      "grad_norm": 3.7777498548192168,
      "kl": 2.06719970703125,
      "learning_rate": 2.859065430740407e-07,
      "loss": -0.0275,
      "reward": 1.484375,
      "reward_std": 0.1298343911767006,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.984375,
      "step": 1882
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 127.40625,
      "epoch": 2.3785488958990535,
      "grad_norm": 24.820417318652108,
      "kl": 28.25115966796875,
      "learning_rate": 2.8550584917598554e-07,
      "loss": 0.1642,
      "reward": 1.359375,
      "reward_std": 0.22841878235340118,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.953125,
      "step": 1884
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.59375,
      "epoch": 2.3810725552050473,
      "grad_norm": 4.8851612469806875,
      "kl": 15.40789794921875,
      "learning_rate": 2.851050621679801e-07,
      "loss": 0.1049,
      "reward": 1.703125,
      "reward_std": 0.27944982051849365,
      "rewards/equation_reward_func": 0.734375,
      "rewards/format_reward_func": 0.96875,
      "step": 1886
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.203125,
      "epoch": 2.383596214511041,
      "grad_norm": 9.659140342324799,
      "kl": 23.5697021484375,
      "learning_rate": 2.847041831010417e-07,
      "loss": 0.1554,
      "reward": 1.375,
      "reward_std": 0.11353103816509247,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.96875,
      "step": 1888
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.0,
      "epoch": 2.3861198738170346,
      "grad_norm": 4.1672267190827705,
      "kl": 1.80517578125,
      "learning_rate": 2.8430321302642884e-07,
      "loss": 0.0071,
      "reward": 1.578125,
      "reward_std": 0.22841878235340118,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 0.984375,
      "step": 1890
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 125.921875,
      "epoch": 2.3886435331230285,
      "grad_norm": 151.37771360030175,
      "kl": 82.24334716796875,
      "learning_rate": 2.839021529956388e-07,
      "loss": 0.3881,
      "reward": 1.453125,
      "reward_std": 0.37803421169519424,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.953125,
      "step": 1892
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 150.125,
      "epoch": 2.3911671924290223,
      "grad_norm": 42.102742613970356,
      "kl": 116.2127685546875,
      "learning_rate": 2.835010040604049e-07,
      "loss": 0.642,
      "reward": 1.296875,
      "reward_std": 0.30586542934179306,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.9375,
      "step": 1894
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.0625,
      "epoch": 2.3936908517350157,
      "grad_norm": 11.20181724802463,
      "kl": 21.6566162109375,
      "learning_rate": 2.830997672726933e-07,
      "loss": 0.0382,
      "reward": 1.40625,
      "reward_std": 0.34678421169519424,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.953125,
      "step": 1896
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 114.9375,
      "epoch": 2.3962145110410096,
      "grad_norm": 11.328733036794137,
      "kl": 30.2587890625,
      "learning_rate": 2.826984436847008e-07,
      "loss": 0.21,
      "reward": 1.609375,
      "reward_std": 0.26978103816509247,
      "rewards/equation_reward_func": 0.65625,
      "rewards/format_reward_func": 0.953125,
      "step": 1898
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.5,
      "epoch": 2.398738170347003,
      "grad_norm": 44.099293452273166,
      "kl": 32.009765625,
      "learning_rate": 2.822970343488516e-07,
      "loss": 0.1481,
      "reward": 1.421875,
      "reward_std": 0.3173343911767006,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.9375,
      "step": 1900
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.15625,
      "epoch": 2.401261829652997,
      "grad_norm": 6.570560821768309,
      "kl": 8.0048828125,
      "learning_rate": 2.8189554031779503e-07,
      "loss": 0.0066,
      "reward": 1.484375,
      "reward_std": 0.21875,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.96875,
      "step": 1902
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.203125,
      "epoch": 2.4037854889589907,
      "grad_norm": 81.78387148015874,
      "kl": 85.52978515625,
      "learning_rate": 2.8149396264440227e-07,
      "loss": 0.2932,
      "reward": 1.65625,
      "reward_std": 0.1610843911767006,
      "rewards/equation_reward_func": 0.71875,
      "rewards/format_reward_func": 0.9375,
      "step": 1904
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.984375,
      "epoch": 2.406309148264984,
      "grad_norm": 525.602250076721,
      "kl": 137.688232421875,
      "learning_rate": 2.8109230238176407e-07,
      "loss": 0.5206,
      "reward": 1.703125,
      "reward_std": 0.1923343911767006,
      "rewards/equation_reward_func": 0.71875,
      "rewards/format_reward_func": 0.984375,
      "step": 1906
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.421875,
      "epoch": 2.408832807570978,
      "grad_norm": 24.870096217170232,
      "kl": 41.4117431640625,
      "learning_rate": 2.806905605831875e-07,
      "loss": 0.2171,
      "reward": 1.3125,
      "reward_std": 0.33928901702165604,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.9375,
      "step": 1908
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 86.8125,
      "epoch": 2.4113564668769714,
      "grad_norm": 3.8710477260727116,
      "kl": 3.56005859375,
      "learning_rate": 2.8028873830219367e-07,
      "loss": 0.0024,
      "reward": 1.46875,
      "reward_std": 0.2235843911767006,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.984375,
      "step": 1910
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.5625,
      "epoch": 2.413880126182965,
      "grad_norm": 3.866907874571439,
      "kl": 4.60693359375,
      "learning_rate": 2.798868365925147e-07,
      "loss": 0.0276,
      "reward": 1.421875,
      "reward_std": 0.22841878235340118,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.953125,
      "step": 1912
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.03125,
      "epoch": 2.416403785488959,
      "grad_norm": 8.997867077052256,
      "kl": 1.267578125,
      "learning_rate": 2.7948485650809096e-07,
      "loss": -0.0218,
      "reward": 1.515625,
      "reward_std": 0.1923343911767006,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 1.0,
      "step": 1914
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 135.203125,
      "epoch": 2.418927444794953,
      "grad_norm": 118.22237243161202,
      "kl": 47.5518798828125,
      "learning_rate": 2.790827991030683e-07,
      "loss": 0.3011,
      "reward": 1.546875,
      "reward_std": 0.31201278418302536,
      "rewards/equation_reward_func": 0.609375,
      "rewards/format_reward_func": 0.9375,
      "step": 1916
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 118.140625,
      "epoch": 2.4214511041009463,
      "grad_norm": 13.983154633654397,
      "kl": 33.9317626953125,
      "learning_rate": 2.7868066543179546e-07,
      "loss": 0.0884,
      "reward": 1.359375,
      "reward_std": 0.23808756470680237,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.9375,
      "step": 1918
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 115.8125,
      "epoch": 2.42397476340694,
      "grad_norm": 27.635715971165315,
      "kl": 32.44024658203125,
      "learning_rate": 2.782784565488211e-07,
      "loss": 0.2089,
      "reward": 1.640625,
      "reward_std": 0.1923343911767006,
      "rewards/equation_reward_func": 0.671875,
      "rewards/format_reward_func": 0.96875,
      "step": 1920
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.984375,
      "epoch": 2.4264984227129336,
      "grad_norm": 12.313558158489206,
      "kl": 46.8165283203125,
      "learning_rate": 2.7787617350889103e-07,
      "loss": 0.1854,
      "reward": 1.40625,
      "reward_std": 0.36042676120996475,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.921875,
      "step": 1922
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.71875,
      "epoch": 2.4290220820189274,
      "grad_norm": 3.169842250269401,
      "kl": 4.11248779296875,
      "learning_rate": 2.7747381736694567e-07,
      "loss": -0.0041,
      "reward": 1.453125,
      "reward_std": 0.21694982051849365,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.953125,
      "step": 1924
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 133.921875,
      "epoch": 2.4315457413249213,
      "grad_norm": 82.21031912726187,
      "kl": 63.567626953125,
      "learning_rate": 2.770713891781173e-07,
      "loss": 0.3344,
      "reward": 1.484375,
      "reward_std": 0.35559237003326416,
      "rewards/equation_reward_func": 0.640625,
      "rewards/format_reward_func": 0.84375,
      "step": 1926
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.703125,
      "epoch": 2.4340694006309147,
      "grad_norm": 4.699282975820631,
      "kl": 72.122802734375,
      "learning_rate": 2.7666888999772656e-07,
      "loss": 0.1887,
      "reward": 1.5625,
      "reward_std": 0.3125,
      "rewards/equation_reward_func": 0.625,
      "rewards/format_reward_func": 0.9375,
      "step": 1928
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 78.265625,
      "epoch": 2.4365930599369086,
      "grad_norm": 5.967764655825253,
      "kl": 1.951416015625,
      "learning_rate": 2.76266320881281e-07,
      "loss": 0.0014,
      "reward": 1.46875,
      "reward_std": 0.09858439117670059,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.984375,
      "step": 1930
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 78.3125,
      "epoch": 2.439116719242902,
      "grad_norm": 17.08837078753214,
      "kl": 11.6280517578125,
      "learning_rate": 2.758636828844709e-07,
      "loss": -0.0193,
      "reward": 1.375,
      "reward_std": 0.1875,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.96875,
      "step": 1932
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 116.15625,
      "epoch": 2.441640378548896,
      "grad_norm": 1985.8666061156598,
      "kl": 5856.61669921875,
      "learning_rate": 2.754609770631677e-07,
      "loss": 19.2026,
      "reward": 1.40625,
      "reward_std": 0.252173587679863,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.90625,
      "step": 1934
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 110.8125,
      "epoch": 2.4441640378548897,
      "grad_norm": 10.143124628684566,
      "kl": 18.944091796875,
      "learning_rate": 2.7505820447342024e-07,
      "loss": 0.1293,
      "reward": 1.515625,
      "reward_std": 0.30058756470680237,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.953125,
      "step": 1936
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 124.8125,
      "epoch": 2.4466876971608835,
      "grad_norm": 22.067307255981177,
      "kl": 54.2384033203125,
      "learning_rate": 2.7465536617145283e-07,
      "loss": 0.2894,
      "reward": 1.375,
      "reward_std": 0.2992308586835861,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.921875,
      "step": 1938
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.140625,
      "epoch": 2.449211356466877,
      "grad_norm": 2.4498111790870034,
      "kl": 11.73223876953125,
      "learning_rate": 2.7425246321366205e-07,
      "loss": 0.036,
      "reward": 1.375,
      "reward_std": 0.1875,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.953125,
      "step": 1940
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 118.015625,
      "epoch": 2.451735015772871,
      "grad_norm": 45.592198178223256,
      "kl": 42.970703125,
      "learning_rate": 2.7384949665661365e-07,
      "loss": 0.2375,
      "reward": 1.390625,
      "reward_std": 0.2548343911767006,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.9375,
      "step": 1942
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.734375,
      "epoch": 2.454258675078864,
      "grad_norm": 42.985114626816845,
      "kl": 19.841552734375,
      "learning_rate": 2.7344646755704073e-07,
      "loss": 0.1902,
      "reward": 1.328125,
      "reward_std": 0.5769594311714172,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.828125,
      "step": 1944
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.359375,
      "epoch": 2.456782334384858,
      "grad_norm": 3.855271928484996,
      "kl": 11.379638671875,
      "learning_rate": 2.7304337697183995e-07,
      "loss": 0.0313,
      "reward": 1.3125,
      "reward_std": 0.32036860287189484,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.953125,
      "step": 1946
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.453125,
      "epoch": 2.459305993690852,
      "grad_norm": 6.751418898936682,
      "kl": 6.58355712890625,
      "learning_rate": 2.7264022595806944e-07,
      "loss": 0.014,
      "reward": 1.40625,
      "reward_std": 0.23853103816509247,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.921875,
      "step": 1948
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.796875,
      "epoch": 2.4618296529968453,
      "grad_norm": 2.2437522948488566,
      "kl": 1.22735595703125,
      "learning_rate": 2.722370155729457e-07,
      "loss": 0.008,
      "reward": 1.59375,
      "reward_std": 0.13466878235340118,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 1.0,
      "step": 1950
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.203125,
      "epoch": 2.464353312302839,
      "grad_norm": 14.319068105700481,
      "kl": 35.29736328125,
      "learning_rate": 2.7183374687384096e-07,
      "loss": 0.0852,
      "reward": 1.359375,
      "reward_std": 0.2645031735301018,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.953125,
      "step": 1952
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 118.328125,
      "epoch": 2.4668769716088326,
      "grad_norm": 23.964604426522143,
      "kl": 38.2777099609375,
      "learning_rate": 2.714304209182805e-07,
      "loss": 0.2382,
      "reward": 1.484375,
      "reward_std": 0.3098391965031624,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.921875,
      "step": 1954
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.890625,
      "epoch": 2.4694006309148264,
      "grad_norm": 2.514070646826351,
      "kl": 1.93212890625,
      "learning_rate": 2.710270387639394e-07,
      "loss": -0.0038,
      "reward": 1.359375,
      "reward_std": 0.15625,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 1.0,
      "step": 1956
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.015625,
      "epoch": 2.4719242902208203,
      "grad_norm": 2.591727661173554,
      "kl": 6.869140625,
      "learning_rate": 2.706236014686406e-07,
      "loss": 0.0303,
      "reward": 1.453125,
      "reward_std": 0.1923343911767006,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.984375,
      "step": 1958
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 111.875,
      "epoch": 2.474447949526814,
      "grad_norm": 7.481888139009323,
      "kl": 67.94775390625,
      "learning_rate": 2.7022011009035107e-07,
      "loss": 0.2798,
      "reward": 1.625,
      "reward_std": 0.2235843911767006,
      "rewards/equation_reward_func": 0.671875,
      "rewards/format_reward_func": 0.953125,
      "step": 1960
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 118.6875,
      "epoch": 2.4769716088328075,
      "grad_norm": 95.54004547250318,
      "kl": 78.086669921875,
      "learning_rate": 2.6981656568718015e-07,
      "loss": 0.3746,
      "reward": 1.390625,
      "reward_std": 0.27195462584495544,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.921875,
      "step": 1962
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 121.46875,
      "epoch": 2.4794952681388014,
      "grad_norm": 2.8220923138281533,
      "kl": 84.53411865234375,
      "learning_rate": 2.6941296931737583e-07,
      "loss": 0.2925,
      "reward": 1.359375,
      "reward_std": 0.29309237003326416,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.9375,
      "step": 1964
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.421875,
      "epoch": 2.482018927444795,
      "grad_norm": 16.072859772147854,
      "kl": 15.92547607421875,
      "learning_rate": 2.690093220393226e-07,
      "loss": 0.1595,
      "reward": 1.34375,
      "reward_std": 0.2957531735301018,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.96875,
      "step": 1966
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 128.28125,
      "epoch": 2.4845425867507887,
      "grad_norm": 13.589390876240547,
      "kl": 67.6531982421875,
      "learning_rate": 2.686056249115385e-07,
      "loss": 0.3705,
      "reward": 1.296875,
      "reward_std": 0.3173343911767006,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.9375,
      "step": 1968
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.75,
      "epoch": 2.4870662460567825,
      "grad_norm": 9.968391087330401,
      "kl": 22.9251708984375,
      "learning_rate": 2.6820187899267197e-07,
      "loss": 0.0922,
      "reward": 1.53125,
      "reward_std": 0.3221687823534012,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.96875,
      "step": 1970
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 110.578125,
      "epoch": 2.489589905362776,
      "grad_norm": 41.76914742713559,
      "kl": 15.849365234375,
      "learning_rate": 2.6779808534149985e-07,
      "loss": 0.0989,
      "reward": 1.46875,
      "reward_std": 0.35075797885656357,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.9375,
      "step": 1972
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 110.375,
      "epoch": 2.4921135646687698,
      "grad_norm": 20.90280941439286,
      "kl": 24.7164306640625,
      "learning_rate": 2.673942450169237e-07,
      "loss": 0.1266,
      "reward": 1.5,
      "reward_std": 0.15358919650316238,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.9375,
      "step": 1974
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.21875,
      "epoch": 2.494637223974763,
      "grad_norm": 8.066826766396128,
      "kl": 48.2227783203125,
      "learning_rate": 2.669903590779679e-07,
      "loss": 0.2518,
      "reward": 1.46875,
      "reward_std": 0.2235843911767006,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.953125,
      "step": 1976
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.078125,
      "epoch": 2.497160883280757,
      "grad_norm": 34.901494357032774,
      "kl": 42.453369140625,
      "learning_rate": 2.665864285837761e-07,
      "loss": 0.0813,
      "reward": 1.296875,
      "reward_std": 0.28125,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.90625,
      "step": 1978
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.96875,
      "epoch": 2.499684542586751,
      "grad_norm": 6.37287191414209,
      "kl": 11.22698974609375,
      "learning_rate": 2.661824545936089e-07,
      "loss": 0.0752,
      "reward": 1.453125,
      "reward_std": 0.20728103816509247,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.96875,
      "step": 1980
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.734375,
      "epoch": 2.5022082018927447,
      "grad_norm": 30.963407482197212,
      "kl": 44.36187744140625,
      "learning_rate": 2.657784381668411e-07,
      "loss": 0.1846,
      "reward": 1.296875,
      "reward_std": 0.1923343911767006,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.90625,
      "step": 1982
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 142.359375,
      "epoch": 2.504731861198738,
      "grad_norm": 28.78693104874503,
      "kl": 40.982666015625,
      "learning_rate": 2.653743803629587e-07,
      "loss": 0.3234,
      "reward": 1.171875,
      "reward_std": 0.2548343911767006,
      "rewards/equation_reward_func": 0.234375,
      "rewards/format_reward_func": 0.9375,
      "step": 1984
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.765625,
      "epoch": 2.507255520504732,
      "grad_norm": 9.883687389678029,
      "kl": 31.16552734375,
      "learning_rate": 2.6497028224155605e-07,
      "loss": 0.1317,
      "reward": 1.328125,
      "reward_std": 0.35161860287189484,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.9375,
      "step": 1986
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.046875,
      "epoch": 2.5097791798107254,
      "grad_norm": 27.3565318205882,
      "kl": 12.692626953125,
      "learning_rate": 2.645661448623334e-07,
      "loss": 0.0375,
      "reward": 1.25,
      "reward_std": 0.2235843911767006,
      "rewards/equation_reward_func": 0.296875,
      "rewards/format_reward_func": 0.953125,
      "step": 1988
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.921875,
      "epoch": 2.5123028391167193,
      "grad_norm": 298.552474029881,
      "kl": 49.8221435546875,
      "learning_rate": 2.6416196928509403e-07,
      "loss": 0.2006,
      "reward": 1.359375,
      "reward_std": 0.18483919650316238,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.96875,
      "step": 1990
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.734375,
      "epoch": 2.514826498422713,
      "grad_norm": 9.90926441635135,
      "kl": 20.105712890625,
      "learning_rate": 2.637577565697412e-07,
      "loss": 0.0442,
      "reward": 1.390625,
      "reward_std": 0.22841878235340118,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.984375,
      "step": 1992
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.34375,
      "epoch": 2.5173501577287065,
      "grad_norm": 1.8672053525774193,
      "kl": 0.34136962890625,
      "learning_rate": 2.6335350777627563e-07,
      "loss": 0.005,
      "reward": 1.46875,
      "reward_std": 0.09858439117670059,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 1.0,
      "step": 1994
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.875,
      "epoch": 2.5198738170347004,
      "grad_norm": 2.9575800499663374,
      "kl": 26.2633056640625,
      "learning_rate": 2.629492239647926e-07,
      "loss": 0.114,
      "reward": 1.28125,
      "reward_std": 0.13466878235340118,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.96875,
      "step": 1996
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.984375,
      "epoch": 2.522397476340694,
      "grad_norm": 2.4176228655947005,
      "kl": 6.10888671875,
      "learning_rate": 2.6254490619547935e-07,
      "loss": -0.0014,
      "reward": 1.40625,
      "reward_std": 0.1610843911767006,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.96875,
      "step": 1998
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 127.71875,
      "epoch": 2.5249211356466876,
      "grad_norm": 2.60851108753524,
      "kl": 91.94964599609375,
      "learning_rate": 2.621405555286121e-07,
      "loss": 0.1333,
      "reward": 1.59375,
      "reward_std": 0.2235843911767006,
      "rewards/equation_reward_func": 0.640625,
      "rewards/format_reward_func": 0.953125,
      "step": 2000
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 80.203125,
      "epoch": 2.5274447949526815,
      "grad_norm": 8.718579183196553,
      "kl": 14.6302490234375,
      "learning_rate": 2.617361730245532e-07,
      "loss": 0.0032,
      "reward": 1.578125,
      "reward_std": 0.3534187823534012,
      "rewards/equation_reward_func": 0.609375,
      "rewards/format_reward_func": 0.96875,
      "step": 2002
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.734375,
      "epoch": 2.5299684542586753,
      "grad_norm": 31.159274477271552,
      "kl": 36.122802734375,
      "learning_rate": 2.6133175974374887e-07,
      "loss": 0.2047,
      "reward": 1.546875,
      "reward_std": 0.1923343911767006,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.984375,
      "step": 2004
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 120.25,
      "epoch": 2.5324921135646687,
      "grad_norm": 9.325368629357929,
      "kl": 30.03656005859375,
      "learning_rate": 2.6092731674672556e-07,
      "loss": 0.2375,
      "reward": 1.4375,
      "reward_std": 0.18569982051849365,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.96875,
      "step": 2006
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.953125,
      "epoch": 2.5350157728706626,
      "grad_norm": 2.0386522199345887,
      "kl": 6.9163818359375,
      "learning_rate": 2.60522845094088e-07,
      "loss": 0.0243,
      "reward": 1.578125,
      "reward_std": 0.1298343911767006,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 0.984375,
      "step": 2008
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.90625,
      "epoch": 2.537539432176656,
      "grad_norm": 6.605677437893094,
      "kl": 20.37835693359375,
      "learning_rate": 2.6011834584651595e-07,
      "loss": 0.044,
      "reward": 1.328125,
      "reward_std": 0.22841878235340118,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.984375,
      "step": 2010
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.15625,
      "epoch": 2.54006309148265,
      "grad_norm": 3.761464725314954,
      "kl": 36.089599609375,
      "learning_rate": 2.597138200647615e-07,
      "loss": 0.1907,
      "reward": 1.40625,
      "reward_std": 0.27678901702165604,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.96875,
      "step": 2012
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.96875,
      "epoch": 2.5425867507886437,
      "grad_norm": 87.70877343789813,
      "kl": 100.855224609375,
      "learning_rate": 2.5930926880964634e-07,
      "loss": 0.3036,
      "reward": 1.296875,
      "reward_std": 0.2548343911767006,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.9375,
      "step": 2014
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 110.34375,
      "epoch": 2.545110410094637,
      "grad_norm": 4.37514727866618,
      "kl": 22.99609375,
      "learning_rate": 2.589046931420589e-07,
      "loss": 0.1176,
      "reward": 1.359375,
      "reward_std": 0.26978103816509247,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.9375,
      "step": 2016
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.84375,
      "epoch": 2.547634069400631,
      "grad_norm": 16.065014105099053,
      "kl": 18.59478759765625,
      "learning_rate": 2.5850009412295193e-07,
      "loss": 0.1144,
      "reward": 1.734375,
      "reward_std": 0.24336542934179306,
      "rewards/equation_reward_func": 0.765625,
      "rewards/format_reward_func": 0.96875,
      "step": 2018
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.859375,
      "epoch": 2.5501577287066244,
      "grad_norm": 4.468778761808911,
      "kl": 1.3665771484375,
      "learning_rate": 2.58095472813339e-07,
      "loss": -0.0108,
      "reward": 1.328125,
      "reward_std": 0.15625,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.984375,
      "step": 2020
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.140625,
      "epoch": 2.5526813880126182,
      "grad_norm": 25.76622397864917,
      "kl": 21.94146728515625,
      "learning_rate": 2.5769083027429237e-07,
      "loss": 0.1363,
      "reward": 1.4375,
      "reward_std": 0.19716878235340118,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.96875,
      "step": 2022
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 123.953125,
      "epoch": 2.555205047318612,
      "grad_norm": 14.324674449423103,
      "kl": 81.38824462890625,
      "learning_rate": 2.572861675669399e-07,
      "loss": 0.3723,
      "reward": 1.375,
      "reward_std": 0.27461542934179306,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.90625,
      "step": 2024
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.34375,
      "epoch": 2.557728706624606,
      "grad_norm": 6.578433531325426,
      "kl": 40.0299072265625,
      "learning_rate": 2.568814857524625e-07,
      "loss": 0.1877,
      "reward": 1.453125,
      "reward_std": 0.20728103816509247,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.96875,
      "step": 2026
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.75,
      "epoch": 2.5602523659305993,
      "grad_norm": 8.49277435881112,
      "kl": 195.9178466796875,
      "learning_rate": 2.564767858920909e-07,
      "loss": 0.5292,
      "reward": 1.484375,
      "reward_std": 0.15842358767986298,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.953125,
      "step": 2028
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.328125,
      "epoch": 2.562776025236593,
      "grad_norm": 10.62135704933499,
      "kl": 19.05499267578125,
      "learning_rate": 2.5607206904710327e-07,
      "loss": 0.156,
      "reward": 1.5,
      "reward_std": 0.2596687823534012,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.984375,
      "step": 2030
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 111.78125,
      "epoch": 2.5652996845425866,
      "grad_norm": 16.80680582376593,
      "kl": 34.7813720703125,
      "learning_rate": 2.556673362788225e-07,
      "loss": 0.1005,
      "reward": 1.625,
      "reward_std": 0.3221687823534012,
      "rewards/equation_reward_func": 0.71875,
      "rewards/format_reward_func": 0.90625,
      "step": 2032
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 150.09375,
      "epoch": 2.5678233438485805,
      "grad_norm": 45.10634399591814,
      "kl": 67.23583984375,
      "learning_rate": 2.55262588648613e-07,
      "loss": 0.4921,
      "reward": 1.28125,
      "reward_std": 0.2785891965031624,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.90625,
      "step": 2034
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.453125,
      "epoch": 2.5703470031545743,
      "grad_norm": 66.42284270198644,
      "kl": 41.1256103515625,
      "learning_rate": 2.5485782721787837e-07,
      "loss": 0.0988,
      "reward": 1.421875,
      "reward_std": 0.34194982051849365,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.953125,
      "step": 2036
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.71875,
      "epoch": 2.5728706624605677,
      "grad_norm": 2.5133208761681303,
      "kl": 37.99383544921875,
      "learning_rate": 2.5445305304805807e-07,
      "loss": 0.0998,
      "reward": 1.4375,
      "reward_std": 0.1610843911767006,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.921875,
      "step": 2038
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.25,
      "epoch": 2.5753943217665616,
      "grad_norm": 9.107675448645486,
      "kl": 31.06329345703125,
      "learning_rate": 2.540482672006254e-07,
      "loss": 0.0641,
      "reward": 1.375,
      "reward_std": 0.23325317353010178,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.953125,
      "step": 2040
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.296875,
      "epoch": 2.577917981072555,
      "grad_norm": 5.937843605078904,
      "kl": 2.51934814453125,
      "learning_rate": 2.536434707370838e-07,
      "loss": 0.012,
      "reward": 1.390625,
      "reward_std": 0.41809237003326416,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.9375,
      "step": 2042
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.6875,
      "epoch": 2.580441640378549,
      "grad_norm": 2.8706415325697225,
      "kl": 2.2430419921875,
      "learning_rate": 2.532386647189651e-07,
      "loss": 0.0284,
      "reward": 1.359375,
      "reward_std": 0.20728103816509247,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.984375,
      "step": 2044
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.21875,
      "epoch": 2.5829652996845427,
      "grad_norm": 8.858624382749397,
      "kl": 8.34368896484375,
      "learning_rate": 2.528338502078256e-07,
      "loss": 0.0182,
      "reward": 1.265625,
      "reward_std": 0.29439646750688553,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.9375,
      "step": 2046
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 138.671875,
      "epoch": 2.5854889589905365,
      "grad_norm": 37.2621201057738,
      "kl": 71.3558349609375,
      "learning_rate": 2.524290282652443e-07,
      "loss": 0.4129,
      "reward": 1.296875,
      "reward_std": 0.33842839300632477,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.90625,
      "step": 2048
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.984375,
      "epoch": 2.58801261829653,
      "grad_norm": 3.3418660424465965,
      "kl": 14.6435546875,
      "learning_rate": 2.520241999528197e-07,
      "loss": 0.0962,
      "reward": 1.484375,
      "reward_std": 0.38200797885656357,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.9375,
      "step": 2050
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.3125,
      "epoch": 2.590536277602524,
      "grad_norm": 29.008321037259215,
      "kl": 28.09942626953125,
      "learning_rate": 2.516193663321665e-07,
      "loss": 0.1217,
      "reward": 1.203125,
      "reward_std": 0.38200797885656357,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.890625,
      "step": 2052
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.5,
      "epoch": 2.593059936908517,
      "grad_norm": 18.104736526651326,
      "kl": 11.96307373046875,
      "learning_rate": 2.5121452846491404e-07,
      "loss": 0.1073,
      "reward": 1.296875,
      "reward_std": 0.22841878235340118,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.984375,
      "step": 2054
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 75.171875,
      "epoch": 2.595583596214511,
      "grad_norm": 4.983821831159729,
      "kl": 1.39959716796875,
      "learning_rate": 2.508096874127022e-07,
      "loss": 0.0225,
      "reward": 1.46875,
      "reward_std": 0.21211542934179306,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.984375,
      "step": 2056
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 111.140625,
      "epoch": 2.598107255520505,
      "grad_norm": 14.064388400093998,
      "kl": 33.0003662109375,
      "learning_rate": 2.504048442371795e-07,
      "loss": 0.2097,
      "reward": 1.515625,
      "reward_std": 0.16591878235340118,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.96875,
      "step": 2058
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.828125,
      "epoch": 2.6006309148264983,
      "grad_norm": 3.7370199281415113,
      "kl": 68.85443115234375,
      "learning_rate": 2.5e-07,
      "loss": 0.3091,
      "reward": 1.359375,
      "reward_std": 0.36836542934179306,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.9375,
      "step": 2060
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.3125,
      "epoch": 2.603154574132492,
      "grad_norm": 27.506697362773767,
      "kl": 35.80584716796875,
      "learning_rate": 2.4959515576282047e-07,
      "loss": 0.1664,
      "reward": 1.234375,
      "reward_std": 0.24336542934179306,
      "rewards/equation_reward_func": 0.28125,
      "rewards/format_reward_func": 0.953125,
      "step": 2062
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.90625,
      "epoch": 2.6056782334384856,
      "grad_norm": 4.3131680623096464,
      "kl": 20.40533447265625,
      "learning_rate": 2.4919031258729785e-07,
      "loss": 0.0626,
      "reward": 1.703125,
      "reward_std": 0.22092358767986298,
      "rewards/equation_reward_func": 0.71875,
      "rewards/format_reward_func": 0.984375,
      "step": 2064
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.671875,
      "epoch": 2.6082018927444794,
      "grad_norm": 2.993875004042974,
      "kl": 15.26763916015625,
      "learning_rate": 2.48785471535086e-07,
      "loss": 0.1285,
      "reward": 1.328125,
      "reward_std": 0.19581207633018494,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.953125,
      "step": 2066
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.796875,
      "epoch": 2.6107255520504733,
      "grad_norm": 5.255773250916929,
      "kl": 27.54852294921875,
      "learning_rate": 2.4838063366783346e-07,
      "loss": 0.1375,
      "reward": 1.34375,
      "reward_std": 0.24819982051849365,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.96875,
      "step": 2068
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.53125,
      "epoch": 2.613249211356467,
      "grad_norm": 19.55214630407452,
      "kl": 23.87847900390625,
      "learning_rate": 2.4797580004718036e-07,
      "loss": 0.0494,
      "reward": 1.484375,
      "reward_std": 0.2548343911767006,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.9375,
      "step": 2070
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 127.828125,
      "epoch": 2.6157728706624606,
      "grad_norm": 20.634018591150465,
      "kl": 10.0269775390625,
      "learning_rate": 2.475709717347557e-07,
      "loss": 0.1784,
      "reward": 1.203125,
      "reward_std": 0.1923343911767006,
      "rewards/equation_reward_func": 0.25,
      "rewards/format_reward_func": 0.953125,
      "step": 2072
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.84375,
      "epoch": 2.6182965299684544,
      "grad_norm": 2.8735108429100924,
      "kl": 25.4276123046875,
      "learning_rate": 2.471661497921744e-07,
      "loss": 0.1304,
      "reward": 1.34375,
      "reward_std": 0.28825797885656357,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.953125,
      "step": 2074
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 129.40625,
      "epoch": 2.620820189274448,
      "grad_norm": 111.23947293488173,
      "kl": 96.3697509765625,
      "learning_rate": 2.4676133528103494e-07,
      "loss": 0.4295,
      "reward": 1.453125,
      "reward_std": 0.29309237003326416,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.921875,
      "step": 2076
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.421875,
      "epoch": 2.6233438485804417,
      "grad_norm": 8.207279012746536,
      "kl": 19.94677734375,
      "learning_rate": 2.4635652926291617e-07,
      "loss": 0.1647,
      "reward": 1.453125,
      "reward_std": 0.21875,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.96875,
      "step": 2078
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.09375,
      "epoch": 2.6258675078864355,
      "grad_norm": 5.600277033252345,
      "kl": 79.013427734375,
      "learning_rate": 2.459517327993746e-07,
      "loss": 0.3019,
      "reward": 1.453125,
      "reward_std": 0.2548343911767006,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.953125,
      "step": 2080
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.796875,
      "epoch": 2.628391167192429,
      "grad_norm": 3.011705603384396,
      "kl": 0.96795654296875,
      "learning_rate": 2.455469469519419e-07,
      "loss": -0.0317,
      "reward": 1.578125,
      "reward_std": 0.3173343911767006,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 0.984375,
      "step": 2082
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.4375,
      "epoch": 2.630914826498423,
      "grad_norm": 10.940852008597124,
      "kl": 22.70709228515625,
      "learning_rate": 2.4514217278212166e-07,
      "loss": 0.1235,
      "reward": 1.4375,
      "reward_std": 0.1610843911767006,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.953125,
      "step": 2084
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 139.59375,
      "epoch": 2.633438485804416,
      "grad_norm": 27.416552864894204,
      "kl": 51.59765625,
      "learning_rate": 2.44737411351387e-07,
      "loss": 0.3297,
      "reward": 1.453125,
      "reward_std": 0.37053901702165604,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.90625,
      "step": 2086
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.390625,
      "epoch": 2.63596214511041,
      "grad_norm": 26.76803739766987,
      "kl": 5.41351318359375,
      "learning_rate": 2.443326637211775e-07,
      "loss": 0.0011,
      "reward": 1.34375,
      "reward_std": 0.27461542934179306,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.953125,
      "step": 2088
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.875,
      "epoch": 2.638485804416404,
      "grad_norm": 47.16976113639896,
      "kl": 43.10736083984375,
      "learning_rate": 2.4392793095289676e-07,
      "loss": 0.2095,
      "reward": 1.5625,
      "reward_std": 0.1610843911767006,
      "rewards/equation_reward_func": 0.578125,
      "rewards/format_reward_func": 0.984375,
      "step": 2090
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 115.65625,
      "epoch": 2.6410094637223973,
      "grad_norm": 27.567895144258745,
      "kl": 46.6807861328125,
      "learning_rate": 2.435232141079092e-07,
      "loss": 0.2334,
      "reward": 1.5,
      "reward_std": 0.26712023466825485,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.9375,
      "step": 2092
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.15625,
      "epoch": 2.643533123028391,
      "grad_norm": 4.692189881575753,
      "kl": 32.65234375,
      "learning_rate": 2.431185142475376e-07,
      "loss": 0.183,
      "reward": 1.453125,
      "reward_std": 0.2548343911767006,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.96875,
      "step": 2094
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.9375,
      "epoch": 2.646056782334385,
      "grad_norm": 27.569833756188537,
      "kl": 21.7100830078125,
      "learning_rate": 2.427138324330601e-07,
      "loss": 0.126,
      "reward": 1.546875,
      "reward_std": 0.1298343911767006,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.984375,
      "step": 2096
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.578125,
      "epoch": 2.6485804416403784,
      "grad_norm": 54.35262507065116,
      "kl": 26.050048828125,
      "learning_rate": 2.4230916972570766e-07,
      "loss": 0.0797,
      "reward": 1.515625,
      "reward_std": 0.29439646750688553,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 0.921875,
      "step": 2098
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.546875,
      "epoch": 2.6511041009463723,
      "grad_norm": 2.796395640085484,
      "kl": 0.5390625,
      "learning_rate": 2.4190452718666105e-07,
      "loss": -0.0243,
      "reward": 1.484375,
      "reward_std": 0.1298343911767006,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 1.0,
      "step": 2100
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 115.5,
      "epoch": 2.653627760252366,
      "grad_norm": 2.1136804228986623,
      "kl": 24.47332763671875,
      "learning_rate": 2.4149990587704815e-07,
      "loss": 0.1719,
      "reward": 1.390625,
      "reward_std": 0.30586542934179306,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.9375,
      "step": 2102
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.859375,
      "epoch": 2.6561514195583595,
      "grad_norm": 19.619118254529518,
      "kl": 28.79937744140625,
      "learning_rate": 2.4109530685794106e-07,
      "loss": 0.1016,
      "reward": 1.5,
      "reward_std": 0.34678421169519424,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.96875,
      "step": 2104
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 119.203125,
      "epoch": 2.6586750788643534,
      "grad_norm": 19.16336908954643,
      "kl": 85.38629150390625,
      "learning_rate": 2.406907311903538e-07,
      "loss": 0.3011,
      "reward": 1.421875,
      "reward_std": 0.22841878235340118,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.953125,
      "step": 2106
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.90625,
      "epoch": 2.661198738170347,
      "grad_norm": 12.612785383352417,
      "kl": 22.91253662109375,
      "learning_rate": 2.4028617993523856e-07,
      "loss": 0.0992,
      "reward": 1.328125,
      "reward_std": 0.16939646750688553,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.953125,
      "step": 2108
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.296875,
      "epoch": 2.6637223974763407,
      "grad_norm": 4.00091522691654,
      "kl": 12.162841796875,
      "learning_rate": 2.3988165415348414e-07,
      "loss": 0.0639,
      "reward": 1.65625,
      "reward_std": 0.28076278418302536,
      "rewards/equation_reward_func": 0.71875,
      "rewards/format_reward_func": 0.9375,
      "step": 2110
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.390625,
      "epoch": 2.6662460567823345,
      "grad_norm": 2.0658064572124237,
      "kl": 2.93670654296875,
      "learning_rate": 2.3947715490591203e-07,
      "loss": -0.0116,
      "reward": 1.390625,
      "reward_std": 0.15625,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.96875,
      "step": 2112
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 86.828125,
      "epoch": 2.668769716088328,
      "grad_norm": 7.17883725338318,
      "kl": 2.74945068359375,
      "learning_rate": 2.390726832532745e-07,
      "loss": 0.0081,
      "reward": 1.46875,
      "reward_std": 0.23325317353010178,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.984375,
      "step": 2114
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.015625,
      "epoch": 2.6712933753943218,
      "grad_norm": 2.9755389561845917,
      "kl": 9.211181640625,
      "learning_rate": 2.386682402562512e-07,
      "loss": 0.0,
      "reward": 1.296875,
      "reward_std": 0.18086542934179306,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.953125,
      "step": 2116
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 110.59375,
      "epoch": 2.6738170347003156,
      "grad_norm": 5.602140852383879,
      "kl": 10.67803955078125,
      "learning_rate": 2.3826382697544677e-07,
      "loss": 0.0261,
      "reward": 1.25,
      "reward_std": 0.13466878235340118,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.9375,
      "step": 2118
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 81.625,
      "epoch": 2.676340694006309,
      "grad_norm": 11.110829100814328,
      "kl": 12.0328369140625,
      "learning_rate": 2.37859444471388e-07,
      "loss": 0.0066,
      "reward": 1.546875,
      "reward_std": 0.22841878235340118,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.984375,
      "step": 2120
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.890625,
      "epoch": 2.678864353312303,
      "grad_norm": 2.1045316034375183,
      "kl": 28.579345703125,
      "learning_rate": 2.3745509380452065e-07,
      "loss": 0.1465,
      "reward": 1.578125,
      "reward_std": 0.21875,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 0.984375,
      "step": 2122
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 111.734375,
      "epoch": 2.6813880126182967,
      "grad_norm": 24.000045259418112,
      "kl": 38.1591796875,
      "learning_rate": 2.3705077603520738e-07,
      "loss": 0.1262,
      "reward": 1.328125,
      "reward_std": 0.5145031735301018,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.90625,
      "step": 2124
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 77.03125,
      "epoch": 2.68391167192429,
      "grad_norm": 4.232508331532729,
      "kl": 8.66107177734375,
      "learning_rate": 2.366464922237244e-07,
      "loss": -0.0418,
      "reward": 1.40625,
      "reward_std": 0.21211542934179306,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.96875,
      "step": 2126
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.734375,
      "epoch": 2.686435331230284,
      "grad_norm": 85.52397328189011,
      "kl": 59.05853271484375,
      "learning_rate": 2.3624224343025876e-07,
      "loss": 0.2528,
      "reward": 1.515625,
      "reward_std": 0.3173343911767006,
      "rewards/equation_reward_func": 0.625,
      "rewards/format_reward_func": 0.890625,
      "step": 2128
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 111.78125,
      "epoch": 2.6889589905362774,
      "grad_norm": 7.317747395648263,
      "kl": 61.49041748046875,
      "learning_rate": 2.3583803071490587e-07,
      "loss": 0.2813,
      "reward": 1.5,
      "reward_std": 0.37934717535972595,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.9375,
      "step": 2130
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.140625,
      "epoch": 2.6914826498422713,
      "grad_norm": 4.865264899604365,
      "kl": 5.1136474609375,
      "learning_rate": 2.3543385513766654e-07,
      "loss": -0.0418,
      "reward": 1.484375,
      "reward_std": 0.22841878235340118,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.953125,
      "step": 2132
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.0625,
      "epoch": 2.694006309148265,
      "grad_norm": 1.9894874347227218,
      "kl": 0.83953857421875,
      "learning_rate": 2.350297177584439e-07,
      "loss": 0.0265,
      "reward": 1.375,
      "reward_std": 0.19716878235340118,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.96875,
      "step": 2134
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 86.5,
      "epoch": 2.6965299684542585,
      "grad_norm": 1.839572947395943,
      "kl": 0.33258056640625,
      "learning_rate": 2.346256196370413e-07,
      "loss": -0.0393,
      "reward": 1.6875,
      "reward_std": 0.125,
      "rewards/equation_reward_func": 0.6875,
      "rewards/format_reward_func": 1.0,
      "step": 2136
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.21875,
      "epoch": 2.6990536277602524,
      "grad_norm": 42.28495660517431,
      "kl": 6.6875,
      "learning_rate": 2.3422156183315883e-07,
      "loss": 0.106,
      "reward": 1.5,
      "reward_std": 0.2235843911767006,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.984375,
      "step": 2138
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.109375,
      "epoch": 2.701577287066246,
      "grad_norm": 3.6721326205298697,
      "kl": 3.3004150390625,
      "learning_rate": 2.3381754540639106e-07,
      "loss": -0.0316,
      "reward": 1.578125,
      "reward_std": 0.2548343911767006,
      "rewards/equation_reward_func": 0.609375,
      "rewards/format_reward_func": 0.96875,
      "step": 2140
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.0,
      "epoch": 2.7041009463722396,
      "grad_norm": 5.567012363464487,
      "kl": 1.4453125,
      "learning_rate": 2.334135714162239e-07,
      "loss": -0.0187,
      "reward": 1.5,
      "reward_std": 0.29792676120996475,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.96875,
      "step": 2142
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 129.25,
      "epoch": 2.7066246056782335,
      "grad_norm": 91.17667907893166,
      "kl": 63.1187744140625,
      "learning_rate": 2.3300964092203203e-07,
      "loss": 0.3432,
      "reward": 1.453125,
      "reward_std": 0.23189646750688553,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.9375,
      "step": 2144
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.609375,
      "epoch": 2.7091482649842273,
      "grad_norm": 2.578107211471098,
      "kl": 5.78759765625,
      "learning_rate": 2.3260575498307623e-07,
      "loss": 0.0449,
      "reward": 1.453125,
      "reward_std": 0.2548343911767006,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.953125,
      "step": 2146
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 116.265625,
      "epoch": 2.7116719242902207,
      "grad_norm": 18.507154263553424,
      "kl": 33.0238037109375,
      "learning_rate": 2.3220191465850012e-07,
      "loss": 0.2285,
      "reward": 1.25,
      "reward_std": 0.32564646750688553,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.90625,
      "step": 2148
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 114.71875,
      "epoch": 2.7141955835962146,
      "grad_norm": 17.44336053297261,
      "kl": 38.8323974609375,
      "learning_rate": 2.3179812100732798e-07,
      "loss": 0.1996,
      "reward": 1.546875,
      "reward_std": 0.4159187823534012,
      "rewards/equation_reward_func": 0.609375,
      "rewards/format_reward_func": 0.9375,
      "step": 2150
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.921875,
      "epoch": 2.716719242902208,
      "grad_norm": 9.944741637862466,
      "kl": 56.52679443359375,
      "learning_rate": 2.3139437508846152e-07,
      "loss": 0.2016,
      "reward": 1.4375,
      "reward_std": 0.3850421905517578,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.9375,
      "step": 2152
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 122.78125,
      "epoch": 2.719242902208202,
      "grad_norm": 42.8690385491,
      "kl": 56.695556640625,
      "learning_rate": 2.309906779606774e-07,
      "loss": 0.1708,
      "reward": 1.140625,
      "reward_std": 0.1298343911767006,
      "rewards/equation_reward_func": 0.203125,
      "rewards/format_reward_func": 0.9375,
      "step": 2154
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.1875,
      "epoch": 2.7217665615141957,
      "grad_norm": 6.589079796270091,
      "kl": 62.54541015625,
      "learning_rate": 2.305870306826242e-07,
      "loss": 0.3024,
      "reward": 1.5625,
      "reward_std": 0.2596687823534012,
      "rewards/equation_reward_func": 0.578125,
      "rewards/format_reward_func": 0.984375,
      "step": 2156
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.703125,
      "epoch": 2.724290220820189,
      "grad_norm": 2.0393421900439175,
      "kl": 3.7314453125,
      "learning_rate": 2.3018343431281989e-07,
      "loss": -0.0415,
      "reward": 1.515625,
      "reward_std": 0.1298343911767006,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 1.0,
      "step": 2158
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.078125,
      "epoch": 2.726813880126183,
      "grad_norm": 8.448822834580998,
      "kl": 34.28497314453125,
      "learning_rate": 2.2977988990964896e-07,
      "loss": 0.1896,
      "reward": 1.421875,
      "reward_std": 0.15625,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.96875,
      "step": 2160
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 125.796875,
      "epoch": 2.7293375394321764,
      "grad_norm": 20.073841210288744,
      "kl": 34.35540771484375,
      "learning_rate": 2.2937639853135945e-07,
      "loss": 0.218,
      "reward": 1.546875,
      "reward_std": 0.20728103816509247,
      "rewards/equation_reward_func": 0.609375,
      "rewards/format_reward_func": 0.9375,
      "step": 2162
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.953125,
      "epoch": 2.7318611987381702,
      "grad_norm": 2.557449752996522,
      "kl": 7.10675048828125,
      "learning_rate": 2.2897296123606058e-07,
      "loss": 0.0579,
      "reward": 1.265625,
      "reward_std": 0.18483919650316238,
      "rewards/equation_reward_func": 0.296875,
      "rewards/format_reward_func": 0.96875,
      "step": 2164
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.734375,
      "epoch": 2.734384858044164,
      "grad_norm": 124.41367394878837,
      "kl": 20.35577392578125,
      "learning_rate": 2.285695790817195e-07,
      "loss": 0.1342,
      "reward": 1.453125,
      "reward_std": 0.24336542934179306,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.953125,
      "step": 2166
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.890625,
      "epoch": 2.736908517350158,
      "grad_norm": 2.6870638421832513,
      "kl": 11.181884765625,
      "learning_rate": 2.28166253126159e-07,
      "loss": 0.0198,
      "reward": 1.515625,
      "reward_std": 0.15625,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.96875,
      "step": 2168
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.578125,
      "epoch": 2.7394321766561514,
      "grad_norm": 2.611812997822552,
      "kl": 2.257080078125,
      "learning_rate": 2.277629844270543e-07,
      "loss": -0.0098,
      "reward": 1.390625,
      "reward_std": 0.15842358767986298,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.96875,
      "step": 2170
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.9375,
      "epoch": 2.741955835962145,
      "grad_norm": 3.613802962611649,
      "kl": 10.6806640625,
      "learning_rate": 2.2735977404193056e-07,
      "loss": 0.0392,
      "reward": 1.375,
      "reward_std": 0.2957531735301018,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.96875,
      "step": 2172
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.390625,
      "epoch": 2.7444794952681386,
      "grad_norm": 6.715336882370184,
      "kl": 6.4456787109375,
      "learning_rate": 2.2695662302816008e-07,
      "loss": 0.0307,
      "reward": 1.546875,
      "reward_std": 0.2548343911767006,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.984375,
      "step": 2174
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.0625,
      "epoch": 2.7470031545741325,
      "grad_norm": 37.51442004833587,
      "kl": 22.7908935546875,
      "learning_rate": 2.2655353244295927e-07,
      "loss": 0.0663,
      "reward": 1.59375,
      "reward_std": 0.19716878235340118,
      "rewards/equation_reward_func": 0.609375,
      "rewards/format_reward_func": 0.984375,
      "step": 2176
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 114.578125,
      "epoch": 2.7495268138801263,
      "grad_norm": 18.862208914519794,
      "kl": 74.3973388671875,
      "learning_rate": 2.2615050334338633e-07,
      "loss": 0.3256,
      "reward": 1.515625,
      "reward_std": 0.3534187823534012,
      "rewards/equation_reward_func": 0.609375,
      "rewards/format_reward_func": 0.90625,
      "step": 2178
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.96875,
      "epoch": 2.7520504731861197,
      "grad_norm": 11.177716927324948,
      "kl": 35.3408203125,
      "learning_rate": 2.2574753678633798e-07,
      "loss": 0.1129,
      "reward": 1.53125,
      "reward_std": 0.30103103816509247,
      "rewards/equation_reward_func": 0.578125,
      "rewards/format_reward_func": 0.953125,
      "step": 2180
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.609375,
      "epoch": 2.7545741324921136,
      "grad_norm": 4.205278229034398,
      "kl": 5.95562744140625,
      "learning_rate": 2.2534463382854712e-07,
      "loss": 0.0229,
      "reward": 1.6875,
      "reward_std": 0.28076278418302536,
      "rewards/equation_reward_func": 0.71875,
      "rewards/format_reward_func": 0.96875,
      "step": 2182
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.796875,
      "epoch": 2.757097791798107,
      "grad_norm": 20.101783804970715,
      "kl": 16.609375,
      "learning_rate": 2.2494179552657974e-07,
      "loss": 0.1209,
      "reward": 1.265625,
      "reward_std": 0.22092358767986298,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.9375,
      "step": 2184
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.25,
      "epoch": 2.759621451104101,
      "grad_norm": 21.801310875757576,
      "kl": 23.633544921875,
      "learning_rate": 2.245390229368323e-07,
      "loss": 0.0855,
      "reward": 1.53125,
      "reward_std": 0.18967358767986298,
      "rewards/equation_reward_func": 0.578125,
      "rewards/format_reward_func": 0.953125,
      "step": 2186
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.625,
      "epoch": 2.7621451104100947,
      "grad_norm": 2.9742202565107423,
      "kl": 10.561279296875,
      "learning_rate": 2.2413631711552907e-07,
      "loss": -0.0046,
      "reward": 1.421875,
      "reward_std": 0.27195462584495544,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.90625,
      "step": 2188
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.921875,
      "epoch": 2.7646687697160885,
      "grad_norm": 0.5544626761061562,
      "kl": 4.094482421875,
      "learning_rate": 2.23733679118719e-07,
      "loss": -0.0214,
      "reward": 1.40625,
      "reward_std": 0.17603103816509247,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.984375,
      "step": 2190
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.3125,
      "epoch": 2.767192429022082,
      "grad_norm": 4.266536998377008,
      "kl": 15.378662109375,
      "learning_rate": 2.233311100022734e-07,
      "loss": 0.0627,
      "reward": 1.5,
      "reward_std": 0.1610843911767006,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.984375,
      "step": 2192
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.515625,
      "epoch": 2.769716088328076,
      "grad_norm": 3.73021108466454,
      "kl": 2.65301513671875,
      "learning_rate": 2.2292861082188275e-07,
      "loss": -0.0046,
      "reward": 1.46875,
      "reward_std": 0.37319982051849365,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.953125,
      "step": 2194
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.0,
      "epoch": 2.772239747634069,
      "grad_norm": 2.561636549812709,
      "kl": 16.69573974609375,
      "learning_rate": 2.2252618263305428e-07,
      "loss": 0.1314,
      "reward": 1.453125,
      "reward_std": 0.2909187823534012,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.984375,
      "step": 2196
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.390625,
      "epoch": 2.774763406940063,
      "grad_norm": 3.825818068639092,
      "kl": 33.466796875,
      "learning_rate": 2.2212382649110898e-07,
      "loss": 0.0287,
      "reward": 1.390625,
      "reward_std": 0.25700797885656357,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.9375,
      "step": 2198
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 126.015625,
      "epoch": 2.777287066246057,
      "grad_norm": 23.617225668497312,
      "kl": 28.86163330078125,
      "learning_rate": 2.2172154345117894e-07,
      "loss": 0.1795,
      "reward": 1.3125,
      "reward_std": 0.22706207633018494,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.9375,
      "step": 2200
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.1875,
      "epoch": 2.7798107255520503,
      "grad_norm": 5.435910732519975,
      "kl": 35.2218017578125,
      "learning_rate": 2.2131933456820457e-07,
      "loss": 0.1815,
      "reward": 1.34375,
      "reward_std": 0.24467839300632477,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.96875,
      "step": 2202
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 122.09375,
      "epoch": 2.782334384858044,
      "grad_norm": 0.2105152097816793,
      "kl": 61.1494140625,
      "learning_rate": 2.2091720089693166e-07,
      "loss": 0.2833,
      "reward": 1.453125,
      "reward_std": 0.1298343911767006,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.96875,
      "step": 2204
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 123.15625,
      "epoch": 2.7848580441640376,
      "grad_norm": 25.454930024831416,
      "kl": 46.7362060546875,
      "learning_rate": 2.2051514349190907e-07,
      "loss": 0.27,
      "reward": 1.40625,
      "reward_std": 0.35075797885656357,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.90625,
      "step": 2206
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.234375,
      "epoch": 2.7873817034700314,
      "grad_norm": 3.167278758050956,
      "kl": 6.56146240234375,
      "learning_rate": 2.2011316340748528e-07,
      "loss": -0.0393,
      "reward": 1.5625,
      "reward_std": 0.23325317353010178,
      "rewards/equation_reward_func": 0.578125,
      "rewards/format_reward_func": 0.984375,
      "step": 2208
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.390625,
      "epoch": 2.7899053627760253,
      "grad_norm": 80.85085612834553,
      "kl": 50.10211181640625,
      "learning_rate": 2.1971126169780636e-07,
      "loss": 0.2563,
      "reward": 1.453125,
      "reward_std": 0.1298343911767006,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.96875,
      "step": 2210
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.4375,
      "epoch": 2.792429022082019,
      "grad_norm": 6.291929453091182,
      "kl": 1.39288330078125,
      "learning_rate": 2.1930943941681253e-07,
      "loss": 0.0478,
      "reward": 1.40625,
      "reward_std": 0.2235843911767006,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.984375,
      "step": 2212
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 117.34375,
      "epoch": 2.7949526813880126,
      "grad_norm": 8.483144261921769,
      "kl": 12.32373046875,
      "learning_rate": 2.1890769761823596e-07,
      "loss": 0.1139,
      "reward": 1.484375,
      "reward_std": 0.16591878235340118,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.96875,
      "step": 2214
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 121.015625,
      "epoch": 2.7974763406940064,
      "grad_norm": 33.87073075467599,
      "kl": 52.40509033203125,
      "learning_rate": 2.1850603735559776e-07,
      "loss": 0.1641,
      "reward": 1.546875,
      "reward_std": 0.21875,
      "rewards/equation_reward_func": 0.625,
      "rewards/format_reward_func": 0.921875,
      "step": 2216
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 118.84375,
      "epoch": 2.8,
      "grad_norm": 6.255393729492208,
      "kl": 14.95111083984375,
      "learning_rate": 2.18104459682205e-07,
      "loss": 0.0466,
      "reward": 1.59375,
      "reward_std": 0.28825797885656357,
      "rewards/equation_reward_func": 0.65625,
      "rewards/format_reward_func": 0.9375,
      "step": 2218
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 119.234375,
      "epoch": 2.8025236593059937,
      "grad_norm": 10.28898980141809,
      "kl": 54.630615234375,
      "learning_rate": 2.1770296565114846e-07,
      "loss": 0.3465,
      "reward": 1.328125,
      "reward_std": 0.4004323109984398,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.90625,
      "step": 2220
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 132.21875,
      "epoch": 2.8050473186119875,
      "grad_norm": 34.78050634497232,
      "kl": 48.8948974609375,
      "learning_rate": 2.1730155631529928e-07,
      "loss": 0.293,
      "reward": 1.4375,
      "reward_std": 0.24819982051849365,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.9375,
      "step": 2222
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.8125,
      "epoch": 2.807570977917981,
      "grad_norm": 1.705864401403763,
      "kl": 0.83154296875,
      "learning_rate": 2.1690023272730678e-07,
      "loss": -0.0092,
      "reward": 1.46875,
      "reward_std": 0.125,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.984375,
      "step": 2224
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 128.171875,
      "epoch": 2.810094637223975,
      "grad_norm": 2.4135900252360796,
      "kl": 25.01397705078125,
      "learning_rate": 2.1649899593959517e-07,
      "loss": 0.2122,
      "reward": 1.140625,
      "reward_std": 0.3366282135248184,
      "rewards/equation_reward_func": 0.234375,
      "rewards/format_reward_func": 0.90625,
      "step": 2226
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.953125,
      "epoch": 2.812618296529968,
      "grad_norm": 13.782031433213605,
      "kl": 30.98565673828125,
      "learning_rate": 2.1609784700436117e-07,
      "loss": 0.1092,
      "reward": 1.609375,
      "reward_std": 0.24336542934179306,
      "rewards/equation_reward_func": 0.65625,
      "rewards/format_reward_func": 0.953125,
      "step": 2228
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.984375,
      "epoch": 2.815141955835962,
      "grad_norm": 5.780470089208075,
      "kl": 7.92510986328125,
      "learning_rate": 2.1569678697357125e-07,
      "loss": 0.0093,
      "reward": 1.328125,
      "reward_std": 0.28125,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.96875,
      "step": 2230
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.375,
      "epoch": 2.817665615141956,
      "grad_norm": 8.591844449990445,
      "kl": 2.59515380859375,
      "learning_rate": 2.1529581689895836e-07,
      "loss": -0.0424,
      "reward": 1.578125,
      "reward_std": 0.1923343911767006,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 0.984375,
      "step": 2232
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.328125,
      "epoch": 2.8201892744479498,
      "grad_norm": 4.484469432830616,
      "kl": 14.86981201171875,
      "learning_rate": 2.1489493783201995e-07,
      "loss": 0.1276,
      "reward": 1.421875,
      "reward_std": 0.2548343911767006,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.984375,
      "step": 2234
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.140625,
      "epoch": 2.822712933753943,
      "grad_norm": 4.138973284808598,
      "kl": 5.49468994140625,
      "learning_rate": 2.1449415082401454e-07,
      "loss": 0.017,
      "reward": 1.40625,
      "reward_std": 0.2860843911767006,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.953125,
      "step": 2236
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 119.96875,
      "epoch": 2.825236593059937,
      "grad_norm": 26.024307821730805,
      "kl": 56.3382568359375,
      "learning_rate": 2.140934569259594e-07,
      "loss": 0.2118,
      "reward": 1.4375,
      "reward_std": 0.32434237003326416,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.921875,
      "step": 2238
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.25,
      "epoch": 2.8277602523659304,
      "grad_norm": 52.693584896571984,
      "kl": 40.5914306640625,
      "learning_rate": 2.1369285718862748e-07,
      "loss": 0.2228,
      "reward": 1.390625,
      "reward_std": 0.38200797885656357,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.9375,
      "step": 2240
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.421875,
      "epoch": 2.8302839116719243,
      "grad_norm": 5.0931653823989125,
      "kl": 9.8453369140625,
      "learning_rate": 2.132923526625449e-07,
      "loss": 0.0068,
      "reward": 1.359375,
      "reward_std": 0.283423587679863,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.9375,
      "step": 2242
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.234375,
      "epoch": 2.832807570977918,
      "grad_norm": 4.016473023812369,
      "kl": 2.80914306640625,
      "learning_rate": 2.1289194439798815e-07,
      "loss": 0.0306,
      "reward": 1.46875,
      "reward_std": 0.2235843911767006,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.96875,
      "step": 2244
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.890625,
      "epoch": 2.8353312302839115,
      "grad_norm": 5.71664770113435,
      "kl": 25.8651123046875,
      "learning_rate": 2.124916334449813e-07,
      "loss": 0.117,
      "reward": 1.25,
      "reward_std": 0.21608919650316238,
      "rewards/equation_reward_func": 0.3125,
      "rewards/format_reward_func": 0.9375,
      "step": 2246
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.40625,
      "epoch": 2.8378548895899054,
      "grad_norm": 99.90898011946011,
      "kl": 25.57330322265625,
      "learning_rate": 2.1209142085329298e-07,
      "loss": 0.0042,
      "reward": 1.71875,
      "reward_std": 0.19716878235340118,
      "rewards/equation_reward_func": 0.734375,
      "rewards/format_reward_func": 0.984375,
      "step": 2248
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 129.203125,
      "epoch": 2.840378548895899,
      "grad_norm": 5.7001148431472535,
      "kl": 12.73846435546875,
      "learning_rate": 2.116913076724342e-07,
      "loss": 0.1155,
      "reward": 1.453125,
      "reward_std": 0.38770299404859543,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.921875,
      "step": 2250
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 120.984375,
      "epoch": 2.8429022082018927,
      "grad_norm": 17.378008246116014,
      "kl": 24.1820068359375,
      "learning_rate": 2.1129129495165503e-07,
      "loss": 0.1126,
      "reward": 1.546875,
      "reward_std": 0.27944982051849365,
      "rewards/equation_reward_func": 0.625,
      "rewards/format_reward_func": 0.921875,
      "step": 2252
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.890625,
      "epoch": 2.8454258675078865,
      "grad_norm": 40.25020501846255,
      "kl": 16.1885986328125,
      "learning_rate": 2.1089138373994222e-07,
      "loss": 0.0791,
      "reward": 1.59375,
      "reward_std": 0.1610843911767006,
      "rewards/equation_reward_func": 0.625,
      "rewards/format_reward_func": 0.96875,
      "step": 2254
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 125.921875,
      "epoch": 2.8479495268138804,
      "grad_norm": 13.771786571717803,
      "kl": 40.13140869140625,
      "learning_rate": 2.104915750860164e-07,
      "loss": 0.2501,
      "reward": 1.484375,
      "reward_std": 0.2548343911767006,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.953125,
      "step": 2256
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.515625,
      "epoch": 2.8504731861198738,
      "grad_norm": 21.48385328360904,
      "kl": 20.3125,
      "learning_rate": 2.10091870038329e-07,
      "loss": -0.0107,
      "reward": 1.5,
      "reward_std": 0.1875,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.96875,
      "step": 2258
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.78125,
      "epoch": 2.8529968454258676,
      "grad_norm": 1.7537904356978342,
      "kl": 0.36962890625,
      "learning_rate": 2.0969226964506005e-07,
      "loss": 0.0201,
      "reward": 1.28125,
      "reward_std": 0.09858439117670059,
      "rewards/equation_reward_func": 0.296875,
      "rewards/format_reward_func": 0.984375,
      "step": 2260
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 118.953125,
      "epoch": 2.855520504731861,
      "grad_norm": 11.23450407708227,
      "kl": 29.698974609375,
      "learning_rate": 2.0929277495411485e-07,
      "loss": 0.1409,
      "reward": 1.28125,
      "reward_std": 0.2235843911767006,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.9375,
      "step": 2262
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.0625,
      "epoch": 2.858044164037855,
      "grad_norm": 5.0907513386960215,
      "kl": 11.6988525390625,
      "learning_rate": 2.088933870131218e-07,
      "loss": 0.0739,
      "reward": 1.53125,
      "reward_std": 0.15358919650316238,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.984375,
      "step": 2264
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.828125,
      "epoch": 2.8605678233438487,
      "grad_norm": 3.704085611569412,
      "kl": 13.84954833984375,
      "learning_rate": 2.084941068694291e-07,
      "loss": 0.1024,
      "reward": 1.375,
      "reward_std": 0.2596687823534012,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.953125,
      "step": 2266
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 141.546875,
      "epoch": 2.863091482649842,
      "grad_norm": 2.5043670231287476,
      "kl": 35.6680908203125,
      "learning_rate": 2.0809493557010247e-07,
      "loss": 0.3169,
      "reward": 1.4375,
      "reward_std": 0.27461542934179306,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.953125,
      "step": 2268
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.453125,
      "epoch": 2.865615141955836,
      "grad_norm": 4.836538471947273,
      "kl": 22.52044677734375,
      "learning_rate": 2.0769587416192208e-07,
      "loss": 0.1041,
      "reward": 1.40625,
      "reward_std": 0.22178421169519424,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.96875,
      "step": 2270
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 123.84375,
      "epoch": 2.8681388012618294,
      "grad_norm": 276.3345176720353,
      "kl": 123.06829833984375,
      "learning_rate": 2.072969236913799e-07,
      "loss": 0.5319,
      "reward": 1.4375,
      "reward_std": 0.2957531735301018,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.953125,
      "step": 2272
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 135.921875,
      "epoch": 2.8706624605678233,
      "grad_norm": 67.3407536516718,
      "kl": 81.33331298828125,
      "learning_rate": 2.0689808520467712e-07,
      "loss": 0.5348,
      "reward": 1.375,
      "reward_std": 0.375,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.921875,
      "step": 2274
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 137.703125,
      "epoch": 2.873186119873817,
      "grad_norm": 2.809794859550341,
      "kl": 47.1546630859375,
      "learning_rate": 2.0649935974772104e-07,
      "loss": 0.3219,
      "reward": 1.484375,
      "reward_std": 0.3270031735301018,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.921875,
      "step": 2276
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 123.84375,
      "epoch": 2.875709779179811,
      "grad_norm": 412.4512029337168,
      "kl": 79.5697021484375,
      "learning_rate": 2.0610074836612288e-07,
      "loss": 0.3509,
      "reward": 1.578125,
      "reward_std": 0.22092358767986298,
      "rewards/equation_reward_func": 0.609375,
      "rewards/format_reward_func": 0.96875,
      "step": 2278
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.328125,
      "epoch": 2.8782334384858044,
      "grad_norm": 0.022549860212885586,
      "kl": 0.53131103515625,
      "learning_rate": 2.0570225210519433e-07,
      "loss": -0.0072,
      "reward": 1.328125,
      "reward_std": 0.1298343911767006,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.984375,
      "step": 2280
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 129.34375,
      "epoch": 2.8807570977917982,
      "grad_norm": 85.2540316177722,
      "kl": 60.57562255859375,
      "learning_rate": 2.0530387200994542e-07,
      "loss": 0.3207,
      "reward": 1.34375,
      "reward_std": 0.2860843911767006,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.96875,
      "step": 2282
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.1875,
      "epoch": 2.8832807570977916,
      "grad_norm": 4.505819238105354,
      "kl": 40.212890625,
      "learning_rate": 2.0490560912508165e-07,
      "loss": 0.138,
      "reward": 1.34375,
      "reward_std": 0.33183756470680237,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.9375,
      "step": 2284
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.296875,
      "epoch": 2.8858044164037855,
      "grad_norm": 23.738839363175902,
      "kl": 33.2318115234375,
      "learning_rate": 2.0450746449500085e-07,
      "loss": 0.1399,
      "reward": 1.453125,
      "reward_std": 0.16591878235340118,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.953125,
      "step": 2286
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 137.421875,
      "epoch": 2.8883280757097793,
      "grad_norm": 28.513546560501915,
      "kl": 44.40252685546875,
      "learning_rate": 2.0410943916379097e-07,
      "loss": 0.2964,
      "reward": 1.46875,
      "reward_std": 0.24467839300632477,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.9375,
      "step": 2288
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.28125,
      "epoch": 2.8908517350157727,
      "grad_norm": 7.543570625971616,
      "kl": 15.9034423828125,
      "learning_rate": 2.03711534175227e-07,
      "loss": 0.052,
      "reward": 1.390625,
      "reward_std": 0.23189646750688553,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.953125,
      "step": 2290
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 115.03125,
      "epoch": 2.8933753943217666,
      "grad_norm": 2.0077553184937353,
      "kl": 29.10699462890625,
      "learning_rate": 2.0331375057276843e-07,
      "loss": 0.0815,
      "reward": 1.390625,
      "reward_std": 0.22309717535972595,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.921875,
      "step": 2292
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 182.90625,
      "epoch": 2.89589905362776,
      "grad_norm": 21.514242779366946,
      "kl": 16414.736267089844,
      "learning_rate": 2.0291608939955631e-07,
      "loss": 48.3228,
      "reward": 1.375,
      "reward_std": 0.4647061675786972,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 2294
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 122.34375,
      "epoch": 2.898422712933754,
      "grad_norm": 9.182983338269201,
      "kl": 41.541015625,
      "learning_rate": 2.0251855169841075e-07,
      "loss": 0.1897,
      "reward": 1.265625,
      "reward_std": 0.34194982051849365,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.90625,
      "step": 2296
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 123.8125,
      "epoch": 2.9009463722397477,
      "grad_norm": 54.853223119547536,
      "kl": 60.6495361328125,
      "learning_rate": 2.0212113851182814e-07,
      "loss": 0.3419,
      "reward": 1.46875,
      "reward_std": 0.46428901702165604,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 0.875,
      "step": 2298
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 161.390625,
      "epoch": 2.9034700315457416,
      "grad_norm": 33.11142502382308,
      "kl": 89.3914794921875,
      "learning_rate": 2.0172385088197803e-07,
      "loss": 0.5156,
      "reward": 1.421875,
      "reward_std": 0.3723391965031624,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.875,
      "step": 2300
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 119.953125,
      "epoch": 2.905993690851735,
      "grad_norm": 4019.715496973341,
      "kl": 253.1639404296875,
      "learning_rate": 2.0132668985070105e-07,
      "loss": 0.8955,
      "reward": 1.4375,
      "reward_std": 0.2860843911767006,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.953125,
      "step": 2302
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 123.8125,
      "epoch": 2.908517350157729,
      "grad_norm": 2.134753857154919,
      "kl": 40.77313232421875,
      "learning_rate": 2.0092965645950564e-07,
      "loss": 0.2415,
      "reward": 1.375,
      "reward_std": 0.2235843911767006,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.9375,
      "step": 2304
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.265625,
      "epoch": 2.9110410094637222,
      "grad_norm": 1.5740496928337964,
      "kl": 0.3739013671875,
      "learning_rate": 2.0053275174956556e-07,
      "loss": -0.0042,
      "reward": 1.40625,
      "reward_std": 0.03608439117670059,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 1.0,
      "step": 2306
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.46875,
      "epoch": 2.913564668769716,
      "grad_norm": 2.8978429356088125,
      "kl": 15.6439208984375,
      "learning_rate": 2.0013597676171728e-07,
      "loss": 0.0697,
      "reward": 1.6875,
      "reward_std": 0.1610843911767006,
      "rewards/equation_reward_func": 0.71875,
      "rewards/format_reward_func": 0.96875,
      "step": 2308
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.28125,
      "epoch": 2.91608832807571,
      "grad_norm": 2.0775765242684403,
      "kl": 0.4842529296875,
      "learning_rate": 1.997393325364568e-07,
      "loss": -0.0198,
      "reward": 1.65625,
      "reward_std": 0.2235843911767006,
      "rewards/equation_reward_func": 0.65625,
      "rewards/format_reward_func": 1.0,
      "step": 2310
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.0,
      "epoch": 2.9186119873817034,
      "grad_norm": 3.236097670437951,
      "kl": 56.62664794921875,
      "learning_rate": 1.993428201139375e-07,
      "loss": 0.2238,
      "reward": 1.421875,
      "reward_std": 0.31201278418302536,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.953125,
      "step": 2312
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.65625,
      "epoch": 2.921135646687697,
      "grad_norm": 14.313978829840053,
      "kl": 26.0513916015625,
      "learning_rate": 1.989464405339668e-07,
      "loss": 0.1657,
      "reward": 1.421875,
      "reward_std": 0.21875,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.96875,
      "step": 2314
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.109375,
      "epoch": 2.9236593059936906,
      "grad_norm": 15.736549289559653,
      "kl": 12.8150634765625,
      "learning_rate": 1.985501948360041e-07,
      "loss": 0.1003,
      "reward": 1.53125,
      "reward_std": 0.18967358767986298,
      "rewards/equation_reward_func": 0.578125,
      "rewards/format_reward_func": 0.953125,
      "step": 2316
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.6875,
      "epoch": 2.9261829652996845,
      "grad_norm": 5.9835752281325645,
      "kl": 25.59332275390625,
      "learning_rate": 1.9815408405915745e-07,
      "loss": 0.0576,
      "reward": 1.4375,
      "reward_std": 0.439673587679863,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.890625,
      "step": 2318
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.09375,
      "epoch": 2.9287066246056783,
      "grad_norm": 6.853597191860959,
      "kl": 4.89569091796875,
      "learning_rate": 1.977581092421812e-07,
      "loss": 0.0203,
      "reward": 1.453125,
      "reward_std": 0.21875,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.984375,
      "step": 2320
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 135.65625,
      "epoch": 2.931230283911672,
      "grad_norm": 12.718953330698962,
      "kl": 64.5101318359375,
      "learning_rate": 1.9736227142347324e-07,
      "loss": 0.3549,
      "reward": 1.328125,
      "reward_std": 0.21875,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.9375,
      "step": 2322
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.34375,
      "epoch": 2.9337539432176656,
      "grad_norm": 24.22896485532085,
      "kl": 23.9874267578125,
      "learning_rate": 1.96966571641072e-07,
      "loss": 0.1558,
      "reward": 1.640625,
      "reward_std": 0.22841878235340118,
      "rewards/equation_reward_func": 0.671875,
      "rewards/format_reward_func": 0.96875,
      "step": 2324
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 115.125,
      "epoch": 2.9362776025236594,
      "grad_norm": 2.8372831508018668,
      "kl": 29.1529541015625,
      "learning_rate": 1.965710109326541e-07,
      "loss": 0.1506,
      "reward": 1.359375,
      "reward_std": 0.27195462584495544,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.96875,
      "step": 2326
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.546875,
      "epoch": 2.938801261829653,
      "grad_norm": 12.549866303946093,
      "kl": 30.38385009765625,
      "learning_rate": 1.9617559033553126e-07,
      "loss": 0.1463,
      "reward": 1.5625,
      "reward_std": 0.27461542934179306,
      "rewards/equation_reward_func": 0.625,
      "rewards/format_reward_func": 0.9375,
      "step": 2328
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 110.984375,
      "epoch": 2.9413249211356467,
      "grad_norm": 10.572926973739973,
      "kl": 20.01495361328125,
      "learning_rate": 1.957803108866481e-07,
      "loss": 0.1707,
      "reward": 1.4375,
      "reward_std": 0.2860843911767006,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.96875,
      "step": 2330
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.3125,
      "epoch": 2.9438485804416406,
      "grad_norm": 19.658097164116164,
      "kl": 31.61578369140625,
      "learning_rate": 1.9538517362257866e-07,
      "loss": 0.1993,
      "reward": 1.4375,
      "reward_std": 0.125,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.96875,
      "step": 2332
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.09375,
      "epoch": 2.946372239747634,
      "grad_norm": 48.44972161598746,
      "kl": 14.42724609375,
      "learning_rate": 1.9499017957952453e-07,
      "loss": 0.0174,
      "reward": 1.4375,
      "reward_std": 0.252173587679863,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.96875,
      "step": 2334
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 111.5,
      "epoch": 2.948895899053628,
      "grad_norm": 27.155389468489442,
      "kl": 34.19891357421875,
      "learning_rate": 1.9459532979331148e-07,
      "loss": 0.1758,
      "reward": 1.5625,
      "reward_std": 0.2785891965031624,
      "rewards/equation_reward_func": 0.609375,
      "rewards/format_reward_func": 0.953125,
      "step": 2336
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 159.75,
      "epoch": 2.951419558359621,
      "grad_norm": 33.78099974418706,
      "kl": 146.834716796875,
      "learning_rate": 1.94200625299387e-07,
      "loss": 0.4239,
      "reward": 1.34375,
      "reward_std": 0.36353103816509247,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.890625,
      "step": 2338
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 110.25,
      "epoch": 2.953943217665615,
      "grad_norm": 4.354461428012057,
      "kl": 23.32427978515625,
      "learning_rate": 1.9380606713281772e-07,
      "loss": 0.1484,
      "reward": 1.390625,
      "reward_std": 0.31950797885656357,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.96875,
      "step": 2340
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.0625,
      "epoch": 2.956466876971609,
      "grad_norm": 7.0717132692691616,
      "kl": 19.34661865234375,
      "learning_rate": 1.9341165632828626e-07,
      "loss": 0.1033,
      "reward": 1.34375,
      "reward_std": 0.24819982051849365,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.9375,
      "step": 2342
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.75,
      "epoch": 2.958990536277603,
      "grad_norm": 3.5487122367581763,
      "kl": 0.36865234375,
      "learning_rate": 1.930173939200892e-07,
      "loss": -0.0079,
      "reward": 1.453125,
      "reward_std": 0.15625,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 1.0,
      "step": 2344
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.15625,
      "epoch": 2.961514195583596,
      "grad_norm": 21.88285977305743,
      "kl": 44.420166015625,
      "learning_rate": 1.9262328094213355e-07,
      "loss": 0.1445,
      "reward": 1.4375,
      "reward_std": 0.31069982051849365,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.953125,
      "step": 2346
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.78125,
      "epoch": 2.96403785488959,
      "grad_norm": 28.82660942623918,
      "kl": 1.4898681640625,
      "learning_rate": 1.922293184279347e-07,
      "loss": 0.0724,
      "reward": 1.703125,
      "reward_std": 0.15625,
      "rewards/equation_reward_func": 0.734375,
      "rewards/format_reward_func": 0.96875,
      "step": 2348
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.953125,
      "epoch": 2.9665615141955834,
      "grad_norm": 3.707589408558799,
      "kl": 14.78680419921875,
      "learning_rate": 1.9183550741061352e-07,
      "loss": 0.0991,
      "reward": 1.46875,
      "reward_std": 0.23853103816509247,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.96875,
      "step": 2350
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.15625,
      "epoch": 2.9690851735015773,
      "grad_norm": 3.131803895212489,
      "kl": 7.16241455078125,
      "learning_rate": 1.9144184892289336e-07,
      "loss": 0.1026,
      "reward": 1.6875,
      "reward_std": 0.19716878235340118,
      "rewards/equation_reward_func": 0.734375,
      "rewards/format_reward_func": 0.953125,
      "step": 2352
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.390625,
      "epoch": 2.971608832807571,
      "grad_norm": 29.18470940700935,
      "kl": 36.01519775390625,
      "learning_rate": 1.9104834399709778e-07,
      "loss": 0.1464,
      "reward": 1.34375,
      "reward_std": 0.2860843911767006,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.9375,
      "step": 2354
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.765625,
      "epoch": 2.9741324921135646,
      "grad_norm": 3.458804240837927,
      "kl": 14.19720458984375,
      "learning_rate": 1.9065499366514756e-07,
      "loss": 0.1276,
      "reward": 1.65625,
      "reward_std": 0.1610843911767006,
      "rewards/equation_reward_func": 0.671875,
      "rewards/format_reward_func": 0.984375,
      "step": 2356
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 110.65625,
      "epoch": 2.9766561514195584,
      "grad_norm": 42.88536026367791,
      "kl": 34.2191162109375,
      "learning_rate": 1.9026179895855812e-07,
      "loss": 0.2149,
      "reward": 1.359375,
      "reward_std": 0.26978103816509247,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.9375,
      "step": 2358
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 132.234375,
      "epoch": 2.979179810725552,
      "grad_norm": 15375.456981674814,
      "kl": 854.5554809570312,
      "learning_rate": 1.8986876090843664e-07,
      "loss": 2.6976,
      "reward": 1.40625,
      "reward_std": 0.33711542934179306,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.890625,
      "step": 2360
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 116.375,
      "epoch": 2.9817034700315457,
      "grad_norm": 19.080377971401433,
      "kl": 38.46990966796875,
      "learning_rate": 1.8947588054547967e-07,
      "loss": 0.269,
      "reward": 1.59375,
      "reward_std": 0.30320462584495544,
      "rewards/equation_reward_func": 0.640625,
      "rewards/format_reward_func": 0.953125,
      "step": 2362
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 126.046875,
      "epoch": 2.9842271293375395,
      "grad_norm": 12.080517019025896,
      "kl": 49.4468994140625,
      "learning_rate": 1.8908315889997006e-07,
      "loss": 0.2672,
      "reward": 1.28125,
      "reward_std": 0.3691823109984398,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.890625,
      "step": 2364
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.984375,
      "epoch": 2.9867507886435334,
      "grad_norm": 5.608595461235008,
      "kl": 4.78643798828125,
      "learning_rate": 1.8869059700177477e-07,
      "loss": -0.0208,
      "reward": 1.3125,
      "reward_std": 0.24819982051849365,
      "rewards/equation_reward_func": 0.34375,
      "rewards/format_reward_func": 0.96875,
      "step": 2366
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 116.859375,
      "epoch": 2.989274447949527,
      "grad_norm": 13.072374252924307,
      "kl": 44.081787109375,
      "learning_rate": 1.882981958803414e-07,
      "loss": 0.2119,
      "reward": 1.5,
      "reward_std": 0.1875,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.96875,
      "step": 2368
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 157.1875,
      "epoch": 2.9917981072555206,
      "grad_norm": 8.791452134169615,
      "kl": 104.22137451171875,
      "learning_rate": 1.8790595656469626e-07,
      "loss": 0.5724,
      "reward": 1.3125,
      "reward_std": 0.3125,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.9375,
      "step": 2370
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 123.75,
      "epoch": 2.994321766561514,
      "grad_norm": 4.748544048077461,
      "kl": 56.77264404296875,
      "learning_rate": 1.8751388008344115e-07,
      "loss": 0.269,
      "reward": 1.21875,
      "reward_std": 0.2596687823534012,
      "rewards/equation_reward_func": 0.28125,
      "rewards/format_reward_func": 0.9375,
      "step": 2372
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.5,
      "epoch": 2.996845425867508,
      "grad_norm": 12.977748714296805,
      "kl": 49.49859619140625,
      "learning_rate": 1.8712196746475098e-07,
      "loss": 0.1773,
      "reward": 1.53125,
      "reward_std": 0.23853103816509247,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.96875,
      "step": 2374
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.109375,
      "epoch": 2.9993690851735018,
      "grad_norm": 77.98414478108599,
      "kl": 47.095703125,
      "learning_rate": 1.8673021973637093e-07,
      "loss": 0.1301,
      "reward": 1.21875,
      "reward_std": 0.42820462584495544,
      "rewards/equation_reward_func": 0.328125,
      "rewards/format_reward_func": 0.890625,
      "step": 2376
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 126.375,
      "epoch": 3.002523659305994,
      "grad_norm": 50.4014201654901,
      "kl": 40.54388427734375,
      "learning_rate": 1.8633863792561367e-07,
      "loss": 0.1642,
      "reward": 1.34375,
      "reward_std": 0.27678901702165604,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.921875,
      "step": 2378
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.78125,
      "epoch": 3.0050473186119873,
      "grad_norm": 3.585002624509955,
      "kl": 22.84930419921875,
      "learning_rate": 1.859472230593569e-07,
      "loss": 0.1221,
      "reward": 1.5625,
      "reward_std": 0.2596687823534012,
      "rewards/equation_reward_func": 0.59375,
      "rewards/format_reward_func": 0.96875,
      "step": 2380
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.53125,
      "epoch": 3.007570977917981,
      "grad_norm": 43.89429714791868,
      "kl": 14.8912353515625,
      "learning_rate": 1.8555597616404044e-07,
      "loss": 0.0412,
      "reward": 1.34375,
      "reward_std": 0.23325317353010178,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.921875,
      "step": 2382
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.5,
      "epoch": 3.010094637223975,
      "grad_norm": 41.14642751905081,
      "kl": 21.7457275390625,
      "learning_rate": 1.8516489826566374e-07,
      "loss": 0.1038,
      "reward": 1.453125,
      "reward_std": 0.345923587679863,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.921875,
      "step": 2384
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 110.984375,
      "epoch": 3.0126182965299684,
      "grad_norm": 16.614192185888722,
      "kl": 31.99859619140625,
      "learning_rate": 1.8477399038978286e-07,
      "loss": 0.1944,
      "reward": 1.375,
      "reward_std": 0.32564646750688553,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.9375,
      "step": 2386
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.15625,
      "epoch": 3.0151419558359622,
      "grad_norm": 10.289567738670604,
      "kl": 6.6539306640625,
      "learning_rate": 1.8438325356150823e-07,
      "loss": -0.0266,
      "reward": 1.515625,
      "reward_std": 0.1923343911767006,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.96875,
      "step": 2388
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 122.828125,
      "epoch": 3.0176656151419556,
      "grad_norm": 3.618954536812328,
      "kl": 28.61688232421875,
      "learning_rate": 1.8399268880550174e-07,
      "loss": 0.2667,
      "reward": 1.34375,
      "reward_std": 0.3485843911767006,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.9375,
      "step": 2390
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.6875,
      "epoch": 3.0201892744479495,
      "grad_norm": 4.486294899070755,
      "kl": 34.8409423828125,
      "learning_rate": 1.8360229714597368e-07,
      "loss": 0.1612,
      "reward": 1.625,
      "reward_std": 0.2235843911767006,
      "rewards/equation_reward_func": 0.6875,
      "rewards/format_reward_func": 0.9375,
      "step": 2392
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 133.15625,
      "epoch": 3.0227129337539433,
      "grad_norm": 318293.85323717876,
      "kl": 15709.1962890625,
      "learning_rate": 1.8321207960668087e-07,
      "loss": 50.2139,
      "reward": 1.375,
      "reward_std": 0.38684237003326416,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.90625,
      "step": 2394
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 115.78125,
      "epoch": 3.0252365930599368,
      "grad_norm": 32.23791022946333,
      "kl": 34.66802978515625,
      "learning_rate": 1.828220372109232e-07,
      "loss": 0.2326,
      "reward": 1.4375,
      "reward_std": 0.18967358767986298,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.953125,
      "step": 2396
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 156.71875,
      "epoch": 3.0277602523659306,
      "grad_norm": 13.06588758082486,
      "kl": 38.0787353515625,
      "learning_rate": 1.8243217098154145e-07,
      "loss": 0.1413,
      "reward": 1.546875,
      "reward_std": 0.23059237003326416,
      "rewards/equation_reward_func": 0.609375,
      "rewards/format_reward_func": 0.9375,
      "step": 2398
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 131.0,
      "epoch": 3.0302839116719245,
      "grad_norm": 11.986834624313582,
      "kl": 89.67279052734375,
      "learning_rate": 1.8204248194091425e-07,
      "loss": 0.3787,
      "reward": 1.421875,
      "reward_std": 0.1923343911767006,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.90625,
      "step": 2400
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 117.25,
      "epoch": 3.032807570977918,
      "grad_norm": 13.777290662242558,
      "kl": 48.9853515625,
      "learning_rate": 1.8165297111095586e-07,
      "loss": 0.2448,
      "reward": 1.375,
      "reward_std": 0.39961542934179306,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.9375,
      "step": 2402
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.15625,
      "epoch": 3.0353312302839117,
      "grad_norm": 4.626809708968911,
      "kl": 17.3037109375,
      "learning_rate": 1.8126363951311285e-07,
      "loss": 0.131,
      "reward": 1.453125,
      "reward_std": 0.16591878235340118,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.984375,
      "step": 2404
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.6875,
      "epoch": 3.0378548895899056,
      "grad_norm": 11.321776897576218,
      "kl": 15.18994140625,
      "learning_rate": 1.8087448816836204e-07,
      "loss": 0.0701,
      "reward": 1.453125,
      "reward_std": 0.33842839300632477,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.9375,
      "step": 2406
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.859375,
      "epoch": 3.040378548895899,
      "grad_norm": 6.75810498873405,
      "kl": 34.19171142578125,
      "learning_rate": 1.804855180972075e-07,
      "loss": 0.17,
      "reward": 1.453125,
      "reward_std": 0.40444982051849365,
      "rewards/equation_reward_func": 0.5625,
      "rewards/format_reward_func": 0.890625,
      "step": 2408
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 154.203125,
      "epoch": 3.042902208201893,
      "grad_norm": 231.75520128119578,
      "kl": 248.123779296875,
      "learning_rate": 1.8009673031967775e-07,
      "loss": 1.0267,
      "reward": 1.359375,
      "reward_std": 0.1923343911767006,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.9375,
      "step": 2410
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 119.984375,
      "epoch": 3.0454258675078862,
      "grad_norm": 32.675512636442065,
      "kl": 38.34149169921875,
      "learning_rate": 1.797081258553236e-07,
      "loss": 0.1824,
      "reward": 1.453125,
      "reward_std": 0.16591878235340118,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.921875,
      "step": 2412
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.359375,
      "epoch": 3.04794952681388,
      "grad_norm": 5.439187925247913,
      "kl": 8.6031494140625,
      "learning_rate": 1.7931970572321477e-07,
      "loss": 0.0129,
      "reward": 1.609375,
      "reward_std": 0.2645031735301018,
      "rewards/equation_reward_func": 0.65625,
      "rewards/format_reward_func": 0.953125,
      "step": 2414
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.703125,
      "epoch": 3.050473186119874,
      "grad_norm": 2.476522310878412,
      "kl": 2.30072021484375,
      "learning_rate": 1.7893147094193784e-07,
      "loss": 0.0428,
      "reward": 1.375,
      "reward_std": 0.125,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.984375,
      "step": 2416
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.3125,
      "epoch": 3.0529968454258674,
      "grad_norm": 7.188316724537867,
      "kl": 30.87200927734375,
      "learning_rate": 1.7854342252959336e-07,
      "loss": 0.0842,
      "reward": 1.40625,
      "reward_std": 0.1610843911767006,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.953125,
      "step": 2418
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.71875,
      "epoch": 3.055520504731861,
      "grad_norm": 5.443977019593704,
      "kl": 4.68511962890625,
      "learning_rate": 1.7815556150379296e-07,
      "loss": 0.108,
      "reward": 1.46875,
      "reward_std": 0.1875,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.953125,
      "step": 2420
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.296875,
      "epoch": 3.058044164037855,
      "grad_norm": 4.094237224009097,
      "kl": 2.58837890625,
      "learning_rate": 1.77767888881657e-07,
      "loss": 0.0275,
      "reward": 1.46875,
      "reward_std": 0.1875,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.96875,
      "step": 2422
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.1875,
      "epoch": 3.0605678233438485,
      "grad_norm": 10.397574735171219,
      "kl": 26.3824462890625,
      "learning_rate": 1.7738040567981165e-07,
      "loss": 0.1413,
      "reward": 1.484375,
      "reward_std": 0.2565118968486786,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.9375,
      "step": 2424
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.65625,
      "epoch": 3.0630914826498423,
      "grad_norm": 3.2181944664748885,
      "kl": 1.94921875,
      "learning_rate": 1.769931129143866e-07,
      "loss": 0.025,
      "reward": 1.46875,
      "reward_std": 0.1610843911767006,
      "rewards/equation_reward_func": 0.484375,
      "rewards/format_reward_func": 0.984375,
      "step": 2426
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 142.625,
      "epoch": 3.065615141955836,
      "grad_norm": 16.416264575201055,
      "kl": 34.7196044921875,
      "learning_rate": 1.766060116010118e-07,
      "loss": 0.2819,
      "reward": 1.390625,
      "reward_std": 0.2965700551867485,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.9375,
      "step": 2428
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 82.25,
      "epoch": 3.0681388012618296,
      "grad_norm": 7.082899843742262,
      "kl": 31.82037353515625,
      "learning_rate": 1.762191027548154e-07,
      "loss": 0.0845,
      "reward": 1.515625,
      "reward_std": 0.15625,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.96875,
      "step": 2430
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.21875,
      "epoch": 3.0706624605678234,
      "grad_norm": 5.479756326013169,
      "kl": 25.76568603515625,
      "learning_rate": 1.7583238739042084e-07,
      "loss": 0.1681,
      "reward": 1.328125,
      "reward_std": 0.3173343911767006,
      "rewards/equation_reward_func": 0.375,
      "rewards/format_reward_func": 0.953125,
      "step": 2432
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 131.671875,
      "epoch": 3.073186119873817,
      "grad_norm": 53.440165493755124,
      "kl": 94.7276611328125,
      "learning_rate": 1.7544586652194388e-07,
      "loss": 0.4981,
      "reward": 1.34375,
      "reward_std": 0.30320462584495544,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.921875,
      "step": 2434
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.171875,
      "epoch": 3.0757097791798107,
      "grad_norm": 8.299847350499968,
      "kl": 49.39678955078125,
      "learning_rate": 1.750595411629906e-07,
      "loss": 0.1992,
      "reward": 1.453125,
      "reward_std": 0.24336542934179306,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.921875,
      "step": 2436
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.171875,
      "epoch": 3.0782334384858046,
      "grad_norm": 33.496964259934494,
      "kl": 35.37567138671875,
      "learning_rate": 1.746734123266541e-07,
      "loss": 0.1609,
      "reward": 1.359375,
      "reward_std": 0.34375,
      "rewards/equation_reward_func": 0.46875,
      "rewards/format_reward_func": 0.890625,
      "step": 2438
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 114.546875,
      "epoch": 3.080757097791798,
      "grad_norm": 7.957238074274552,
      "kl": 47.57403564453125,
      "learning_rate": 1.7428748102551234e-07,
      "loss": 0.1164,
      "reward": 1.484375,
      "reward_std": 0.2679808586835861,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.9375,
      "step": 2440
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 118.953125,
      "epoch": 3.083280757097792,
      "grad_norm": 11.229340406914833,
      "kl": 46.3607177734375,
      "learning_rate": 1.739017482716251e-07,
      "loss": 0.2954,
      "reward": 1.46875,
      "reward_std": 0.1875,
      "rewards/equation_reward_func": 0.515625,
      "rewards/format_reward_func": 0.953125,
      "step": 2442
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.109375,
      "epoch": 3.0858044164037857,
      "grad_norm": 28.697899033184974,
      "kl": 30.93115234375,
      "learning_rate": 1.7351621507653156e-07,
      "loss": 0.1537,
      "reward": 1.53125,
      "reward_std": 0.33711542934179306,
      "rewards/equation_reward_func": 0.625,
      "rewards/format_reward_func": 0.90625,
      "step": 2444
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.46875,
      "epoch": 3.088328075709779,
      "grad_norm": 0.6615307358698959,
      "kl": 12.15228271484375,
      "learning_rate": 1.7313088245124763e-07,
      "loss": 0.0652,
      "reward": 1.390625,
      "reward_std": 0.1298343911767006,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.953125,
      "step": 2446
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.359375,
      "epoch": 3.090851735015773,
      "grad_norm": 18.584500938151276,
      "kl": 80.49676513671875,
      "learning_rate": 1.7274575140626315e-07,
      "loss": 0.1443,
      "reward": 1.390625,
      "reward_std": 0.48804382234811783,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.890625,
      "step": 2448
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.84375,
      "epoch": 3.0933753943217663,
      "grad_norm": 13.710464016625147,
      "kl": 37.80047607421875,
      "learning_rate": 1.7236082295153946e-07,
      "loss": 0.0911,
      "reward": 1.421875,
      "reward_std": 0.3173343911767006,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.96875,
      "step": 2450
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 79.234375,
      "epoch": 3.09589905362776,
      "grad_norm": 14.330135182759367,
      "kl": 3.0234375,
      "learning_rate": 1.7197609809650642e-07,
      "loss": 0.0186,
      "reward": 1.59375,
      "reward_std": 0.19716878235340118,
      "rewards/equation_reward_func": 0.640625,
      "rewards/format_reward_func": 0.953125,
      "step": 2452
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.640625,
      "epoch": 3.098422712933754,
      "grad_norm": 5.329989885005938,
      "kl": 44.5849609375,
      "learning_rate": 1.7159157785006026e-07,
      "loss": 0.2124,
      "reward": 1.375,
      "reward_std": 0.2235843911767006,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.953125,
      "step": 2454
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 125.140625,
      "epoch": 3.1009463722397475,
      "grad_norm": 2.3978895793735377,
      "kl": 72.10638427734375,
      "learning_rate": 1.712072632205604e-07,
      "loss": 0.3957,
      "reward": 1.328125,
      "reward_std": 0.27944982051849365,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.875,
      "step": 2456
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 136.203125,
      "epoch": 3.1034700315457413,
      "grad_norm": 105.95137043209196,
      "kl": 133.76531982421875,
      "learning_rate": 1.7082315521582712e-07,
      "loss": 0.5597,
      "reward": 1.328125,
      "reward_std": 0.33228103816509247,
      "rewards/equation_reward_func": 0.453125,
      "rewards/format_reward_func": 0.875,
      "step": 2458
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.109375,
      "epoch": 3.105993690851735,
      "grad_norm": 3.008476375825145,
      "kl": 35.4637451171875,
      "learning_rate": 1.704392548431391e-07,
      "loss": -0.0146,
      "reward": 1.390625,
      "reward_std": 0.29309237003326416,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.890625,
      "step": 2460
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 133.8125,
      "epoch": 3.1085173501577286,
      "grad_norm": 32.82316024204835,
      "kl": 59.761474609375,
      "learning_rate": 1.7005556310923003e-07,
      "loss": 0.3316,
      "reward": 1.34375,
      "reward_std": 0.4110843911767006,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.921875,
      "step": 2462
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.03125,
      "epoch": 3.1110410094637224,
      "grad_norm": 8.340855467467554,
      "kl": 28.11328125,
      "learning_rate": 1.6967208102028696e-07,
      "loss": 0.1621,
      "reward": 1.375,
      "reward_std": 0.23853103816509247,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.953125,
      "step": 2464
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.421875,
      "epoch": 3.1135646687697163,
      "grad_norm": 3.0362087714433796,
      "kl": 1.70782470703125,
      "learning_rate": 1.6928880958194686e-07,
      "loss": -0.0345,
      "reward": 1.3125,
      "reward_std": 0.1875,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.953125,
      "step": 2466
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 143.953125,
      "epoch": 3.1160883280757097,
      "grad_norm": 22.196796951473285,
      "kl": 101.42755126953125,
      "learning_rate": 1.6890574979929444e-07,
      "loss": 0.5343,
      "reward": 1.5625,
      "reward_std": 0.44184717535972595,
      "rewards/equation_reward_func": 0.65625,
      "rewards/format_reward_func": 0.90625,
      "step": 2468
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 132.390625,
      "epoch": 3.1186119873817035,
      "grad_norm": 10.047936578799204,
      "kl": 55.04833984375,
      "learning_rate": 1.6852290267685928e-07,
      "loss": 0.3212,
      "reward": 1.453125,
      "reward_std": 0.40444982051849365,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.90625,
      "step": 2470
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 111.484375,
      "epoch": 3.121135646687697,
      "grad_norm": 35.36520160469131,
      "kl": 37.26513671875,
      "learning_rate": 1.6814026921861335e-07,
      "loss": 0.2276,
      "reward": 1.375,
      "reward_std": 0.34678421169519424,
      "rewards/equation_reward_func": 0.4375,
      "rewards/format_reward_func": 0.9375,
      "step": 2472
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 116.78125,
      "epoch": 3.123659305993691,
      "grad_norm": 29.318336841559535,
      "kl": 103.07427978515625,
      "learning_rate": 1.6775785042796834e-07,
      "loss": 0.1897,
      "reward": 1.140625,
      "reward_std": 0.19450797885656357,
      "rewards/equation_reward_func": 0.25,
      "rewards/format_reward_func": 0.890625,
      "step": 2474
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.3125,
      "epoch": 3.1261829652996846,
      "grad_norm": 9.356596177076643,
      "kl": 70.427734375,
      "learning_rate": 1.6737564730777283e-07,
      "loss": 0.1519,
      "reward": 1.546875,
      "reward_std": 0.27417195588350296,
      "rewards/equation_reward_func": 0.640625,
      "rewards/format_reward_func": 0.90625,
      "step": 2476
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 114.84375,
      "epoch": 3.128706624605678,
      "grad_norm": 18.07691999360685,
      "kl": 35.5147705078125,
      "learning_rate": 1.6699366086031009e-07,
      "loss": 0.2231,
      "reward": 1.34375,
      "reward_std": 0.314673587679863,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.9375,
      "step": 2478
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.703125,
      "epoch": 3.131230283911672,
      "grad_norm": 5.496688088693797,
      "kl": 10.1617431640625,
      "learning_rate": 1.6661189208729489e-07,
      "loss": 0.0265,
      "reward": 1.515625,
      "reward_std": 0.2548343911767006,
      "rewards/equation_reward_func": 0.546875,
      "rewards/format_reward_func": 0.96875,
      "step": 2480
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 133.96875,
      "epoch": 3.1337539432176658,
      "grad_norm": 25.644706927827336,
      "kl": 73.37237548828125,
      "learning_rate": 1.6623034198987147e-07,
      "loss": 0.3844,
      "reward": 1.3125,
      "reward_std": 0.3125,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.90625,
      "step": 2482
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 147.453125,
      "epoch": 3.136277602523659,
      "grad_norm": 81.05950988499892,
      "kl": 108.682861328125,
      "learning_rate": 1.6584901156861036e-07,
      "loss": 0.5354,
      "reward": 1.296875,
      "reward_std": 0.2548343911767006,
      "rewards/equation_reward_func": 0.359375,
      "rewards/format_reward_func": 0.9375,
      "step": 2484
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 110.953125,
      "epoch": 3.138801261829653,
      "grad_norm": 5.3136136653213155,
      "kl": 20.21148681640625,
      "learning_rate": 1.6546790182350618e-07,
      "loss": 0.0954,
      "reward": 1.4375,
      "reward_std": 0.252173587679863,
      "rewards/equation_reward_func": 0.5,
      "rewards/format_reward_func": 0.9375,
      "step": 2486
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 140.65625,
      "epoch": 3.141324921135647,
      "grad_norm": 36.76819775088724,
      "kl": 61.414306640625,
      "learning_rate": 1.6508701375397486e-07,
      "loss": 0.4102,
      "reward": 1.296875,
      "reward_std": 0.41809237003326416,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.890625,
      "step": 2488
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.28125,
      "epoch": 3.1438485804416403,
      "grad_norm": 14.239677302335558,
      "kl": 18.159423828125,
      "learning_rate": 1.6470634835885095e-07,
      "loss": 0.0732,
      "reward": 1.1875,
      "reward_std": 0.2860843911767006,
      "rewards/equation_reward_func": 0.25,
      "rewards/format_reward_func": 0.9375,
      "step": 2490
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.125,
      "epoch": 3.146372239747634,
      "grad_norm": 26.171053209712518,
      "kl": 45.08319091796875,
      "learning_rate": 1.6432590663638503e-07,
      "loss": 0.17,
      "reward": 1.3125,
      "reward_std": 0.27461542934179306,
      "rewards/equation_reward_func": 0.390625,
      "rewards/format_reward_func": 0.921875,
      "step": 2492
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 125.5,
      "epoch": 3.1488958990536275,
      "grad_norm": 17.673659212350866,
      "kl": 42.09722900390625,
      "learning_rate": 1.6394568958424118e-07,
      "loss": 0.2826,
      "reward": 1.46875,
      "reward_std": 0.3582531735301018,
      "rewards/equation_reward_func": 0.53125,
      "rewards/format_reward_func": 0.9375,
      "step": 2494
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 116.875,
      "epoch": 3.1514195583596214,
      "grad_norm": 80.585417221895,
      "kl": 62.0684814453125,
      "learning_rate": 1.6356569819949427e-07,
      "loss": 0.2719,
      "reward": 1.328125,
      "reward_std": 0.20200317353010178,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.90625,
      "step": 2496
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.5625,
      "epoch": 3.1539432176656153,
      "grad_norm": 26.092381287339197,
      "kl": 29.19384765625,
      "learning_rate": 1.631859334786274e-07,
      "loss": 0.1598,
      "reward": 1.359375,
      "reward_std": 0.27195462584495544,
      "rewards/equation_reward_func": 0.40625,
      "rewards/format_reward_func": 0.953125,
      "step": 2498
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.53125,
      "epoch": 3.1564668769716087,
      "grad_norm": 14.486390092109376,
      "kl": 52.4190673828125,
      "learning_rate": 1.6280639641752942e-07,
      "loss": 0.3075,
      "reward": 1.34375,
      "reward_std": 0.2992308586835861,
      "rewards/equation_reward_func": 0.421875,
      "rewards/format_reward_func": 0.921875,
      "step": 2500
    }
  ],
  "logging_steps": 2,
  "max_steps": 4000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 6,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}