{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9463722397476341,
  "eval_steps": 500,
  "global_step": 500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "clip_ratio": 0.0,
      "completion_length": 405.5555674235026,
      "epoch": 0.0037854889589905363,
      "grad_norm": 1.5204231066145135,
      "kl": 0.0,
      "learning_rate": 5.555555555555555e-09,
      "loss": 0.0329,
      "reward": 0.3750000099341075,
      "reward_std": 0.3891436904668808,
      "rewards/equation_reward_func": 0.3472222325702508,
      "rewards/format_reward_func": 0.027777778605620067,
      "step": 2
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 426.1597366333008,
      "epoch": 0.007570977917981073,
      "grad_norm": 1.6075594847685568,
      "kl": 0.00020535786946614584,
      "learning_rate": 1.111111111111111e-08,
      "loss": 0.0004,
      "reward": 0.35416667846341926,
      "reward_std": 0.40144437551498413,
      "rewards/equation_reward_func": 0.3333333432674408,
      "rewards/format_reward_func": 0.02083333395421505,
      "step": 4
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 389.59028879801434,
      "epoch": 0.011356466876971609,
      "grad_norm": 1.7738388926882676,
      "kl": 0.00020662943522135416,
      "learning_rate": 1.6666666666666667e-08,
      "loss": 0.0068,
      "reward": 0.3611111206312974,
      "reward_std": 0.34669753164052963,
      "rewards/equation_reward_func": 0.3263888942698638,
      "rewards/format_reward_func": 0.034722223257025085,
      "step": 6
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 407.18751271565753,
      "epoch": 0.015141955835962145,
      "grad_norm": 1.7413085729902613,
      "kl": 0.00020869572957356772,
      "learning_rate": 2.222222222222222e-08,
      "loss": -0.0175,
      "reward": 0.3750000149011612,
      "reward_std": 0.43933459122975665,
      "rewards/equation_reward_func": 0.36111112497746944,
      "rewards/format_reward_func": 0.013888889302810034,
      "step": 8
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 436.61806615193683,
      "epoch": 0.01892744479495268,
      "grad_norm": 1.5523678031549322,
      "kl": 0.0001990795135498047,
      "learning_rate": 2.7777777777777774e-08,
      "loss": 0.0009,
      "reward": 0.3958333482344945,
      "reward_std": 0.4240533635020256,
      "rewards/equation_reward_func": 0.3888889029622078,
      "rewards/format_reward_func": 0.006944444651405017,
      "step": 10
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 417.5763982137044,
      "epoch": 0.022712933753943218,
      "grad_norm": 2.1871520648907357,
      "kl": 0.0002460479736328125,
      "learning_rate": 3.3333333333333334e-08,
      "loss": 0.0668,
      "reward": 0.31944445210198563,
      "reward_std": 0.3596703422566255,
      "rewards/equation_reward_func": 0.31250000807146233,
      "rewards/format_reward_func": 0.006944444651405017,
      "step": 12
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 403.26390075683594,
      "epoch": 0.026498422712933754,
      "grad_norm": 1.6906264767615913,
      "kl": 0.00021004676818847656,
      "learning_rate": 3.888888888888889e-08,
      "loss": 0.0052,
      "reward": 0.3611111268401146,
      "reward_std": 0.42362942298253375,
      "rewards/equation_reward_func": 0.354166679084301,
      "rewards/format_reward_func": 0.006944444651405017,
      "step": 14
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 393.6944580078125,
      "epoch": 0.03028391167192429,
      "grad_norm": 1.8134093955469572,
      "kl": 0.0002319812774658203,
      "learning_rate": 4.444444444444444e-08,
      "loss": 0.0291,
      "reward": 0.4097222362955411,
      "reward_std": 0.43579815079768497,
      "rewards/equation_reward_func": 0.3888889004786809,
      "rewards/format_reward_func": 0.02083333395421505,
      "step": 16
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 440.2708460489909,
      "epoch": 0.03406940063091483,
      "grad_norm": 1.4606786067632986,
      "kl": 0.0002152125040690104,
      "learning_rate": 5e-08,
      "loss": 0.0191,
      "reward": 0.3888889004786809,
      "reward_std": 0.44846897075573605,
      "rewards/equation_reward_func": 0.3680555671453476,
      "rewards/format_reward_func": 0.02083333395421505,
      "step": 18
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 411.56251525878906,
      "epoch": 0.03785488958990536,
      "grad_norm": 8.74750891658874,
      "kl": 0.00022975603739420572,
      "learning_rate": 5.555555555555555e-08,
      "loss": 0.0165,
      "reward": 0.38888889861603576,
      "reward_std": 0.3779858859876792,
      "rewards/equation_reward_func": 0.38888889861603576,
      "rewards/format_reward_func": 0.0,
      "step": 20
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 410.5694580078125,
      "epoch": 0.0416403785488959,
      "grad_norm": 2.0666026097367185,
      "kl": 0.0002140204111735026,
      "learning_rate": 6.111111111111111e-08,
      "loss": 0.0489,
      "reward": 0.4305555671453476,
      "reward_std": 0.4184086322784424,
      "rewards/equation_reward_func": 0.40277779164413613,
      "rewards/format_reward_func": 0.027777778605620067,
      "step": 22
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 398.5972366333008,
      "epoch": 0.045425867507886436,
      "grad_norm": 1.4353693037214081,
      "kl": 0.00022824605305989584,
      "learning_rate": 6.666666666666667e-08,
      "loss": 0.0561,
      "reward": 0.39583334140479565,
      "reward_std": 0.38249212006727856,
      "rewards/equation_reward_func": 0.37500000807146233,
      "rewards/format_reward_func": 0.02083333395421505,
      "step": 24
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 406.06251525878906,
      "epoch": 0.04921135646687697,
      "grad_norm": 2.0297758030760487,
      "kl": 0.00023778279622395834,
      "learning_rate": 7.222222222222221e-08,
      "loss": -0.036,
      "reward": 0.2847222263614337,
      "reward_std": 0.35836515327294666,
      "rewards/equation_reward_func": 0.2638888942698638,
      "rewards/format_reward_func": 0.02083333395421505,
      "step": 26
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 404.18751271565753,
      "epoch": 0.05299684542586751,
      "grad_norm": 1.7807227026542323,
      "kl": 0.0002464453379313151,
      "learning_rate": 7.777777777777778e-08,
      "loss": -0.0037,
      "reward": 0.3819444552063942,
      "reward_std": 0.3984878833095233,
      "rewards/equation_reward_func": 0.37500001055498916,
      "rewards/format_reward_func": 0.006944444651405017,
      "step": 28
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 443.22918192545575,
      "epoch": 0.056782334384858045,
      "grad_norm": 1.4639198723709446,
      "kl": 0.0002082983652750651,
      "learning_rate": 8.333333333333333e-08,
      "loss": 0.0215,
      "reward": 0.28472222946584225,
      "reward_std": 0.35284433389703435,
      "rewards/equation_reward_func": 0.26388889613250893,
      "rewards/format_reward_func": 0.02083333395421505,
      "step": 30
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 417.1458460489909,
      "epoch": 0.06056782334384858,
      "grad_norm": 1.551783394227111,
      "kl": 0.0002196629842122396,
      "learning_rate": 8.888888888888888e-08,
      "loss": -0.0381,
      "reward": 0.4236111231148243,
      "reward_std": 0.4627470038831234,
      "rewards/equation_reward_func": 0.409722230086724,
      "rewards/format_reward_func": 0.013888889302810034,
      "step": 32
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 425.0972366333008,
      "epoch": 0.06435331230283911,
      "grad_norm": 1.6519839518228945,
      "kl": 0.0002177556355794271,
      "learning_rate": 9.444444444444444e-08,
      "loss": 0.0149,
      "reward": 0.28472222946584225,
      "reward_std": 0.36097555483380955,
      "rewards/equation_reward_func": 0.26388889489074546,
      "rewards/format_reward_func": 0.02083333395421505,
      "step": 34
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 416.1597315470378,
      "epoch": 0.06813880126182965,
      "grad_norm": 1.6298419922409495,
      "kl": 0.00024358431498209635,
      "learning_rate": 1e-07,
      "loss": 0.0544,
      "reward": 0.31250000931322575,
      "reward_std": 0.406619085619847,
      "rewards/equation_reward_func": 0.27777778667708236,
      "rewards/format_reward_func": 0.034722223257025085,
      "step": 36
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 406.13195546468097,
      "epoch": 0.07192429022082018,
      "grad_norm": 1.7781933588930947,
      "kl": 0.00020241737365722656,
      "learning_rate": 1.0555555555555555e-07,
      "loss": 0.0181,
      "reward": 0.5208333432674408,
      "reward_std": 0.48631447553634644,
      "rewards/equation_reward_func": 0.5000000074505806,
      "rewards/format_reward_func": 0.02083333395421505,
      "step": 38
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 442.87500890096027,
      "epoch": 0.07570977917981073,
      "grad_norm": 1.7856778327927993,
      "kl": 0.00023746490478515625,
      "learning_rate": 1.111111111111111e-07,
      "loss": -0.0027,
      "reward": 0.32638889613250893,
      "reward_std": 0.37259839847683907,
      "rewards/equation_reward_func": 0.31250000807146233,
      "rewards/format_reward_func": 0.013888889302810034,
      "step": 40
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 375.65973409016925,
      "epoch": 0.07949526813880126,
      "grad_norm": 1.9930393569793248,
      "kl": 0.00021648406982421875,
      "learning_rate": 1.1666666666666667e-07,
      "loss": 0.0641,
      "reward": 0.4236111268401146,
      "reward_std": 0.38463745390375453,
      "rewards/equation_reward_func": 0.4027777910232544,
      "rewards/format_reward_func": 0.02083333395421505,
      "step": 42
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 411.6736195882161,
      "epoch": 0.0832807570977918,
      "grad_norm": 1.4888095636144503,
      "kl": 0.0002304712931315104,
      "learning_rate": 1.2222222222222222e-07,
      "loss": 0.0313,
      "reward": 0.31944445210198563,
      "reward_std": 0.3178868380685647,
      "rewards/equation_reward_func": 0.28472223194936913,
      "rewards/format_reward_func": 0.034722223257025085,
      "step": 44
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 389.4166793823242,
      "epoch": 0.08706624605678233,
      "grad_norm": 1.6283738307368585,
      "kl": 0.00023396809895833334,
      "learning_rate": 1.2777777777777777e-07,
      "loss": 0.0686,
      "reward": 0.2986111169060071,
      "reward_std": 0.37988172471523285,
      "rewards/equation_reward_func": 0.2847222288449605,
      "rewards/format_reward_func": 0.013888889302810034,
      "step": 46
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 405.71528879801434,
      "epoch": 0.09085173501577287,
      "grad_norm": 12.938622660748152,
      "kl": 0.00023698806762695312,
      "learning_rate": 1.3333333333333334e-07,
      "loss": -0.0074,
      "reward": 0.2361111187686523,
      "reward_std": 0.3309923857450485,
      "rewards/equation_reward_func": 0.22222222574055195,
      "rewards/format_reward_func": 0.013888889302810034,
      "step": 48
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 434.0694580078125,
      "epoch": 0.0946372239747634,
      "grad_norm": 3.061348126208135,
      "kl": 0.00024008750915527344,
      "learning_rate": 1.3888888888888888e-07,
      "loss": -0.012,
      "reward": 0.27083334264655906,
      "reward_std": 0.34488533437252045,
      "rewards/equation_reward_func": 0.25694445086022216,
      "rewards/format_reward_func": 0.013888889302810034,
      "step": 50
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 413.0694529215495,
      "epoch": 0.09842271293375394,
      "grad_norm": 3.454024027390986,
      "kl": 0.0003235340118408203,
      "learning_rate": 1.4444444444444442e-07,
      "loss": -0.0064,
      "reward": 0.40972223194936913,
      "reward_std": 0.3772713306049506,
      "rewards/equation_reward_func": 0.40277778916060925,
      "rewards/format_reward_func": 0.006944444651405017,
      "step": 52
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 446.2986195882161,
      "epoch": 0.10220820189274447,
      "grad_norm": 1.6865767812775654,
      "kl": 0.00020933151245117188,
      "learning_rate": 1.5e-07,
      "loss": 0.0067,
      "reward": 0.3750000136593978,
      "reward_std": 0.36897342403729755,
      "rewards/equation_reward_func": 0.3611111231148243,
      "rewards/format_reward_func": 0.013888889302810034,
      "step": 54
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 441.1736246744792,
      "epoch": 0.10599369085173502,
      "grad_norm": 2.2986869828700334,
      "kl": 0.0004001458485921224,
      "learning_rate": 1.5555555555555556e-07,
      "loss": 0.0206,
      "reward": 0.3541666716337204,
      "reward_std": 0.3243444561958313,
      "rewards/equation_reward_func": 0.3472222263614337,
      "rewards/format_reward_func": 0.006944444651405017,
      "step": 56
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 432.27085240681964,
      "epoch": 0.10977917981072555,
      "grad_norm": 2.1906732682758645,
      "kl": 0.0002334117889404297,
      "learning_rate": 1.611111111111111e-07,
      "loss": 0.0075,
      "reward": 0.40972223194936913,
      "reward_std": 0.4255252617100875,
      "rewards/equation_reward_func": 0.39583334513008595,
      "rewards/format_reward_func": 0.013888889302810034,
      "step": 58
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 426.7569529215495,
      "epoch": 0.11356466876971609,
      "grad_norm": 2.041653144281195,
      "kl": 0.0002582073211669922,
      "learning_rate": 1.6666666666666665e-07,
      "loss": 0.0211,
      "reward": 0.3680555634200573,
      "reward_std": 0.40922948469718295,
      "rewards/equation_reward_func": 0.361111119389534,
      "rewards/format_reward_func": 0.006944444651405017,
      "step": 60
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 400.68751271565753,
      "epoch": 0.11735015772870662,
      "grad_norm": 1.93215349954409,
      "kl": 0.0002829233805338542,
      "learning_rate": 1.7222222222222222e-07,
      "loss": -0.033,
      "reward": 0.4097222400208314,
      "reward_std": 0.45954596251249313,
      "rewards/equation_reward_func": 0.3888889004786809,
      "rewards/format_reward_func": 0.02083333395421505,
      "step": 62
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 429.3125178019206,
      "epoch": 0.12113564668769716,
      "grad_norm": 1.8873459369947734,
      "kl": 0.0002741813659667969,
      "learning_rate": 1.7777777777777776e-07,
      "loss": 0.0397,
      "reward": 0.4305555708706379,
      "reward_std": 0.41432634244362515,
      "rewards/equation_reward_func": 0.4027777848144372,
      "rewards/format_reward_func": 0.027777778605620067,
      "step": 64
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 421.88890329996747,
      "epoch": 0.12492113564668769,
      "grad_norm": 1.688287521815126,
      "kl": 0.00026599566141764325,
      "learning_rate": 1.833333333333333e-07,
      "loss": 0.0008,
      "reward": 0.3472222276031971,
      "reward_std": 0.3376887192328771,
      "rewards/equation_reward_func": 0.3402777823309104,
      "rewards/format_reward_func": 0.006944444651405017,
      "step": 66
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 452.2708447774251,
      "epoch": 0.12870662460567822,
      "grad_norm": 1.37663800323155,
      "kl": 0.0003294944763183594,
      "learning_rate": 1.8888888888888888e-07,
      "loss": 0.0556,
      "reward": 0.3263888992369175,
      "reward_std": 0.2874133574465911,
      "rewards/equation_reward_func": 0.312500008692344,
      "rewards/format_reward_func": 0.013888889302810034,
      "step": 68
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 436.71528879801434,
      "epoch": 0.13249211356466878,
      "grad_norm": 1.4483289492436444,
      "kl": 0.00029428799947102863,
      "learning_rate": 1.9444444444444445e-07,
      "loss": 0.0386,
      "reward": 0.29861111876865226,
      "reward_std": 0.3121309739847978,
      "rewards/equation_reward_func": 0.28472222822407883,
      "rewards/format_reward_func": 0.013888889302810034,
      "step": 70
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 414.62501271565753,
      "epoch": 0.1362776025236593,
      "grad_norm": 1.4269628803342047,
      "kl": 0.0002837181091308594,
      "learning_rate": 2e-07,
      "loss": 0.0402,
      "reward": 0.32638889861603576,
      "reward_std": 0.35836514706412953,
      "rewards/equation_reward_func": 0.29861111752688885,
      "rewards/format_reward_func": 0.027777778605620067,
      "step": 72
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 398.69445546468097,
      "epoch": 0.14006309148264984,
      "grad_norm": 1.3415769326825684,
      "kl": 0.00044043858846028644,
      "learning_rate": 2.0555555555555553e-07,
      "loss": -0.0574,
      "reward": 0.3333333420256774,
      "reward_std": 0.33815376708904904,
      "rewards/equation_reward_func": 0.31250000682969886,
      "rewards/format_reward_func": 0.02083333395421505,
      "step": 74
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 397.2708460489909,
      "epoch": 0.14384858044164037,
      "grad_norm": 1.6736466199506606,
      "kl": 0.0003532568613688151,
      "learning_rate": 2.111111111111111e-07,
      "loss": 0.0355,
      "reward": 0.3958333519597848,
      "reward_std": 0.3349916177491347,
      "rewards/equation_reward_func": 0.3750000173846881,
      "rewards/format_reward_func": 0.02083333395421505,
      "step": 76
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 389.6388982137044,
      "epoch": 0.14763406940063092,
      "grad_norm": 1.6778745969677393,
      "kl": 0.0004076957702636719,
      "learning_rate": 2.1666666666666667e-07,
      "loss": -0.0089,
      "reward": 0.3819444514811039,
      "reward_std": 0.3766806833446026,
      "rewards/equation_reward_func": 0.3680555646618207,
      "rewards/format_reward_func": 0.013888889302810034,
      "step": 78
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 369.4305648803711,
      "epoch": 0.15141955835962145,
      "grad_norm": 1.7763243336052263,
      "kl": 0.0004963874816894531,
      "learning_rate": 2.222222222222222e-07,
      "loss": 0.0596,
      "reward": 0.3541666716337204,
      "reward_std": 0.4322179580728213,
      "rewards/equation_reward_func": 0.3125000049670537,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 80
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 418.77778879801434,
      "epoch": 0.15520504731861198,
      "grad_norm": 2.4954676920223084,
      "kl": 0.0005669593811035156,
      "learning_rate": 2.2777777777777776e-07,
      "loss": 0.0353,
      "reward": 0.4583333469927311,
      "reward_std": 0.4091739282011986,
      "rewards/equation_reward_func": 0.4305555659035842,
      "rewards/format_reward_func": 0.027777778605620067,
      "step": 82
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 389.9583460489909,
      "epoch": 0.1589905362776025,
      "grad_norm": 1.9030809806319569,
      "kl": 0.0004928906758626302,
      "learning_rate": 2.3333333333333333e-07,
      "loss": 0.047,
      "reward": 0.4236111255983512,
      "reward_std": 0.4178568907082081,
      "rewards/equation_reward_func": 0.4097222325702508,
      "rewards/format_reward_func": 0.013888889302810034,
      "step": 84
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 442.4930648803711,
      "epoch": 0.16277602523659307,
      "grad_norm": 1.3770817743623749,
      "kl": 0.0006133715311686198,
      "learning_rate": 2.388888888888889e-07,
      "loss": 0.0004,
      "reward": 0.4166666753590107,
      "reward_std": 0.37612894798318547,
      "rewards/equation_reward_func": 0.3958333469927311,
      "rewards/format_reward_func": 0.02083333395421505,
      "step": 86
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 443.9444529215495,
      "epoch": 0.1665615141955836,
      "grad_norm": 1.4650231298226628,
      "kl": 0.0006745656331380209,
      "learning_rate": 2.4444444444444445e-07,
      "loss": -0.0017,
      "reward": 0.3750000111758709,
      "reward_std": 0.3954201638698578,
      "rewards/equation_reward_func": 0.36805556652446586,
      "rewards/format_reward_func": 0.006944444651405017,
      "step": 88
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 429.5069630940755,
      "epoch": 0.17034700315457413,
      "grad_norm": 1.9750543844698667,
      "kl": 0.000976403554280599,
      "learning_rate": 2.5e-07,
      "loss": 0.0418,
      "reward": 0.36805556528270245,
      "reward_std": 0.4254308380186558,
      "rewards/equation_reward_func": 0.34027778543531895,
      "rewards/format_reward_func": 0.027777778605620067,
      "step": 90
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 414.8263982137044,
      "epoch": 0.17413249211356466,
      "grad_norm": 3.4819218815816417,
      "kl": 0.000812689463297526,
      "learning_rate": 2.5555555555555553e-07,
      "loss": -0.073,
      "reward": 0.4166666766007741,
      "reward_std": 0.3864077205459277,
      "rewards/equation_reward_func": 0.4097222313284874,
      "rewards/format_reward_func": 0.006944444651405017,
      "step": 92
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 358.4236195882161,
      "epoch": 0.17791798107255521,
      "grad_norm": 3.17839003794858,
      "kl": 0.0010786056518554688,
      "learning_rate": 2.6111111111111113e-07,
      "loss": 0.0271,
      "reward": 0.4305555634200573,
      "reward_std": 0.4322568451364835,
      "rewards/equation_reward_func": 0.4027777872979641,
      "rewards/format_reward_func": 0.027777778605620067,
      "step": 94
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 421.7361208597819,
      "epoch": 0.18170347003154574,
      "grad_norm": 1.581354739245434,
      "kl": 0.0016581217447916667,
      "learning_rate": 2.6666666666666667e-07,
      "loss": -0.0128,
      "reward": 0.40972223194936913,
      "reward_std": 0.4322179468969504,
      "rewards/equation_reward_func": 0.40277778667708236,
      "rewards/format_reward_func": 0.006944444651405017,
      "step": 96
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 378.01390075683594,
      "epoch": 0.18548895899053627,
      "grad_norm": 1.6207630586247244,
      "kl": 0.0008861223856608073,
      "learning_rate": 2.7222222222222216e-07,
      "loss": -0.0275,
      "reward": 0.48611112001041573,
      "reward_std": 0.38690390810370445,
      "rewards/equation_reward_func": 0.4513888992369175,
      "rewards/format_reward_func": 0.034722223257025085,
      "step": 98
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 410.0486208597819,
      "epoch": 0.1892744479495268,
      "grad_norm": 1.6017744101080356,
      "kl": 0.0018717447916666667,
      "learning_rate": 2.7777777777777776e-07,
      "loss": 0.0666,
      "reward": 0.4166666778425376,
      "reward_std": 0.4304381770392259,
      "rewards/equation_reward_func": 0.38888889489074546,
      "rewards/format_reward_func": 0.027777778605620067,
      "step": 100
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 417.06945546468097,
      "epoch": 0.19305993690851736,
      "grad_norm": 1.781222955044469,
      "kl": 0.0016377766927083333,
      "learning_rate": 2.833333333333333e-07,
      "loss": 0.01,
      "reward": 0.3750000037252903,
      "reward_std": 0.4017697374025981,
      "rewards/equation_reward_func": 0.3472222263614337,
      "rewards/format_reward_func": 0.027777778605620067,
      "step": 102
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 394.3333460489909,
      "epoch": 0.1968454258675079,
      "grad_norm": 2.071755215843617,
      "kl": 0.0020945866902669272,
      "learning_rate": 2.8888888888888885e-07,
      "loss": 0.0326,
      "reward": 0.46527778543531895,
      "reward_std": 0.4230251908302307,
      "rewards/equation_reward_func": 0.42361111876865226,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 104
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 381.5902913411458,
      "epoch": 0.20063091482649842,
      "grad_norm": 4.141898501255106,
      "kl": 0.002117792765299479,
      "learning_rate": 2.9444444444444444e-07,
      "loss": 0.0573,
      "reward": 0.3819444632778565,
      "reward_std": 0.35283846283952397,
      "rewards/equation_reward_func": 0.36111112249394256,
      "rewards/format_reward_func": 0.02083333395421505,
      "step": 106
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 427.81251271565753,
      "epoch": 0.20441640378548895,
      "grad_norm": 1.8973650475253758,
      "kl": 0.0040442148844401045,
      "learning_rate": 3e-07,
      "loss": 0.0408,
      "reward": 0.40277778543531895,
      "reward_std": 0.3682141068081061,
      "rewards/equation_reward_func": 0.38194445582727593,
      "rewards/format_reward_func": 0.02083333395421505,
      "step": 108
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 419.87501017252606,
      "epoch": 0.2082018927444795,
      "grad_norm": 1.7756216737476342,
      "kl": 0.0018666585286458333,
      "learning_rate": 3.055555555555556e-07,
      "loss": -0.0149,
      "reward": 0.4722222350537777,
      "reward_std": 0.4178180123368899,
      "rewards/equation_reward_func": 0.45833334513008595,
      "rewards/format_reward_func": 0.013888889302810034,
      "step": 110
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 418.2222315470378,
      "epoch": 0.21198738170347003,
      "grad_norm": 1.5674546331115733,
      "kl": 0.0031108856201171875,
      "learning_rate": 3.111111111111111e-07,
      "loss": -0.0077,
      "reward": 0.36805556279917556,
      "reward_std": 0.36998799939950305,
      "rewards/equation_reward_func": 0.34027778543531895,
      "rewards/format_reward_func": 0.027777778605620067,
      "step": 112
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 365.8333460489909,
      "epoch": 0.21577287066246056,
      "grad_norm": 2.163488952988276,
      "kl": 0.003872553507486979,
      "learning_rate": 3.166666666666666e-07,
      "loss": 0.0248,
      "reward": 0.44444446079432964,
      "reward_std": 0.44138550013303757,
      "rewards/equation_reward_func": 0.41666667722165585,
      "rewards/format_reward_func": 0.027777778605620067,
      "step": 114
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 377.95140329996747,
      "epoch": 0.2195583596214511,
      "grad_norm": 1.9890628606938958,
      "kl": 0.0058383941650390625,
      "learning_rate": 3.222222222222222e-07,
      "loss": 0.0108,
      "reward": 0.44444446203609306,
      "reward_std": 0.4227793253958225,
      "rewards/equation_reward_func": 0.4097222338120143,
      "rewards/format_reward_func": 0.034722223257025085,
      "step": 116
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 390.0833485921224,
      "epoch": 0.22334384858044165,
      "grad_norm": 1.6950159200633848,
      "kl": 0.0033391316731770835,
      "learning_rate": 3.2777777777777776e-07,
      "loss": 0.0218,
      "reward": 0.5000000149011612,
      "reward_std": 0.46135225395361584,
      "rewards/equation_reward_func": 0.472222238779068,
      "rewards/format_reward_func": 0.027777778605620067,
      "step": 118
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 434.47223409016925,
      "epoch": 0.22712933753943218,
      "grad_norm": 1.6912972588519333,
      "kl": 0.0037129720052083335,
      "learning_rate": 3.333333333333333e-07,
      "loss": 0.0303,
      "reward": 0.402777789781491,
      "reward_std": 0.37431980296969414,
      "rewards/equation_reward_func": 0.3888888992369175,
      "rewards/format_reward_func": 0.013888889302810034,
      "step": 120
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 379.2916768391927,
      "epoch": 0.2309148264984227,
      "grad_norm": 1.7665244345202618,
      "kl": 0.010921478271484375,
      "learning_rate": 3.388888888888889e-07,
      "loss": 0.0464,
      "reward": 0.38194445086022216,
      "reward_std": 0.3815583561857541,
      "rewards/equation_reward_func": 0.3402777835726738,
      "rewards/format_reward_func": 0.041666667287548385,
      "step": 122
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 346.40973409016925,
      "epoch": 0.23470031545741324,
      "grad_norm": 1.7777246622024319,
      "kl": 0.0057525634765625,
      "learning_rate": 3.4444444444444444e-07,
      "loss": 0.073,
      "reward": 0.5555555739750465,
      "reward_std": 0.5072049958010515,
      "rewards/equation_reward_func": 0.5138889104127884,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 124
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 394.50001525878906,
      "epoch": 0.2384858044164038,
      "grad_norm": 1.2724495191880816,
      "kl": 0.005407969156901042,
      "learning_rate": 3.5e-07,
      "loss": 0.0085,
      "reward": 0.5416666809469461,
      "reward_std": 0.4325893906255563,
      "rewards/equation_reward_func": 0.5138889035830895,
      "rewards/format_reward_func": 0.027777778605620067,
      "step": 126
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 426.51390584309894,
      "epoch": 0.24227129337539433,
      "grad_norm": 1.7084837781655138,
      "kl": 0.013666788736979166,
      "learning_rate": 3.5555555555555553e-07,
      "loss": -0.0031,
      "reward": 0.40277779288589954,
      "reward_std": 0.4025290633241336,
      "rewards/equation_reward_func": 0.36805557149151963,
      "rewards/format_reward_func": 0.034722223257025085,
      "step": 128
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 393.2986195882161,
      "epoch": 0.24605678233438485,
      "grad_norm": 1.6652131128084247,
      "kl": 0.009862263997395834,
      "learning_rate": 3.6111111111111107e-07,
      "loss": 0.076,
      "reward": 0.5277777922650179,
      "reward_std": 0.4298570702473323,
      "rewards/equation_reward_func": 0.5000000111758709,
      "rewards/format_reward_func": 0.027777778605620067,
      "step": 130
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 387.29862213134766,
      "epoch": 0.24984227129337538,
      "grad_norm": 1.4235829543070357,
      "kl": 0.006196339925130208,
      "learning_rate": 3.666666666666666e-07,
      "loss": 0.0928,
      "reward": 0.5763888955116272,
      "reward_std": 0.4299643337726593,
      "rewards/equation_reward_func": 0.5277777959903082,
      "rewards/format_reward_func": 0.048611112559835114,
      "step": 132
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 412.95140329996747,
      "epoch": 0.25362776025236594,
      "grad_norm": 1.5899891064412919,
      "kl": 0.010592142740885416,
      "learning_rate": 3.722222222222222e-07,
      "loss": -0.0172,
      "reward": 0.46527778543531895,
      "reward_std": 0.4477427862584591,
      "rewards/equation_reward_func": 0.39583334264655906,
      "rewards/format_reward_func": 0.06944444589316845,
      "step": 134
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 375.7916768391927,
      "epoch": 0.25741324921135644,
      "grad_norm": 1.8581102947843942,
      "kl": 0.0097503662109375,
      "learning_rate": 3.7777777777777775e-07,
      "loss": 0.0656,
      "reward": 0.3819444539646308,
      "reward_std": 0.4159533294538657,
      "rewards/equation_reward_func": 0.3263888979951541,
      "rewards/format_reward_func": 0.055555557211240135,
      "step": 136
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 402.8333460489909,
      "epoch": 0.261198738170347,
      "grad_norm": 1.8615199132284905,
      "kl": 0.00942230224609375,
      "learning_rate": 3.8333333333333335e-07,
      "loss": 0.1235,
      "reward": 0.3958333407839139,
      "reward_std": 0.4607119709253311,
      "rewards/equation_reward_func": 0.33333334637184936,
      "rewards/format_reward_func": 0.06250000186264515,
      "step": 138
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 388.50695037841797,
      "epoch": 0.26498422712933756,
      "grad_norm": 1.4132445755845657,
      "kl": 0.031420389811197914,
      "learning_rate": 3.888888888888889e-07,
      "loss": -0.0025,
      "reward": 0.6388889079292616,
      "reward_std": 0.4517383811374505,
      "rewards/equation_reward_func": 0.5972222362955412,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 140
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 399.69445546468097,
      "epoch": 0.26876971608832806,
      "grad_norm": 1.6231049342643675,
      "kl": 0.011019388834635416,
      "learning_rate": 3.9444444444444444e-07,
      "loss": -0.0123,
      "reward": 0.5486111268401146,
      "reward_std": 0.4811764856179555,
      "rewards/equation_reward_func": 0.486111119389534,
      "rewards/format_reward_func": 0.06250000186264515,
      "step": 142
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 386.03473409016925,
      "epoch": 0.2725552050473186,
      "grad_norm": 1.5773905454247337,
      "kl": 0.04953765869140625,
      "learning_rate": 4e-07,
      "loss": 0.0301,
      "reward": 0.5486111262192329,
      "reward_std": 0.44820784653226536,
      "rewards/equation_reward_func": 0.48611111876865226,
      "rewards/format_reward_func": 0.06250000124176343,
      "step": 144
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 398.125005086263,
      "epoch": 0.2763406940063092,
      "grad_norm": 1.2456280183136625,
      "kl": 0.025739034016927082,
      "learning_rate": 4.055555555555555e-07,
      "loss": 0.0387,
      "reward": 0.5000000186264515,
      "reward_std": 0.321004219353199,
      "rewards/equation_reward_func": 0.4444444552063942,
      "rewards/format_reward_func": 0.055555557211240135,
      "step": 146
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 366.2986195882161,
      "epoch": 0.2801261829652997,
      "grad_norm": 1.5044443965642595,
      "kl": 0.021631876627604168,
      "learning_rate": 4.1111111111111107e-07,
      "loss": 0.0575,
      "reward": 0.43055557273328304,
      "reward_std": 0.34387076273560524,
      "rewards/equation_reward_func": 0.38888889613250893,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 148
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 372.86112721761066,
      "epoch": 0.28391167192429023,
      "grad_norm": 2.033550282447034,
      "kl": 0.02593231201171875,
      "learning_rate": 4.1666666666666667e-07,
      "loss": 0.1121,
      "reward": 0.6805555721124014,
      "reward_std": 0.5391590123375257,
      "rewards/equation_reward_func": 0.5486111287027597,
      "rewards/format_reward_func": 0.1319444477558136,
      "step": 150
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 340.0138969421387,
      "epoch": 0.28769716088328073,
      "grad_norm": 2.2987693590791363,
      "kl": 0.0315399169921875,
      "learning_rate": 4.222222222222222e-07,
      "loss": 0.0078,
      "reward": 0.5694444663822651,
      "reward_std": 0.4559611765046914,
      "rewards/equation_reward_func": 0.45833334761361283,
      "rewards/format_reward_func": 0.11111111318071683,
      "step": 152
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 378.94445546468097,
      "epoch": 0.2914826498422713,
      "grad_norm": 1.9562773273854706,
      "kl": 0.09186299641927083,
      "learning_rate": 4.2777777777777775e-07,
      "loss": 0.0201,
      "reward": 0.6041666741172472,
      "reward_std": 0.49037906900048256,
      "rewards/equation_reward_func": 0.500000017384688,
      "rewards/format_reward_func": 0.10416666915019353,
      "step": 154
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 360.2152913411458,
      "epoch": 0.29526813880126185,
      "grad_norm": 1.8560446617911341,
      "kl": 0.060872395833333336,
      "learning_rate": 4.3333333333333335e-07,
      "loss": 0.0208,
      "reward": 0.5208333457509676,
      "reward_std": 0.4362143650650978,
      "rewards/equation_reward_func": 0.4444444564481576,
      "rewards/format_reward_func": 0.07638888992369175,
      "step": 156
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 397.4930725097656,
      "epoch": 0.29905362776025235,
      "grad_norm": 1.7722682766121323,
      "kl": 0.03704833984375,
      "learning_rate": 4.3888888888888884e-07,
      "loss": 0.087,
      "reward": 0.6736111355324587,
      "reward_std": 0.4783005639910698,
      "rewards/equation_reward_func": 0.5277777922650179,
      "rewards/format_reward_func": 0.14583333705862364,
      "step": 158
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 340.4583485921224,
      "epoch": 0.3028391167192429,
      "grad_norm": 1.8020563834520036,
      "kl": 0.052164713541666664,
      "learning_rate": 4.444444444444444e-07,
      "loss": 0.0567,
      "reward": 0.4791666753590107,
      "reward_std": 0.42059509828686714,
      "rewards/equation_reward_func": 0.4027777860562007,
      "rewards/format_reward_func": 0.07638888992369175,
      "step": 160
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 331.2986234029134,
      "epoch": 0.30662460567823346,
      "grad_norm": 1.816923697504477,
      "kl": 0.14789835611979166,
      "learning_rate": 4.5e-07,
      "loss": 0.0408,
      "reward": 0.6319444521019856,
      "reward_std": 0.40209560344616574,
      "rewards/equation_reward_func": 0.5208333420256773,
      "rewards/format_reward_func": 0.11111111318071683,
      "step": 162
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 374.74306615193683,
      "epoch": 0.31041009463722397,
      "grad_norm": 1.6763316060977995,
      "kl": 0.04315185546875,
      "learning_rate": 4.555555555555555e-07,
      "loss": 0.0657,
      "reward": 0.652777798473835,
      "reward_std": 0.47464097539583844,
      "rewards/equation_reward_func": 0.4722222313284874,
      "rewards/format_reward_func": 0.180555559694767,
      "step": 164
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 377.5416768391927,
      "epoch": 0.3141955835962145,
      "grad_norm": 1.6769854770195711,
      "kl": 0.069580078125,
      "learning_rate": 4.611111111111111e-07,
      "loss": 0.0887,
      "reward": 0.6527777897814909,
      "reward_std": 0.5109836533665657,
      "rewards/equation_reward_func": 0.4722222400208314,
      "rewards/format_reward_func": 0.180555559694767,
      "step": 166
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 355.3680648803711,
      "epoch": 0.317981072555205,
      "grad_norm": 1.5011515214179916,
      "kl": 0.19896443684895834,
      "learning_rate": 4.6666666666666666e-07,
      "loss": 0.0834,
      "reward": 0.7638889228304228,
      "reward_std": 0.5609942426284155,
      "rewards/equation_reward_func": 0.569444460173448,
      "rewards/format_reward_func": 0.1944444483766953,
      "step": 168
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 353.7361195882161,
      "epoch": 0.3217665615141956,
      "grad_norm": 15.47233883807027,
      "kl": 0.056732177734375,
      "learning_rate": 4.722222222222222e-07,
      "loss": 0.0426,
      "reward": 0.7500000124176344,
      "reward_std": 0.5186516791582108,
      "rewards/equation_reward_func": 0.5000000161429247,
      "rewards/format_reward_func": 0.25000000931322575,
      "step": 170
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 308.31251017252606,
      "epoch": 0.32555205047318614,
      "grad_norm": 2.1360230493136325,
      "kl": 0.19114176432291666,
      "learning_rate": 4.777777777777778e-07,
      "loss": 0.1307,
      "reward": 0.8055555882553259,
      "reward_std": 0.5721215779582659,
      "rewards/equation_reward_func": 0.5000000086923441,
      "rewards/format_reward_func": 0.30555556404093903,
      "step": 172
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 314.75000762939453,
      "epoch": 0.32933753943217664,
      "grad_norm": 2.7019951929627415,
      "kl": 0.1749267578125,
      "learning_rate": 4.833333333333333e-07,
      "loss": 0.0575,
      "reward": 0.826388897995154,
      "reward_std": 0.5692646453777949,
      "rewards/equation_reward_func": 0.5138889017204443,
      "rewards/format_reward_func": 0.312500008692344,
      "step": 174
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 297.9722328186035,
      "epoch": 0.3331230283911672,
      "grad_norm": 2.3496202759776788,
      "kl": 0.3324991861979167,
      "learning_rate": 4.888888888888889e-07,
      "loss": 0.0734,
      "reward": 0.868055577079455,
      "reward_std": 0.6303805137674013,
      "rewards/equation_reward_func": 0.486111128081878,
      "rewards/format_reward_func": 0.3819444564481576,
      "step": 176
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 349.2708384195964,
      "epoch": 0.33690851735015775,
      "grad_norm": 7.352824169943818,
      "kl": 0.4977823893229167,
      "learning_rate": 4.944444444444445e-07,
      "loss": 0.0453,
      "reward": 0.770833362514774,
      "reward_std": 0.6322847319145998,
      "rewards/equation_reward_func": 0.3958333370586236,
      "rewards/format_reward_func": 0.37500001179675263,
      "step": 178
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 297.1666781107585,
      "epoch": 0.34069400630914826,
      "grad_norm": 24.940449042597443,
      "kl": 4.795857747395833,
      "learning_rate": 5e-07,
      "loss": 0.0703,
      "reward": 1.0555555820465088,
      "reward_std": 0.5782317991058031,
      "rewards/equation_reward_func": 0.5555555745959282,
      "rewards/format_reward_func": 0.5000000211099783,
      "step": 180
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 271.9027849833171,
      "epoch": 0.3444794952681388,
      "grad_norm": 2.5871456184851414,
      "kl": 14.199259440104166,
      "learning_rate": 4.999998543120144e-07,
      "loss": 0.0763,
      "reward": 1.0902778108914692,
      "reward_std": 0.5762393027544022,
      "rewards/equation_reward_func": 0.5694444589316845,
      "rewards/format_reward_func": 0.5208333482344946,
      "step": 182
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 309.31250890096027,
      "epoch": 0.3482649842271293,
      "grad_norm": 2.0327389699765313,
      "kl": 0.7781168619791666,
      "learning_rate": 4.999994172482276e-07,
      "loss": 0.1347,
      "reward": 0.895833358168602,
      "reward_std": 0.5533264875411987,
      "rewards/equation_reward_func": 0.43750001055498916,
      "rewards/format_reward_func": 0.4583333469927311,
      "step": 184
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 268.13889567057294,
      "epoch": 0.35205047318611987,
      "grad_norm": 15.941396290884985,
      "kl": 4.468831380208333,
      "learning_rate": 4.99998688809149e-07,
      "loss": 0.0794,
      "reward": 0.979166696468989,
      "reward_std": 0.5592605446775755,
      "rewards/equation_reward_func": 0.38194445582727593,
      "rewards/format_reward_func": 0.5972222338120142,
      "step": 186
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 247.0416742960612,
      "epoch": 0.35583596214511043,
      "grad_norm": 2.4432100547197657,
      "kl": 0.603515625,
      "learning_rate": 4.999976689956274e-07,
      "loss": 0.023,
      "reward": 1.1041666915019352,
      "reward_std": 0.5778869986534119,
      "rewards/equation_reward_func": 0.5138888973742723,
      "rewards/format_reward_func": 0.5902777935067812,
      "step": 188
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 248.41667302449545,
      "epoch": 0.35962145110410093,
      "grad_norm": 4.823568956607298,
      "kl": 1.6413167317708333,
      "learning_rate": 4.999963578088516e-07,
      "loss": 0.0856,
      "reward": 1.0694444874922435,
      "reward_std": 0.719012883802255,
      "rewards/equation_reward_func": 0.5069444564481577,
      "rewards/format_reward_func": 0.562500017384688,
      "step": 190
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 273.97917556762695,
      "epoch": 0.3634069400630915,
      "grad_norm": 2.743096965012267,
      "kl": 0.9237467447916666,
      "learning_rate": 4.999947552503497e-07,
      "loss": 0.1483,
      "reward": 1.1319444874922435,
      "reward_std": 0.6314157545566559,
      "rewards/equation_reward_func": 0.5208333457509676,
      "rewards/format_reward_func": 0.6111111268401146,
      "step": 192
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 246.41667556762695,
      "epoch": 0.36719242902208205,
      "grad_norm": 2.638981910331043,
      "kl": 0.8427327473958334,
      "learning_rate": 4.999928613219894e-07,
      "loss": 0.1078,
      "reward": 1.0625000471870105,
      "reward_std": 0.6069262598951658,
      "rewards/equation_reward_func": 0.4583333469927311,
      "rewards/format_reward_func": 0.6041666877766451,
      "step": 194
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 273.4652849833171,
      "epoch": 0.37097791798107255,
      "grad_norm": 3.1586256673049946,
      "kl": 0.6038411458333334,
      "learning_rate": 4.999906760259783e-07,
      "loss": 0.0848,
      "reward": 1.1944444874922435,
      "reward_std": 0.5770174351831278,
      "rewards/equation_reward_func": 0.548611123735706,
      "rewards/format_reward_func": 0.6458333482344946,
      "step": 196
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 279.87500762939453,
      "epoch": 0.3747634069400631,
      "grad_norm": 2.3306411923794284,
      "kl": 0.4184977213541667,
      "learning_rate": 4.999881993648632e-07,
      "loss": 0.1264,
      "reward": 1.1805555820465088,
      "reward_std": 0.5819496115048727,
      "rewards/equation_reward_func": 0.506944460173448,
      "rewards/format_reward_func": 0.6736111318071684,
      "step": 198
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 285.9930610656738,
      "epoch": 0.3785488958990536,
      "grad_norm": 2.9295320476594964,
      "kl": 0.7996622721354166,
      "learning_rate": 4.999854313415308e-07,
      "loss": 0.1193,
      "reward": 1.1388889302810032,
      "reward_std": 0.5301796098550161,
      "rewards/equation_reward_func": 0.39583334264655906,
      "rewards/format_reward_func": 0.7430555721124014,
      "step": 200
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 269.12500890096027,
      "epoch": 0.38233438485804416,
      "grad_norm": 2.6552410076798028,
      "kl": 1.19091796875,
      "learning_rate": 4.999823719592071e-07,
      "loss": 0.216,
      "reward": 1.2777778208255768,
      "reward_std": 0.5021173569063345,
      "rewards/equation_reward_func": 0.506944457689921,
      "rewards/format_reward_func": 0.7708333532015482,
      "step": 202
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 274.5069516499837,
      "epoch": 0.3861198738170347,
      "grad_norm": 5.1879891100690285,
      "kl": 2.9518229166666665,
      "learning_rate": 4.999790212214579e-07,
      "loss": 0.1756,
      "reward": 1.2430555870135624,
      "reward_std": 0.58441444983085,
      "rewards/equation_reward_func": 0.479166679084301,
      "rewards/format_reward_func": 0.7638889054457346,
      "step": 204
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 248.79167302449545,
      "epoch": 0.3899053627760252,
      "grad_norm": 3.1959715484572917,
      "kl": 1.0735677083333333,
      "learning_rate": 4.999753791321885e-07,
      "loss": 0.1732,
      "reward": 1.3750000496705372,
      "reward_std": 0.5170091787974039,
      "rewards/equation_reward_func": 0.5902777947485447,
      "rewards/format_reward_func": 0.7847222487131754,
      "step": 206
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 244.10417302449545,
      "epoch": 0.3936908517350158,
      "grad_norm": 14.582535270082563,
      "kl": 6.297200520833333,
      "learning_rate": 4.999714456956438e-07,
      "loss": 0.0727,
      "reward": 1.2986111442248027,
      "reward_std": 0.5151846868296465,
      "rewards/equation_reward_func": 0.5069444552063942,
      "rewards/format_reward_func": 0.7916666815678278,
      "step": 208
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 242.52778244018555,
      "epoch": 0.39747634069400634,
      "grad_norm": 151.19489080244557,
      "kl": 27.640625,
      "learning_rate": 4.99967220916408e-07,
      "loss": 0.0915,
      "reward": 1.3958333532015483,
      "reward_std": 0.48437386751174927,
      "rewards/equation_reward_func": 0.5486111175268888,
      "rewards/format_reward_func": 0.8472222437461218,
      "step": 210
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 185.7916717529297,
      "epoch": 0.40126182965299684,
      "grad_norm": 37.78796510721226,
      "kl": 9.738444010416666,
      "learning_rate": 4.999627047994053e-07,
      "loss": 0.0349,
      "reward": 1.4375000596046448,
      "reward_std": 0.48517493655284244,
      "rewards/equation_reward_func": 0.5763889048248529,
      "rewards/format_reward_func": 0.8611111342906952,
      "step": 212
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 248.83333841959634,
      "epoch": 0.4050473186119874,
      "grad_norm": 15.557449401743996,
      "kl": 1.7869466145833333,
      "learning_rate": 4.999578973498994e-07,
      "loss": 0.0905,
      "reward": 1.2916667064030964,
      "reward_std": 0.5043560986717542,
      "rewards/equation_reward_func": 0.4652777872979641,
      "rewards/format_reward_func": 0.8263889054457346,
      "step": 214
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 221.31945164998373,
      "epoch": 0.4088328075709779,
      "grad_norm": 2.746698671118404,
      "kl": 2.4767252604166665,
      "learning_rate": 4.999527985734931e-07,
      "loss": 0.1176,
      "reward": 1.3958333681027095,
      "reward_std": 0.4606535832087199,
      "rewards/equation_reward_func": 0.5486111280818781,
      "rewards/format_reward_func": 0.8472222437461218,
      "step": 216
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 265.2291742960612,
      "epoch": 0.41261829652996845,
      "grad_norm": 8.47115489110944,
      "kl": 2.67626953125,
      "learning_rate": 4.999474084761293e-07,
      "loss": 0.1801,
      "reward": 1.4375000496705372,
      "reward_std": 0.4704290193816026,
      "rewards/equation_reward_func": 0.5763889029622078,
      "rewards/format_reward_func": 0.8611111293236414,
      "step": 218
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 216.90278498331705,
      "epoch": 0.416403785488959,
      "grad_norm": 2.6419184728296528,
      "kl": 1.8723958333333333,
      "learning_rate": 4.999417270640898e-07,
      "loss": 0.0151,
      "reward": 1.3125000447034836,
      "reward_std": 0.5176352287332217,
      "rewards/equation_reward_func": 0.4513888967533906,
      "rewards/format_reward_func": 0.8611111342906952,
      "step": 220
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 237.16667556762695,
      "epoch": 0.4201892744479495,
      "grad_norm": 3.5632903162508525,
      "kl": 1.9169108072916667,
      "learning_rate": 4.999357543439968e-07,
      "loss": 0.2532,
      "reward": 1.3263889302810032,
      "reward_std": 0.46584198499719304,
      "rewards/equation_reward_func": 0.44444444961845875,
      "rewards/format_reward_func": 0.8819444676240286,
      "step": 222
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 250.10417048136392,
      "epoch": 0.42397476340694007,
      "grad_norm": 2.836432685345919,
      "kl": 2.11572265625,
      "learning_rate": 4.999294903228113e-07,
      "loss": 0.0877,
      "reward": 1.3541666964689891,
      "reward_std": 0.5378451521197954,
      "rewards/equation_reward_func": 0.5347222381581863,
      "rewards/format_reward_func": 0.8194444676240286,
      "step": 224
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 256.95139439900714,
      "epoch": 0.4277602523659306,
      "grad_norm": 15.018378327595181,
      "kl": 8.984842936197916,
      "learning_rate": 4.999229350078339e-07,
      "loss": 0.116,
      "reward": 1.4513889253139496,
      "reward_std": 0.4579727239906788,
      "rewards/equation_reward_func": 0.562500019868215,
      "rewards/format_reward_func": 0.8888889054457346,
      "step": 226
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 249.65973154703775,
      "epoch": 0.43154574132492113,
      "grad_norm": 2.9312130360707225,
      "kl": 1.6197916666666667,
      "learning_rate": 4.99916088406705e-07,
      "loss": 0.1031,
      "reward": 1.4722222586472828,
      "reward_std": 0.491986704369386,
      "rewards/equation_reward_func": 0.5763889017204443,
      "rewards/format_reward_func": 0.895833358168602,
      "step": 228
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 237.29167048136392,
      "epoch": 0.4353312302839117,
      "grad_norm": 318.50068999038837,
      "kl": 10.434326171875,
      "learning_rate": 4.999089505274044e-07,
      "loss": 0.073,
      "reward": 1.326388920346896,
      "reward_std": 0.42563923199971515,
      "rewards/equation_reward_func": 0.4375000149011612,
      "rewards/format_reward_func": 0.8888889153798422,
      "step": 230
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 247.90973027547201,
      "epoch": 0.4391167192429022,
      "grad_norm": 4.524241932647995,
      "kl": 1.73681640625,
      "learning_rate": 4.999015213782511e-07,
      "loss": 0.0973,
      "reward": 1.4375000496705372,
      "reward_std": 0.5439534323910872,
      "rewards/equation_reward_func": 0.6597222462296486,
      "rewards/format_reward_func": 0.7777777959903082,
      "step": 232
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 241.83334096272787,
      "epoch": 0.44290220820189274,
      "grad_norm": 2.1566548938944345,
      "kl": 6.7578125,
      "learning_rate": 4.998938009679042e-07,
      "loss": 0.0664,
      "reward": 1.4027778307596843,
      "reward_std": 0.5103383002181848,
      "rewards/equation_reward_func": 0.5972222362955412,
      "rewards/format_reward_func": 0.8055555820465088,
      "step": 234
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 265.61112213134766,
      "epoch": 0.4466876971608833,
      "grad_norm": 10.590567425193024,
      "kl": 1.2277018229166667,
      "learning_rate": 4.998857893053613e-07,
      "loss": 0.0824,
      "reward": 1.4166666964689891,
      "reward_std": 0.5057607839504877,
      "rewards/equation_reward_func": 0.5555555745959282,
      "rewards/format_reward_func": 0.8611111342906952,
      "step": 236
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 270.2361195882161,
      "epoch": 0.4504731861198738,
      "grad_norm": 2.807056262560773,
      "kl": 2.3780517578125,
      "learning_rate": 4.998774863999605e-07,
      "loss": 0.1143,
      "reward": 1.3888889302810032,
      "reward_std": 0.38816434393326443,
      "rewards/equation_reward_func": 0.5138889023413261,
      "rewards/format_reward_func": 0.8750000149011612,
      "step": 238
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 282.70834096272785,
      "epoch": 0.45425867507886436,
      "grad_norm": 3.1612686868215154,
      "kl": 1.0327962239583333,
      "learning_rate": 4.998688922613787e-07,
      "loss": 0.0685,
      "reward": 1.4305555919806163,
      "reward_std": 0.5549860845009486,
      "rewards/equation_reward_func": 0.6041666784634193,
      "rewards/format_reward_func": 0.8263889104127884,
      "step": 240
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 215.09722646077475,
      "epoch": 0.4580441640378549,
      "grad_norm": 2.621718223845123,
      "kl": 6.5284423828125,
      "learning_rate": 4.998600068996324e-07,
      "loss": 0.099,
      "reward": 1.319444477558136,
      "reward_std": 0.42932410165667534,
      "rewards/equation_reward_func": 0.5000000211099783,
      "rewards/format_reward_func": 0.8194444626569748,
      "step": 242
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 264.2569529215495,
      "epoch": 0.4618296529968454,
      "grad_norm": 4.352484643043419,
      "kl": 0.9919026692708334,
      "learning_rate": 4.998508303250775e-07,
      "loss": 0.0482,
      "reward": 1.48611115415891,
      "reward_std": 0.5396140466133753,
      "rewards/equation_reward_func": 0.6041666865348816,
      "rewards/format_reward_func": 0.8819444527228674,
      "step": 244
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 243.7986183166504,
      "epoch": 0.465615141955836,
      "grad_norm": 5.13544206444599,
      "kl": 2.6465657552083335,
      "learning_rate": 4.998413625484094e-07,
      "loss": 0.1093,
      "reward": 1.2500000298023224,
      "reward_std": 0.4689197850724061,
      "rewards/equation_reward_func": 0.43055556155741215,
      "rewards/format_reward_func": 0.8194444676240286,
      "step": 246
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 251.54167302449545,
      "epoch": 0.4694006309148265,
      "grad_norm": 2.679299182739803,
      "kl": 0.9150797526041666,
      "learning_rate": 4.998316035806628e-07,
      "loss": 0.1428,
      "reward": 1.3888889253139496,
      "reward_std": 0.47515800098578137,
      "rewards/equation_reward_func": 0.5486111318071684,
      "rewards/format_reward_func": 0.8402777910232544,
      "step": 248
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 268.2152837117513,
      "epoch": 0.47318611987381703,
      "grad_norm": 1.8553455629336253,
      "kl": 1.0334065755208333,
      "learning_rate": 4.998215534332118e-07,
      "loss": 0.0777,
      "reward": 1.4861111640930176,
      "reward_std": 0.40932964409391087,
      "rewards/equation_reward_func": 0.6250000124176344,
      "rewards/format_reward_func": 0.8611111293236414,
      "step": 250
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 267.91667556762695,
      "epoch": 0.4769716088328076,
      "grad_norm": 2.3104189096021246,
      "kl": 1.7921549479166667,
      "learning_rate": 4.998112121177698e-07,
      "loss": 0.0391,
      "reward": 1.3888889253139496,
      "reward_std": 0.4704259845117728,
      "rewards/equation_reward_func": 0.5138889048248529,
      "rewards/format_reward_func": 0.8750000149011612,
      "step": 252
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 244.9861183166504,
      "epoch": 0.4807570977917981,
      "grad_norm": 5.244107644705432,
      "kl": 3.0703328450520835,
      "learning_rate": 4.9980057964639e-07,
      "loss": 0.1144,
      "reward": 1.3680555870135624,
      "reward_std": 0.3652517894903819,
      "rewards/equation_reward_func": 0.4444444552063942,
      "rewards/format_reward_func": 0.9236111243565878,
      "step": 254
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 242.57639694213867,
      "epoch": 0.48454258675078865,
      "grad_norm": 3.0461805649624036,
      "kl": 0.55810546875,
      "learning_rate": 4.99789656031464e-07,
      "loss": 0.1251,
      "reward": 1.451388915379842,
      "reward_std": 0.43821969131628674,
      "rewards/equation_reward_func": 0.5416666828095913,
      "rewards/format_reward_func": 0.9097222437461218,
      "step": 256
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 268.93056360880536,
      "epoch": 0.48832807570977915,
      "grad_norm": 2.7875837232126814,
      "kl": 19.790120442708332,
      "learning_rate": 4.997784412857239e-07,
      "loss": 0.1328,
      "reward": 1.4444445073604584,
      "reward_std": 0.481424443423748,
      "rewards/equation_reward_func": 0.5625000136593977,
      "rewards/format_reward_func": 0.881944457689921,
      "step": 258
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 243.06944783528647,
      "epoch": 0.4921135646687697,
      "grad_norm": 3.3379512405703986,
      "kl": 2.3311360677083335,
      "learning_rate": 4.997669354222401e-07,
      "loss": 0.0831,
      "reward": 1.4444444874922435,
      "reward_std": 0.48848551760117215,
      "rewards/equation_reward_func": 0.5555555758376917,
      "rewards/format_reward_func": 0.8888889104127884,
      "step": 260
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 257.15972900390625,
      "epoch": 0.49589905362776027,
      "grad_norm": 5.920825260861832,
      "kl": 2.1470540364583335,
      "learning_rate": 4.99755138454423e-07,
      "loss": 0.0901,
      "reward": 1.4166667014360428,
      "reward_std": 0.40707051381468773,
      "rewards/equation_reward_func": 0.5208333519597849,
      "rewards/format_reward_func": 0.8958333532015482,
      "step": 262
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 275.7361208597819,
      "epoch": 0.49968454258675077,
      "grad_norm": 119.84927693026204,
      "kl": 16.074625651041668,
      "learning_rate": 4.997430503960219e-07,
      "loss": 0.1126,
      "reward": 1.4236111442248027,
      "reward_std": 0.44205466161171597,
      "rewards/equation_reward_func": 0.5347222350537777,
      "rewards/format_reward_func": 0.8888889104127884,
      "step": 264
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 283.8333396911621,
      "epoch": 0.5034700315457413,
      "grad_norm": 2.3654173997862147,
      "kl": 1.8214518229166667,
      "learning_rate": 4.997306712611255e-07,
      "loss": 0.1992,
      "reward": 1.4097222487131755,
      "reward_std": 0.4522901251912117,
      "rewards/equation_reward_func": 0.5416666778425375,
      "rewards/format_reward_func": 0.8680555721124014,
      "step": 266
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 255.3055648803711,
      "epoch": 0.5072555205047319,
      "grad_norm": 8.674419859591838,
      "kl": 1.6661783854166667,
      "learning_rate": 4.997180010641617e-07,
      "loss": 0.0642,
      "reward": 1.4236111640930176,
      "reward_std": 0.4788891275723775,
      "rewards/equation_reward_func": 0.5277777922650179,
      "rewards/format_reward_func": 0.8958333532015482,
      "step": 268
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 258.4166742960612,
      "epoch": 0.5110410094637224,
      "grad_norm": 4.561358423608036,
      "kl": 1.7342122395833333,
      "learning_rate": 4.997050398198976e-07,
      "loss": 0.008,
      "reward": 1.3125000496705372,
      "reward_std": 0.4775065655509631,
      "rewards/equation_reward_func": 0.39583334140479565,
      "rewards/format_reward_func": 0.9166666815678278,
      "step": 270
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 295.40278752644855,
      "epoch": 0.5148264984227129,
      "grad_norm": 3.607344267562202,
      "kl": 1.3319905598958333,
      "learning_rate": 4.996917875434397e-07,
      "loss": 0.0834,
      "reward": 1.36111115415891,
      "reward_std": 0.4735433558622996,
      "rewards/equation_reward_func": 0.46527778419355553,
      "rewards/format_reward_func": 0.8958333532015482,
      "step": 272
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 261.59722900390625,
      "epoch": 0.5186119873817034,
      "grad_norm": 2.5043328754943537,
      "kl": 1.7516276041666667,
      "learning_rate": 4.996782442502337e-07,
      "loss": 0.1104,
      "reward": 1.3750000496705372,
      "reward_std": 0.49132541194558144,
      "rewards/equation_reward_func": 0.49305557397504646,
      "rewards/format_reward_func": 0.8819444527228674,
      "step": 274
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 286.08334096272785,
      "epoch": 0.522397476340694,
      "grad_norm": 6.295893654204792,
      "kl": 4.499348958333333,
      "learning_rate": 4.996644099560641e-07,
      "loss": 0.1441,
      "reward": 1.4722222685813904,
      "reward_std": 0.5132550907631716,
      "rewards/equation_reward_func": 0.5833333507180214,
      "rewards/format_reward_func": 0.8888889153798422,
      "step": 276
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 273.93056360880536,
      "epoch": 0.5261829652996846,
      "grad_norm": 7.804266363603045,
      "kl": 1.0720621744791667,
      "learning_rate": 4.996502846770549e-07,
      "loss": 0.1438,
      "reward": 1.3402778059244156,
      "reward_std": 0.4476064319411914,
      "rewards/equation_reward_func": 0.4305555584530036,
      "rewards/format_reward_func": 0.9097222338120142,
      "step": 278
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 240.97222900390625,
      "epoch": 0.5299684542586751,
      "grad_norm": 224.30396185994454,
      "kl": 22.011637369791668,
      "learning_rate": 4.996358684296693e-07,
      "loss": 0.1255,
      "reward": 1.3680556019147236,
      "reward_std": 0.41704921424388885,
      "rewards/equation_reward_func": 0.45138889985779923,
      "rewards/format_reward_func": 0.9166666815678278,
      "step": 280
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 245.88889694213867,
      "epoch": 0.5337539432176656,
      "grad_norm": 2.9359173813915618,
      "kl": 4.063395182291667,
      "learning_rate": 4.996211612307092e-07,
      "loss": 0.1143,
      "reward": 1.3333333482344945,
      "reward_std": 0.4269623930255572,
      "rewards/equation_reward_func": 0.4791666803260644,
      "rewards/format_reward_func": 0.8541666865348816,
      "step": 282
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 288.9722264607747,
      "epoch": 0.5375394321766561,
      "grad_norm": 2.754515790547288,
      "kl": 1.142822265625,
      "learning_rate": 4.996061630973162e-07,
      "loss": 0.1758,
      "reward": 1.4722222636143367,
      "reward_std": 0.38450759773453075,
      "rewards/equation_reward_func": 0.5763889042039713,
      "rewards/format_reward_func": 0.8958333482344946,
      "step": 284
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 273.65278752644855,
      "epoch": 0.5413249211356467,
      "grad_norm": 3.6074116845363675,
      "kl": 62.014078776041664,
      "learning_rate": 4.995908740469706e-07,
      "loss": 0.2716,
      "reward": 1.3750000447034836,
      "reward_std": 0.4357808977365494,
      "rewards/equation_reward_func": 0.45833334140479565,
      "rewards/format_reward_func": 0.9166666815678278,
      "step": 286
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 254.61111958821616,
      "epoch": 0.5451104100946372,
      "grad_norm": 2.833549076551859,
      "kl": 0.9168701171875,
      "learning_rate": 4.995752940974918e-07,
      "loss": 0.1139,
      "reward": 1.4652778108914692,
      "reward_std": 0.500111423432827,
      "rewards/equation_reward_func": 0.5416666865348816,
      "rewards/format_reward_func": 0.9236111293236414,
      "step": 288
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 266.50000890096027,
      "epoch": 0.5488958990536278,
      "grad_norm": 2.0285819176753637,
      "kl": 0.7223714192708334,
      "learning_rate": 4.995594232670383e-07,
      "loss": 0.0795,
      "reward": 1.5000000298023224,
      "reward_std": 0.3858482278883457,
      "rewards/equation_reward_func": 0.5902777904023727,
      "rewards/format_reward_func": 0.909722238779068,
      "step": 290
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 242.50000953674316,
      "epoch": 0.5526813880126183,
      "grad_norm": 2.469130613713446,
      "kl": 7.028157552083333,
      "learning_rate": 4.995432615741076e-07,
      "loss": 0.0928,
      "reward": 1.5208333730697632,
      "reward_std": 0.3851733220120271,
      "rewards/equation_reward_func": 0.5972222313284874,
      "rewards/format_reward_func": 0.9236111293236414,
      "step": 292
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 256.7430610656738,
      "epoch": 0.5564668769716088,
      "grad_norm": 2.818264802652981,
      "kl": 0.8765869140625,
      "learning_rate": 4.995268090375362e-07,
      "loss": 0.134,
      "reward": 1.4930555919806163,
      "reward_std": 0.4773927927017212,
      "rewards/equation_reward_func": 0.6041666840513548,
      "rewards/format_reward_func": 0.8888889054457346,
      "step": 294
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 269.722230275472,
      "epoch": 0.5602523659305993,
      "grad_norm": 2.6290072054683082,
      "kl": 1.646728515625,
      "learning_rate": 4.995100656764996e-07,
      "loss": 0.111,
      "reward": 1.3402778108914692,
      "reward_std": 0.45711999386548996,
      "rewards/equation_reward_func": 0.430555568387111,
      "rewards/format_reward_func": 0.9097222437461218,
      "step": 296
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 283.94445419311523,
      "epoch": 0.5640378548895899,
      "grad_norm": 3.52286689241144,
      "kl": 1.5117594401041667,
      "learning_rate": 4.994930315105124e-07,
      "loss": 0.1291,
      "reward": 1.4722222586472828,
      "reward_std": 0.4221850348015626,
      "rewards/equation_reward_func": 0.5763889029622078,
      "rewards/format_reward_func": 0.8958333532015482,
      "step": 298
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 260.83334096272785,
      "epoch": 0.5678233438485805,
      "grad_norm": 3.048640806478669,
      "kl": 8.982340494791666,
      "learning_rate": 4.994757065594279e-07,
      "loss": 0.1167,
      "reward": 1.4236111442248027,
      "reward_std": 0.4365849755704403,
      "rewards/equation_reward_func": 0.534722238779068,
      "rewards/format_reward_func": 0.8888889104127884,
      "step": 300
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 251.4861208597819,
      "epoch": 0.571608832807571,
      "grad_norm": 5.880882126873241,
      "kl": 2.01953125,
      "learning_rate": 4.994580908434383e-07,
      "loss": 0.2153,
      "reward": 1.3750000298023224,
      "reward_std": 0.4684516203900178,
      "rewards/equation_reward_func": 0.47916667846341926,
      "rewards/format_reward_func": 0.8958333482344946,
      "step": 302
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 308.96528244018555,
      "epoch": 0.5753943217665615,
      "grad_norm": 7.940563386747667,
      "kl": 2.2464192708333335,
      "learning_rate": 4.994401843830749e-07,
      "loss": 0.2154,
      "reward": 1.2638889352480571,
      "reward_std": 0.516243410607179,
      "rewards/equation_reward_func": 0.41666668343047303,
      "rewards/format_reward_func": 0.8472222437461218,
      "step": 304
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 232.1180623372396,
      "epoch": 0.579179810725552,
      "grad_norm": 305.4523441721458,
      "kl": 29.108561197916668,
      "learning_rate": 4.994219871992076e-07,
      "loss": 0.2207,
      "reward": 1.4375000298023224,
      "reward_std": 0.45513641958435375,
      "rewards/equation_reward_func": 0.5277778009573618,
      "rewards/format_reward_func": 0.909722238779068,
      "step": 306
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 264.7777862548828,
      "epoch": 0.5829652996845426,
      "grad_norm": 2.0715581627005784,
      "kl": 1.160400390625,
      "learning_rate": 4.994034993130455e-07,
      "loss": 0.1089,
      "reward": 1.3958333730697632,
      "reward_std": 0.3590660902361075,
      "rewards/equation_reward_func": 0.47222223443289596,
      "rewards/format_reward_func": 0.9236111243565878,
      "step": 308
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 257.13195419311523,
      "epoch": 0.5867507886435331,
      "grad_norm": 3.5395487394835476,
      "kl": 1.2493489583333333,
      "learning_rate": 4.993847207461362e-07,
      "loss": 0.1119,
      "reward": 1.3194444924592972,
      "reward_std": 0.40260318542520207,
      "rewards/equation_reward_func": 0.4236111293236415,
      "rewards/format_reward_func": 0.8958333532015482,
      "step": 310
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 248.52778498331705,
      "epoch": 0.5905362776025237,
      "grad_norm": 3.948194000938186,
      "kl": 1.1299641927083333,
      "learning_rate": 4.993656515203662e-07,
      "loss": 0.1778,
      "reward": 1.3819444874922435,
      "reward_std": 0.39707954103748005,
      "rewards/equation_reward_func": 0.465277789781491,
      "rewards/format_reward_func": 0.9166666766007742,
      "step": 312
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 251.06250508626303,
      "epoch": 0.5943217665615141,
      "grad_norm": 3.3126376703610187,
      "kl": 1.5913899739583333,
      "learning_rate": 4.993462916579606e-07,
      "loss": 0.1415,
      "reward": 1.4027778059244156,
      "reward_std": 0.415769978115956,
      "rewards/equation_reward_func": 0.5069444589316845,
      "rewards/format_reward_func": 0.8958333532015482,
      "step": 314
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 267.7361195882161,
      "epoch": 0.5981072555205047,
      "grad_norm": 3.6712572603171045,
      "kl": 1.0328776041666667,
      "learning_rate": 4.993266411814837e-07,
      "loss": 0.1356,
      "reward": 1.5138889253139496,
      "reward_std": 0.43073243647813797,
      "rewards/equation_reward_func": 0.6180555745959282,
      "rewards/format_reward_func": 0.8958333482344946,
      "step": 316
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 260.7569516499837,
      "epoch": 0.6018927444794953,
      "grad_norm": 2.898300493316585,
      "kl": 1.694091796875,
      "learning_rate": 4.993067001138379e-07,
      "loss": 0.1933,
      "reward": 1.3958333830038707,
      "reward_std": 0.45616808036963147,
      "rewards/equation_reward_func": 0.5138889054457346,
      "rewards/format_reward_func": 0.881944457689921,
      "step": 318
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 243.38889439900717,
      "epoch": 0.6056782334384858,
      "grad_norm": 2.3012954584762206,
      "kl": 1.1136881510416667,
      "learning_rate": 4.992864684782648e-07,
      "loss": 0.0314,
      "reward": 1.423611159125964,
      "reward_std": 0.4477810760339101,
      "rewards/equation_reward_func": 0.4930555696288745,
      "rewards/format_reward_func": 0.9305555721124014,
      "step": 320
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 252.68750635782877,
      "epoch": 0.6094637223974764,
      "grad_norm": 10.558231881280353,
      "kl": 7.27197265625,
      "learning_rate": 4.992659462983445e-07,
      "loss": 0.1837,
      "reward": 1.4444444874922435,
      "reward_std": 0.4468059837818146,
      "rewards/equation_reward_func": 0.5416666797051827,
      "rewards/format_reward_func": 0.9027777959903082,
      "step": 322
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 223.90278244018555,
      "epoch": 0.6132492113564669,
      "grad_norm": 8.24083470994998,
      "kl": 1.4090983072916667,
      "learning_rate": 4.992451335979955e-07,
      "loss": 0.0984,
      "reward": 1.4513889253139496,
      "reward_std": 0.34703291207551956,
      "rewards/equation_reward_func": 0.5000000136593977,
      "rewards/format_reward_func": 0.951388900478681,
      "step": 324
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 246.9583396911621,
      "epoch": 0.6170347003154574,
      "grad_norm": 3.165272632330998,
      "kl": 1.4227701822916667,
      "learning_rate": 4.992240304014751e-07,
      "loss": 0.0434,
      "reward": 1.381944477558136,
      "reward_std": 0.3748237465818723,
      "rewards/equation_reward_func": 0.4583333457509677,
      "rewards/format_reward_func": 0.9236111243565878,
      "step": 326
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 248.64584477742514,
      "epoch": 0.6208201892744479,
      "grad_norm": 3.802073252683938,
      "kl": 1.0417887369791667,
      "learning_rate": 4.992026367333793e-07,
      "loss": 0.0662,
      "reward": 1.5347222487131755,
      "reward_std": 0.3855091730753581,
      "rewards/equation_reward_func": 0.6111111243565878,
      "rewards/format_reward_func": 0.9236111243565878,
      "step": 328
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 251.90278498331705,
      "epoch": 0.6246056782334385,
      "grad_norm": 3.1898348924774695,
      "kl": 1.318359375,
      "learning_rate": 4.991809526186423e-07,
      "loss": 0.1018,
      "reward": 1.4930555919806163,
      "reward_std": 0.4848398119211197,
      "rewards/equation_reward_func": 0.5694444676240286,
      "rewards/format_reward_func": 0.9236111293236414,
      "step": 330
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 270.7916781107585,
      "epoch": 0.628391167192429,
      "grad_norm": 48.65745253251759,
      "kl": 9.658447265625,
      "learning_rate": 4.991589780825373e-07,
      "loss": 0.2243,
      "reward": 1.6180556019147236,
      "reward_std": 0.38904641941189766,
      "rewards/equation_reward_func": 0.722222238779068,
      "rewards/format_reward_func": 0.8958333532015482,
      "step": 332
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 247.05556360880533,
      "epoch": 0.6321766561514196,
      "grad_norm": 12.85876415564074,
      "kl": 2.3059895833333335,
      "learning_rate": 4.991367131506753e-07,
      "loss": 0.0952,
      "reward": 1.4930555919806163,
      "reward_std": 0.44105598827203113,
      "rewards/equation_reward_func": 0.5902777935067812,
      "rewards/format_reward_func": 0.9027777959903082,
      "step": 334
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 252.79861958821616,
      "epoch": 0.63596214511041,
      "grad_norm": 3.766932765553029,
      "kl": 1.00732421875,
      "learning_rate": 4.991141578490066e-07,
      "loss": 0.108,
      "reward": 1.4305556019147236,
      "reward_std": 0.4160829931497574,
      "rewards/equation_reward_func": 0.5138888967533907,
      "rewards/format_reward_func": 0.9166666766007742,
      "step": 336
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 257.6805610656738,
      "epoch": 0.6397476340694006,
      "grad_norm": 8.363557603327017,
      "kl": 2.90673828125,
      "learning_rate": 4.990913122038193e-07,
      "loss": 0.0988,
      "reward": 1.506944477558136,
      "reward_std": 0.4711163180569808,
      "rewards/equation_reward_func": 0.5833333494762579,
      "rewards/format_reward_func": 0.9236111293236414,
      "step": 338
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 278.05556360880536,
      "epoch": 0.6435331230283912,
      "grad_norm": 2.4831862429823874,
      "kl": 1.1470540364583333,
      "learning_rate": 4.9906817624174e-07,
      "loss": 0.1149,
      "reward": 1.4583333780368168,
      "reward_std": 0.40201255182425183,
      "rewards/equation_reward_func": 0.5486111318071684,
      "rewards/format_reward_func": 0.9097222338120142,
      "step": 340
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 270.8125114440918,
      "epoch": 0.6473186119873817,
      "grad_norm": 96.69755111218885,
      "kl": 18.217529296875,
      "learning_rate": 4.990447499897339e-07,
      "loss": 0.1482,
      "reward": 1.4166666964689891,
      "reward_std": 0.4657805400590102,
      "rewards/equation_reward_func": 0.500000019868215,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 342
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 280.9513982137044,
      "epoch": 0.6511041009463723,
      "grad_norm": 4.4626269454999035,
      "kl": 1.0166829427083333,
      "learning_rate": 4.990210334751042e-07,
      "loss": 0.2191,
      "reward": 1.4305555919806163,
      "reward_std": 0.5064363280932108,
      "rewards/equation_reward_func": 0.5208333445092043,
      "rewards/format_reward_func": 0.909722238779068,
      "step": 344
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 290.0277862548828,
      "epoch": 0.6548895899053627,
      "grad_norm": 42.001704471875875,
      "kl": 7.866048177083333,
      "learning_rate": 4.989970267254928e-07,
      "loss": 0.3399,
      "reward": 1.37500003973643,
      "reward_std": 0.4621751358111699,
      "rewards/equation_reward_func": 0.5138889104127884,
      "rewards/format_reward_func": 0.8611111243565878,
      "step": 346
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 287.0277849833171,
      "epoch": 0.6586750788643533,
      "grad_norm": 401.0064206569611,
      "kl": 13.825358072916666,
      "learning_rate": 4.989727297688796e-07,
      "loss": 0.2614,
      "reward": 1.4930555919806163,
      "reward_std": 0.48149604598681134,
      "rewards/equation_reward_func": 0.6319444614152113,
      "rewards/format_reward_func": 0.8611111342906952,
      "step": 348
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 267.2222277323405,
      "epoch": 0.6624605678233438,
      "grad_norm": 5.58193017827173,
      "kl": 1.5638020833333333,
      "learning_rate": 4.989481426335828e-07,
      "loss": 0.2184,
      "reward": 1.4791667064030964,
      "reward_std": 0.32900576541821164,
      "rewards/equation_reward_func": 0.583333345130086,
      "rewards/format_reward_func": 0.8958333482344946,
      "step": 350
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 312.2222315470378,
      "epoch": 0.6662460567823344,
      "grad_norm": 2.903611804665768,
      "kl": 1.7395833333333333,
      "learning_rate": 4.989232653482587e-07,
      "loss": 0.2021,
      "reward": 1.4305555919806163,
      "reward_std": 0.4162732983628909,
      "rewards/equation_reward_func": 0.5486111268401146,
      "rewards/format_reward_func": 0.8819444676240286,
      "step": 352
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 295.96528752644855,
      "epoch": 0.670031545741325,
      "grad_norm": 8.614948807031883,
      "kl": 1.4444986979166667,
      "learning_rate": 4.98898097941902e-07,
      "loss": 0.2504,
      "reward": 1.3194444825251896,
      "reward_std": 0.3698546774685383,
      "rewards/equation_reward_func": 0.43750001179675263,
      "rewards/format_reward_func": 0.881944457689921,
      "step": 354
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 296.6111208597819,
      "epoch": 0.6738170347003155,
      "grad_norm": 18.17568858303832,
      "kl": 4.43408203125,
      "learning_rate": 4.988726404438453e-07,
      "loss": 0.2654,
      "reward": 1.2569444924592972,
      "reward_std": 0.5792658850550652,
      "rewards/equation_reward_func": 0.43750001303851604,
      "rewards/format_reward_func": 0.8194444626569748,
      "step": 356
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 297.1527862548828,
      "epoch": 0.677602523659306,
      "grad_norm": 3.3997948870685444,
      "kl": 2.4781901041666665,
      "learning_rate": 4.988468928837595e-07,
      "loss": 0.2077,
      "reward": 1.4027778307596843,
      "reward_std": 0.43186015884081524,
      "rewards/equation_reward_func": 0.5625000142802795,
      "rewards/format_reward_func": 0.8402777959903082,
      "step": 358
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 259.7013969421387,
      "epoch": 0.6813880126182965,
      "grad_norm": 3.261696651794849,
      "kl": 2.1082763671875,
      "learning_rate": 4.988208552916535e-07,
      "loss": 0.1781,
      "reward": 1.388888920346896,
      "reward_std": 0.4762779163817565,
      "rewards/equation_reward_func": 0.5069444607943296,
      "rewards/format_reward_func": 0.881944457689921,
      "step": 360
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 285.75695673624676,
      "epoch": 0.6851735015772871,
      "grad_norm": 436.9538386873056,
      "kl": 90.0078125,
      "learning_rate": 4.987945276978741e-07,
      "loss": 0.6442,
      "reward": 1.2361111342906952,
      "reward_std": 0.47308399528265,
      "rewards/equation_reward_func": 0.3888889054457347,
      "rewards/format_reward_func": 0.8472222437461218,
      "step": 362
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 253.26389821370444,
      "epoch": 0.6889589905362776,
      "grad_norm": 6.275698981154313,
      "kl": 1.6064453125,
      "learning_rate": 4.987679101331063e-07,
      "loss": 0.2335,
      "reward": 1.4861111442248027,
      "reward_std": 0.4897613674402237,
      "rewards/equation_reward_func": 0.6041666890184084,
      "rewards/format_reward_func": 0.8819444626569748,
      "step": 364
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 225.61111958821616,
      "epoch": 0.6927444794952682,
      "grad_norm": 5.577871979120166,
      "kl": 0.7556966145833334,
      "learning_rate": 4.987410026283729e-07,
      "loss": 0.1068,
      "reward": 1.48611115415891,
      "reward_std": 0.5080769136548042,
      "rewards/equation_reward_func": 0.5763889054457346,
      "rewards/format_reward_func": 0.9097222437461218,
      "step": 366
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 208.28472900390625,
      "epoch": 0.6965299684542586,
      "grad_norm": 34.81645021530138,
      "kl": 5.219563802083333,
      "learning_rate": 4.98713805215035e-07,
      "loss": 0.1549,
      "reward": 1.4583333830038707,
      "reward_std": 0.40722255781292915,
      "rewards/equation_reward_func": 0.5625000142802795,
      "rewards/format_reward_func": 0.8958333532015482,
      "step": 368
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 267.7986183166504,
      "epoch": 0.7003154574132492,
      "grad_norm": 10.388065090744742,
      "kl": 10.697916666666666,
      "learning_rate": 4.986863179247908e-07,
      "loss": 0.1906,
      "reward": 1.3750000447034836,
      "reward_std": 0.47181837012370426,
      "rewards/equation_reward_func": 0.5069444558272759,
      "rewards/format_reward_func": 0.8680555721124014,
      "step": 370
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 229.8611157735189,
      "epoch": 0.7041009463722397,
      "grad_norm": 4.562876059825846,
      "kl": 4.035807291666667,
      "learning_rate": 4.986585407896771e-07,
      "loss": 0.223,
      "reward": 1.4027778208255768,
      "reward_std": 0.5173191850384077,
      "rewards/equation_reward_func": 0.5486111293236414,
      "rewards/format_reward_func": 0.854166696468989,
      "step": 372
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 229.1666742960612,
      "epoch": 0.7078864353312303,
      "grad_norm": 6.466655997110351,
      "kl": 758.0651041666666,
      "learning_rate": 4.986304738420683e-07,
      "loss": 0.4869,
      "reward": 1.4305555820465088,
      "reward_std": 0.4751903774837653,
      "rewards/equation_reward_func": 0.5763888955116272,
      "rewards/format_reward_func": 0.8541666865348816,
      "step": 374
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 251.9236208597819,
      "epoch": 0.7116719242902209,
      "grad_norm": 49.29790482270018,
      "kl": 13.262369791666666,
      "learning_rate": 4.986021171146764e-07,
      "loss": 0.3513,
      "reward": 1.354166716337204,
      "reward_std": 0.5414688164989153,
      "rewards/equation_reward_func": 0.5138889054457346,
      "rewards/format_reward_func": 0.8402777959903082,
      "step": 376
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 254.1666774749756,
      "epoch": 0.7154574132492113,
      "grad_norm": 5.643615815413666,
      "kl": 7.41162109375,
      "learning_rate": 4.985734706405516e-07,
      "loss": 0.2591,
      "reward": 1.2777778059244156,
      "reward_std": 0.4625398740172386,
      "rewards/equation_reward_func": 0.4513889004786809,
      "rewards/format_reward_func": 0.8263889203468958,
      "step": 378
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 289.9583396911621,
      "epoch": 0.7192429022082019,
      "grad_norm": 304.8418060986503,
      "kl": 665.8196614583334,
      "learning_rate": 4.98544534453081e-07,
      "loss": 1.0021,
      "reward": 1.2708333830038707,
      "reward_std": 0.4970496619741122,
      "rewards/equation_reward_func": 0.534722234432896,
      "rewards/format_reward_func": 0.736111139257749,
      "step": 380
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 247.37500635782877,
      "epoch": 0.7230283911671924,
      "grad_norm": 11.586701386430356,
      "kl": 8.091145833333334,
      "learning_rate": 4.985153085859902e-07,
      "loss": 0.2491,
      "reward": 1.43750003973643,
      "reward_std": 0.5147989491621653,
      "rewards/equation_reward_func": 0.6458333432674408,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 382
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 264.2847315470378,
      "epoch": 0.726813880126183,
      "grad_norm": 9.752593632001947,
      "kl": 11.559244791666666,
      "learning_rate": 4.984857930733419e-07,
      "loss": 0.3493,
      "reward": 1.1111111392577488,
      "reward_std": 0.47952866181731224,
      "rewards/equation_reward_func": 0.347222230086724,
      "rewards/format_reward_func": 0.7638889104127884,
      "step": 384
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 269.0902849833171,
      "epoch": 0.7305993690851735,
      "grad_norm": 9.316145758908815,
      "kl": 11.126953125,
      "learning_rate": 4.984559879495366e-07,
      "loss": 0.3237,
      "reward": 1.201388920346896,
      "reward_std": 0.6368941242496172,
      "rewards/equation_reward_func": 0.4861111231148243,
      "rewards/format_reward_func": 0.7152778009573618,
      "step": 386
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 255.90972900390625,
      "epoch": 0.7343848580441641,
      "grad_norm": 8.827779574351993,
      "kl": 121.453125,
      "learning_rate": 4.984258932493123e-07,
      "loss": 0.5189,
      "reward": 1.2638889352480571,
      "reward_std": 0.5239984119931856,
      "rewards/equation_reward_func": 0.5555555671453476,
      "rewards/format_reward_func": 0.708333358168602,
      "step": 388
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 237.27084159851074,
      "epoch": 0.7381703470031545,
      "grad_norm": 8.013012272149158,
      "kl": 24.984375,
      "learning_rate": 4.983955090077444e-07,
      "loss": 0.2832,
      "reward": 1.1597222437461217,
      "reward_std": 0.5535530770818392,
      "rewards/equation_reward_func": 0.48611112497746944,
      "rewards/format_reward_func": 0.6736111268401146,
      "step": 390
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 249.63889821370444,
      "epoch": 0.7419558359621451,
      "grad_norm": 438.51211315014166,
      "kl": 126.08072916666667,
      "learning_rate": 4.983648352602459e-07,
      "loss": 0.3395,
      "reward": 1.1250000298023224,
      "reward_std": 0.6015344088276228,
      "rewards/equation_reward_func": 0.4930555646618207,
      "rewards/format_reward_func": 0.6319444750746092,
      "step": 392
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 195.81250508626303,
      "epoch": 0.7457413249211357,
      "grad_norm": 13.870204564822584,
      "kl": 9.074869791666666,
      "learning_rate": 4.983338720425672e-07,
      "loss": 0.2873,
      "reward": 1.1805555770794551,
      "reward_std": 0.6060735906163851,
      "rewards/equation_reward_func": 0.4583333407839139,
      "rewards/format_reward_func": 0.7222222437461218,
      "step": 394
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 254.87500699361166,
      "epoch": 0.7495268138801262,
      "grad_norm": 82.14394465970908,
      "kl": 38.481770833333336,
      "learning_rate": 4.98302619390796e-07,
      "loss": 0.3067,
      "reward": 1.1250000298023224,
      "reward_std": 0.4945492781698704,
      "rewards/equation_reward_func": 0.5277777904023727,
      "rewards/format_reward_func": 0.5972222425043583,
      "step": 396
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 221.51389439900717,
      "epoch": 0.7533123028391168,
      "grad_norm": 17.556835883262877,
      "kl": 97.25,
      "learning_rate": 4.982710773413576e-07,
      "loss": 0.3719,
      "reward": 1.131944477558136,
      "reward_std": 0.588702150930961,
      "rewards/equation_reward_func": 0.5763889079292616,
      "rewards/format_reward_func": 0.555555577079455,
      "step": 398
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 197.82639376322427,
      "epoch": 0.7570977917981072,
      "grad_norm": 26.30378944955965,
      "kl": 17.8984375,
      "learning_rate": 4.98239245931014e-07,
      "loss": 0.3139,
      "reward": 1.1805555870135624,
      "reward_std": 0.5916161189476649,
      "rewards/equation_reward_func": 0.5902777959903082,
      "rewards/format_reward_func": 0.5902777959903082,
      "step": 400
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 222.54861704508463,
      "epoch": 0.7608832807570978,
      "grad_norm": 10.696318069471166,
      "kl": 14.2109375,
      "learning_rate": 4.982071251968652e-07,
      "loss": 0.2388,
      "reward": 1.1041666964689891,
      "reward_std": 0.5821270644664764,
      "rewards/equation_reward_func": 0.5069444638987383,
      "rewards/format_reward_func": 0.5972222437461218,
      "step": 402
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 219.2916742960612,
      "epoch": 0.7646687697160883,
      "grad_norm": 132.22587525968703,
      "kl": 40.453125,
      "learning_rate": 4.981747151763478e-07,
      "loss": 0.2509,
      "reward": 1.0208333631356556,
      "reward_std": 0.6254869078596433,
      "rewards/equation_reward_func": 0.493055568387111,
      "rewards/format_reward_func": 0.5277777959903082,
      "step": 404
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 213.25000445048013,
      "epoch": 0.7684542586750789,
      "grad_norm": 53.75808201656059,
      "kl": 28.166666666666668,
      "learning_rate": 4.981420159072359e-07,
      "loss": 0.3216,
      "reward": 0.923611139257749,
      "reward_std": 0.5980016005535921,
      "rewards/equation_reward_func": 0.39583334513008595,
      "rewards/format_reward_func": 0.5277777860562006,
      "step": 406
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 255.5486208597819,
      "epoch": 0.7722397476340694,
      "grad_norm": 76.3126195344439,
      "kl": 24.140625,
      "learning_rate": 4.981090274276405e-07,
      "loss": 0.2661,
      "reward": 1.0833333681027095,
      "reward_std": 0.6427489096919695,
      "rewards/equation_reward_func": 0.5833333482344946,
      "rewards/format_reward_func": 0.500000019868215,
      "step": 408
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 223.21528244018555,
      "epoch": 0.7760252365930599,
      "grad_norm": 13589.418456534844,
      "kl": 1149.7135416666667,
      "learning_rate": 4.9807574977601e-07,
      "loss": 2.3024,
      "reward": 0.9375000447034836,
      "reward_std": 0.6095106812814871,
      "rewards/equation_reward_func": 0.42361112497746944,
      "rewards/format_reward_func": 0.5138889029622078,
      "step": 410
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 227.54167366027832,
      "epoch": 0.7798107255520504,
      "grad_norm": 33.78184675982937,
      "kl": 29.5703125,
      "learning_rate": 4.980421829911295e-07,
      "loss": 0.269,
      "reward": 0.8541667014360428,
      "reward_std": 0.6479750176270803,
      "rewards/equation_reward_func": 0.43055556900799274,
      "rewards/format_reward_func": 0.4236111268401146,
      "step": 412
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 274.4166742960612,
      "epoch": 0.783596214511041,
      "grad_norm": 17.81633266386669,
      "kl": 28.666666666666668,
      "learning_rate": 4.980083271121214e-07,
      "loss": 0.3345,
      "reward": 0.909722238779068,
      "reward_std": 0.6108483547965685,
      "rewards/equation_reward_func": 0.5277777959903082,
      "rewards/format_reward_func": 0.3819444576899211,
      "step": 414
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 251.74306106567383,
      "epoch": 0.7873817034700316,
      "grad_norm": 22.608432736994907,
      "kl": 51.177083333333336,
      "learning_rate": 4.979741821784445e-07,
      "loss": 0.2628,
      "reward": 0.8680555870135626,
      "reward_std": 0.6757829288641611,
      "rewards/equation_reward_func": 0.4583333457509677,
      "rewards/format_reward_func": 0.40972222822407883,
      "step": 416
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 265.33334096272785,
      "epoch": 0.7911671924290221,
      "grad_norm": 13.10404823539201,
      "kl": 27.53125,
      "learning_rate": 4.979397482298952e-07,
      "loss": 0.3222,
      "reward": 0.7916666939854622,
      "reward_std": 0.619778610765934,
      "rewards/equation_reward_func": 0.38194445582727593,
      "rewards/format_reward_func": 0.4097222313284874,
      "step": 418
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 245.4513931274414,
      "epoch": 0.7949526813880127,
      "grad_norm": 17.285612572481327,
      "kl": 25.333333333333332,
      "learning_rate": 4.979050253066063e-07,
      "loss": 0.2375,
      "reward": 0.937500019868215,
      "reward_std": 0.5681246320406595,
      "rewards/equation_reward_func": 0.5000000136593977,
      "rewards/format_reward_func": 0.4375000074505806,
      "step": 420
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 247.6736183166504,
      "epoch": 0.7987381703470031,
      "grad_norm": 114.10864728746037,
      "kl": 68.94791666666667,
      "learning_rate": 4.978700134490473e-07,
      "loss": 0.3221,
      "reward": 0.9861111293236414,
      "reward_std": 0.6230639989177386,
      "rewards/equation_reward_func": 0.4791666778425376,
      "rewards/format_reward_func": 0.5069444589316845,
      "step": 422
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 268.19445037841797,
      "epoch": 0.8025236593059937,
      "grad_norm": 27.278356050728746,
      "kl": 63.755208333333336,
      "learning_rate": 4.97834712698025e-07,
      "loss": 0.3404,
      "reward": 0.9027778077870607,
      "reward_std": 0.6374689054985841,
      "rewards/equation_reward_func": 0.5208333469927311,
      "rewards/format_reward_func": 0.3819444514811039,
      "step": 424
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 261.0486183166504,
      "epoch": 0.8063091482649842,
      "grad_norm": 112.26698272573795,
      "kl": 125.875,
      "learning_rate": 4.977991230946823e-07,
      "loss": 0.3086,
      "reward": 0.9791666915019354,
      "reward_std": 0.6475708857178688,
      "rewards/equation_reward_func": 0.5763889091710249,
      "rewards/format_reward_func": 0.40277778916060925,
      "step": 426
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 304.7708435058594,
      "epoch": 0.8100946372239748,
      "grad_norm": 88.42317906709971,
      "kl": 145.625,
      "learning_rate": 4.977632446804992e-07,
      "loss": 0.3789,
      "reward": 0.784722238779068,
      "reward_std": 0.6482410331567129,
      "rewards/equation_reward_func": 0.451388909171025,
      "rewards/format_reward_func": 0.33333334388832253,
      "step": 428
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 276.3194529215495,
      "epoch": 0.8138801261829653,
      "grad_norm": 57.008405478973984,
      "kl": 90.27083333333333,
      "learning_rate": 4.97727077497292e-07,
      "loss": 0.3829,
      "reward": 0.8888889054457346,
      "reward_std": 0.58370058486859,
      "rewards/equation_reward_func": 0.5763889079292616,
      "rewards/format_reward_func": 0.3125000074505806,
      "step": 430
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 274.0277837117513,
      "epoch": 0.8176656151419558,
      "grad_norm": 41.9648702558559,
      "kl": 93.64973958333333,
      "learning_rate": 4.976906215872137e-07,
      "loss": 0.2295,
      "reward": 0.8263889054457346,
      "reward_std": 0.6093253418803215,
      "rewards/equation_reward_func": 0.4861111243565877,
      "rewards/format_reward_func": 0.34027778419355553,
      "step": 432
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 366.2569580078125,
      "epoch": 0.8214511041009463,
      "grad_norm": 23.70562238362353,
      "kl": 49.619791666666664,
      "learning_rate": 4.976538769927538e-07,
      "loss": 0.2481,
      "reward": 0.5763888992369175,
      "reward_std": 0.6349846472342809,
      "rewards/equation_reward_func": 0.3541666728754838,
      "rewards/format_reward_func": 0.2222222244987885,
      "step": 434
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 322.51389439900714,
      "epoch": 0.8252365930599369,
      "grad_norm": 173.94515224795077,
      "kl": 55.354166666666664,
      "learning_rate": 4.976168437567384e-07,
      "loss": 0.2866,
      "reward": 0.7361111330489317,
      "reward_std": 0.5293329904476801,
      "rewards/equation_reward_func": 0.4652777922650178,
      "rewards/format_reward_func": 0.2708333395421505,
      "step": 436
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 370.1041781107585,
      "epoch": 0.8290220820189275,
      "grad_norm": 49.42785489603644,
      "kl": 38.208333333333336,
      "learning_rate": 4.975795219223298e-07,
      "loss": 0.2725,
      "reward": 0.6250000161429247,
      "reward_std": 0.6038348153233528,
      "rewards/equation_reward_func": 0.39583334513008595,
      "rewards/format_reward_func": 0.2291666710128387,
      "step": 438
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 358.9305674235026,
      "epoch": 0.832807570977918,
      "grad_norm": 63.93647805172191,
      "kl": 38.565104166666664,
      "learning_rate": 4.975419115330267e-07,
      "loss": 0.2397,
      "reward": 0.6388889079292616,
      "reward_std": 0.5783760311702887,
      "rewards/equation_reward_func": 0.40972224312524,
      "rewards/format_reward_func": 0.2291666722546021,
      "step": 440
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 343.5486208597819,
      "epoch": 0.8365930599369085,
      "grad_norm": 18.35613118498554,
      "kl": 40.0,
      "learning_rate": 4.975040126326641e-07,
      "loss": 0.3459,
      "reward": 0.7291666766007742,
      "reward_std": 0.6189329201976458,
      "rewards/equation_reward_func": 0.46527778916060925,
      "rewards/format_reward_func": 0.2638888967533906,
      "step": 442
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 334.00001017252606,
      "epoch": 0.840378548895899,
      "grad_norm": 61.315133397385836,
      "kl": 64.54166666666667,
      "learning_rate": 4.974658252654134e-07,
      "loss": 0.3642,
      "reward": 0.6111111268401146,
      "reward_std": 0.6266890317201614,
      "rewards/equation_reward_func": 0.3402777823309104,
      "rewards/format_reward_func": 0.27083334140479565,
      "step": 444
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 287.41667556762695,
      "epoch": 0.8441640378548896,
      "grad_norm": 111.02963258009683,
      "kl": 73.3125,
      "learning_rate": 4.974273494757822e-07,
      "loss": 0.2892,
      "reward": 0.736111139257749,
      "reward_std": 0.5954531555374464,
      "rewards/equation_reward_func": 0.430555568387111,
      "rewards/format_reward_func": 0.3055555609365304,
      "step": 446
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 315.1458447774251,
      "epoch": 0.8479495268138801,
      "grad_norm": 416.3212915048579,
      "kl": 112.47135416666667,
      "learning_rate": 4.973885853086141e-07,
      "loss": 0.3557,
      "reward": 0.7083333532015482,
      "reward_std": 0.595863493780295,
      "rewards/equation_reward_func": 0.43750001055498916,
      "rewards/format_reward_func": 0.27083333892126876,
      "step": 448
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 282.88195419311523,
      "epoch": 0.8517350157728707,
      "grad_norm": 84.57887686537714,
      "kl": 97.375,
      "learning_rate": 4.973495328090889e-07,
      "loss": 0.4201,
      "reward": 0.5625000124176344,
      "reward_std": 0.6184229714175066,
      "rewards/equation_reward_func": 0.24305556466182074,
      "rewards/format_reward_func": 0.31944445334374905,
      "step": 450
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 340.87501271565753,
      "epoch": 0.8555205047318613,
      "grad_norm": 139.9178717709,
      "kl": 92.39583333333333,
      "learning_rate": 4.973101920227225e-07,
      "loss": 0.3206,
      "reward": 0.5555555683871111,
      "reward_std": 0.6198337351282438,
      "rewards/equation_reward_func": 0.3263888955116272,
      "rewards/format_reward_func": 0.22916667287548384,
      "step": 452
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 351.2916768391927,
      "epoch": 0.8593059936908517,
      "grad_norm": 168.90078404576994,
      "kl": 58.34375,
      "learning_rate": 4.972705629953667e-07,
      "loss": 0.3032,
      "reward": 0.7083333482344946,
      "reward_std": 0.6670572757720947,
      "rewards/equation_reward_func": 0.395833349476258,
      "rewards/format_reward_func": 0.3125000074505806,
      "step": 454
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 346.7777913411458,
      "epoch": 0.8630914826498423,
      "grad_norm": 53.736984247481196,
      "kl": 71.42708333333333,
      "learning_rate": 4.97230645773209e-07,
      "loss": 0.3515,
      "reward": 0.6180555665244659,
      "reward_std": 0.5822310447692871,
      "rewards/equation_reward_func": 0.3680555621782939,
      "rewards/format_reward_func": 0.25000000682969886,
      "step": 456
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 329.21528879801434,
      "epoch": 0.8668769716088328,
      "grad_norm": 61.81724196878047,
      "kl": 71.97395833333333,
      "learning_rate": 4.971904404027736e-07,
      "loss": 0.3712,
      "reward": 0.5972222362955412,
      "reward_std": 0.6221836258967718,
      "rewards/equation_reward_func": 0.34722223319113255,
      "rewards/format_reward_func": 0.2500000062088172,
      "step": 458
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 400.7083511352539,
      "epoch": 0.8706624605678234,
      "grad_norm": 89.56376909680318,
      "kl": 93.92708333333333,
      "learning_rate": 4.971499469309197e-07,
      "loss": 0.3209,
      "reward": 0.5486111330489317,
      "reward_std": 0.5003731027245522,
      "rewards/equation_reward_func": 0.3611111169060071,
      "rewards/format_reward_func": 0.18750000558793545,
      "step": 460
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 379.7430674235026,
      "epoch": 0.8744479495268139,
      "grad_norm": 96.80934872874563,
      "kl": 71.47916666666667,
      "learning_rate": 4.971091654048427e-07,
      "loss": 0.2863,
      "reward": 0.4166666828095913,
      "reward_std": 0.5312095309297243,
      "rewards/equation_reward_func": 0.26388889489074546,
      "rewards/format_reward_func": 0.15277778233091036,
      "step": 462
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 379.1250063578288,
      "epoch": 0.8782334384858044,
      "grad_norm": 313.3277909671654,
      "kl": 157.80208333333334,
      "learning_rate": 4.970680958720733e-07,
      "loss": 0.5211,
      "reward": 0.48611112746099633,
      "reward_std": 0.5439305094381174,
      "rewards/equation_reward_func": 0.2222222313284874,
      "rewards/format_reward_func": 0.2638888992369175,
      "step": 464
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 365.0416742960612,
      "epoch": 0.8820189274447949,
      "grad_norm": 121.11532507159346,
      "kl": 131.42708333333334,
      "learning_rate": 4.970267383804787e-07,
      "loss": 0.4011,
      "reward": 0.4375000149011612,
      "reward_std": 0.5364614203572273,
      "rewards/equation_reward_func": 0.28472223070760566,
      "rewards/format_reward_func": 0.1527777792265018,
      "step": 466
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 354.7916742960612,
      "epoch": 0.8858044164037855,
      "grad_norm": 90.17803998443027,
      "kl": 152.9375,
      "learning_rate": 4.96985092978261e-07,
      "loss": 0.4152,
      "reward": 0.4305555696288745,
      "reward_std": 0.5253821363051733,
      "rewards/equation_reward_func": 0.2847222325702508,
      "rewards/format_reward_func": 0.14583333457509676,
      "step": 468
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 281.70834223429364,
      "epoch": 0.889589905362776,
      "grad_norm": 90.52105948028516,
      "kl": 115.625,
      "learning_rate": 4.969431597139581e-07,
      "loss": 0.2493,
      "reward": 0.5000000074505806,
      "reward_std": 0.6266848891973495,
      "rewards/equation_reward_func": 0.3472222338120143,
      "rewards/format_reward_func": 0.15277778171002865,
      "step": 470
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 323.0347315470378,
      "epoch": 0.8933753943217666,
      "grad_norm": 113.45003802315175,
      "kl": 83.2734375,
      "learning_rate": 4.969009386364433e-07,
      "loss": 0.3054,
      "reward": 0.4861111131807168,
      "reward_std": 0.581800473233064,
      "rewards/equation_reward_func": 0.2986111218730609,
      "rewards/format_reward_func": 0.1875000068296989,
      "step": 472
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 427.35418065388996,
      "epoch": 0.897160883280757,
      "grad_norm": 28.936753072783624,
      "kl": 65.74479166666667,
      "learning_rate": 4.968584297949254e-07,
      "loss": 0.2886,
      "reward": 0.4305555659035842,
      "reward_std": 0.5503566016753515,
      "rewards/equation_reward_func": 0.3194444527228673,
      "rewards/format_reward_func": 0.11111111442248027,
      "step": 474
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 356.95834096272785,
      "epoch": 0.9009463722397476,
      "grad_norm": 53.210272136279166,
      "kl": 67.9296875,
      "learning_rate": 4.968156332389489e-07,
      "loss": 0.2718,
      "reward": 0.652777798473835,
      "reward_std": 0.6074397390087446,
      "rewards/equation_reward_func": 0.44444445582727593,
      "rewards/format_reward_func": 0.20833333830038706,
      "step": 476
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 345.06250254313153,
      "epoch": 0.9047318611987382,
      "grad_norm": 68.31437143998066,
      "kl": 26.390625,
      "learning_rate": 4.967725490183929e-07,
      "loss": 0.2034,
      "reward": 0.5625000111758709,
      "reward_std": 0.6406622032324473,
      "rewards/equation_reward_func": 0.35416667970518273,
      "rewards/format_reward_func": 0.2083333389212688,
      "step": 478
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 384.29168192545575,
      "epoch": 0.9085173501577287,
      "grad_norm": 46.566871330301204,
      "kl": 38.3125,
      "learning_rate": 4.967291771834726e-07,
      "loss": 0.2743,
      "reward": 0.5138889116545519,
      "reward_std": 0.6012993454933167,
      "rewards/equation_reward_func": 0.3472222375373046,
      "rewards/format_reward_func": 0.1666666685293118,
      "step": 480
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 403.1458435058594,
      "epoch": 0.9123028391167193,
      "grad_norm": 52.966354403482825,
      "kl": 58.018229166666664,
      "learning_rate": 4.96685517784738e-07,
      "loss": 0.1692,
      "reward": 0.5555555783212185,
      "reward_std": 0.5279722325503826,
      "rewards/equation_reward_func": 0.3819444576899211,
      "rewards/format_reward_func": 0.17361111318071684,
      "step": 482
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 415.2847328186035,
      "epoch": 0.9160883280757098,
      "grad_norm": 76.22102872372605,
      "kl": 36.552083333333336,
      "learning_rate": 4.966415708730742e-07,
      "loss": 0.2723,
      "reward": 0.4930555745959282,
      "reward_std": 0.5246221944689751,
      "rewards/equation_reward_func": 0.31944445210198563,
      "rewards/format_reward_func": 0.173611115043362,
      "step": 484
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 414.2291793823242,
      "epoch": 0.9198738170347003,
      "grad_norm": 126.65545998025205,
      "kl": 60.572916666666664,
      "learning_rate": 4.965973364997015e-07,
      "loss": 0.2943,
      "reward": 0.5138889017204443,
      "reward_std": 0.6207031682133675,
      "rewards/equation_reward_func": 0.3402777835726738,
      "rewards/format_reward_func": 0.1736111156642437,
      "step": 486
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 448.9166768391927,
      "epoch": 0.9236593059936908,
      "grad_norm": 39.174744576485224,
      "kl": 56.713541666666664,
      "learning_rate": 4.965528147161752e-07,
      "loss": 0.2663,
      "reward": 0.46527779412766296,
      "reward_std": 0.4942639557023843,
      "rewards/equation_reward_func": 0.30555556776622933,
      "rewards/format_reward_func": 0.1597222244987885,
      "step": 488
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 486.6319580078125,
      "epoch": 0.9274447949526814,
      "grad_norm": 48.44066729068605,
      "kl": 102.69791666666667,
      "learning_rate": 4.965080055743858e-07,
      "loss": 0.2164,
      "reward": 0.36805556279917556,
      "reward_std": 0.503364427636067,
      "rewards/equation_reward_func": 0.22916667411724725,
      "rewards/format_reward_func": 0.1388888917863369,
      "step": 490
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 491.8541844685872,
      "epoch": 0.931230283911672,
      "grad_norm": 46.336260606492786,
      "kl": 81.82291666666667,
      "learning_rate": 4.964629091265583e-07,
      "loss": 0.2553,
      "reward": 0.36805556900799274,
      "reward_std": 0.39493420471747714,
      "rewards/equation_reward_func": 0.2430555603156487,
      "rewards/format_reward_func": 0.1250000031044086,
      "step": 492
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 470.3472315470378,
      "epoch": 0.9350157728706625,
      "grad_norm": 117.64457418851589,
      "kl": 107.79166666666667,
      "learning_rate": 4.964175254252529e-07,
      "loss": 0.2875,
      "reward": 0.29166667473812896,
      "reward_std": 0.40408586089809734,
      "rewards/equation_reward_func": 0.1944444508602222,
      "rewards/format_reward_func": 0.09722222449878852,
      "step": 494
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 440.8472391764323,
      "epoch": 0.938801261829653,
      "grad_norm": 122.35688787505664,
      "kl": 80.23958333333333,
      "learning_rate": 4.963718545233644e-07,
      "loss": 0.2675,
      "reward": 0.2916666815678279,
      "reward_std": 0.4292173832654953,
      "rewards/equation_reward_func": 0.1527777804682652,
      "rewards/format_reward_func": 0.1388888917863369,
      "step": 496
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 451.4514045715332,
      "epoch": 0.9425867507886435,
      "grad_norm": 61.21324750008328,
      "kl": 64.75,
      "learning_rate": 4.963258964741226e-07,
      "loss": 0.3291,
      "reward": 0.3819444589316845,
      "reward_std": 0.4863445957501729,
      "rewards/equation_reward_func": 0.26388889489074546,
      "rewards/format_reward_func": 0.11805555845300357,
      "step": 498
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 448.3680674235026,
      "epoch": 0.9463722397476341,
      "grad_norm": 76.04318455804953,
      "kl": 56.770833333333336,
      "learning_rate": 4.962796513310916e-07,
      "loss": 0.2302,
      "reward": 0.3333333383003871,
      "reward_std": 0.4893345981836319,
      "rewards/equation_reward_func": 0.2222222276031971,
      "rewards/format_reward_func": 0.11111111318071683,
      "step": 500
    }
  ],
  "logging_steps": 2,
  "max_steps": 6000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 12,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 6,
  "trial_name": null,
  "trial_params": null
}