basicrlmcq / checkpoint-500 /trainer_state.json

Upload folder using huggingface_hub

c09c1f6 verified 12 months ago

107 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.5333333333333333,
	"eval_steps": 500,
	"global_step": 500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"completion_length": 311.2473958333333,
	"epoch": 0.0021333333333333334,
	"grad_norm": 0.4415327328667637,
	"kl": 0.0,
	"learning_rate": 5.555555555555555e-09,
	"loss": -0.0,
	"reward": 0.11588541666666667,
	"reward_std": 0.17868895766635737,
	"rewards/equation_reward_func": 0.11328125,
	"rewards/format_reward_func": 0.0026041666666666665,
	"step": 2
	},
	{
	"completion_length": 305.4205729166667,
	"epoch": 0.004266666666666667,
	"grad_norm": 0.5086207071419532,
	"kl": 0.00027751922607421875,
	"learning_rate": 1.111111111111111e-08,
	"loss": 0.0,
	"reward": 0.13802083333333334,
	"reward_std": 0.2132336019227902,
	"rewards/equation_reward_func": 0.1328125,
	"rewards/format_reward_func": 0.005208333333333333,
	"step": 4
	},
	{
	"completion_length": 311.3541666666667,
	"epoch": 0.0064,
	"grad_norm": 0.5547527222630642,
	"kl": 0.00030914942423502606,
	"learning_rate": 1.6666666666666667e-08,
	"loss": 0.0,
	"reward": 0.15234375,
	"reward_std": 0.24547630610565344,
	"rewards/equation_reward_func": 0.14453125,
	"rewards/format_reward_func": 0.0078125,
	"step": 6
	},
	{
	"completion_length": 308.9010416666667,
	"epoch": 0.008533333333333334,
	"grad_norm": 0.5495887586499225,
	"kl": 0.00030922889709472656,
	"learning_rate": 2.222222222222222e-08,
	"loss": 0.0,
	"reward": 0.13802083333333334,
	"reward_std": 0.22159898156921068,
	"rewards/equation_reward_func": 0.1328125,
	"rewards/format_reward_func": 0.005208333333333333,
	"step": 8
	},
	{
	"completion_length": 305.328125,
	"epoch": 0.010666666666666666,
	"grad_norm": 0.41522294394779197,
	"kl": 0.00031765302022298175,
	"learning_rate": 2.7777777777777774e-08,
	"loss": 0.0,
	"reward": 0.1171875,
	"reward_std": 0.18873751908540726,
	"rewards/equation_reward_func": 0.11067708333333333,
	"rewards/format_reward_func": 0.006510416666666667,
	"step": 10
	},
	{
	"completion_length": 301.7005208333333,
	"epoch": 0.0128,
	"grad_norm": 0.48798574132060596,
	"kl": 0.0003203550974527995,
	"learning_rate": 3.3333333333333334e-08,
	"loss": 0.0,
	"reward": 0.13671875,
	"reward_std": 0.21041353978216648,
	"rewards/equation_reward_func": 0.13151041666666666,
	"rewards/format_reward_func": 0.005208333333333333,
	"step": 12
	},
	{
	"completion_length": 311.7877604166667,
	"epoch": 0.014933333333333333,
	"grad_norm": 0.5313334259813167,
	"kl": 0.00030485788981119793,
	"learning_rate": 3.888888888888889e-08,
	"loss": 0.0,
	"reward": 0.13411458333333334,
	"reward_std": 0.2181890836606423,
	"rewards/equation_reward_func": 0.13020833333333334,
	"rewards/format_reward_func": 0.00390625,
	"step": 14
	},
	{
	"completion_length": 305.7669270833333,
	"epoch": 0.017066666666666667,
	"grad_norm": 0.3972636810533672,
	"kl": 0.00031177202860514325,
	"learning_rate": 4.444444444444444e-08,
	"loss": 0.0,
	"reward": 0.12630208333333334,
	"reward_std": 0.1951544483502706,
	"rewards/equation_reward_func": 0.12239583333333333,
	"rewards/format_reward_func": 0.00390625,
	"step": 16
	},
	{
	"completion_length": 299.44921875,
	"epoch": 0.0192,
	"grad_norm": 0.505545889011047,
	"kl": 0.0003170967102050781,
	"learning_rate": 5e-08,
	"loss": 0.0,
	"reward": 0.14453125,
	"reward_std": 0.22896801494061947,
	"rewards/equation_reward_func": 0.13932291666666666,
	"rewards/format_reward_func": 0.005208333333333333,
	"step": 18
	},
	{
	"completion_length": 301.9479166666667,
	"epoch": 0.021333333333333333,
	"grad_norm": 0.43688702868931345,
	"kl": 0.0003114938735961914,
	"learning_rate": 5.555555555555555e-08,
	"loss": 0.0,
	"reward": 0.14453125,
	"reward_std": 0.21943463757634163,
	"rewards/equation_reward_func": 0.13932291666666666,
	"rewards/format_reward_func": 0.005208333333333333,
	"step": 20
	},
	{
	"completion_length": 321.2161458333333,
	"epoch": 0.023466666666666667,
	"grad_norm": 0.45400125452091455,
	"kl": 0.0003143151601155599,
	"learning_rate": 6.111111111111111e-08,
	"loss": 0.0,
	"reward": 0.11067708333333333,
	"reward_std": 0.183716157451272,
	"rewards/equation_reward_func": 0.10677083333333333,
	"rewards/format_reward_func": 0.00390625,
	"step": 22
	},
	{
	"completion_length": 307.8489583333333,
	"epoch": 0.0256,
	"grad_norm": 0.5223979522322955,
	"kl": 0.0003089110056559245,
	"learning_rate": 6.666666666666667e-08,
	"loss": 0.0,
	"reward": 0.14583333333333334,
	"reward_std": 0.2252269685268402,
	"rewards/equation_reward_func": 0.13932291666666666,
	"rewards/format_reward_func": 0.006510416666666667,
	"step": 24
	},
	{
	"completion_length": 308.1106770833333,
	"epoch": 0.027733333333333332,
	"grad_norm": 0.46494836050182115,
	"kl": 0.00032631556193033856,
	"learning_rate": 7.222222222222221e-08,
	"loss": 0.0,
	"reward": 0.13932291666666666,
	"reward_std": 0.2211961162587007,
	"rewards/equation_reward_func": 0.13411458333333334,
	"rewards/format_reward_func": 0.005208333333333333,
	"step": 26
	},
	{
	"completion_length": 310.7122395833333,
	"epoch": 0.029866666666666666,
	"grad_norm": 0.4981567816895699,
	"kl": 0.0003178914388020833,
	"learning_rate": 7.777777777777778e-08,
	"loss": 0.0,
	"reward": 0.15494791666666666,
	"reward_std": 0.22581461258232594,
	"rewards/equation_reward_func": 0.14973958333333334,
	"rewards/format_reward_func": 0.005208333333333333,
	"step": 28
	},
	{
	"completion_length": 312.7330729166667,
	"epoch": 0.032,
	"grad_norm": 0.45730041446656333,
	"kl": 0.0003050963083902995,
	"learning_rate": 8.333333333333333e-08,
	"loss": 0.0,
	"reward": 0.15755208333333334,
	"reward_std": 0.24741891399025917,
	"rewards/equation_reward_func": 0.15234375,
	"rewards/format_reward_func": 0.005208333333333333,
	"step": 30
	},
	{
	"completion_length": 320.09765625,
	"epoch": 0.034133333333333335,
	"grad_norm": 0.5739127476638481,
	"kl": 0.0003147125244140625,
	"learning_rate": 8.888888888888888e-08,
	"loss": 0.0,
	"reward": 0.12890625,
	"reward_std": 0.19574428784350553,
	"rewards/equation_reward_func": 0.12109375,
	"rewards/format_reward_func": 0.0078125,
	"step": 32
	},
	{
	"completion_length": 311.3802083333333,
	"epoch": 0.03626666666666667,
	"grad_norm": 0.5096053663882774,
	"kl": 0.0007611910502115885,
	"learning_rate": 9.444444444444444e-08,
	"loss": 0.0,
	"reward": 0.14583333333333334,
	"reward_std": 0.21998751784364382,
	"rewards/equation_reward_func": 0.14192708333333334,
	"rewards/format_reward_func": 0.00390625,
	"step": 34
	},
	{
	"completion_length": 308.2083333333333,
	"epoch": 0.0384,
	"grad_norm": 0.48786550762299297,
	"kl": 0.0003284613291422526,
	"learning_rate": 1e-07,
	"loss": 0.0,
	"reward": 0.12239583333333333,
	"reward_std": 0.18891865077118078,
	"rewards/equation_reward_func": 0.11979166666666667,
	"rewards/format_reward_func": 0.0026041666666666665,
	"step": 36
	},
	{
	"completion_length": 310.9283854166667,
	"epoch": 0.04053333333333333,
	"grad_norm": 0.5120511339306856,
	"kl": 0.0003306070963541667,
	"learning_rate": 1.0555555555555555e-07,
	"loss": 0.0,
	"reward": 0.17057291666666666,
	"reward_std": 0.25423871104915935,
	"rewards/equation_reward_func": 0.16015625,
	"rewards/format_reward_func": 0.010416666666666666,
	"step": 38
	},
	{
	"completion_length": 315.6875,
	"epoch": 0.042666666666666665,
	"grad_norm": 0.45183692091942756,
	"kl": 0.00033664703369140625,
	"learning_rate": 1.111111111111111e-07,
	"loss": 0.0,
	"reward": 0.11848958333333333,
	"reward_std": 0.1949385553598404,
	"rewards/equation_reward_func": 0.11458333333333333,
	"rewards/format_reward_func": 0.00390625,
	"step": 40
	},
	{
	"completion_length": 308.5703125,
	"epoch": 0.0448,
	"grad_norm": 0.4295702856663613,
	"kl": 0.00034085909525553387,
	"learning_rate": 1.1666666666666667e-07,
	"loss": 0.0,
	"reward": 0.12760416666666666,
	"reward_std": 0.1895084890226523,
	"rewards/equation_reward_func": 0.11979166666666667,
	"rewards/format_reward_func": 0.0078125,
	"step": 42
	},
	{
	"completion_length": 309.12890625,
	"epoch": 0.046933333333333334,
	"grad_norm": 0.6565711033262587,
	"kl": 0.0003753503163655599,
	"learning_rate": 1.2222222222222222e-07,
	"loss": 0.0,
	"reward": 0.15494791666666666,
	"reward_std": 0.23637764900922775,
	"rewards/equation_reward_func": 0.14453125,
	"rewards/format_reward_func": 0.010416666666666666,
	"step": 44
	},
	{
	"completion_length": 312.38671875,
	"epoch": 0.04906666666666667,
	"grad_norm": 0.501097592576752,
	"kl": 0.00037558873494466144,
	"learning_rate": 1.2777777777777777e-07,
	"loss": 0.0,
	"reward": 0.12760416666666666,
	"reward_std": 0.19834845326840878,
	"rewards/equation_reward_func": 0.11979166666666667,
	"rewards/format_reward_func": 0.0078125,
	"step": 46
	},
	{
	"completion_length": 316.0924479166667,
	"epoch": 0.0512,
	"grad_norm": 0.4447204356473162,
	"kl": 0.000406344731648763,
	"learning_rate": 1.3333333333333334e-07,
	"loss": 0.0,
	"reward": 0.13932291666666666,
	"reward_std": 0.2093838813404242,
	"rewards/equation_reward_func": 0.13671875,
	"rewards/format_reward_func": 0.0026041666666666665,
	"step": 48
	},
	{
	"completion_length": 327.6979166666667,
	"epoch": 0.05333333333333334,
	"grad_norm": 0.46791713227117093,
	"kl": 0.0004221598307291667,
	"learning_rate": 1.3888888888888888e-07,
	"loss": 0.0,
	"reward": 0.13671875,
	"reward_std": 0.23220261993507543,
	"rewards/equation_reward_func": 0.13151041666666666,
	"rewards/format_reward_func": 0.005208333333333333,
	"step": 50
	},
	{
	"completion_length": 307.3333333333333,
	"epoch": 0.055466666666666664,
	"grad_norm": 0.5027729473107166,
	"kl": 0.000476837158203125,
	"learning_rate": 1.4444444444444442e-07,
	"loss": 0.0,
	"reward": 0.13411458333333334,
	"reward_std": 0.20494651732345423,
	"rewards/equation_reward_func": 0.13020833333333334,
	"rewards/format_reward_func": 0.00390625,
	"step": 52
	},
	{
	"completion_length": 299.9739583333333,
	"epoch": 0.0576,
	"grad_norm": 0.5230041150932776,
	"kl": 0.0004863739013671875,
	"learning_rate": 1.5e-07,
	"loss": 0.0,
	"reward": 0.15494791666666666,
	"reward_std": 0.22640445083379745,
	"rewards/equation_reward_func": 0.1484375,
	"rewards/format_reward_func": 0.006510416666666667,
	"step": 54
	},
	{
	"completion_length": 302.1510416666667,
	"epoch": 0.05973333333333333,
	"grad_norm": 0.4575422136030652,
	"kl": 0.0005837281545003256,
	"learning_rate": 1.5555555555555556e-07,
	"loss": 0.0,
	"reward": 0.13411458333333334,
	"reward_std": 0.2039596519122521,
	"rewards/equation_reward_func": 0.12239583333333333,
	"rewards/format_reward_func": 0.01171875,
	"step": 56
	},
	{
	"completion_length": 325.6393229166667,
	"epoch": 0.06186666666666667,
	"grad_norm": 0.4279116185222134,
	"kl": 0.0006354649861653646,
	"learning_rate": 1.611111111111111e-07,
	"loss": 0.0,
	"reward": 0.12760416666666666,
	"reward_std": 0.19078880300124487,
	"rewards/equation_reward_func": 0.12630208333333334,
	"rewards/format_reward_func": 0.0013020833333333333,
	"step": 58
	},
	{
	"completion_length": 308.94140625,
	"epoch": 0.064,
	"grad_norm": 0.42255382860831625,
	"kl": 0.0008252461751302084,
	"learning_rate": 1.6666666666666665e-07,
	"loss": 0.0,
	"reward": 0.1171875,
	"reward_std": 0.19233438993493715,
	"rewards/equation_reward_func": 0.109375,
	"rewards/format_reward_func": 0.0078125,
	"step": 60
	},
	{
	"completion_length": 304.2513020833333,
	"epoch": 0.06613333333333334,
	"grad_norm": 0.6405427259205604,
	"kl": 0.0009608268737792969,
	"learning_rate": 1.7222222222222222e-07,
	"loss": 0.0,
	"reward": 0.13541666666666666,
	"reward_std": 0.21397345326840878,
	"rewards/equation_reward_func": 0.12369791666666667,
	"rewards/format_reward_func": 0.01171875,
	"step": 62
	},
	{
	"completion_length": 320.4153645833333,
	"epoch": 0.06826666666666667,
	"grad_norm": 0.45856311736219924,
	"kl": 0.0012358029683430989,
	"learning_rate": 1.7777777777777776e-07,
	"loss": 0.0,
	"reward": 0.15625,
	"reward_std": 0.2370392040659984,
	"rewards/equation_reward_func": 0.14583333333333334,
	"rewards/format_reward_func": 0.010416666666666666,
	"step": 64
	},
	{
	"completion_length": 309.3111979166667,
	"epoch": 0.0704,
	"grad_norm": 0.437219224949751,
	"kl": 0.0015001296997070312,
	"learning_rate": 1.833333333333333e-07,
	"loss": 0.0,
	"reward": 0.14453125,
	"reward_std": 0.21283073723316193,
	"rewards/equation_reward_func": 0.14192708333333334,
	"rewards/format_reward_func": 0.0026041666666666665,
	"step": 66
	},
	{
	"completion_length": 318.2200520833333,
	"epoch": 0.07253333333333334,
	"grad_norm": 0.43796787296918394,
	"kl": 0.0018056233723958333,
	"learning_rate": 1.8888888888888888e-07,
	"loss": 0.0,
	"reward": 0.14973958333333334,
	"reward_std": 0.23200981132686138,
	"rewards/equation_reward_func": 0.13932291666666666,
	"rewards/format_reward_func": 0.010416666666666666,
	"step": 68
	},
	{
	"completion_length": 315.8541666666667,
	"epoch": 0.07466666666666667,
	"grad_norm": 0.3872845566750352,
	"kl": 0.00201416015625,
	"learning_rate": 1.9444444444444445e-07,
	"loss": 0.0,
	"reward": 0.15234375,
	"reward_std": 0.22479298648734888,
	"rewards/equation_reward_func": 0.14583333333333334,
	"rewards/format_reward_func": 0.006510416666666667,
	"step": 70
	},
	{
	"completion_length": 303.8919270833333,
	"epoch": 0.0768,
	"grad_norm": 0.5310838690389933,
	"kl": 0.002712249755859375,
	"learning_rate": 2e-07,
	"loss": 0.0,
	"reward": 0.16276041666666666,
	"reward_std": 0.25024481614430744,
	"rewards/equation_reward_func": 0.15885416666666666,
	"rewards/format_reward_func": 0.00390625,
	"step": 72
	},
	{
	"completion_length": 301.75390625,
	"epoch": 0.07893333333333333,
	"grad_norm": 0.47338649229638796,
	"kl": 0.0026286443074544272,
	"learning_rate": 2.0555555555555553e-07,
	"loss": 0.0,
	"reward": 0.15625,
	"reward_std": 0.23663414580126604,
	"rewards/equation_reward_func": 0.14973958333333334,
	"rewards/format_reward_func": 0.006510416666666667,
	"step": 74
	},
	{
	"completion_length": 301.4049479166667,
	"epoch": 0.08106666666666666,
	"grad_norm": 0.6800302480043012,
	"kl": 0.0028934478759765625,
	"learning_rate": 2.111111111111111e-07,
	"loss": 0.0,
	"reward": 0.17057291666666666,
	"reward_std": 0.27066944167017937,
	"rewards/equation_reward_func": 0.16145833333333334,
	"rewards/format_reward_func": 0.009114583333333334,
	"step": 76
	},
	{
	"completion_length": 307.91015625,
	"epoch": 0.0832,
	"grad_norm": 0.48774585483120203,
	"kl": 0.003108342488606771,
	"learning_rate": 2.1666666666666667e-07,
	"loss": 0.0,
	"reward": 0.17317708333333334,
	"reward_std": 0.25346774235367775,
	"rewards/equation_reward_func": 0.16666666666666666,
	"rewards/format_reward_func": 0.006510416666666667,
	"step": 78
	},
	{
	"completion_length": 306.453125,
	"epoch": 0.08533333333333333,
	"grad_norm": 0.6071937340228676,
	"kl": 0.0042082468668619795,
	"learning_rate": 2.222222222222222e-07,
	"loss": 0.0,
	"reward": 0.1796875,
	"reward_std": 0.2616077462832133,
	"rewards/equation_reward_func": 0.16927083333333334,
	"rewards/format_reward_func": 0.010416666666666666,
	"step": 80
	},
	{
	"completion_length": 311.3033854166667,
	"epoch": 0.08746666666666666,
	"grad_norm": 0.5579105641567412,
	"kl": 0.004697163899739583,
	"learning_rate": 2.2777777777777776e-07,
	"loss": 0.0,
	"reward": 0.16145833333333334,
	"reward_std": 0.2576486114412546,
	"rewards/equation_reward_func": 0.15364583333333334,
	"rewards/format_reward_func": 0.0078125,
	"step": 82
	},
	{
	"completion_length": 296.0703125,
	"epoch": 0.0896,
	"grad_norm": 0.49407099658439535,
	"kl": 0.0062414805094401045,
	"learning_rate": 2.3333333333333333e-07,
	"loss": 0.0,
	"reward": 0.18880208333333334,
	"reward_std": 0.2865842506289482,
	"rewards/equation_reward_func": 0.17578125,
	"rewards/format_reward_func": 0.013020833333333334,
	"step": 84
	},
	{
	"completion_length": 296.2838541666667,
	"epoch": 0.09173333333333333,
	"grad_norm": 0.49798200229450956,
	"kl": 0.007803599039713542,
	"learning_rate": 2.388888888888889e-07,
	"loss": 0.0,
	"reward": 0.18359375,
	"reward_std": 0.28486046753823757,
	"rewards/equation_reward_func": 0.17057291666666666,
	"rewards/format_reward_func": 0.013020833333333334,
	"step": 86
	},
	{
	"completion_length": 306.8828125,
	"epoch": 0.09386666666666667,
	"grad_norm": 0.48211291480416396,
	"kl": 0.0098724365234375,
	"learning_rate": 2.4444444444444445e-07,
	"loss": 0.0,
	"reward": 0.20833333333333334,
	"reward_std": 0.28654729574918747,
	"rewards/equation_reward_func": 0.19140625,
	"rewards/format_reward_func": 0.016927083333333332,
	"step": 88
	},
	{
	"completion_length": 303.23828125,
	"epoch": 0.096,
	"grad_norm": 0.5475544727562284,
	"kl": 0.012597401936848959,
	"learning_rate": 2.5e-07,
	"loss": 0.0,
	"reward": 0.21223958333333334,
	"reward_std": 0.3129607041676839,
	"rewards/equation_reward_func": 0.19270833333333334,
	"rewards/format_reward_func": 0.01953125,
	"step": 90
	},
	{
	"completion_length": 296.2721354166667,
	"epoch": 0.09813333333333334,
	"grad_norm": 0.5100052235345294,
	"kl": 0.01421356201171875,
	"learning_rate": 2.5555555555555553e-07,
	"loss": 0.0,
	"reward": 0.19791666666666666,
	"reward_std": 0.28387140731016797,
	"rewards/equation_reward_func": 0.18359375,
	"rewards/format_reward_func": 0.014322916666666666,
	"step": 92
	},
	{
	"completion_length": 314.5065104166667,
	"epoch": 0.10026666666666667,
	"grad_norm": 0.526024947099546,
	"kl": 0.01816558837890625,
	"learning_rate": 2.6111111111111113e-07,
	"loss": 0.0,
	"reward": 0.20833333333333334,
	"reward_std": 0.3099478390067816,
	"rewards/equation_reward_func": 0.19010416666666666,
	"rewards/format_reward_func": 0.018229166666666668,
	"step": 94
	},
	{
	"completion_length": 305.828125,
	"epoch": 0.1024,
	"grad_norm": 0.5480734896155021,
	"kl": 0.022038777669270832,
	"learning_rate": 2.6666666666666667e-07,
	"loss": 0.0,
	"reward": 0.21614583333333334,
	"reward_std": 0.31053767539560795,
	"rewards/equation_reward_func": 0.20182291666666666,
	"rewards/format_reward_func": 0.014322916666666666,
	"step": 96
	},
	{
	"completion_length": 325.13671875,
	"epoch": 0.10453333333333334,
	"grad_norm": 0.5167200674597692,
	"kl": 0.020960489908854168,
	"learning_rate": 2.7222222222222216e-07,
	"loss": 0.0,
	"reward": 0.28125,
	"reward_std": 0.3472741370399793,
	"rewards/equation_reward_func": 0.2591145833333333,
	"rewards/format_reward_func": 0.022135416666666668,
	"step": 98
	},
	{
	"completion_length": 307.5169270833333,
	"epoch": 0.10666666666666667,
	"grad_norm": 0.5609231113853087,
	"kl": 0.036115010579427086,
	"learning_rate": 2.7777777777777776e-07,
	"loss": 0.0,
	"reward": 0.24739583333333334,
	"reward_std": 0.31771609373390675,
	"rewards/equation_reward_func": 0.22526041666666666,
	"rewards/format_reward_func": 0.022135416666666668,
	"step": 100
	},
	{
	"completion_length": 303.19140625,
	"epoch": 0.1088,
	"grad_norm": 0.5100702071591596,
	"kl": 0.06834920247395833,
	"learning_rate": 2.833333333333333e-07,
	"loss": 0.0001,
	"reward": 0.296875,
	"reward_std": 0.3370038438588381,
	"rewards/equation_reward_func": 0.2708333333333333,
	"rewards/format_reward_func": 0.026041666666666668,
	"step": 102
	},
	{
	"completion_length": 304.3190104166667,
	"epoch": 0.11093333333333333,
	"grad_norm": 0.5749967670185352,
	"kl": 0.039723714192708336,
	"learning_rate": 2.8888888888888885e-07,
	"loss": 0.0,
	"reward": 0.2942708333333333,
	"reward_std": 0.3552736062556505,
	"rewards/equation_reward_func": 0.26953125,
	"rewards/format_reward_func": 0.024739583333333332,
	"step": 104
	},
	{
	"completion_length": 305.0377604166667,
	"epoch": 0.11306666666666666,
	"grad_norm": 0.5774626258868023,
	"kl": 0.044108072916666664,
	"learning_rate": 2.9444444444444444e-07,
	"loss": 0.0,
	"reward": 0.3072916666666667,
	"reward_std": 0.3269995264708996,
	"rewards/equation_reward_func": 0.2799479166666667,
	"rewards/format_reward_func": 0.02734375,
	"step": 106
	},
	{
	"completion_length": 303.3151041666667,
	"epoch": 0.1152,
	"grad_norm": 0.6157808555480688,
	"kl": 0.07562255859375,
	"learning_rate": 3e-07,
	"loss": 0.0001,
	"reward": 0.3059895833333333,
	"reward_std": 0.34921893912057084,
	"rewards/equation_reward_func": 0.265625,
	"rewards/format_reward_func": 0.040364583333333336,
	"step": 108
	},
	{
	"completion_length": 308.6822916666667,
	"epoch": 0.11733333333333333,
	"grad_norm": 0.517668305636808,
	"kl": 0.07672627766927083,
	"learning_rate": 3.055555555555556e-07,
	"loss": 0.0001,
	"reward": 0.29296875,
	"reward_std": 0.3735650113473336,
	"rewards/equation_reward_func": 0.26171875,
	"rewards/format_reward_func": 0.03125,
	"step": 110
	},
	{
	"completion_length": 292.8203125,
	"epoch": 0.11946666666666667,
	"grad_norm": 0.6718169749607034,
	"kl": 0.08472696940104167,
	"learning_rate": 3.111111111111111e-07,
	"loss": 0.0001,
	"reward": 0.35546875,
	"reward_std": 0.39032395618657273,
	"rewards/equation_reward_func": 0.30859375,
	"rewards/format_reward_func": 0.046875,
	"step": 112
	},
	{
	"completion_length": 293.4752604166667,
	"epoch": 0.1216,
	"grad_norm": 0.6888025797529753,
	"kl": 0.18288167317708334,
	"learning_rate": 3.166666666666666e-07,
	"loss": 0.0002,
	"reward": 0.3372395833333333,
	"reward_std": 0.41200364877780277,
	"rewards/equation_reward_func": 0.2903645833333333,
	"rewards/format_reward_func": 0.046875,
	"step": 114
	},
	{
	"completion_length": 304.28125,
	"epoch": 0.12373333333333333,
	"grad_norm": 0.5749264004966205,
	"kl": 0.0893707275390625,
	"learning_rate": 3.222222222222222e-07,
	"loss": 0.0001,
	"reward": 0.3697916666666667,
	"reward_std": 0.39827041948835057,
	"rewards/equation_reward_func": 0.3125,
	"rewards/format_reward_func": 0.057291666666666664,
	"step": 116
	},
	{
	"completion_length": 310.1171875,
	"epoch": 0.12586666666666665,
	"grad_norm": 0.5630508218895838,
	"kl": 0.1839599609375,
	"learning_rate": 3.2777777777777776e-07,
	"loss": 0.0002,
	"reward": 0.3828125,
	"reward_std": 0.41853290299574536,
	"rewards/equation_reward_func": 0.3216145833333333,
	"rewards/format_reward_func": 0.061197916666666664,
	"step": 118
	},
	{
	"completion_length": 301.2526041666667,
	"epoch": 0.128,
	"grad_norm": 5.2283212926638996,
	"kl": 0.9999796549479166,
	"learning_rate": 3.333333333333333e-07,
	"loss": 0.001,
	"reward": 0.39453125,
	"reward_std": 0.4259330555796623,
	"rewards/equation_reward_func": 0.3294270833333333,
	"rewards/format_reward_func": 0.06510416666666667,
	"step": 120
	},
	{
	"completion_length": 294.1979166666667,
	"epoch": 0.13013333333333332,
	"grad_norm": 1.10750899228101,
	"kl": 0.4684244791666667,
	"learning_rate": 3.388888888888889e-07,
	"loss": 0.0005,
	"reward": 0.4166666666666667,
	"reward_std": 0.4223006808509429,
	"rewards/equation_reward_func": 0.3359375,
	"rewards/format_reward_func": 0.08072916666666667,
	"step": 122
	},
	{
	"completion_length": 297.9557291666667,
	"epoch": 0.13226666666666667,
	"grad_norm": 0.615270950393823,
	"kl": 0.291839599609375,
	"learning_rate": 3.4444444444444444e-07,
	"loss": 0.0003,
	"reward": 0.4440104166666667,
	"reward_std": 0.4323507013420264,
	"rewards/equation_reward_func": 0.3567708333333333,
	"rewards/format_reward_func": 0.08723958333333333,
	"step": 124
	},
	{
	"completion_length": 291.6080729166667,
	"epoch": 0.1344,
	"grad_norm": 0.6919625491697983,
	"kl": 0.24787394205729166,
	"learning_rate": 3.5e-07,
	"loss": 0.0002,
	"reward": 0.4401041666666667,
	"reward_std": 0.4683213233947754,
	"rewards/equation_reward_func": 0.3424479166666667,
	"rewards/format_reward_func": 0.09765625,
	"step": 126
	},
	{
	"completion_length": 284.203125,
	"epoch": 0.13653333333333334,
	"grad_norm": 0.6665697775274662,
	"kl": 0.13033040364583334,
	"learning_rate": 3.5555555555555553e-07,
	"loss": 0.0001,
	"reward": 0.47265625,
	"reward_std": 0.45334619904557866,
	"rewards/equation_reward_func": 0.3606770833333333,
	"rewards/format_reward_func": 0.11197916666666667,
	"step": 128
	},
	{
	"completion_length": 291.4934895833333,
	"epoch": 0.13866666666666666,
	"grad_norm": 0.9595565536956405,
	"kl": 0.4045817057291667,
	"learning_rate": 3.6111111111111107e-07,
	"loss": 0.0004,
	"reward": 0.4895833333333333,
	"reward_std": 0.49288257335623104,
	"rewards/equation_reward_func": 0.3580729166666667,
	"rewards/format_reward_func": 0.13151041666666666,
	"step": 130
	},
	{
	"completion_length": 278.5833333333333,
	"epoch": 0.1408,
	"grad_norm": 1.1153936953928414,
	"kl": 0.5784505208333334,
	"learning_rate": 3.666666666666666e-07,
	"loss": 0.0006,
	"reward": 0.4973958333333333,
	"reward_std": 0.4726346880197525,
	"rewards/equation_reward_func": 0.36328125,
	"rewards/format_reward_func": 0.13411458333333334,
	"step": 132
	},
	{
	"completion_length": 286.7786458333333,
	"epoch": 0.14293333333333333,
	"grad_norm": 1.047849419285119,
	"kl": 0.9443359375,
	"learning_rate": 3.722222222222222e-07,
	"loss": 0.0009,
	"reward": 0.5299479166666666,
	"reward_std": 0.48004503548145294,
	"rewards/equation_reward_func": 0.3684895833333333,
	"rewards/format_reward_func": 0.16145833333333334,
	"step": 134
	},
	{
	"completion_length": 273.8606770833333,
	"epoch": 0.14506666666666668,
	"grad_norm": 0.7853122892562024,
	"kl": 1.5025227864583333,
	"learning_rate": 3.7777777777777775e-07,
	"loss": 0.0015,
	"reward": 0.5638020833333334,
	"reward_std": 0.49455846349398297,
	"rewards/equation_reward_func": 0.4114583333333333,
	"rewards/format_reward_func": 0.15234375,
	"step": 136
	},
	{
	"completion_length": 296.9140625,
	"epoch": 0.1472,
	"grad_norm": 0.689313012147368,
	"kl": 0.4770304361979167,
	"learning_rate": 3.8333333333333335e-07,
	"loss": 0.0005,
	"reward": 0.5416666666666666,
	"reward_std": 0.47400059426824254,
	"rewards/equation_reward_func": 0.375,
	"rewards/format_reward_func": 0.16666666666666666,
	"step": 138
	},
	{
	"completion_length": 270.8984375,
	"epoch": 0.14933333333333335,
	"grad_norm": 0.9682569482630566,
	"kl": 0.565673828125,
	"learning_rate": 3.888888888888889e-07,
	"loss": 0.0006,
	"reward": 0.5481770833333334,
	"reward_std": 0.5179597126940886,
	"rewards/equation_reward_func": 0.3541666666666667,
	"rewards/format_reward_func": 0.19401041666666666,
	"step": 140
	},
	{
	"completion_length": 279.4114583333333,
	"epoch": 0.15146666666666667,
	"grad_norm": 0.8302773093140077,
	"kl": 0.5698649088541666,
	"learning_rate": 3.9444444444444444e-07,
	"loss": 0.0006,
	"reward": 0.6497395833333334,
	"reward_std": 0.4915623640020688,
	"rewards/equation_reward_func": 0.43359375,
	"rewards/format_reward_func": 0.21614583333333334,
	"step": 142
	},
	{
	"completion_length": 269.1966145833333,
	"epoch": 0.1536,
	"grad_norm": 0.9297676106298164,
	"kl": 1.3462320963541667,
	"learning_rate": 4e-07,
	"loss": 0.0013,
	"reward": 0.70703125,
	"reward_std": 0.5434456045428911,
	"rewards/equation_reward_func": 0.4440104166666667,
	"rewards/format_reward_func": 0.2630208333333333,
	"step": 144
	},
	{
	"completion_length": 256.3190104166667,
	"epoch": 0.15573333333333333,
	"grad_norm": 13.191096992701524,
	"kl": 2.7274169921875,
	"learning_rate": 4.055555555555555e-07,
	"loss": 0.0027,
	"reward": 0.7135416666666666,
	"reward_std": 0.5629752663274606,
	"rewards/equation_reward_func": 0.3984375,
	"rewards/format_reward_func": 0.3151041666666667,
	"step": 146
	},
	{
	"completion_length": 240.98958333333334,
	"epoch": 0.15786666666666666,
	"grad_norm": 2.6923517975197675,
	"kl": 1.9044596354166667,
	"learning_rate": 4.1111111111111107e-07,
	"loss": 0.0019,
	"reward": 0.7955729166666666,
	"reward_std": 0.6285357810556889,
	"rewards/equation_reward_func": 0.4348958333333333,
	"rewards/format_reward_func": 0.3606770833333333,
	"step": 148
	},
	{
	"completion_length": 243.48177083333334,
	"epoch": 0.16,
	"grad_norm": 0.9242139526339149,
	"kl": 2.3465983072916665,
	"learning_rate": 4.1666666666666667e-07,
	"loss": 0.0023,
	"reward": 0.8255208333333334,
	"reward_std": 0.5858474647005399,
	"rewards/equation_reward_func": 0.4544270833333333,
	"rewards/format_reward_func": 0.37109375,
	"step": 150
	},
	{
	"completion_length": 231.2265625,
	"epoch": 0.16213333333333332,
	"grad_norm": 9.949384368289673,
	"kl": 5.401285807291667,
	"learning_rate": 4.222222222222222e-07,
	"loss": 0.0054,
	"reward": 0.8307291666666666,
	"reward_std": 0.6044882734616598,
	"rewards/equation_reward_func": 0.4388020833333333,
	"rewards/format_reward_func": 0.3919270833333333,
	"step": 152
	},
	{
	"completion_length": 250.37369791666666,
	"epoch": 0.16426666666666667,
	"grad_norm": 5.161010194433084,
	"kl": 3.2445068359375,
	"learning_rate": 4.2777777777777775e-07,
	"loss": 0.0032,
	"reward": 0.7760416666666666,
	"reward_std": 0.535188919554154,
	"rewards/equation_reward_func": 0.4192708333333333,
	"rewards/format_reward_func": 0.3567708333333333,
	"step": 154
	},
	{
	"completion_length": 254.93489583333334,
	"epoch": 0.1664,
	"grad_norm": 1.0002640755601948,
	"kl": 0.6531982421875,
	"learning_rate": 4.3333333333333335e-07,
	"loss": 0.0007,
	"reward": 0.7421875,
	"reward_std": 0.5701001932223638,
	"rewards/equation_reward_func": 0.41015625,
	"rewards/format_reward_func": 0.33203125,
	"step": 156
	},
	{
	"completion_length": 259.5690104166667,
	"epoch": 0.16853333333333334,
	"grad_norm": 1.097274288452666,
	"kl": 1.966552734375,
	"learning_rate": 4.3888888888888884e-07,
	"loss": 0.002,
	"reward": 0.7018229166666666,
	"reward_std": 0.5485328423480192,
	"rewards/equation_reward_func": 0.4075520833333333,
	"rewards/format_reward_func": 0.2942708333333333,
	"step": 158
	},
	{
	"completion_length": 258.1015625,
	"epoch": 0.17066666666666666,
	"grad_norm": 0.9519756329925796,
	"kl": 0.7391357421875,
	"learning_rate": 4.444444444444444e-07,
	"loss": 0.0007,
	"reward": 0.7005208333333334,
	"reward_std": 0.5527832334240278,
	"rewards/equation_reward_func": 0.3815104166666667,
	"rewards/format_reward_func": 0.3190104166666667,
	"step": 160
	},
	{
	"completion_length": 262.7434895833333,
	"epoch": 0.1728,
	"grad_norm": 0.9591794964382775,
	"kl": 0.6593831380208334,
	"learning_rate": 4.5e-07,
	"loss": 0.0007,
	"reward": 0.7330729166666666,
	"reward_std": 0.5479850607613722,
	"rewards/equation_reward_func": 0.4205729166666667,
	"rewards/format_reward_func": 0.3125,
	"step": 162
	},
	{
	"completion_length": 249.73828125,
	"epoch": 0.17493333333333333,
	"grad_norm": 1.1551554314479973,
	"kl": 1.16845703125,
	"learning_rate": 4.555555555555555e-07,
	"loss": 0.0012,
	"reward": 0.8567708333333334,
	"reward_std": 0.6066061779856682,
	"rewards/equation_reward_func": 0.4661458333333333,
	"rewards/format_reward_func": 0.390625,
	"step": 164
	},
	{
	"completion_length": 241.34765625,
	"epoch": 0.17706666666666668,
	"grad_norm": 1.136563345844868,
	"kl": 1.6453450520833333,
	"learning_rate": 4.611111111111111e-07,
	"loss": 0.0016,
	"reward": 0.9049479166666666,
	"reward_std": 0.6060953537623087,
	"rewards/equation_reward_func": 0.4674479166666667,
	"rewards/format_reward_func": 0.4375,
	"step": 166
	},
	{
	"completion_length": 222.53125,
	"epoch": 0.1792,
	"grad_norm": 15.03906840654502,
	"kl": 7.114583333333333,
	"learning_rate": 4.6666666666666666e-07,
	"loss": 0.0071,
	"reward": 0.9466145833333334,
	"reward_std": 0.5902928560972214,
	"rewards/equation_reward_func": 0.4401041666666667,
	"rewards/format_reward_func": 0.5065104166666666,
	"step": 168
	},
	{
	"completion_length": 212.83463541666666,
	"epoch": 0.18133333333333335,
	"grad_norm": 14.22461182273305,
	"kl": 7.138020833333333,
	"learning_rate": 4.722222222222222e-07,
	"loss": 0.0071,
	"reward": 0.9388020833333334,
	"reward_std": 0.6038099154829979,
	"rewards/equation_reward_func": 0.4231770833333333,
	"rewards/format_reward_func": 0.515625,
	"step": 170
	},
	{
	"completion_length": 217.02213541666666,
	"epoch": 0.18346666666666667,
	"grad_norm": 1.035103721049245,
	"kl": 1.7672526041666667,
	"learning_rate": 4.777777777777778e-07,
	"loss": 0.0018,
	"reward": 1.0,
	"reward_std": 0.5838151797652245,
	"rewards/equation_reward_func": 0.5182291666666666,
	"rewards/format_reward_func": 0.4817708333333333,
	"step": 172
	},
	{
	"completion_length": 209.76041666666666,
	"epoch": 0.1856,
	"grad_norm": 1.062128854052587,
	"kl": 6.16357421875,
	"learning_rate": 4.833333333333333e-07,
	"loss": 0.0062,
	"reward": 0.9713541666666666,
	"reward_std": 0.6406667605042458,
	"rewards/equation_reward_func": 0.4596354166666667,
	"rewards/format_reward_func": 0.51171875,
	"step": 174
	},
	{
	"completion_length": 222.86979166666666,
	"epoch": 0.18773333333333334,
	"grad_norm": 1.0433166889326757,
	"kl": 99.47233072916667,
	"learning_rate": 4.888888888888889e-07,
	"loss": 0.0995,
	"reward": 0.96484375,
	"reward_std": 0.5752873420715332,
	"rewards/equation_reward_func": 0.4440104166666667,
	"rewards/format_reward_func": 0.5208333333333334,
	"step": 176
	},
	{
	"completion_length": 201.68489583333334,
	"epoch": 0.18986666666666666,
	"grad_norm": 1.2351107958626848,
	"kl": 2.5226236979166665,
	"learning_rate": 4.944444444444445e-07,
	"loss": 0.0025,
	"reward": 1.0325520833333333,
	"reward_std": 0.5681675101319948,
	"rewards/equation_reward_func": 0.47265625,
	"rewards/format_reward_func": 0.5598958333333334,
	"step": 178
	},
	{
	"completion_length": 195.61197916666666,
	"epoch": 0.192,
	"grad_norm": 11.627137706288314,
	"kl": 3.5594075520833335,
	"learning_rate": 5e-07,
	"loss": 0.0036,
	"reward": 1.0481770833333333,
	"reward_std": 0.639482689400514,
	"rewards/equation_reward_func": 0.4661458333333333,
	"rewards/format_reward_func": 0.58203125,
	"step": 180
	},
	{
	"completion_length": 201.04427083333334,
	"epoch": 0.19413333333333332,
	"grad_norm": 2.3761295186560973,
	"kl": 2.4593098958333335,
	"learning_rate": 4.999998543120144e-07,
	"loss": 0.0025,
	"reward": 1.0924479166666667,
	"reward_std": 0.5605833331743876,
	"rewards/equation_reward_func": 0.43359375,
	"rewards/format_reward_func": 0.6588541666666666,
	"step": 182
	},
	{
	"completion_length": 204.70963541666666,
	"epoch": 0.19626666666666667,
	"grad_norm": 19.15447042687315,
	"kl": 5.9189453125,
	"learning_rate": 4.999994172482276e-07,
	"loss": 0.0059,
	"reward": 1.0598958333333333,
	"reward_std": 0.5525274835526943,
	"rewards/equation_reward_func": 0.4322916666666667,
	"rewards/format_reward_func": 0.6276041666666666,
	"step": 184
	},
	{
	"completion_length": 200.78515625,
	"epoch": 0.1984,
	"grad_norm": 1.1411042149150106,
	"kl": 1.8561197916666667,
	"learning_rate": 4.99998688809149e-07,
	"loss": 0.0019,
	"reward": 1.0651041666666667,
	"reward_std": 0.556961198647817,
	"rewards/equation_reward_func": 0.4479166666666667,
	"rewards/format_reward_func": 0.6171875,
	"step": 186
	},
	{
	"completion_length": 200.1171875,
	"epoch": 0.20053333333333334,
	"grad_norm": 1.0584324543928774,
	"kl": 2.3194986979166665,
	"learning_rate": 4.999976689956274e-07,
	"loss": 0.0023,
	"reward": 1.0833333333333333,
	"reward_std": 0.5601175352931023,
	"rewards/equation_reward_func": 0.44140625,
	"rewards/format_reward_func": 0.6419270833333334,
	"step": 188
	},
	{
	"completion_length": 185.48567708333334,
	"epoch": 0.20266666666666666,
	"grad_norm": 1.1295258732694669,
	"kl": 3.38671875,
	"learning_rate": 4.999963578088516e-07,
	"loss": 0.0034,
	"reward": 1.0950520833333333,
	"reward_std": 0.5504275386532148,
	"rewards/equation_reward_func": 0.4322916666666667,
	"rewards/format_reward_func": 0.6627604166666666,
	"step": 190
	},
	{
	"completion_length": 194.33333333333334,
	"epoch": 0.2048,
	"grad_norm": 1.2128036885549578,
	"kl": 2.1873372395833335,
	"learning_rate": 4.999947552503497e-07,
	"loss": 0.0022,
	"reward": 1.1028645833333333,
	"reward_std": 0.559706615904967,
	"rewards/equation_reward_func": 0.4518229166666667,
	"rewards/format_reward_func": 0.6510416666666666,
	"step": 192
	},
	{
	"completion_length": 190.27604166666666,
	"epoch": 0.20693333333333333,
	"grad_norm": 2.3227207445333518,
	"kl": 2.27685546875,
	"learning_rate": 4.999928613219894e-07,
	"loss": 0.0023,
	"reward": 1.19140625,
	"reward_std": 0.5113137662410736,
	"rewards/equation_reward_func": 0.4778645833333333,
	"rewards/format_reward_func": 0.7135416666666666,
	"step": 194
	},
	{
	"completion_length": 193.97526041666666,
	"epoch": 0.20906666666666668,
	"grad_norm": 0.9931969673939934,
	"kl": 1.3095703125,
	"learning_rate": 4.999906760259783e-07,
	"loss": 0.0013,
	"reward": 1.1783854166666667,
	"reward_std": 0.550837729126215,
	"rewards/equation_reward_func": 0.4869791666666667,
	"rewards/format_reward_func": 0.69140625,
	"step": 196
	},
	{
	"completion_length": 180.828125,
	"epoch": 0.2112,
	"grad_norm": 1.1699816978790611,
	"kl": 2.6818033854166665,
	"learning_rate": 4.999881993648632e-07,
	"loss": 0.0027,
	"reward": 1.1796875,
	"reward_std": 0.5287719629704952,
	"rewards/equation_reward_func": 0.4700520833333333,
	"rewards/format_reward_func": 0.7096354166666666,
	"step": 198
	},
	{
	"completion_length": 177.2109375,
	"epoch": 0.21333333333333335,
	"grad_norm": 1.1046652489048718,
	"kl": 1.8024088541666667,
	"learning_rate": 4.999854313415308e-07,
	"loss": 0.0018,
	"reward": 1.2239583333333333,
	"reward_std": 0.5304639202853044,
	"rewards/equation_reward_func": 0.4635416666666667,
	"rewards/format_reward_func": 0.7604166666666666,
	"step": 200
	},
	{
	"completion_length": 187.02734375,
	"epoch": 0.21546666666666667,
	"grad_norm": 4.326441355219364,
	"kl": 3.2083333333333335,
	"learning_rate": 4.999823719592071e-07,
	"loss": 0.0032,
	"reward": 1.15625,
	"reward_std": 0.5145041197538376,
	"rewards/equation_reward_func": 0.4153645833333333,
	"rewards/format_reward_func": 0.7408854166666666,
	"step": 202
	},
	{
	"completion_length": 193.31770833333334,
	"epoch": 0.2176,
	"grad_norm": 2.528880737168287,
	"kl": 2.4415690104166665,
	"learning_rate": 4.999790212214579e-07,
	"loss": 0.0024,
	"reward": 1.25,
	"reward_std": 0.5058178131779035,
	"rewards/equation_reward_func": 0.4869791666666667,
	"rewards/format_reward_func": 0.7630208333333334,
	"step": 204
	},
	{
	"completion_length": 168.56770833333334,
	"epoch": 0.21973333333333334,
	"grad_norm": 1.1279270891785158,
	"kl": 1.9371744791666667,
	"learning_rate": 4.999753791321885e-07,
	"loss": 0.0019,
	"reward": 1.2317708333333333,
	"reward_std": 0.50295057396094,
	"rewards/equation_reward_func": 0.453125,
	"rewards/format_reward_func": 0.7786458333333334,
	"step": 206
	},
	{
	"completion_length": 166.27864583333334,
	"epoch": 0.22186666666666666,
	"grad_norm": 9.104680217201903,
	"kl": 11.263753255208334,
	"learning_rate": 4.999714456956438e-07,
	"loss": 0.0113,
	"reward": 1.2330729166666667,
	"reward_std": 0.4753416987756888,
	"rewards/equation_reward_func": 0.4375,
	"rewards/format_reward_func": 0.7955729166666666,
	"step": 208
	},
	{
	"completion_length": 180.4140625,
	"epoch": 0.224,
	"grad_norm": 2.416423818765659,
	"kl": 3.7718912760416665,
	"learning_rate": 4.99967220916408e-07,
	"loss": 0.0038,
	"reward": 1.2526041666666667,
	"reward_std": 0.5077879019081593,
	"rewards/equation_reward_func": 0.5013020833333334,
	"rewards/format_reward_func": 0.7513020833333334,
	"step": 210
	},
	{
	"completion_length": 181.14713541666666,
	"epoch": 0.22613333333333333,
	"grad_norm": 2.6632080745354734,
	"kl": 4.432861328125,
	"learning_rate": 4.999627047994053e-07,
	"loss": 0.0044,
	"reward": 1.2252604166666667,
	"reward_std": 0.5330267424384753,
	"rewards/equation_reward_func": 0.4856770833333333,
	"rewards/format_reward_func": 0.7395833333333334,
	"step": 212
	},
	{
	"completion_length": 186.21614583333334,
	"epoch": 0.22826666666666667,
	"grad_norm": 1.2804909363223782,
	"kl": 2.6925455729166665,
	"learning_rate": 4.999578973498994e-07,
	"loss": 0.0027,
	"reward": 1.1901041666666667,
	"reward_std": 0.5430716599027315,
	"rewards/equation_reward_func": 0.46484375,
	"rewards/format_reward_func": 0.7252604166666666,
	"step": 214
	},
	{
	"completion_length": 175.50911458333334,
	"epoch": 0.2304,
	"grad_norm": 1.2055626639645687,
	"kl": 1.9495442708333333,
	"learning_rate": 4.999527985734931e-07,
	"loss": 0.0019,
	"reward": 1.2604166666666667,
	"reward_std": 0.5137759521603584,
	"rewards/equation_reward_func": 0.5130208333333334,
	"rewards/format_reward_func": 0.7473958333333334,
	"step": 216
	},
	{
	"completion_length": 166.99479166666666,
	"epoch": 0.23253333333333334,
	"grad_norm": 1.168705645191161,
	"kl": 2.0302734375,
	"learning_rate": 4.999474084761293e-07,
	"loss": 0.002,
	"reward": 1.2903645833333333,
	"reward_std": 0.4996943349639575,
	"rewards/equation_reward_func": 0.5143229166666666,
	"rewards/format_reward_func": 0.7760416666666666,
	"step": 218
	},
	{
	"completion_length": 170.44140625,
	"epoch": 0.23466666666666666,
	"grad_norm": 0.9834885138417234,
	"kl": 1.9099934895833333,
	"learning_rate": 4.999417270640898e-07,
	"loss": 0.0019,
	"reward": 1.2669270833333333,
	"reward_std": 0.4850236301620801,
	"rewards/equation_reward_func": 0.4934895833333333,
	"rewards/format_reward_func": 0.7734375,
	"step": 220
	},
	{
	"completion_length": 166.546875,
	"epoch": 0.2368,
	"grad_norm": 1.0233093557102102,
	"kl": 4.828125,
	"learning_rate": 4.999357543439968e-07,
	"loss": 0.0049,
	"reward": 1.29296875,
	"reward_std": 0.44626551556090516,
	"rewards/equation_reward_func": 0.4778645833333333,
	"rewards/format_reward_func": 0.8151041666666666,
	"step": 222
	},
	{
	"completion_length": 152.25911458333334,
	"epoch": 0.23893333333333333,
	"grad_norm": 0.930674460121437,
	"kl": 2.28759765625,
	"learning_rate": 4.999294903228113e-07,
	"loss": 0.0023,
	"reward": 1.2916666666666667,
	"reward_std": 0.48016831651329994,
	"rewards/equation_reward_func": 0.4752604166666667,
	"rewards/format_reward_func": 0.81640625,
	"step": 224
	},
	{
	"completion_length": 163.56119791666666,
	"epoch": 0.24106666666666668,
	"grad_norm": 338.4140024542439,
	"kl": 49.606770833333336,
	"learning_rate": 4.999229350078339e-07,
	"loss": 0.0496,
	"reward": 1.3359375,
	"reward_std": 0.4479827595253785,
	"rewards/equation_reward_func": 0.4947916666666667,
	"rewards/format_reward_func": 0.8411458333333334,
	"step": 226
	},
	{
	"completion_length": 143.97395833333334,
	"epoch": 0.2432,
	"grad_norm": 1.8938831484071759,
	"kl": 2.3465169270833335,
	"learning_rate": 4.99916088406705e-07,
	"loss": 0.0023,
	"reward": 1.3450520833333333,
	"reward_std": 0.4198652400324742,
	"rewards/equation_reward_func": 0.4947916666666667,
	"rewards/format_reward_func": 0.8502604166666666,
	"step": 228
	},
	{
	"completion_length": 147.57552083333334,
	"epoch": 0.24533333333333332,
	"grad_norm": 1.1312980122891056,
	"kl": 2.0494791666666665,
	"learning_rate": 4.999089505274044e-07,
	"loss": 0.002,
	"reward": 1.3489583333333333,
	"reward_std": 0.43956900388002396,
	"rewards/equation_reward_func": 0.4973958333333333,
	"rewards/format_reward_func": 0.8515625,
	"step": 230
	},
	{
	"completion_length": 145.55859375,
	"epoch": 0.24746666666666667,
	"grad_norm": 1.2526828326540607,
	"kl": 2.8424479166666665,
	"learning_rate": 4.999015213782511e-07,
	"loss": 0.0028,
	"reward": 1.4088541666666667,
	"reward_std": 0.39962247883280116,
	"rewards/equation_reward_func": 0.53515625,
	"rewards/format_reward_func": 0.8736979166666666,
	"step": 232
	},
	{
	"completion_length": 146.65364583333334,
	"epoch": 0.2496,
	"grad_norm": 1.385608010130897,
	"kl": 7.672119140625,
	"learning_rate": 4.998938009679042e-07,
	"loss": 0.0077,
	"reward": 1.3802083333333333,
	"reward_std": 0.4127179595331351,
	"rewards/equation_reward_func": 0.5182291666666666,
	"rewards/format_reward_func": 0.8619791666666666,
	"step": 234
	},
	{
	"completion_length": 148.32291666666666,
	"epoch": 0.2517333333333333,
	"grad_norm": 4.657514911271875,
	"kl": 4.054280598958333,
	"learning_rate": 4.998857893053613e-07,
	"loss": 0.0041,
	"reward": 1.3606770833333333,
	"reward_std": 0.3983081355690956,
	"rewards/equation_reward_func": 0.4895833333333333,
	"rewards/format_reward_func": 0.87109375,
	"step": 236
	},
	{
	"completion_length": 165.42317708333334,
	"epoch": 0.2538666666666667,
	"grad_norm": 15.37370152503601,
	"kl": 3.7224934895833335,
	"learning_rate": 4.998774863999605e-07,
	"loss": 0.0037,
	"reward": 1.3333333333333333,
	"reward_std": 0.3957822372515996,
	"rewards/equation_reward_func": 0.4856770833333333,
	"rewards/format_reward_func": 0.84765625,
	"step": 238
	},
	{
	"completion_length": 160.47526041666666,
	"epoch": 0.256,
	"grad_norm": 2.2401370014890625,
	"kl": 3.3633626302083335,
	"learning_rate": 4.998688922613787e-07,
	"loss": 0.0034,
	"reward": 1.3294270833333333,
	"reward_std": 0.4413594137877226,
	"rewards/equation_reward_func": 0.4947916666666667,
	"rewards/format_reward_func": 0.8346354166666666,
	"step": 240
	},
	{
	"completion_length": 147.13671875,
	"epoch": 0.2581333333333333,
	"grad_norm": 1.1783778185079703,
	"kl": 2.1555989583333335,
	"learning_rate": 4.998600068996324e-07,
	"loss": 0.0022,
	"reward": 1.3359375,
	"reward_std": 0.405298105130593,
	"rewards/equation_reward_func": 0.4674479166666667,
	"rewards/format_reward_func": 0.8684895833333334,
	"step": 242
	},
	{
	"completion_length": 149.70963541666666,
	"epoch": 0.26026666666666665,
	"grad_norm": 0.9505264865648189,
	"kl": 1.3589680989583333,
	"learning_rate": 4.998508303250775e-07,
	"loss": 0.0014,
	"reward": 1.3125,
	"reward_std": 0.39988845959305763,
	"rewards/equation_reward_func": 0.4596354166666667,
	"rewards/format_reward_func": 0.8528645833333334,
	"step": 244
	},
	{
	"completion_length": 156.95182291666666,
	"epoch": 0.2624,
	"grad_norm": 1.0970031548231278,
	"kl": 1.8590494791666667,
	"learning_rate": 4.998413625484094e-07,
	"loss": 0.0019,
	"reward": 1.3684895833333333,
	"reward_std": 0.4291856500009696,
	"rewards/equation_reward_func": 0.5286458333333334,
	"rewards/format_reward_func": 0.83984375,
	"step": 246
	},
	{
	"completion_length": 158.27604166666666,
	"epoch": 0.26453333333333334,
	"grad_norm": 1.172846738622476,
	"kl": 2.772216796875,
	"learning_rate": 4.998316035806628e-07,
	"loss": 0.0028,
	"reward": 1.3463541666666667,
	"reward_std": 0.41433671365181607,
	"rewards/equation_reward_func": 0.4908854166666667,
	"rewards/format_reward_func": 0.85546875,
	"step": 248
	},
	{
	"completion_length": 156.32291666666666,
	"epoch": 0.26666666666666666,
	"grad_norm": 1.164488890111355,
	"kl": 2.6150716145833335,
	"learning_rate": 4.998215534332118e-07,
	"loss": 0.0026,
	"reward": 1.3333333333333333,
	"reward_std": 0.4136569102605184,
	"rewards/equation_reward_func": 0.4739583333333333,
	"rewards/format_reward_func": 0.859375,
	"step": 250
	},
	{
	"completion_length": 154.20963541666666,
	"epoch": 0.2688,
	"grad_norm": 1.029006111694433,
	"kl": 1.8280436197916667,
	"learning_rate": 4.998112121177698e-07,
	"loss": 0.0018,
	"reward": 1.4192708333333333,
	"reward_std": 0.3548974816997846,
	"rewards/equation_reward_func": 0.5364583333333334,
	"rewards/format_reward_func": 0.8828125,
	"step": 252
	},
	{
	"completion_length": 158.8984375,
	"epoch": 0.27093333333333336,
	"grad_norm": 3.70399988115464,
	"kl": 3.21728515625,
	"learning_rate": 4.9980057964639e-07,
	"loss": 0.0032,
	"reward": 1.3515625,
	"reward_std": 0.3518520401169856,
	"rewards/equation_reward_func": 0.4752604166666667,
	"rewards/format_reward_func": 0.8763020833333334,
	"step": 254
	},
	{
	"completion_length": 142.91796875,
	"epoch": 0.2730666666666667,
	"grad_norm": 10.573729639346004,
	"kl": 5.243977864583333,
	"learning_rate": 4.99789656031464e-07,
	"loss": 0.0052,
	"reward": 1.3385416666666667,
	"reward_std": 0.36321422768135864,
	"rewards/equation_reward_func": 0.4622395833333333,
	"rewards/format_reward_func": 0.8763020833333334,
	"step": 256
	},
	{
	"completion_length": 168.27864583333334,
	"epoch": 0.2752,
	"grad_norm": 1.7991522108608322,
	"kl": 19.999674479166668,
	"learning_rate": 4.997784412857239e-07,
	"loss": 0.02,
	"reward": 1.3658854166666667,
	"reward_std": 0.4025266710668802,
	"rewards/equation_reward_func": 0.5026041666666666,
	"rewards/format_reward_func": 0.86328125,
	"step": 258
	},
	{
	"completion_length": 155.0703125,
	"epoch": 0.2773333333333333,
	"grad_norm": 10.67133851091962,
	"kl": 6.747884114583333,
	"learning_rate": 4.997669354222401e-07,
	"loss": 0.0068,
	"reward": 1.4140625,
	"reward_std": 0.40690618256727856,
	"rewards/equation_reward_func": 0.5455729166666666,
	"rewards/format_reward_func": 0.8684895833333334,
	"step": 260
	},
	{
	"completion_length": 152.71223958333334,
	"epoch": 0.27946666666666664,
	"grad_norm": 1.0187931367905247,
	"kl": 2.809326171875,
	"learning_rate": 4.99755138454423e-07,
	"loss": 0.0028,
	"reward": 1.3658854166666667,
	"reward_std": 0.3314252154280742,
	"rewards/equation_reward_func": 0.4635416666666667,
	"rewards/format_reward_func": 0.90234375,
	"step": 262
	},
	{
	"completion_length": 144.68489583333334,
	"epoch": 0.2816,
	"grad_norm": 11.35020875218538,
	"kl": 5.034993489583333,
	"learning_rate": 4.997430503960219e-07,
	"loss": 0.005,
	"reward": 1.4322916666666667,
	"reward_std": 0.36501340257624787,
	"rewards/equation_reward_func": 0.54296875,
	"rewards/format_reward_func": 0.8893229166666666,
	"step": 264
	},
	{
	"completion_length": 167.67838541666666,
	"epoch": 0.28373333333333334,
	"grad_norm": 2.753668709754689,
	"kl": 3.296875,
	"learning_rate": 4.997306712611255e-07,
	"loss": 0.0033,
	"reward": 1.3567708333333333,
	"reward_std": 0.38773926223317784,
	"rewards/equation_reward_func": 0.50390625,
	"rewards/format_reward_func": 0.8528645833333334,
	"step": 266
	},
	{
	"completion_length": 153.69270833333334,
	"epoch": 0.28586666666666666,
	"grad_norm": 1.2934585156561604,
	"kl": 2.91650390625,
	"learning_rate": 4.997180010641617e-07,
	"loss": 0.0029,
	"reward": 1.3684895833333333,
	"reward_std": 0.3994043904046218,
	"rewards/equation_reward_func": 0.50390625,
	"rewards/format_reward_func": 0.8645833333333334,
	"step": 268
	},
	{
	"completion_length": 179.24088541666666,
	"epoch": 0.288,
	"grad_norm": 2.1142624120320885,
	"kl": 3.9395345052083335,
	"learning_rate": 4.997050398198976e-07,
	"loss": 0.0039,
	"reward": 1.3294270833333333,
	"reward_std": 0.41462432655195397,
	"rewards/equation_reward_func": 0.4986979166666667,
	"rewards/format_reward_func": 0.8307291666666666,
	"step": 270
	},
	{
	"completion_length": 173.00651041666666,
	"epoch": 0.29013333333333335,
	"grad_norm": 1.919579346043975,
	"kl": 2.6097819010416665,
	"learning_rate": 4.996917875434397e-07,
	"loss": 0.0026,
	"reward": 1.375,
	"reward_std": 0.39890523503224057,
	"rewards/equation_reward_func": 0.5390625,
	"rewards/format_reward_func": 0.8359375,
	"step": 272
	},
	{
	"completion_length": 187.50911458333334,
	"epoch": 0.2922666666666667,
	"grad_norm": 1.2568329559700449,
	"kl": 3.2888997395833335,
	"learning_rate": 4.996782442502337e-07,
	"loss": 0.0033,
	"reward": 1.3307291666666667,
	"reward_std": 0.3993341239790122,
	"rewards/equation_reward_func": 0.5065104166666666,
	"rewards/format_reward_func": 0.82421875,
	"step": 274
	},
	{
	"completion_length": 175.77864583333334,
	"epoch": 0.2944,
	"grad_norm": 2.28170428078346,
	"kl": 4.681803385416667,
	"learning_rate": 4.996644099560641e-07,
	"loss": 0.0047,
	"reward": 1.3919270833333333,
	"reward_std": 0.37952167727053165,
	"rewards/equation_reward_func": 0.5338541666666666,
	"rewards/format_reward_func": 0.8580729166666666,
	"step": 276
	},
	{
	"completion_length": 167.59765625,
	"epoch": 0.2965333333333333,
	"grad_norm": 1.7515218901636054,
	"kl": 2.6555989583333335,
	"learning_rate": 4.996502846770549e-07,
	"loss": 0.0027,
	"reward": 1.3541666666666667,
	"reward_std": 0.3857589593778054,
	"rewards/equation_reward_func": 0.4986979166666667,
	"rewards/format_reward_func": 0.85546875,
	"step": 278
	},
	{
	"completion_length": 161.62109375,
	"epoch": 0.2986666666666667,
	"grad_norm": 1.7738551165441407,
	"kl": 2.814453125,
	"learning_rate": 4.996358684296693e-07,
	"loss": 0.0028,
	"reward": 1.4127604166666667,
	"reward_std": 0.35575039125978947,
	"rewards/equation_reward_func": 0.546875,
	"rewards/format_reward_func": 0.8658854166666666,
	"step": 280
	},
	{
	"completion_length": 168.1015625,
	"epoch": 0.3008,
	"grad_norm": 6.176404503733315,
	"kl": 4.261393229166667,
	"learning_rate": 4.996211612307092e-07,
	"loss": 0.0043,
	"reward": 1.3684895833333333,
	"reward_std": 0.3725346190234025,
	"rewards/equation_reward_func": 0.5,
	"rewards/format_reward_func": 0.8684895833333334,
	"step": 282
	},
	{
	"completion_length": 173.60026041666666,
	"epoch": 0.30293333333333333,
	"grad_norm": 1.6282899345986805,
	"kl": 2.560546875,
	"learning_rate": 4.996061630973162e-07,
	"loss": 0.0026,
	"reward": 1.38671875,
	"reward_std": 0.3625526738663514,
	"rewards/equation_reward_func": 0.4973958333333333,
	"rewards/format_reward_func": 0.8893229166666666,
	"step": 284
	},
	{
	"completion_length": 185.00130208333334,
	"epoch": 0.30506666666666665,
	"grad_norm": 1.2282590578520074,
	"kl": 2.8416341145833335,
	"learning_rate": 4.995908740469706e-07,
	"loss": 0.0028,
	"reward": 1.3815104166666667,
	"reward_std": 0.38635170459747314,
	"rewards/equation_reward_func": 0.5143229166666666,
	"rewards/format_reward_func": 0.8671875,
	"step": 286
	},
	{
	"completion_length": 186.93229166666666,
	"epoch": 0.3072,
	"grad_norm": 2.2867428307337008,
	"kl": 5.429361979166667,
	"learning_rate": 4.995752940974918e-07,
	"loss": 0.0054,
	"reward": 1.4466145833333333,
	"reward_std": 0.38114700963099796,
	"rewards/equation_reward_func": 0.5872395833333334,
	"rewards/format_reward_func": 0.859375,
	"step": 288
	},
	{
	"completion_length": 166.58723958333334,
	"epoch": 0.30933333333333335,
	"grad_norm": 25.018020936679427,
	"kl": 21.289713541666668,
	"learning_rate": 4.995594232670383e-07,
	"loss": 0.0213,
	"reward": 1.4140625,
	"reward_std": 0.35276499142249423,
	"rewards/equation_reward_func": 0.5247395833333334,
	"rewards/format_reward_func": 0.8893229166666666,
	"step": 290
	},
	{
	"completion_length": 181.54166666666666,
	"epoch": 0.31146666666666667,
	"grad_norm": 1.0454613275772764,
	"kl": 3.7913411458333335,
	"learning_rate": 4.995432615741076e-07,
	"loss": 0.0038,
	"reward": 1.4270833333333333,
	"reward_std": 0.3370052979638179,
	"rewards/equation_reward_func": 0.5403645833333334,
	"rewards/format_reward_func": 0.88671875,
	"step": 292
	},
	{
	"completion_length": 162.26432291666666,
	"epoch": 0.3136,
	"grad_norm": 1.259806221185807,
	"kl": 1.6464029947916667,
	"learning_rate": 4.995268090375362e-07,
	"loss": 0.0016,
	"reward": 1.4661458333333333,
	"reward_std": 0.35614595996836823,
	"rewards/equation_reward_func": 0.5625,
	"rewards/format_reward_func": 0.9036458333333334,
	"step": 294
	},
	{
	"completion_length": 181.81770833333334,
	"epoch": 0.3157333333333333,
	"grad_norm": 3.6624985164753627,
	"kl": 17.105061848958332,
	"learning_rate": 4.995100656764996e-07,
	"loss": 0.0172,
	"reward": 1.421875,
	"reward_std": 0.33182443616290885,
	"rewards/equation_reward_func": 0.5208333333333334,
	"rewards/format_reward_func": 0.9010416666666666,
	"step": 296
	},
	{
	"completion_length": 162.8984375,
	"epoch": 0.3178666666666667,
	"grad_norm": 1.759355714873928,
	"kl": 3.4754231770833335,
	"learning_rate": 4.994930315105124e-07,
	"loss": 0.0035,
	"reward": 1.4192708333333333,
	"reward_std": 0.35781454170743626,
	"rewards/equation_reward_func": 0.515625,
	"rewards/format_reward_func": 0.9036458333333334,
	"step": 298
	},
	{
	"completion_length": 163.81510416666666,
	"epoch": 0.32,
	"grad_norm": 1.3903946934025209,
	"kl": 1.645263671875,
	"learning_rate": 4.994757065594279e-07,
	"loss": 0.0016,
	"reward": 1.4739583333333333,
	"reward_std": 0.3436816558241844,
	"rewards/equation_reward_func": 0.5611979166666666,
	"rewards/format_reward_func": 0.9127604166666666,
	"step": 300
	},
	{
	"completion_length": 156.77734375,
	"epoch": 0.3221333333333333,
	"grad_norm": 3.4308143887259797,
	"kl": 4.659993489583333,
	"learning_rate": 4.994580908434383e-07,
	"loss": 0.0047,
	"reward": 1.4401041666666667,
	"reward_std": 0.3360082097351551,
	"rewards/equation_reward_func": 0.5260416666666666,
	"rewards/format_reward_func": 0.9140625,
	"step": 302
	},
	{
	"completion_length": 179.78776041666666,
	"epoch": 0.32426666666666665,
	"grad_norm": 2.3844350695102956,
	"kl": 2.32177734375,
	"learning_rate": 4.994401843830749e-07,
	"loss": 0.0023,
	"reward": 1.4739583333333333,
	"reward_std": 0.2987093844761451,
	"rewards/equation_reward_func": 0.5846354166666666,
	"rewards/format_reward_func": 0.8893229166666666,
	"step": 304
	},
	{
	"completion_length": 169.66666666666666,
	"epoch": 0.3264,
	"grad_norm": 0.961985609846353,
	"kl": 14.213460286458334,
	"learning_rate": 4.994219871992076e-07,
	"loss": 0.0142,
	"reward": 1.4596354166666667,
	"reward_std": 0.3210810037950675,
	"rewards/equation_reward_func": 0.5559895833333334,
	"rewards/format_reward_func": 0.9036458333333334,
	"step": 306
	},
	{
	"completion_length": 167.90625,
	"epoch": 0.32853333333333334,
	"grad_norm": 0.9405082061021316,
	"kl": 2.02587890625,
	"learning_rate": 4.994034993130455e-07,
	"loss": 0.002,
	"reward": 1.4713541666666667,
	"reward_std": 0.2983833607286215,
	"rewards/equation_reward_func": 0.5598958333333334,
	"rewards/format_reward_func": 0.9114583333333334,
	"step": 308
	},
	{
	"completion_length": 175.98307291666666,
	"epoch": 0.33066666666666666,
	"grad_norm": 1.334779202207167,
	"kl": 2.4913736979166665,
	"learning_rate": 4.993847207461362e-07,
	"loss": 0.0025,
	"reward": 1.4322916666666667,
	"reward_std": 0.3716484221319358,
	"rewards/equation_reward_func": 0.54296875,
	"rewards/format_reward_func": 0.8893229166666666,
	"step": 310
	},
	{
	"completion_length": 185.77083333333334,
	"epoch": 0.3328,
	"grad_norm": 8.16460336647939,
	"kl": 5.974527994791667,
	"learning_rate": 4.993656515203662e-07,
	"loss": 0.006,
	"reward": 1.41796875,
	"reward_std": 0.34235416414837044,
	"rewards/equation_reward_func": 0.5286458333333334,
	"rewards/format_reward_func": 0.8893229166666666,
	"step": 312
	},
	{
	"completion_length": 179.86979166666666,
	"epoch": 0.33493333333333336,
	"grad_norm": 1.3677683322980885,
	"kl": 1.9765625,
	"learning_rate": 4.993462916579606e-07,
	"loss": 0.002,
	"reward": 1.4322916666666667,
	"reward_std": 0.32863991893827915,
	"rewards/equation_reward_func": 0.5325520833333334,
	"rewards/format_reward_func": 0.8997395833333334,
	"step": 314
	},
	{
	"completion_length": 186.25,
	"epoch": 0.3370666666666667,
	"grad_norm": 2.36642776700962,
	"kl": 2.8055013020833335,
	"learning_rate": 4.993266411814837e-07,
	"loss": 0.0028,
	"reward": 1.4466145833333333,
	"reward_std": 0.3383240445206563,
	"rewards/equation_reward_func": 0.546875,
	"rewards/format_reward_func": 0.8997395833333334,
	"step": 316
	},
	{
	"completion_length": 174.16927083333334,
	"epoch": 0.3392,
	"grad_norm": 2.422619188168394,
	"kl": 6.440755208333333,
	"learning_rate": 4.993067001138379e-07,
	"loss": 0.0064,
	"reward": 1.46875,
	"reward_std": 0.32740093643466633,
	"rewards/equation_reward_func": 0.5638020833333334,
	"rewards/format_reward_func": 0.9049479166666666,
	"step": 318
	},
	{
	"completion_length": 177.12630208333334,
	"epoch": 0.3413333333333333,
	"grad_norm": 27.361091060409933,
	"kl": 12.603841145833334,
	"learning_rate": 4.992864684782648e-07,
	"loss": 0.0126,
	"reward": 1.4947916666666667,
	"reward_std": 0.2787187360227108,
	"rewards/equation_reward_func": 0.578125,
	"rewards/format_reward_func": 0.9166666666666666,
	"step": 320
	},
	{
	"completion_length": 181.08984375,
	"epoch": 0.34346666666666664,
	"grad_norm": 3.079707993595026,
	"kl": 7.2373046875,
	"learning_rate": 4.992659462983445e-07,
	"loss": 0.0072,
	"reward": 1.4466145833333333,
	"reward_std": 0.2937923073768616,
	"rewards/equation_reward_func": 0.5364583333333334,
	"rewards/format_reward_func": 0.91015625,
	"step": 322
	},
	{
	"completion_length": 190.73046875,
	"epoch": 0.3456,
	"grad_norm": 3.1740226002247693,
	"kl": 18.130859375,
	"learning_rate": 4.992451335979955e-07,
	"loss": 0.0181,
	"reward": 1.4153645833333333,
	"reward_std": 0.3466429685552915,
	"rewards/equation_reward_func": 0.546875,
	"rewards/format_reward_func": 0.8684895833333334,
	"step": 324
	},
	{
	"completion_length": 194.1640625,
	"epoch": 0.34773333333333334,
	"grad_norm": 2.476111508976118,
	"kl": 9.517740885416666,
	"learning_rate": 4.992240304014751e-07,
	"loss": 0.0095,
	"reward": 1.3828125,
	"reward_std": 0.318850784872969,
	"rewards/equation_reward_func": 0.5078125,
	"rewards/format_reward_func": 0.875,
	"step": 326
	},
	{
	"completion_length": 196.67838541666666,
	"epoch": 0.34986666666666666,
	"grad_norm": 2.7671878066071685,
	"kl": 6.502604166666667,
	"learning_rate": 4.992026367333793e-07,
	"loss": 0.0065,
	"reward": 1.3333333333333333,
	"reward_std": 0.3232365877677997,
	"rewards/equation_reward_func": 0.4661458333333333,
	"rewards/format_reward_func": 0.8671875,
	"step": 328
	},
	{
	"completion_length": 209.34375,
	"epoch": 0.352,
	"grad_norm": 34.65839245150725,
	"kl": 15.095377604166666,
	"learning_rate": 4.991809526186423e-07,
	"loss": 0.0151,
	"reward": 1.4036458333333333,
	"reward_std": 0.3847830345233281,
	"rewards/equation_reward_func": 0.5546875,
	"rewards/format_reward_func": 0.8489583333333334,
	"step": 330
	},
	{
	"completion_length": 223.88802083333334,
	"epoch": 0.35413333333333336,
	"grad_norm": 2.7092227251507883,
	"kl": 8.806640625,
	"learning_rate": 4.991589780825373e-07,
	"loss": 0.0088,
	"reward": 1.3919270833333333,
	"reward_std": 0.35144259097675484,
	"rewards/equation_reward_func": 0.5403645833333334,
	"rewards/format_reward_func": 0.8515625,
	"step": 332
	},
	{
	"completion_length": 217.796875,
	"epoch": 0.3562666666666667,
	"grad_norm": 24.649025619210704,
	"kl": 20.08837890625,
	"learning_rate": 4.991367131506753e-07,
	"loss": 0.0201,
	"reward": 1.3854166666666667,
	"reward_std": 0.3253343341251214,
	"rewards/equation_reward_func": 0.5208333333333334,
	"rewards/format_reward_func": 0.8645833333333334,
	"step": 334
	},
	{
	"completion_length": 221.26041666666666,
	"epoch": 0.3584,
	"grad_norm": 2.4750640595456246,
	"kl": 4.589029947916667,
	"learning_rate": 4.991141578490066e-07,
	"loss": 0.0046,
	"reward": 1.3697916666666667,
	"reward_std": 0.3542692357053359,
	"rewards/equation_reward_func": 0.5078125,
	"rewards/format_reward_func": 0.8619791666666666,
	"step": 336
	},
	{
	"completion_length": 200.51302083333334,
	"epoch": 0.3605333333333333,
	"grad_norm": 1.3895199332178516,
	"kl": 2.9763997395833335,
	"learning_rate": 4.990913122038193e-07,
	"loss": 0.003,
	"reward": 1.4270833333333333,
	"reward_std": 0.30102448041240376,
	"rewards/equation_reward_func": 0.5390625,
	"rewards/format_reward_func": 0.8880208333333334,
	"step": 338
	},
	{
	"completion_length": 207.65494791666666,
	"epoch": 0.3626666666666667,
	"grad_norm": 2.30390121060217,
	"kl": 8.023274739583334,
	"learning_rate": 4.9906817624174e-07,
	"loss": 0.008,
	"reward": 1.421875,
	"reward_std": 0.3164581290135781,
	"rewards/equation_reward_func": 0.5403645833333334,
	"rewards/format_reward_func": 0.8815104166666666,
	"step": 340
	},
	{
	"completion_length": 208.8984375,
	"epoch": 0.3648,
	"grad_norm": 8.4846885644004,
	"kl": 9.577799479166666,
	"learning_rate": 4.990447499897339e-07,
	"loss": 0.0096,
	"reward": 1.3958333333333333,
	"reward_std": 0.356906708329916,
	"rewards/equation_reward_func": 0.5208333333333334,
	"rewards/format_reward_func": 0.875,
	"step": 342
	},
	{
	"completion_length": 191.11848958333334,
	"epoch": 0.36693333333333333,
	"grad_norm": 2.192986756128093,
	"kl": 3.1759440104166665,
	"learning_rate": 4.990210334751042e-07,
	"loss": 0.0032,
	"reward": 1.4375,
	"reward_std": 0.3219584555675586,
	"rewards/equation_reward_func": 0.5208333333333334,
	"rewards/format_reward_func": 0.9166666666666666,
	"step": 344
	},
	{
	"completion_length": 224.04036458333334,
	"epoch": 0.36906666666666665,
	"grad_norm": 2.0284306419082787,
	"kl": 6.519205729166667,
	"learning_rate": 4.989970267254928e-07,
	"loss": 0.0065,
	"reward": 1.453125,
	"reward_std": 0.32661245949566364,
	"rewards/equation_reward_func": 0.5651041666666666,
	"rewards/format_reward_func": 0.8880208333333334,
	"step": 346
	},
	{
	"completion_length": 209.0625,
	"epoch": 0.3712,
	"grad_norm": 1.8087618251157778,
	"kl": 6.83349609375,
	"learning_rate": 4.989727297688796e-07,
	"loss": 0.0068,
	"reward": 1.4713541666666667,
	"reward_std": 0.3229844719171524,
	"rewards/equation_reward_func": 0.5729166666666666,
	"rewards/format_reward_func": 0.8984375,
	"step": 348
	},
	{
	"completion_length": 213.18880208333334,
	"epoch": 0.37333333333333335,
	"grad_norm": 5.753461021884828,
	"kl": 314.1551106770833,
	"learning_rate": 4.989481426335828e-07,
	"loss": 0.3138,
	"reward": 1.4088541666666667,
	"reward_std": 0.2891847702364127,
	"rewards/equation_reward_func": 0.5091145833333334,
	"rewards/format_reward_func": 0.8997395833333334,
	"step": 350
	},
	{
	"completion_length": 224.02734375,
	"epoch": 0.37546666666666667,
	"grad_norm": 6.130407698426027,
	"kl": 17.840983072916668,
	"learning_rate": 4.989232653482587e-07,
	"loss": 0.0178,
	"reward": 1.4049479166666667,
	"reward_std": 0.32193317636847496,
	"rewards/equation_reward_func": 0.5182291666666666,
	"rewards/format_reward_func": 0.88671875,
	"step": 352
	},
	{
	"completion_length": 222.06770833333334,
	"epoch": 0.3776,
	"grad_norm": 4.539040177416362,
	"kl": 11.097493489583334,
	"learning_rate": 4.98898097941902e-07,
	"loss": 0.0111,
	"reward": 1.4453125,
	"reward_std": 0.3116636195530494,
	"rewards/equation_reward_func": 0.5546875,
	"rewards/format_reward_func": 0.890625,
	"step": 354
	},
	{
	"completion_length": 208.3515625,
	"epoch": 0.3797333333333333,
	"grad_norm": 3.20012302106274,
	"kl": 10.180501302083334,
	"learning_rate": 4.988726404438453e-07,
	"loss": 0.0102,
	"reward": 1.4752604166666667,
	"reward_std": 0.3321237297107776,
	"rewards/equation_reward_func": 0.5611979166666666,
	"rewards/format_reward_func": 0.9140625,
	"step": 356
	},
	{
	"completion_length": 218.25390625,
	"epoch": 0.3818666666666667,
	"grad_norm": 11.577733347139032,
	"kl": 11.480143229166666,
	"learning_rate": 4.988468928837595e-07,
	"loss": 0.0115,
	"reward": 1.4205729166666667,
	"reward_std": 0.30202082730829716,
	"rewards/equation_reward_func": 0.5247395833333334,
	"rewards/format_reward_func": 0.8958333333333334,
	"step": 358
	},
	{
	"completion_length": 240.76953125,
	"epoch": 0.384,
	"grad_norm": 16.915284710100376,
	"kl": 13.41015625,
	"learning_rate": 4.988208552916535e-07,
	"loss": 0.0134,
	"reward": 1.4127604166666667,
	"reward_std": 0.3319027305891116,
	"rewards/equation_reward_func": 0.5208333333333334,
	"rewards/format_reward_func": 0.8919270833333334,
	"step": 360
	},
	{
	"completion_length": 233.05078125,
	"epoch": 0.38613333333333333,
	"grad_norm": 9.002107586123866,
	"kl": 81.13118489583333,
	"learning_rate": 4.987945276978741e-07,
	"loss": 0.0813,
	"reward": 1.3671875,
	"reward_std": 0.34994419167439145,
	"rewards/equation_reward_func": 0.4830729166666667,
	"rewards/format_reward_func": 0.8841145833333334,
	"step": 362
	},
	{
	"completion_length": 219.76302083333334,
	"epoch": 0.38826666666666665,
	"grad_norm": 3.6005867170986994,
	"kl": 23.193196614583332,
	"learning_rate": 4.987679101331063e-07,
	"loss": 0.0232,
	"reward": 1.390625,
	"reward_std": 0.307373338068525,
	"rewards/equation_reward_func": 0.48828125,
	"rewards/format_reward_func": 0.90234375,
	"step": 364
	},
	{
	"completion_length": 227.37239583333334,
	"epoch": 0.3904,
	"grad_norm": 5.849814843191044,
	"kl": 17.222819010416668,
	"learning_rate": 4.987410026283729e-07,
	"loss": 0.0172,
	"reward": 1.4205729166666667,
	"reward_std": 0.34443656851847965,
	"rewards/equation_reward_func": 0.5247395833333334,
	"rewards/format_reward_func": 0.8958333333333334,
	"step": 366
	},
	{
	"completion_length": 215.58333333333334,
	"epoch": 0.39253333333333335,
	"grad_norm": 5.439590250250015,
	"kl": 27.386067708333332,
	"learning_rate": 4.98713805215035e-07,
	"loss": 0.0274,
	"reward": 1.40625,
	"reward_std": 0.3085811994969845,
	"rewards/equation_reward_func": 0.48828125,
	"rewards/format_reward_func": 0.91796875,
	"step": 368
	},
	{
	"completion_length": 227.37369791666666,
	"epoch": 0.39466666666666667,
	"grad_norm": 4.5703703773323445,
	"kl": 13.2587890625,
	"learning_rate": 4.986863179247908e-07,
	"loss": 0.0132,
	"reward": 1.4153645833333333,
	"reward_std": 0.3414020612835884,
	"rewards/equation_reward_func": 0.515625,
	"rewards/format_reward_func": 0.8997395833333334,
	"step": 370
	},
	{
	"completion_length": 225.4375,
	"epoch": 0.3968,
	"grad_norm": 11.057053175988223,
	"kl": 33.43408203125,
	"learning_rate": 4.986585407896771e-07,
	"loss": 0.0334,
	"reward": 1.4986979166666667,
	"reward_std": 0.3032235906769832,
	"rewards/equation_reward_func": 0.5768229166666666,
	"rewards/format_reward_func": 0.921875,
	"step": 372
	},
	{
	"completion_length": 227.80859375,
	"epoch": 0.3989333333333333,
	"grad_norm": 6.12533260234951,
	"kl": 19.458984375,
	"learning_rate": 4.986304738420683e-07,
	"loss": 0.0195,
	"reward": 1.4166666666666667,
	"reward_std": 0.3346430454403162,
	"rewards/equation_reward_func": 0.51171875,
	"rewards/format_reward_func": 0.9049479166666666,
	"step": 374
	},
	{
	"completion_length": 214.39192708333334,
	"epoch": 0.4010666666666667,
	"grad_norm": 2.582252220874005,
	"kl": 9.755452473958334,
	"learning_rate": 4.986021171146764e-07,
	"loss": 0.0098,
	"reward": 1.4296875,
	"reward_std": 0.32910356236000854,
	"rewards/equation_reward_func": 0.5013020833333334,
	"rewards/format_reward_func": 0.9283854166666666,
	"step": 376
	},
	{
	"completion_length": 240.28255208333334,
	"epoch": 0.4032,
	"grad_norm": 5.144526058113899,
	"kl": 16.131184895833332,
	"learning_rate": 4.985734706405516e-07,
	"loss": 0.0161,
	"reward": 1.3880208333333333,
	"reward_std": 0.336049551765124,
	"rewards/equation_reward_func": 0.5091145833333334,
	"rewards/format_reward_func": 0.87890625,
	"step": 378
	},
	{
	"completion_length": 231.28385416666666,
	"epoch": 0.4053333333333333,
	"grad_norm": 21.575872385917346,
	"kl": 12.249267578125,
	"learning_rate": 4.98544534453081e-07,
	"loss": 0.0123,
	"reward": 1.4244791666666667,
	"reward_std": 0.33524017098049325,
	"rewards/equation_reward_func": 0.5169270833333334,
	"rewards/format_reward_func": 0.9075520833333334,
	"step": 380
	},
	{
	"completion_length": 245.22526041666666,
	"epoch": 0.40746666666666664,
	"grad_norm": 13.089721859951958,
	"kl": 14.482096354166666,
	"learning_rate": 4.985153085859902e-07,
	"loss": 0.0145,
	"reward": 1.3723958333333333,
	"reward_std": 0.3239475066463153,
	"rewards/equation_reward_func": 0.4739583333333333,
	"rewards/format_reward_func": 0.8984375,
	"step": 382
	},
	{
	"completion_length": 250.19401041666666,
	"epoch": 0.4096,
	"grad_norm": 4.495888458979003,
	"kl": 37.082194010416664,
	"learning_rate": 4.984857930733419e-07,
	"loss": 0.037,
	"reward": 1.41015625,
	"reward_std": 0.3523635808378458,
	"rewards/equation_reward_func": 0.51953125,
	"rewards/format_reward_func": 0.890625,
	"step": 384
	},
	{
	"completion_length": 253.52213541666666,
	"epoch": 0.41173333333333334,
	"grad_norm": 3.0300438694313114,
	"kl": 12.853841145833334,
	"learning_rate": 4.984559879495366e-07,
	"loss": 0.0129,
	"reward": 1.4361979166666667,
	"reward_std": 0.3405926829824845,
	"rewards/equation_reward_func": 0.5416666666666666,
	"rewards/format_reward_func": 0.89453125,
	"step": 386
	},
	{
	"completion_length": 267.8216145833333,
	"epoch": 0.41386666666666666,
	"grad_norm": 5.483653492210386,
	"kl": 17.23828125,
	"learning_rate": 4.984258932493123e-07,
	"loss": 0.0172,
	"reward": 1.3763020833333333,
	"reward_std": 0.3612657766789198,
	"rewards/equation_reward_func": 0.5208333333333334,
	"rewards/format_reward_func": 0.85546875,
	"step": 388
	},
	{
	"completion_length": 274.8450520833333,
	"epoch": 0.416,
	"grad_norm": 4.781253708366664,
	"kl": 18.211588541666668,
	"learning_rate": 4.983955090077444e-07,
	"loss": 0.0182,
	"reward": 1.4244791666666667,
	"reward_std": 0.3585283973564704,
	"rewards/equation_reward_func": 0.55078125,
	"rewards/format_reward_func": 0.8736979166666666,
	"step": 390
	},
	{
	"completion_length": 271.94921875,
	"epoch": 0.41813333333333336,
	"grad_norm": 2.115443080453162,
	"kl": 19.173177083333332,
	"learning_rate": 4.983648352602459e-07,
	"loss": 0.0192,
	"reward": 1.3854166666666667,
	"reward_std": 0.3742331402997176,
	"rewards/equation_reward_func": 0.5325520833333334,
	"rewards/format_reward_func": 0.8528645833333334,
	"step": 392
	},
	{
	"completion_length": 251.109375,
	"epoch": 0.4202666666666667,
	"grad_norm": 6.54014585741137,
	"kl": 19.649088541666668,
	"learning_rate": 4.983338720425672e-07,
	"loss": 0.0196,
	"reward": 1.4075520833333333,
	"reward_std": 0.3394419389466445,
	"rewards/equation_reward_func": 0.5169270833333334,
	"rewards/format_reward_func": 0.890625,
	"step": 394
	},
	{
	"completion_length": 257.5442708333333,
	"epoch": 0.4224,
	"grad_norm": 5.40917708152935,
	"kl": 13.996419270833334,
	"learning_rate": 4.98302619390796e-07,
	"loss": 0.014,
	"reward": 1.4088541666666667,
	"reward_std": 0.3521092676868041,
	"rewards/equation_reward_func": 0.5299479166666666,
	"rewards/format_reward_func": 0.87890625,
	"step": 396
	},
	{
	"completion_length": 269.7682291666667,
	"epoch": 0.4245333333333333,
	"grad_norm": 2.3952158495418847,
	"kl": 7.937662760416667,
	"learning_rate": 4.982710773413576e-07,
	"loss": 0.0079,
	"reward": 1.3515625,
	"reward_std": 0.38726684637367725,
	"rewards/equation_reward_func": 0.4934895833333333,
	"rewards/format_reward_func": 0.8580729166666666,
	"step": 398
	},
	{
	"completion_length": 270.2291666666667,
	"epoch": 0.4266666666666667,
	"grad_norm": 8.89119378322214,
	"kl": 16.30224609375,
	"learning_rate": 4.98239245931014e-07,
	"loss": 0.0163,
	"reward": 1.40625,
	"reward_std": 0.3659625742584467,
	"rewards/equation_reward_func": 0.53515625,
	"rewards/format_reward_func": 0.87109375,
	"step": 400
	},
	{
	"completion_length": 279.5716145833333,
	"epoch": 0.4288,
	"grad_norm": 2.798514797768392,
	"kl": 15.98291015625,
	"learning_rate": 4.982071251968652e-07,
	"loss": 0.016,
	"reward": 1.37890625,
	"reward_std": 0.39383378997445107,
	"rewards/equation_reward_func": 0.5130208333333334,
	"rewards/format_reward_func": 0.8658854166666666,
	"step": 402
	},
	{
	"completion_length": 293.7565104166667,
	"epoch": 0.43093333333333333,
	"grad_norm": 11.011712863068214,
	"kl": 19.701171875,
	"learning_rate": 4.981747151763478e-07,
	"loss": 0.0197,
	"reward": 1.3763020833333333,
	"reward_std": 0.36934428413709003,
	"rewards/equation_reward_func": 0.54296875,
	"rewards/format_reward_func": 0.8333333333333334,
	"step": 404
	},
	{
	"completion_length": 274.7083333333333,
	"epoch": 0.43306666666666666,
	"grad_norm": 2.1935041699430187,
	"kl": 10.062174479166666,
	"learning_rate": 4.981420159072359e-07,
	"loss": 0.0101,
	"reward": 1.38671875,
	"reward_std": 0.37631774072845775,
	"rewards/equation_reward_func": 0.5260416666666666,
	"rewards/format_reward_func": 0.8606770833333334,
	"step": 406
	},
	{
	"completion_length": 297.99609375,
	"epoch": 0.4352,
	"grad_norm": 2.3875864001669416,
	"kl": 10.682942708333334,
	"learning_rate": 4.981090274276405e-07,
	"loss": 0.0107,
	"reward": 1.3736979166666667,
	"reward_std": 0.40696768400569755,
	"rewards/equation_reward_func": 0.5325520833333334,
	"rewards/format_reward_func": 0.8411458333333334,
	"step": 408
	},
	{
	"completion_length": 278.3606770833333,
	"epoch": 0.43733333333333335,
	"grad_norm": 1.8235931437006083,
	"kl": 9.930989583333334,
	"learning_rate": 4.9807574977601e-07,
	"loss": 0.0099,
	"reward": 1.359375,
	"reward_std": 0.43410707886020344,
	"rewards/equation_reward_func": 0.5130208333333334,
	"rewards/format_reward_func": 0.8463541666666666,
	"step": 410
	},
	{
	"completion_length": 270.5651041666667,
	"epoch": 0.43946666666666667,
	"grad_norm": 2.157587952911447,
	"kl": 9.784830729166666,
	"learning_rate": 4.980421829911295e-07,
	"loss": 0.0098,
	"reward": 1.4127604166666667,
	"reward_std": 0.37187380343675613,
	"rewards/equation_reward_func": 0.5377604166666666,
	"rewards/format_reward_func": 0.875,
	"step": 412
	},
	{
	"completion_length": 275.40625,
	"epoch": 0.4416,
	"grad_norm": 2.982049055511251,
	"kl": 26.8603515625,
	"learning_rate": 4.980083271121214e-07,
	"loss": 0.0269,
	"reward": 1.390625,
	"reward_std": 0.39479173099001247,
	"rewards/equation_reward_func": 0.5325520833333334,
	"rewards/format_reward_func": 0.8580729166666666,
	"step": 414
	},
	{
	"completion_length": 278.640625,
	"epoch": 0.4437333333333333,
	"grad_norm": 1.5649001182944402,
	"kl": 9.96630859375,
	"learning_rate": 4.979741821784445e-07,
	"loss": 0.01,
	"reward": 1.4466145833333333,
	"reward_std": 0.36725894299646217,
	"rewards/equation_reward_func": 0.5716145833333334,
	"rewards/format_reward_func": 0.875,
	"step": 416
	},
	{
	"completion_length": 285.0390625,
	"epoch": 0.4458666666666667,
	"grad_norm": 1.6037704063791247,
	"kl": 7.15673828125,
	"learning_rate": 4.979397482298952e-07,
	"loss": 0.0072,
	"reward": 1.3841145833333333,
	"reward_std": 0.4006949222336213,
	"rewards/equation_reward_func": 0.52734375,
	"rewards/format_reward_func": 0.8567708333333334,
	"step": 418
	},
	{
	"completion_length": 272.359375,
	"epoch": 0.448,
	"grad_norm": 2.0990396585920186,
	"kl": 7.476236979166667,
	"learning_rate": 4.979050253066063e-07,
	"loss": 0.0075,
	"reward": 1.3763020833333333,
	"reward_std": 0.4051750873525937,
	"rewards/equation_reward_func": 0.51171875,
	"rewards/format_reward_func": 0.8645833333333334,
	"step": 420
	},
	{
	"completion_length": 279.8854166666667,
	"epoch": 0.45013333333333333,
	"grad_norm": 1.7898522410815005,
	"kl": 9.139322916666666,
	"learning_rate": 4.978700134490473e-07,
	"loss": 0.0091,
	"reward": 1.4192708333333333,
	"reward_std": 0.4089436090240876,
	"rewards/equation_reward_func": 0.5703125,
	"rewards/format_reward_func": 0.8489583333333334,
	"step": 422
	},
	{
	"completion_length": 279.8294270833333,
	"epoch": 0.45226666666666665,
	"grad_norm": 1.812943775378201,
	"kl": 7.272135416666667,
	"learning_rate": 4.97834712698025e-07,
	"loss": 0.0073,
	"reward": 1.3411458333333333,
	"reward_std": 0.40381430586179096,
	"rewards/equation_reward_func": 0.4830729166666667,
	"rewards/format_reward_func": 0.8580729166666666,
	"step": 424
	},
	{
	"completion_length": 264.0546875,
	"epoch": 0.4544,
	"grad_norm": 4.035197197766136,
	"kl": 6.265218098958333,
	"learning_rate": 4.977991230946823e-07,
	"loss": 0.0063,
	"reward": 1.4596354166666667,
	"reward_std": 0.3382102530449629,
	"rewards/equation_reward_func": 0.5729166666666666,
	"rewards/format_reward_func": 0.88671875,
	"step": 426
	},
	{
	"completion_length": 287.6627604166667,
	"epoch": 0.45653333333333335,
	"grad_norm": 6.254816053848744,
	"kl": 15.054850260416666,
	"learning_rate": 4.977632446804992e-07,
	"loss": 0.015,
	"reward": 1.3671875,
	"reward_std": 0.3308339286595583,
	"rewards/equation_reward_func": 0.4986979166666667,
	"rewards/format_reward_func": 0.8684895833333334,
	"step": 428
	},
	{
	"completion_length": 302.7721354166667,
	"epoch": 0.45866666666666667,
	"grad_norm": 1.81764831959685,
	"kl": 14.795084635416666,
	"learning_rate": 4.97727077497292e-07,
	"loss": 0.0148,
	"reward": 1.3216145833333333,
	"reward_std": 0.3970574662089348,
	"rewards/equation_reward_func": 0.4817708333333333,
	"rewards/format_reward_func": 0.83984375,
	"step": 430
	},
	{
	"completion_length": 299.7317708333333,
	"epoch": 0.4608,
	"grad_norm": 2.332702425042101,
	"kl": 8.173990885416666,
	"learning_rate": 4.976906215872137e-07,
	"loss": 0.0082,
	"reward": 1.36328125,
	"reward_std": 0.3915802159657081,
	"rewards/equation_reward_func": 0.5143229166666666,
	"rewards/format_reward_func": 0.8489583333333334,
	"step": 432
	},
	{
	"completion_length": 279.55078125,
	"epoch": 0.4629333333333333,
	"grad_norm": 1.4545131931563136,
	"kl": 6.1376953125,
	"learning_rate": 4.976538769927538e-07,
	"loss": 0.0061,
	"reward": 1.40234375,
	"reward_std": 0.3582718962182601,
	"rewards/equation_reward_func": 0.5247395833333334,
	"rewards/format_reward_func": 0.8776041666666666,
	"step": 434
	},
	{
	"completion_length": 288.0221354166667,
	"epoch": 0.4650666666666667,
	"grad_norm": 1.7369819883483273,
	"kl": 6.397135416666667,
	"learning_rate": 4.976168437567384e-07,
	"loss": 0.0064,
	"reward": 1.3736979166666667,
	"reward_std": 0.3829425399502118,
	"rewards/equation_reward_func": 0.5078125,
	"rewards/format_reward_func": 0.8658854166666666,
	"step": 436
	},
	{
	"completion_length": 270.57421875,
	"epoch": 0.4672,
	"grad_norm": 1.4315278013124293,
	"kl": 6.185709635416667,
	"learning_rate": 4.975795219223298e-07,
	"loss": 0.0062,
	"reward": 1.4375,
	"reward_std": 0.3662263844162226,
	"rewards/equation_reward_func": 0.5638020833333334,
	"rewards/format_reward_func": 0.8736979166666666,
	"step": 438
	},
	{
	"completion_length": 265.63671875,
	"epoch": 0.4693333333333333,
	"grad_norm": 1.0951113835238062,
	"kl": 4.806315104166667,
	"learning_rate": 4.975419115330267e-07,
	"loss": 0.0048,
	"reward": 1.421875,
	"reward_std": 0.3494623110940059,
	"rewards/equation_reward_func": 0.5299479166666666,
	"rewards/format_reward_func": 0.8919270833333334,
	"step": 440
	},
	{
	"completion_length": 279.9739583333333,
	"epoch": 0.47146666666666665,
	"grad_norm": 1.6944922087080612,
	"kl": 4.982584635416667,
	"learning_rate": 4.975040126326641e-07,
	"loss": 0.005,
	"reward": 1.421875,
	"reward_std": 0.3550127310057481,
	"rewards/equation_reward_func": 0.5364583333333334,
	"rewards/format_reward_func": 0.8854166666666666,
	"step": 442
	},
	{
	"completion_length": 274.1197916666667,
	"epoch": 0.4736,
	"grad_norm": 2.2948038824016592,
	"kl": 4.573486328125,
	"learning_rate": 4.974658252654134e-07,
	"loss": 0.0046,
	"reward": 1.421875,
	"reward_std": 0.34279981814324856,
	"rewards/equation_reward_func": 0.5442708333333334,
	"rewards/format_reward_func": 0.8776041666666666,
	"step": 444
	},
	{
	"completion_length": 289.3958333333333,
	"epoch": 0.47573333333333334,
	"grad_norm": 3.2614112606768493,
	"kl": 5.152018229166667,
	"learning_rate": 4.974273494757822e-07,
	"loss": 0.0051,
	"reward": 1.3502604166666667,
	"reward_std": 0.39504312972227734,
	"rewards/equation_reward_func": 0.4856770833333333,
	"rewards/format_reward_func": 0.8645833333333334,
	"step": 446
	},
	{
	"completion_length": 275.15625,
	"epoch": 0.47786666666666666,
	"grad_norm": 2.30823975684093,
	"kl": 4.50341796875,
	"learning_rate": 4.973885853086141e-07,
	"loss": 0.0045,
	"reward": 1.421875,
	"reward_std": 0.3606144456813733,
	"rewards/equation_reward_func": 0.5377604166666666,
	"rewards/format_reward_func": 0.8841145833333334,
	"step": 448
	},
	{
	"completion_length": 264.8502604166667,
	"epoch": 0.48,
	"grad_norm": 4.984173028626798,
	"kl": 2.70166015625,
	"learning_rate": 4.973495328090889e-07,
	"loss": 0.0027,
	"reward": 1.39453125,
	"reward_std": 0.3674400815119346,
	"rewards/equation_reward_func": 0.4973958333333333,
	"rewards/format_reward_func": 0.8971354166666666,
	"step": 450
	},
	{
	"completion_length": 278.6901041666667,
	"epoch": 0.48213333333333336,
	"grad_norm": 27.727907697984055,
	"kl": 8.665690104166666,
	"learning_rate": 4.973101920227225e-07,
	"loss": 0.0087,
	"reward": 1.4322916666666667,
	"reward_std": 0.3655366177360217,
	"rewards/equation_reward_func": 0.5546875,
	"rewards/format_reward_func": 0.8776041666666666,
	"step": 452
	},
	{
	"completion_length": 289.7864583333333,
	"epoch": 0.4842666666666667,
	"grad_norm": 28.807444819366612,
	"kl": 4.748372395833333,
	"learning_rate": 4.972705629953667e-07,
	"loss": 0.0047,
	"reward": 1.3828125,
	"reward_std": 0.38264980415503186,
	"rewards/equation_reward_func": 0.5247395833333334,
	"rewards/format_reward_func": 0.8580729166666666,
	"step": 454
	},
	{
	"completion_length": 313.0651041666667,
	"epoch": 0.4864,
	"grad_norm": 40.63520849370959,
	"kl": 16.195963541666668,
	"learning_rate": 4.97230645773209e-07,
	"loss": 0.0162,
	"reward": 1.3723958333333333,
	"reward_std": 0.4071923481921355,
	"rewards/equation_reward_func": 0.5364583333333334,
	"rewards/format_reward_func": 0.8359375,
	"step": 456
	},
	{
	"completion_length": 316.875,
	"epoch": 0.4885333333333333,
	"grad_norm": 429.51448931748007,
	"kl": 387.4375,
	"learning_rate": 4.971904404027736e-07,
	"loss": 0.3879,
	"reward": 1.3125,
	"reward_std": 0.40226507869859535,
	"rewards/equation_reward_func": 0.5026041666666666,
	"rewards/format_reward_func": 0.8098958333333334,
	"step": 458
	},
	{
	"completion_length": 316.0911458333333,
	"epoch": 0.49066666666666664,
	"grad_norm": 3210.950538756328,
	"kl": 2585.169921875,
	"learning_rate": 4.971499469309197e-07,
	"loss": 2.5861,
	"reward": 1.3697916666666667,
	"reward_std": 0.40234334704776603,
	"rewards/equation_reward_func": 0.5481770833333334,
	"rewards/format_reward_func": 0.8216145833333334,
	"step": 460
	},
	{
	"completion_length": 355.7369791666667,
	"epoch": 0.4928,
	"grad_norm": 806.024844682714,
	"kl": 1703.9166666666667,
	"learning_rate": 4.971091654048427e-07,
	"loss": 1.7024,
	"reward": 1.3515625,
	"reward_std": 0.45679817845424014,
	"rewards/equation_reward_func": 0.5755208333333334,
	"rewards/format_reward_func": 0.7760416666666666,
	"step": 462
	},
	{
	"completion_length": 325.80078125,
	"epoch": 0.49493333333333334,
	"grad_norm": 11.871406407001016,
	"kl": 257.4322916666667,
	"learning_rate": 4.970680958720733e-07,
	"loss": 0.2572,
	"reward": 1.3580729166666667,
	"reward_std": 0.40887040706972283,
	"rewards/equation_reward_func": 0.546875,
	"rewards/format_reward_func": 0.8111979166666666,
	"step": 464
	},
	{
	"completion_length": 331.2825520833333,
	"epoch": 0.49706666666666666,
	"grad_norm": 28.718559011797087,
	"kl": 55.2421875,
	"learning_rate": 4.970267383804787e-07,
	"loss": 0.0552,
	"reward": 1.3619791666666667,
	"reward_std": 0.3935707248747349,
	"rewards/equation_reward_func": 0.5546875,
	"rewards/format_reward_func": 0.8072916666666666,
	"step": 466
	},
	{
	"completion_length": 326.0598958333333,
	"epoch": 0.4992,
	"grad_norm": 30.392843187367756,
	"kl": 41.1484375,
	"learning_rate": 4.96985092978261e-07,
	"loss": 0.0411,
	"reward": 1.3932291666666667,
	"reward_std": 0.42481926331917447,
	"rewards/equation_reward_func": 0.5833333333333334,
	"rewards/format_reward_func": 0.8098958333333334,
	"step": 468
	},
	{
	"completion_length": 333.9518229166667,
	"epoch": 0.5013333333333333,
	"grad_norm": 13.297048511719058,
	"kl": 95.03385416666667,
	"learning_rate": 4.969431597139581e-07,
	"loss": 0.0951,
	"reward": 1.34765625,
	"reward_std": 0.3938751257956028,
	"rewards/equation_reward_func": 0.5325520833333334,
	"rewards/format_reward_func": 0.8151041666666666,
	"step": 470
	},
	{
	"completion_length": 322.2903645833333,
	"epoch": 0.5034666666666666,
	"grad_norm": 26.096962501911772,
	"kl": 196.27083333333334,
	"learning_rate": 4.969009386364433e-07,
	"loss": 0.1963,
	"reward": 1.3229166666666667,
	"reward_std": 0.4220035883287589,
	"rewards/equation_reward_func": 0.5143229166666666,
	"rewards/format_reward_func": 0.80859375,
	"step": 472
	},
	{
	"completion_length": 322.15625,
	"epoch": 0.5056,
	"grad_norm": 8.29223498157902,
	"kl": 100.21354166666667,
	"learning_rate": 4.968584297949254e-07,
	"loss": 0.1002,
	"reward": 1.3046875,
	"reward_std": 0.41216217416028184,
	"rewards/equation_reward_func": 0.4830729166666667,
	"rewards/format_reward_func": 0.8216145833333334,
	"step": 474
	},
	{
	"completion_length": 324.44921875,
	"epoch": 0.5077333333333334,
	"grad_norm": 22.084335726236922,
	"kl": 66.28125,
	"learning_rate": 4.968156332389489e-07,
	"loss": 0.0663,
	"reward": 1.3645833333333333,
	"reward_std": 0.40041095825533074,
	"rewards/equation_reward_func": 0.546875,
	"rewards/format_reward_func": 0.8177083333333334,
	"step": 476
	},
	{
	"completion_length": 350.0299479166667,
	"epoch": 0.5098666666666667,
	"grad_norm": 17.725390057472488,
	"kl": 88.6171875,
	"learning_rate": 4.967725490183929e-07,
	"loss": 0.0886,
	"reward": 1.2942708333333333,
	"reward_std": 0.45896178608139354,
	"rewards/equation_reward_func": 0.50390625,
	"rewards/format_reward_func": 0.7903645833333334,
	"step": 478
	},
	{
	"completion_length": 301.640625,
	"epoch": 0.512,
	"grad_norm": 8.901951716965623,
	"kl": 96.76041666666667,
	"learning_rate": 4.967291771834726e-07,
	"loss": 0.0966,
	"reward": 1.37890625,
	"reward_std": 0.3588225891192754,
	"rewards/equation_reward_func": 0.5299479166666666,
	"rewards/format_reward_func": 0.8489583333333334,
	"step": 480
	},
	{
	"completion_length": 309.7122395833333,
	"epoch": 0.5141333333333333,
	"grad_norm": 3.554444397105026,
	"kl": 67.1640625,
	"learning_rate": 4.96685517784738e-07,
	"loss": 0.0671,
	"reward": 1.3528645833333333,
	"reward_std": 0.3941338217506806,
	"rewards/equation_reward_func": 0.5247395833333334,
	"rewards/format_reward_func": 0.828125,
	"step": 482
	},
	{
	"completion_length": 293.3880208333333,
	"epoch": 0.5162666666666667,
	"grad_norm": 6.66351808504489,
	"kl": 74.107421875,
	"learning_rate": 4.966415708730742e-07,
	"loss": 0.074,
	"reward": 1.36328125,
	"reward_std": 0.3513679690659046,
	"rewards/equation_reward_func": 0.5104166666666666,
	"rewards/format_reward_func": 0.8528645833333334,
	"step": 484
	},
	{
	"completion_length": 308.1692708333333,
	"epoch": 0.5184,
	"grad_norm": 11.724473475370985,
	"kl": 71.26595052083333,
	"learning_rate": 4.965973364997015e-07,
	"loss": 0.0712,
	"reward": 1.33203125,
	"reward_std": 0.3609057031571865,
	"rewards/equation_reward_func": 0.4973958333333333,
	"rewards/format_reward_func": 0.8346354166666666,
	"step": 486
	},
	{
	"completion_length": 281.21875,
	"epoch": 0.5205333333333333,
	"grad_norm": 3.747669942108069,
	"kl": 54.625651041666664,
	"learning_rate": 4.965528147161752e-07,
	"loss": 0.0546,
	"reward": 1.3958333333333333,
	"reward_std": 0.40036962057153386,
	"rewards/equation_reward_func": 0.53125,
	"rewards/format_reward_func": 0.8645833333333334,
	"step": 488
	},
	{
	"completion_length": 316.15625,
	"epoch": 0.5226666666666666,
	"grad_norm": 21.01840501147267,
	"kl": 133.03125,
	"learning_rate": 4.965080055743858e-07,
	"loss": 0.1329,
	"reward": 1.31640625,
	"reward_std": 0.41048334787289303,
	"rewards/equation_reward_func": 0.4921875,
	"rewards/format_reward_func": 0.82421875,
	"step": 490
	},
	{
	"completion_length": 308.3307291666667,
	"epoch": 0.5248,
	"grad_norm": 16.769554963680534,
	"kl": 116.93229166666667,
	"learning_rate": 4.964629091265583e-07,
	"loss": 0.117,
	"reward": 1.41015625,
	"reward_std": 0.4211151997248332,
	"rewards/equation_reward_func": 0.5833333333333334,
	"rewards/format_reward_func": 0.8268229166666666,
	"step": 492
	},
	{
	"completion_length": 287.7122395833333,
	"epoch": 0.5269333333333334,
	"grad_norm": 6.289816637654126,
	"kl": 50.567708333333336,
	"learning_rate": 4.964175254252529e-07,
	"loss": 0.0506,
	"reward": 1.3815104166666667,
	"reward_std": 0.33032238980134326,
	"rewards/equation_reward_func": 0.5208333333333334,
	"rewards/format_reward_func": 0.8606770833333334,
	"step": 494
	},
	{
	"completion_length": 312.1197916666667,
	"epoch": 0.5290666666666667,
	"grad_norm": 11.1418765502845,
	"kl": 86.43229166666667,
	"learning_rate": 4.963718545233644e-07,
	"loss": 0.0864,
	"reward": 1.3828125,
	"reward_std": 0.38755665222803753,
	"rewards/equation_reward_func": 0.5455729166666666,
	"rewards/format_reward_func": 0.8372395833333334,
	"step": 496
	},
	{
	"completion_length": 304.5807291666667,
	"epoch": 0.5312,
	"grad_norm": 3.4906222889226757,
	"kl": 88.260009765625,
	"learning_rate": 4.963258964741226e-07,
	"loss": 0.0883,
	"reward": 1.37890625,
	"reward_std": 0.34810370455185574,
	"rewards/equation_reward_func": 0.5325520833333334,
	"rewards/format_reward_func": 0.8463541666666666,
	"step": 498
	},
	{
	"completion_length": 306.0729166666667,
	"epoch": 0.5333333333333333,
	"grad_norm": 4.59621225653894,
	"kl": 90.0390625,
	"learning_rate": 4.962796513310916e-07,
	"loss": 0.09,
	"reward": 1.38671875,
	"reward_std": 0.4165365646282832,
	"rewards/equation_reward_func": 0.5481770833333334,
	"rewards/format_reward_func": 0.8385416666666666,
	"step": 500
	}
	],
	"logging_steps": 2,
	"max_steps": 6000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 7,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}