countdown_chinese / trainer_state.json

Model save

3ab490d verified 11 months ago

130 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.12234910277324633,
	"eval_steps": 500,
	"global_step": 600,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"completion_length": 479.9791717529297,
	"epoch": 0.0004078303425774878,
	"grad_norm": 3.6416013248561003,
	"kl": 0.0,
	"learning_rate": 6.666666666666667e-08,
	"loss": 0.0,
	"reward": 0.14017362147569656,
	"reward_std": 0.433171808719635,
	"rewards/equation_reward_func": 0.0416666679084301,
	"rewards/format_reward_func": 0.09850695356726646,
	"step": 2
	},
	{
	"completion_length": 370.3333435058594,
	"epoch": 0.0008156606851549756,
	"grad_norm": 2.7919516711454913,
	"kl": 0.00021123886108398438,
	"learning_rate": 1.3333333333333334e-07,
	"loss": 0.0,
	"reward": 0.36586807668209076,
	"reward_std": 0.5816957801580429,
	"rewards/equation_reward_func": 0.0416666679084301,
	"rewards/format_reward_func": 0.32420141994953156,
	"step": 4
	},
	{
	"completion_length": 381.8958435058594,
	"epoch": 0.0012234910277324632,
	"grad_norm": 2.1831646783127723,
	"kl": 0.00020503997802734375,
	"learning_rate": 2e-07,
	"loss": 0.0,
	"reward": 0.19583334028720856,
	"reward_std": 0.49165327847003937,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 0.19583334028720856,
	"step": 6
	},
	{
	"completion_length": 370.5625,
	"epoch": 0.0016313213703099511,
	"grad_norm": 2.7704350046014077,
	"kl": 0.00017118453979492188,
	"learning_rate": 2.6666666666666667e-07,
	"loss": 0.0,
	"reward": 0.36277779191732407,
	"reward_std": 0.5977305769920349,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 0.3627777770161629,
	"step": 8
	},
	{
	"completion_length": 463.37501525878906,
	"epoch": 0.0020391517128874386,
	"grad_norm": 2.123991976170542,
	"kl": 0.00017118453979492188,
	"learning_rate": 3.333333333333333e-07,
	"loss": 0.0,
	"reward": 0.29836806654930115,
	"reward_std": 0.6623781323432922,
	"rewards/equation_reward_func": 0.0416666679084301,
	"rewards/format_reward_func": 0.25670139491558075,
	"step": 10
	},
	{
	"completion_length": 421.93751525878906,
	"epoch": 0.0024469820554649264,
	"grad_norm": 2.878424655232733,
	"kl": 0.00017547607421875,
	"learning_rate": 4e-07,
	"loss": 0.0,
	"reward": 0.3968055695295334,
	"reward_std": 0.63937908411026,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 0.3968055695295334,
	"step": 12
	},
	{
	"completion_length": 475.3541717529297,
	"epoch": 0.0028548123980424145,
	"grad_norm": 2.4896630378314084,
	"kl": 0.00018596649169921875,
	"learning_rate": 4.6666666666666666e-07,
	"loss": 0.0,
	"reward": 0.24850694835186005,
	"reward_std": 0.5338329374790192,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 0.24850695580244064,
	"step": 14
	},
	{
	"completion_length": 416.6666717529297,
	"epoch": 0.0032626427406199023,
	"grad_norm": 2.09352394131462,
	"kl": 0.0005130767822265625,
	"learning_rate": 5.333333333333333e-07,
	"loss": 0.0,
	"reward": 0.33868058025836945,
	"reward_std": 0.6486604511737823,
	"rewards/equation_reward_func": 0.0416666679084301,
	"rewards/format_reward_func": 0.29701392352581024,
	"step": 16
	},
	{
	"completion_length": 415.00001525878906,
	"epoch": 0.00367047308319739,
	"grad_norm": 2.0112836386100708,
	"kl": 0.0008068084716796875,
	"learning_rate": 6e-07,
	"loss": 0.0,
	"reward": 0.25767362117767334,
	"reward_std": 0.5489525943994522,
	"rewards/equation_reward_func": 0.0416666679084301,
	"rewards/format_reward_func": 0.21600694954395294,
	"step": 18
	},
	{
	"completion_length": 297.3958435058594,
	"epoch": 0.004078303425774877,
	"grad_norm": 2.8663136385547197,
	"kl": 0.001346588134765625,
	"learning_rate": 6.666666666666666e-07,
	"loss": 0.0,
	"reward": 0.5803819894790649,
	"reward_std": 0.7896733283996582,
	"rewards/equation_reward_func": 0.1250000037252903,
	"rewards/format_reward_func": 0.45538195967674255,
	"step": 20
	},
	{
	"completion_length": 399.54168701171875,
	"epoch": 0.004486133768352365,
	"grad_norm": 2.697624014237005,
	"kl": 0.00267791748046875,
	"learning_rate": 7.333333333333332e-07,
	"loss": 0.0,
	"reward": 0.4483680725097656,
	"reward_std": 0.5992304682731628,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 0.44836805760860443,
	"step": 22
	},
	{
	"completion_length": 284.75001525878906,
	"epoch": 0.004893964110929853,
	"grad_norm": 2.5548177263979235,
	"kl": 0.0041961669921875,
	"learning_rate": 8e-07,
	"loss": 0.0,
	"reward": 0.5757291615009308,
	"reward_std": 0.647213488817215,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 0.5757291913032532,
	"step": 24
	},
	{
	"completion_length": 383.0833435058594,
	"epoch": 0.005301794453507341,
	"grad_norm": 2.5987870166821843,
	"kl": 0.00470733642578125,
	"learning_rate": 8.666666666666667e-07,
	"loss": 0.0,
	"reward": 0.552534744143486,
	"reward_std": 0.7489242553710938,
	"rewards/equation_reward_func": 0.0416666679084301,
	"rewards/format_reward_func": 0.5108680874109268,
	"step": 26
	},
	{
	"completion_length": 310.5,
	"epoch": 0.005709624796084829,
	"grad_norm": 2.3713758660284148,
	"kl": 0.006378173828125,
	"learning_rate": 9.333333333333333e-07,
	"loss": 0.0,
	"reward": 0.8682639002799988,
	"reward_std": 0.9391801357269287,
	"rewards/equation_reward_func": 0.2083333432674408,
	"rewards/format_reward_func": 0.6599305868148804,
	"step": 28
	},
	{
	"completion_length": 259.1666717529297,
	"epoch": 0.006117455138662317,
	"grad_norm": 1.9481870816169569,
	"kl": 0.0147705078125,
	"learning_rate": 1e-06,
	"loss": 0.0,
	"reward": 0.7582292258739471,
	"reward_std": 0.7113883793354034,
	"rewards/equation_reward_func": 0.0833333358168602,
	"rewards/format_reward_func": 0.674895852804184,
	"step": 30
	},
	{
	"completion_length": 294.66668701171875,
	"epoch": 0.0065252854812398045,
	"grad_norm": 2.8753021397818284,
	"kl": 0.010467529296875,
	"learning_rate": 9.999696229471714e-07,
	"loss": 0.0,
	"reward": 0.931770920753479,
	"reward_std": 0.7402721643447876,
	"rewards/equation_reward_func": 0.0416666679084301,
	"rewards/format_reward_func": 0.890104204416275,
	"step": 32
	},
	{
	"completion_length": 190.70834350585938,
	"epoch": 0.006933115823817292,
	"grad_norm": 3.149911745984124,
	"kl": 0.0218505859375,
	"learning_rate": 9.998784954797472e-07,
	"loss": 0.0,
	"reward": 1.0088889300823212,
	"reward_std": 0.7540942430496216,
	"rewards/equation_reward_func": 0.0833333358168602,
	"rewards/format_reward_func": 0.9255555272102356,
	"step": 34
	},
	{
	"completion_length": 246.4166717529297,
	"epoch": 0.00734094616639478,
	"grad_norm": 3.153714167577427,
	"kl": 0.01788330078125,
	"learning_rate": 9.99726628670463e-07,
	"loss": 0.0,
	"reward": 1.202048659324646,
	"reward_std": 1.045266568660736,
	"rewards/equation_reward_func": 0.2500000074505806,
	"rewards/format_reward_func": 0.9520486295223236,
	"step": 36
	},
	{
	"completion_length": 275.31251525878906,
	"epoch": 0.007748776508972268,
	"grad_norm": 0.9481466466680466,
	"kl": 0.013427734375,
	"learning_rate": 9.995140409723828e-07,
	"loss": 0.0,
	"reward": 1.1351736187934875,
	"reward_std": 0.5596802830696106,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 1.1351736187934875,
	"step": 38
	},
	{
	"completion_length": 188.5416717529297,
	"epoch": 0.008156606851549755,
	"grad_norm": 1.4742456865490186,
	"kl": 0.02484130859375,
	"learning_rate": 9.99240758216658e-07,
	"loss": 0.0,
	"reward": 1.0687847137451172,
	"reward_std": 0.6074499785900116,
	"rewards/equation_reward_func": 0.0416666679084301,
	"rewards/format_reward_func": 1.0271181166172028,
	"step": 40
	},
	{
	"completion_length": 199.70833587646484,
	"epoch": 0.008564437194127243,
	"grad_norm": 1.915063750564903,
	"kl": 0.032958984375,
	"learning_rate": 9.989068136093872e-07,
	"loss": 0.0,
	"reward": 1.1395833194255829,
	"reward_std": 0.5386238098144531,
	"rewards/equation_reward_func": 0.0416666679084301,
	"rewards/format_reward_func": 1.0979166626930237,
	"step": 42
	},
	{
	"completion_length": 267.8333435058594,
	"epoch": 0.00897226753670473,
	"grad_norm": 1.3838672018586455,
	"kl": 0.02752685546875,
	"learning_rate": 9.985122477275824e-07,
	"loss": 0.0,
	"reward": 1.1198958158493042,
	"reward_std": 0.4947269856929779,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 1.119895875453949,
	"step": 44
	},
	{
	"completion_length": 198.3541717529297,
	"epoch": 0.009380097879282219,
	"grad_norm": 2.65001960202523,
	"kl": 0.0621337890625,
	"learning_rate": 9.98057108514238e-07,
	"loss": 0.0001,
	"reward": 1.3591667413711548,
	"reward_std": 0.5990243405103683,
	"rewards/equation_reward_func": 0.1666666716337204,
	"rewards/format_reward_func": 1.1924999952316284,
	"step": 46
	},
	{
	"completion_length": 180.14583587646484,
	"epoch": 0.009787928221859706,
	"grad_norm": 2.273310138239933,
	"kl": 0.02679443359375,
	"learning_rate": 9.975414512725056e-07,
	"loss": 0.0,
	"reward": 1.4479514360427856,
	"reward_std": 0.5268709659576416,
	"rewards/equation_reward_func": 0.1666666716337204,
	"rewards/format_reward_func": 1.281284749507904,
	"step": 48
	},
	{
	"completion_length": 297.7291793823242,
	"epoch": 0.010195758564437194,
	"grad_norm": 1.5712495679827763,
	"kl": 0.02593994140625,
	"learning_rate": 9.969653386589747e-07,
	"loss": 0.0,
	"reward": 1.27177095413208,
	"reward_std": 0.6252816617488861,
	"rewards/equation_reward_func": 0.0416666679084301,
	"rewards/format_reward_func": 1.2301042079925537,
	"step": 50
	},
	{
	"completion_length": 194.5416717529297,
	"epoch": 0.010603588907014683,
	"grad_norm": 2.201493729261743,
	"kl": 0.03179931640625,
	"learning_rate": 9.963288406760582e-07,
	"loss": 0.0,
	"reward": 1.5546875,
	"reward_std": 0.7862544655799866,
	"rewards/equation_reward_func": 0.25,
	"rewards/format_reward_func": 1.3046875596046448,
	"step": 52
	},
	{
	"completion_length": 294.8958435058594,
	"epoch": 0.01101141924959217,
	"grad_norm": 1.093662160894823,
	"kl": 0.0328369140625,
	"learning_rate": 9.956320346634875e-07,
	"loss": 0.0,
	"reward": 1.2887500524520874,
	"reward_std": 0.49396970868110657,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 1.2887500524520874,
	"step": 54
	},
	{
	"completion_length": 300.1458435058594,
	"epoch": 0.011419249592169658,
	"grad_norm": 0.8578612513997826,
	"kl": 0.03271484375,
	"learning_rate": 9.94875005288915e-07,
	"loss": 0.0,
	"reward": 1.1602779626846313,
	"reward_std": 0.5292092859745026,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 1.1602778434753418,
	"step": 56
	},
	{
	"completion_length": 299.7291717529297,
	"epoch": 0.011827079934747145,
	"grad_norm": 1.6716454246814316,
	"kl": 0.032470703125,
	"learning_rate": 9.940578445376257e-07,
	"loss": 0.0,
	"reward": 1.3559028506278992,
	"reward_std": 0.7161896526813507,
	"rewards/equation_reward_func": 0.1250000037252903,
	"rewards/format_reward_func": 1.2309028506278992,
	"step": 58
	},
	{
	"completion_length": 366.50001525878906,
	"epoch": 0.012234910277324634,
	"grad_norm": 1.2542596393593248,
	"kl": 0.026611328125,
	"learning_rate": 9.931806517013612e-07,
	"loss": 0.0,
	"reward": 1.2951388955116272,
	"reward_std": 0.6559239327907562,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 1.2951388955116272,
	"step": 60
	},
	{
	"completion_length": 267.37501525878906,
	"epoch": 0.01264274061990212,
	"grad_norm": 1.951739626954709,
	"kl": 0.03289794921875,
	"learning_rate": 9.922435333662535e-07,
	"loss": 0.0,
	"reward": 1.624826431274414,
	"reward_std": 0.869500607252121,
	"rewards/equation_reward_func": 0.2916666716337204,
	"rewards/format_reward_func": 1.3331597447395325,
	"step": 62
	},
	{
	"completion_length": 252.1041717529297,
	"epoch": 0.013050570962479609,
	"grad_norm": 1.7631361729865684,
	"kl": 0.0838623046875,
	"learning_rate": 9.912466033998757e-07,
	"loss": 0.0001,
	"reward": 1.5268749594688416,
	"reward_std": 0.7954416573047638,
	"rewards/equation_reward_func": 0.2916666679084301,
	"rewards/format_reward_func": 1.2352083921432495,
	"step": 64
	},
	{
	"completion_length": 266.2291717529297,
	"epoch": 0.013458401305057096,
	"grad_norm": 1.086442325424048,
	"kl": 0.0350341796875,
	"learning_rate": 9.901899829374047e-07,
	"loss": 0.0,
	"reward": 1.3218055367469788,
	"reward_std": 0.43308839201927185,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 1.3218055367469788,
	"step": 66
	},
	{
	"completion_length": 270.62501525878906,
	"epoch": 0.013866231647634585,
	"grad_norm": 0.7757080705779537,
	"kl": 0.03179931640625,
	"learning_rate": 9.890738003669027e-07,
	"loss": 0.0,
	"reward": 1.440381944179535,
	"reward_std": 0.36590851843357086,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 1.440381944179535,
	"step": 68
	},
	{
	"completion_length": 361.7291717529297,
	"epoch": 0.014274061990212071,
	"grad_norm": 0.9196489537714668,
	"kl": 0.105224609375,
	"learning_rate": 9.878981913137177e-07,
	"loss": 0.0001,
	"reward": 1.234375,
	"reward_std": 0.5996429324150085,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 1.2343750596046448,
	"step": 70
	},
	{
	"completion_length": 324.6041717529297,
	"epoch": 0.01468189233278956,
	"grad_norm": 1.3537086792376973,
	"kl": 0.037841796875,
	"learning_rate": 9.866632986240029e-07,
	"loss": 0.0,
	"reward": 1.4478819966316223,
	"reward_std": 0.447622686624527,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 1.4478819966316223,
	"step": 72
	},
	{
	"completion_length": 288.00001525878906,
	"epoch": 0.015089722675367047,
	"grad_norm": 0.9416399145929761,
	"kl": 0.0350341796875,
	"learning_rate": 9.853692723473598e-07,
	"loss": 0.0,
	"reward": 1.6369444727897644,
	"reward_std": 0.5435648560523987,
	"rewards/equation_reward_func": 0.125,
	"rewards/format_reward_func": 1.5119444727897644,
	"step": 74
	},
	{
	"completion_length": 324.8958435058594,
	"epoch": 0.015497553017944535,
	"grad_norm": 1.4608277452795702,
	"kl": 0.0404052734375,
	"learning_rate": 9.840162697186074e-07,
	"loss": 0.0,
	"reward": 1.5702083706855774,
	"reward_std": 0.8935641050338745,
	"rewards/equation_reward_func": 0.3333333432674408,
	"rewards/format_reward_func": 1.236875057220459,
	"step": 76
	},
	{
	"completion_length": 290.56250762939453,
	"epoch": 0.015905383360522024,
	"grad_norm": 0.7407367075365319,
	"kl": 0.0458984375,
	"learning_rate": 9.826044551386742e-07,
	"loss": 0.0,
	"reward": 1.5788541436195374,
	"reward_std": 0.5843808948993683,
	"rewards/equation_reward_func": 0.125,
	"rewards/format_reward_func": 1.4538542032241821,
	"step": 78
	},
	{
	"completion_length": 362.68751525878906,
	"epoch": 0.01631321370309951,
	"grad_norm": 1.5661374163452022,
	"kl": 0.0408935546875,
	"learning_rate": 9.811340001546251e-07,
	"loss": 0.0,
	"reward": 1.6298264265060425,
	"reward_std": 0.8494586944580078,
	"rewards/equation_reward_func": 0.25,
	"rewards/format_reward_func": 1.3798264265060425,
	"step": 80
	},
	{
	"completion_length": 451.125,
	"epoch": 0.016721044045676998,
	"grad_norm": 1.0244455960613406,
	"kl": 0.0401611328125,
	"learning_rate": 9.79605083438815e-07,
	"loss": 0.0,
	"reward": 1.2677431106567383,
	"reward_std": 0.6154287457466125,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 1.2677430510520935,
	"step": 82
	},
	{
	"completion_length": 308.6458435058594,
	"epoch": 0.017128874388254486,
	"grad_norm": 1.3216564030922435,
	"kl": 0.0445556640625,
	"learning_rate": 9.780178907671788e-07,
	"loss": 0.0,
	"reward": 1.554166853427887,
	"reward_std": 0.5582673996686935,
	"rewards/equation_reward_func": 0.0416666679084301,
	"rewards/format_reward_func": 1.5125000476837158,
	"step": 84
	},
	{
	"completion_length": 374.60418701171875,
	"epoch": 0.017536704730831975,
	"grad_norm": 1.4468753547015691,
	"kl": 0.0377197265625,
	"learning_rate": 9.763726149966595e-07,
	"loss": 0.0,
	"reward": 1.77156263589859,
	"reward_std": 0.9427327811717987,
	"rewards/equation_reward_func": 0.3750000111758709,
	"rewards/format_reward_func": 1.3965625166893005,
	"step": 86
	},
	{
	"completion_length": 404.06251525878906,
	"epoch": 0.01794453507340946,
	"grad_norm": 1.3417802102005347,
	"kl": 0.0430908203125,
	"learning_rate": 9.74669456041773e-07,
	"loss": 0.0,
	"reward": 1.4073264598846436,
	"reward_std": 0.6282331496477127,
	"rewards/equation_reward_func": 0.0416666679084301,
	"rewards/format_reward_func": 1.365659773349762,
	"step": 88
	},
	{
	"completion_length": 442.625,
	"epoch": 0.01835236541598695,
	"grad_norm": 1.5147263647387277,
	"kl": 0.0496826171875,
	"learning_rate": 9.729086208503173e-07,
	"loss": 0.0,
	"reward": 1.4621528387069702,
	"reward_std": 0.8307860195636749,
	"rewards/equation_reward_func": 0.125,
	"rewards/format_reward_func": 1.3371528387069702,
	"step": 90
	},
	{
	"completion_length": 333.3541793823242,
	"epoch": 0.018760195758564437,
	"grad_norm": 1.754991435054013,
	"kl": 0.049560546875,
	"learning_rate": 9.710903233782272e-07,
	"loss": 0.0,
	"reward": 1.9437847137451172,
	"reward_std": 0.8394620716571808,
	"rewards/equation_reward_func": 0.5,
	"rewards/format_reward_func": 1.4437847137451172,
	"step": 92
	},
	{
	"completion_length": 381.4583435058594,
	"epoch": 0.019168026101141926,
	"grad_norm": 0.8810621605534877,
	"kl": 0.048828125,
	"learning_rate": 9.69214784563576e-07,
	"loss": 0.0,
	"reward": 1.7743055820465088,
	"reward_std": 0.7846577763557434,
	"rewards/equation_reward_func": 0.25,
	"rewards/format_reward_func": 1.5243056416511536,
	"step": 94
	},
	{
	"completion_length": 413.3958435058594,
	"epoch": 0.01957585644371941,
	"grad_norm": 1.1981506775594148,
	"kl": 0.0509033203125,
	"learning_rate": 9.672822322997304e-07,
	"loss": 0.0001,
	"reward": 1.5128472447395325,
	"reward_std": 0.724719375371933,
	"rewards/equation_reward_func": 0.0833333358168602,
	"rewards/format_reward_func": 1.429513931274414,
	"step": 96
	},
	{
	"completion_length": 408.68751525878906,
	"epoch": 0.0199836867862969,
	"grad_norm": 0.8127416399915954,
	"kl": 0.0482177734375,
	"learning_rate": 9.652929014076592e-07,
	"loss": 0.0,
	"reward": 1.4740972518920898,
	"reward_std": 0.581254854798317,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 1.4740972518920898,
	"step": 98
	},
	{
	"completion_length": 401.125,
	"epoch": 0.020391517128874388,
	"grad_norm": 0.9832509648546535,
	"kl": 0.04248046875,
	"learning_rate": 9.632470336074007e-07,
	"loss": 0.0,
	"reward": 1.5040277242660522,
	"reward_std": 0.6817552745342255,
	"rewards/equation_reward_func": 0.0416666679084301,
	"rewards/format_reward_func": 1.4623610973358154,
	"step": 100
	},
	{
	"completion_length": 434.9583435058594,
	"epoch": 0.020799347471451877,
	"grad_norm": 1.430611768368398,
	"kl": 0.0458984375,
	"learning_rate": 9.611448774886923e-07,
	"loss": 0.0,
	"reward": 1.833784818649292,
	"reward_std": 0.832920491695404,
	"rewards/equation_reward_func": 0.25,
	"rewards/format_reward_func": 1.5837848782539368,
	"step": 102
	},
	{
	"completion_length": 368.8958435058594,
	"epoch": 0.021207177814029365,
	"grad_norm": 1.681849348882777,
	"kl": 0.048828125,
	"learning_rate": 9.589866884807634e-07,
	"loss": 0.0,
	"reward": 2.02239590883255,
	"reward_std": 1.069144368171692,
	"rewards/equation_reward_func": 0.5416666865348816,
	"rewards/format_reward_func": 1.4807292222976685,
	"step": 104
	},
	{
	"completion_length": 417.60418701171875,
	"epoch": 0.02161500815660685,
	"grad_norm": 1.5460934994217617,
	"kl": 0.0577392578125,
	"learning_rate": 9.567727288213004e-07,
	"loss": 0.0001,
	"reward": 1.7238194942474365,
	"reward_std": 0.8790097832679749,
	"rewards/equation_reward_func": 0.2916666865348816,
	"rewards/format_reward_func": 1.432152807712555,
	"step": 106
	},
	{
	"completion_length": 367.2916717529297,
	"epoch": 0.02202283849918434,
	"grad_norm": 0.8154580597171138,
	"kl": 0.079833984375,
	"learning_rate": 9.545032675245813e-07,
	"loss": 0.0001,
	"reward": 1.6206597089767456,
	"reward_std": 0.5355260521173477,
	"rewards/equation_reward_func": 0.0416666679084301,
	"rewards/format_reward_func": 1.578993022441864,
	"step": 108
	},
	{
	"completion_length": 378.4375,
	"epoch": 0.022430668841761828,
	"grad_norm": 0.8080191505191605,
	"kl": 2.8504638671875,
	"learning_rate": 9.521785803487888e-07,
	"loss": 0.0029,
	"reward": 1.6229513883590698,
	"reward_std": 0.5469937920570374,
	"rewards/equation_reward_func": 0.0833333358168602,
	"rewards/format_reward_func": 1.5396180748939514,
	"step": 110
	},
	{
	"completion_length": 353.7083435058594,
	"epoch": 0.022838499184339316,
	"grad_norm": 2.0675711092750553,
	"kl": 0.0582275390625,
	"learning_rate": 9.497989497625034e-07,
	"loss": 0.0001,
	"reward": 1.9050694108009338,
	"reward_std": 0.8356568217277527,
	"rewards/equation_reward_func": 0.3750000111758709,
	"rewards/format_reward_func": 1.5300694704055786,
	"step": 112
	},
	{
	"completion_length": 396.3958435058594,
	"epoch": 0.0232463295269168,
	"grad_norm": 1.7722424779735066,
	"kl": 0.0474853515625,
	"learning_rate": 9.473646649103817e-07,
	"loss": 0.0,
	"reward": 1.8715277910232544,
	"reward_std": 0.7635601460933685,
	"rewards/equation_reward_func": 0.2916666865348816,
	"rewards/format_reward_func": 1.579861044883728,
	"step": 114
	},
	{
	"completion_length": 392.25001525878906,
	"epoch": 0.02365415986949429,
	"grad_norm": 1.4500449746136268,
	"kl": 0.052490234375,
	"learning_rate": 9.448760215780216e-07,
	"loss": 0.0001,
	"reward": 1.8360764980316162,
	"reward_std": 0.8432624340057373,
	"rewards/equation_reward_func": 0.3333333432674408,
	"rewards/format_reward_func": 1.502743124961853,
	"step": 116
	},
	{
	"completion_length": 445.37501525878906,
	"epoch": 0.02406199021207178,
	"grad_norm": 1.0245921035180448,
	"kl": 0.046142578125,
	"learning_rate": 9.423333221560229e-07,
	"loss": 0.0,
	"reward": 1.8455902934074402,
	"reward_std": 0.6104674339294434,
	"rewards/equation_reward_func": 0.0416666679084301,
	"rewards/format_reward_func": 1.8039236664772034,
	"step": 118
	},
	{
	"completion_length": 350.00001525878906,
	"epoch": 0.024469820554649267,
	"grad_norm": 1.0559535296932554,
	"kl": 0.0653076171875,
	"learning_rate": 9.397368756032444e-07,
	"loss": 0.0001,
	"reward": 2.0223612189292908,
	"reward_std": 0.8122723698616028,
	"rewards/equation_reward_func": 0.4166666679084301,
	"rewards/format_reward_func": 1.6056944131851196,
	"step": 120
	},
	{
	"completion_length": 430.6041717529297,
	"epoch": 0.024877650897226752,
	"grad_norm": 1.2128128464325674,
	"kl": 0.052978515625,
	"learning_rate": 9.370869974092628e-07,
	"loss": 0.0001,
	"reward": 1.6623265147209167,
	"reward_std": 0.6956472098827362,
	"rewards/equation_reward_func": 0.0833333358168602,
	"rewards/format_reward_func": 1.5789931416511536,
	"step": 122
	},
	{
	"completion_length": 430.62501525878906,
	"epoch": 0.02528548123980424,
	"grad_norm": 1.3439878279377437,
	"kl": 0.0567626953125,
	"learning_rate": 9.343840095560371e-07,
	"loss": 0.0001,
	"reward": 1.6742013692855835,
	"reward_std": 0.8052680194377899,
	"rewards/equation_reward_func": 0.1666666716337204,
	"rewards/format_reward_func": 1.5075347423553467,
	"step": 124
	},
	{
	"completion_length": 450.1666717529297,
	"epoch": 0.02569331158238173,
	"grad_norm": 1.6330050200150412,
	"kl": 0.05224609375,
	"learning_rate": 9.316282404787869e-07,
	"loss": 0.0001,
	"reward": 1.7786458730697632,
	"reward_std": 0.5853727161884308,
	"rewards/equation_reward_func": 0.0416666679084301,
	"rewards/format_reward_func": 1.7369791865348816,
	"step": 126
	},
	{
	"completion_length": 489.02085876464844,
	"epoch": 0.026101141924959218,
	"grad_norm": 0.7871177276009865,
	"kl": 0.051025390625,
	"learning_rate": 9.288200250260834e-07,
	"loss": 0.0001,
	"reward": 1.7109723091125488,
	"reward_std": 0.6242659687995911,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 1.7109723091125488,
	"step": 128
	},
	{
	"completion_length": 386.79168701171875,
	"epoch": 0.026508972267536703,
	"grad_norm": 1.4313328997618522,
	"kl": 0.07373046875,
	"learning_rate": 9.259597044191635e-07,
	"loss": 0.0001,
	"reward": 1.8375002145767212,
	"reward_std": 0.8174974322319031,
	"rewards/equation_reward_func": 0.2916666865348816,
	"rewards/format_reward_func": 1.5458334684371948,
	"step": 130
	},
	{
	"completion_length": 444.9791717529297,
	"epoch": 0.026916802610114192,
	"grad_norm": 0.7975312553477618,
	"kl": 0.058837890625,
	"learning_rate": 9.230476262104676e-07,
	"loss": 0.0001,
	"reward": 1.977222204208374,
	"reward_std": 0.6751963198184967,
	"rewards/equation_reward_func": 0.1666666716337204,
	"rewards/format_reward_func": 1.8105555772781372,
	"step": 132
	},
	{
	"completion_length": 399.4791717529297,
	"epoch": 0.02732463295269168,
	"grad_norm": 1.57086996187115,
	"kl": 0.071044921875,
	"learning_rate": 9.200841442414105e-07,
	"loss": 0.0001,
	"reward": 1.7256250977516174,
	"reward_std": 0.631768524646759,
	"rewards/equation_reward_func": 0.0833333358168602,
	"rewards/format_reward_func": 1.6422916650772095,
	"step": 134
	},
	{
	"completion_length": 497.08335876464844,
	"epoch": 0.02773246329526917,
	"grad_norm": 0.8207193125582591,
	"kl": 0.078857421875,
	"learning_rate": 9.17069618599385e-07,
	"loss": 0.0001,
	"reward": 1.752673625946045,
	"reward_std": 0.6211968958377838,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 1.7526736855506897,
	"step": 136
	},
	{
	"completion_length": 456.29168701171875,
	"epoch": 0.028140293637846654,
	"grad_norm": 0.9050345890235396,
	"kl": 0.0628662109375,
	"learning_rate": 9.1400441557401e-07,
	"loss": 0.0001,
	"reward": 1.7863542437553406,
	"reward_std": 0.5832376182079315,
	"rewards/equation_reward_func": 0.0416666679084301,
	"rewards/format_reward_func": 1.7446874976158142,
	"step": 138
	},
	{
	"completion_length": 581.5416870117188,
	"epoch": 0.028548123980424143,
	"grad_norm": 0.8497382573737793,
	"kl": 0.060791015625,
	"learning_rate": 9.108889076126225e-07,
	"loss": 0.0001,
	"reward": 1.7704166769981384,
	"reward_std": 0.7596422731876373,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 1.7704167366027832,
	"step": 140
	},
	{
	"completion_length": 409.06251525878906,
	"epoch": 0.02895595432300163,
	"grad_norm": 1.4428479278815958,
	"kl": 0.0732421875,
	"learning_rate": 9.077234732750223e-07,
	"loss": 0.0001,
	"reward": 2.054965376853943,
	"reward_std": 0.8280318379402161,
	"rewards/equation_reward_func": 0.4166666865348816,
	"rewards/format_reward_func": 1.6382986307144165,
	"step": 142
	},
	{
	"completion_length": 399.1875,
	"epoch": 0.02936378466557912,
	"grad_norm": 0.850509849129193,
	"kl": 0.068115234375,
	"learning_rate": 9.045084971874737e-07,
	"loss": 0.0001,
	"reward": 2.358993172645569,
	"reward_std": 0.7760606110095978,
	"rewards/equation_reward_func": 0.625,
	"rewards/format_reward_func": 1.7339931726455688,
	"step": 144
	},
	{
	"completion_length": 384.2708435058594,
	"epoch": 0.029771615008156605,
	"grad_norm": 1.3099408456816737,
	"kl": 0.10888671875,
	"learning_rate": 9.012443699959704e-07,
	"loss": 0.0001,
	"reward": 2.7191320657730103,
	"reward_std": 0.9904708862304688,
	"rewards/equation_reward_func": 1.0,
	"rewards/format_reward_func": 1.7191320657730103,
	"step": 146
	},
	{
	"completion_length": 464.12501525878906,
	"epoch": 0.030179445350734094,
	"grad_norm": 0.9088601877007455,
	"kl": 0.08056640625,
	"learning_rate": 8.979314883187692e-07,
	"loss": 0.0001,
	"reward": 2.0606598258018494,
	"reward_std": 0.852357029914856,
	"rewards/equation_reward_func": 0.3333333432674408,
	"rewards/format_reward_func": 1.7273263931274414,
	"step": 148
	},
	{
	"completion_length": 566.8750305175781,
	"epoch": 0.030587275693311582,
	"grad_norm": 0.8778862901380006,
	"kl": 0.067626953125,
	"learning_rate": 8.945702546981968e-07,
	"loss": 0.0001,
	"reward": 1.779270887374878,
	"reward_std": 0.693590372800827,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 1.7792708277702332,
	"step": 150
	},
	{
	"completion_length": 429.3333435058594,
	"epoch": 0.03099510603588907,
	"grad_norm": 0.9577088802916648,
	"kl": 0.096923828125,
	"learning_rate": 8.911610775517382e-07,
	"loss": 0.0001,
	"reward": 1.8277431726455688,
	"reward_std": 0.6039248108863831,
	"rewards/equation_reward_func": 0.0416666679084301,
	"rewards/format_reward_func": 1.7860764265060425,
	"step": 152
	},
	{
	"completion_length": 565.4791870117188,
	"epoch": 0.031402936378466556,
	"grad_norm": 0.8371289059796367,
	"kl": 0.08740234375,
	"learning_rate": 8.877043711224107e-07,
	"loss": 0.0001,
	"reward": 1.9469445943832397,
	"reward_std": 0.5404301732778549,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 1.946944534778595,
	"step": 154
	},
	{
	"completion_length": 541.1666717529297,
	"epoch": 0.03181076672104405,
	"grad_norm": 0.7969331394521091,
	"kl": 0.079833984375,
	"learning_rate": 8.842005554284295e-07,
	"loss": 0.0001,
	"reward": 2.1353471875190735,
	"reward_std": 0.8812746703624725,
	"rewards/equation_reward_func": 0.2916666865348816,
	"rewards/format_reward_func": 1.8436806201934814,
	"step": 156
	},
	{
	"completion_length": 464.37501525878906,
	"epoch": 0.03221859706362153,
	"grad_norm": 1.351816458116067,
	"kl": 0.078857421875,
	"learning_rate": 8.806500562121722e-07,
	"loss": 0.0001,
	"reward": 2.5637847781181335,
	"reward_std": 0.8339135944843292,
	"rewards/equation_reward_func": 0.7083333544433117,
	"rewards/format_reward_func": 1.8554513454437256,
	"step": 158
	},
	{
	"completion_length": 629.9583435058594,
	"epoch": 0.03262642740619902,
	"grad_norm": 0.9040821275296973,
	"kl": 0.06396484375,
	"learning_rate": 8.77053304888448e-07,
	"loss": 0.0001,
	"reward": 1.7654513716697693,
	"reward_std": 0.9269569218158722,
	"rewards/equation_reward_func": 0.0416666679084301,
	"rewards/format_reward_func": 1.7237846851348877,
	"step": 160
	},
	{
	"completion_length": 637.7500305175781,
	"epoch": 0.03303425774877651,
	"grad_norm": 0.8146639791448892,
	"kl": 0.065673828125,
	"learning_rate": 8.734107384920769e-07,
	"loss": 0.0001,
	"reward": 1.7398958802223206,
	"reward_std": 0.8910411596298218,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 1.7398958802223206,
	"step": 162
	},
	{
	"completion_length": 553.3541870117188,
	"epoch": 0.033442088091353996,
	"grad_norm": 1.0794685996564912,
	"kl": 0.08251953125,
	"learning_rate": 8.69722799624786e-07,
	"loss": 0.0001,
	"reward": 2.068472385406494,
	"reward_std": 0.7307632863521576,
	"rewards/equation_reward_func": 0.125,
	"rewards/format_reward_func": 1.943472445011139,
	"step": 164
	},
	{
	"completion_length": 510.75,
	"epoch": 0.03384991843393149,
	"grad_norm": 1.5254552695681238,
	"kl": 0.084716796875,
	"learning_rate": 8.659899364014308e-07,
	"loss": 0.0001,
	"reward": 2.1311458945274353,
	"reward_std": 0.8883395195007324,
	"rewards/equation_reward_func": 0.3333333432674408,
	"rewards/format_reward_func": 1.7978126406669617,
	"step": 166
	},
	{
	"completion_length": 581.5416870117188,
	"epoch": 0.03425774877650897,
	"grad_norm": 0.9271897233542844,
	"kl": 0.07763671875,
	"learning_rate": 8.622126023955445e-07,
	"loss": 0.0001,
	"reward": 1.963923692703247,
	"reward_std": 0.6030838936567307,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 1.9639238119125366,
	"step": 168
	},
	{
	"completion_length": 555.3125152587891,
	"epoch": 0.03466557911908646,
	"grad_norm": 1.4561466805793857,
	"kl": 0.070556640625,
	"learning_rate": 8.583912565842256e-07,
	"loss": 0.0001,
	"reward": 2.237326502799988,
	"reward_std": 0.8882516920566559,
	"rewards/equation_reward_func": 0.5,
	"rewards/format_reward_func": 1.7373263835906982,
	"step": 170
	},
	{
	"completion_length": 421.2708435058594,
	"epoch": 0.03507340946166395,
	"grad_norm": 1.3044883746742693,
	"kl": 0.10107421875,
	"learning_rate": 8.545263632923686e-07,
	"loss": 0.0001,
	"reward": 2.6816667318344116,
	"reward_std": 1.1341252326965332,
	"rewards/equation_reward_func": 1.041666716337204,
	"rewards/format_reward_func": 1.64000004529953,
	"step": 172
	},
	{
	"completion_length": 592.6458435058594,
	"epoch": 0.035481239804241435,
	"grad_norm": 0.9961988228794976,
	"kl": 0.066162109375,
	"learning_rate": 8.506183921362442e-07,
	"loss": 0.0001,
	"reward": 2.093229293823242,
	"reward_std": 0.8178855180740356,
	"rewards/equation_reward_func": 0.1666666716337204,
	"rewards/format_reward_func": 1.9265625476837158,
	"step": 174
	},
	{
	"completion_length": 332.0208435058594,
	"epoch": 0.03588907014681892,
	"grad_norm": 1.5901752280491694,
	"kl": 0.099609375,
	"learning_rate": 8.466678179664377e-07,
	"loss": 0.0001,
	"reward": 2.9652082920074463,
	"reward_std": 0.8383155167102814,
	"rewards/equation_reward_func": 1.2500000596046448,
	"rewards/format_reward_func": 1.715208351612091,
	"step": 176
	},
	{
	"completion_length": 460.6666717529297,
	"epoch": 0.03629690048939641,
	"grad_norm": 1.6000004098847773,
	"kl": 0.16796875,
	"learning_rate": 8.426751208101499e-07,
	"loss": 0.0002,
	"reward": 2.6753125190734863,
	"reward_std": 1.0194191336631775,
	"rewards/equation_reward_func": 0.916666716337204,
	"rewards/format_reward_func": 1.7586458325386047,
	"step": 178
	},
	{
	"completion_length": 477.3125,
	"epoch": 0.0367047308319739,
	"grad_norm": 1.2239460420462749,
	"kl": 0.088623046875,
	"learning_rate": 8.386407858128706e-07,
	"loss": 0.0001,
	"reward": 2.590486168861389,
	"reward_std": 0.9470961093902588,
	"rewards/equation_reward_func": 0.75,
	"rewards/format_reward_func": 1.8404861688613892,
	"step": 180
	},
	{
	"completion_length": 444.5416717529297,
	"epoch": 0.03711256117455139,
	"grad_norm": 1.230296809506791,
	"kl": 0.10107421875,
	"learning_rate": 8.34565303179429e-07,
	"loss": 0.0001,
	"reward": 2.523506999015808,
	"reward_std": 0.9190675318241119,
	"rewards/equation_reward_func": 0.6666666865348816,
	"rewards/format_reward_func": 1.8568402528762817,
	"step": 182
	},
	{
	"completion_length": 556.7916870117188,
	"epoch": 0.037520391517128875,
	"grad_norm": 0.9132808347888518,
	"kl": 0.083984375,
	"learning_rate": 8.304491681144305e-07,
	"loss": 0.0001,
	"reward": 1.9321181178092957,
	"reward_std": 0.6165703535079956,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 1.9321181774139404,
	"step": 184
	},
	{
	"completion_length": 329.1666717529297,
	"epoch": 0.03792822185970636,
	"grad_norm": 1.5619424825885055,
	"kl": 0.118408203125,
	"learning_rate": 8.262928807620843e-07,
	"loss": 0.0001,
	"reward": 3.2064584493637085,
	"reward_std": 0.8171246647834778,
	"rewards/equation_reward_func": 1.5000000596046448,
	"rewards/format_reward_func": 1.706458330154419,
	"step": 186
	},
	{
	"completion_length": 388.1041717529297,
	"epoch": 0.03833605220228385,
	"grad_norm": 1.5560017569200078,
	"kl": 0.115478515625,
	"learning_rate": 8.220969461454321e-07,
	"loss": 0.0001,
	"reward": 2.5811806321144104,
	"reward_std": 0.5943560600280762,
	"rewards/equation_reward_func": 0.9166666865348816,
	"rewards/format_reward_func": 1.6645139455795288,
	"step": 188
	},
	{
	"completion_length": 502.33335876464844,
	"epoch": 0.03874388254486134,
	"grad_norm": 1.3187487188473963,
	"kl": 0.103515625,
	"learning_rate": 8.178618741049841e-07,
	"loss": 0.0001,
	"reward": 2.311215341091156,
	"reward_std": 0.7084816992282867,
	"rewards/equation_reward_func": 0.375,
	"rewards/format_reward_func": 1.936215341091156,
	"step": 190
	},
	{
	"completion_length": 347.29168701171875,
	"epoch": 0.03915171288743882,
	"grad_norm": 1.0778244344859724,
	"kl": 0.1083984375,
	"learning_rate": 8.135881792367685e-07,
	"loss": 0.0001,
	"reward": 2.41055566072464,
	"reward_std": 0.7850378751754761,
	"rewards/equation_reward_func": 0.7500000409781933,
	"rewards/format_reward_func": 1.66055566072464,
	"step": 192
	},
	{
	"completion_length": 335.9791717529297,
	"epoch": 0.039559543230016314,
	"grad_norm": 1.522034238839679,
	"kl": 0.105712890625,
	"learning_rate": 8.092763808298046e-07,
	"loss": 0.0001,
	"reward": 2.9850348234176636,
	"reward_std": 0.9680465757846832,
	"rewards/equation_reward_func": 1.375,
	"rewards/format_reward_func": 1.610034704208374,
	"step": 194
	},
	{
	"completion_length": 586.5625305175781,
	"epoch": 0.0399673735725938,
	"grad_norm": 0.6708954041029114,
	"kl": 0.10693359375,
	"learning_rate": 8.049270028030045e-07,
	"loss": 0.0001,
	"reward": 1.8110415935516357,
	"reward_std": 0.7432913780212402,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 1.8110417127609253,
	"step": 196
	},
	{
	"completion_length": 492.7916717529297,
	"epoch": 0.04037520391517129,
	"grad_norm": 1.1370661223441034,
	"kl": 0.087646484375,
	"learning_rate": 8.005405736415125e-07,
	"loss": 0.0001,
	"reward": 2.2512154579162598,
	"reward_std": 0.7727322578430176,
	"rewards/equation_reward_func": 0.2916666716337204,
	"rewards/format_reward_func": 1.9595486521720886,
	"step": 198
	},
	{
	"completion_length": 618.7708740234375,
	"epoch": 0.040783034257748776,
	"grad_norm": 0.9472446872281457,
	"kl": 0.081298828125,
	"learning_rate": 7.961176263324901e-07,
	"loss": 0.0001,
	"reward": 2.0697221755981445,
	"reward_std": 0.9369174838066101,
	"rewards/equation_reward_func": 0.2083333432674408,
	"rewards/format_reward_func": 1.861388921737671,
	"step": 200
	},
	{
	"completion_length": 485.1666717529297,
	"epoch": 0.04119086460032626,
	"grad_norm": 0.9224224522873015,
	"kl": 0.21337890625,
	"learning_rate": 7.916586983003533e-07,
	"loss": 0.0002,
	"reward": 2.622014045715332,
	"reward_std": 0.832764744758606,
	"rewards/equation_reward_func": 0.7916666865348816,
	"rewards/format_reward_func": 1.8303472995758057,
	"step": 202
	},
	{
	"completion_length": 498.3125,
	"epoch": 0.041598694942903754,
	"grad_norm": 0.8732846033594475,
	"kl": 0.09912109375,
	"learning_rate": 7.871643313414718e-07,
	"loss": 0.0001,
	"reward": 2.6251736879348755,
	"reward_std": 0.7892851531505585,
	"rewards/equation_reward_func": 0.875,
	"rewards/format_reward_func": 1.7501736879348755,
	"step": 204
	},
	{
	"completion_length": 436.4375,
	"epoch": 0.04200652528548124,
	"grad_norm": 1.182953041273801,
	"kl": 0.111328125,
	"learning_rate": 7.826350715583358e-07,
	"loss": 0.0001,
	"reward": 2.4944097995758057,
	"reward_std": 0.7472249865531921,
	"rewards/equation_reward_func": 0.7083333730697632,
	"rewards/format_reward_func": 1.7860764265060425,
	"step": 206
	},
	{
	"completion_length": 326.7083435058594,
	"epoch": 0.04241435562805873,
	"grad_norm": 1.6056713694544402,
	"kl": 0.117919921875,
	"learning_rate": 7.780714692932002e-07,
	"loss": 0.0001,
	"reward": 2.952360987663269,
	"reward_std": 0.8980874419212341,
	"rewards/equation_reward_func": 1.2500000596046448,
	"rewards/format_reward_func": 1.7023611664772034,
	"step": 208
	},
	{
	"completion_length": 470.50001525878906,
	"epoch": 0.042822185970636216,
	"grad_norm": 1.0414434379733573,
	"kl": 0.093994140625,
	"learning_rate": 7.734740790612136e-07,
	"loss": 0.0001,
	"reward": 2.6838542222976685,
	"reward_std": 1.0669545829296112,
	"rewards/equation_reward_func": 0.7916666865348816,
	"rewards/format_reward_func": 1.8921875357627869,
	"step": 210
	},
	{
	"completion_length": 577.0625305175781,
	"epoch": 0.0432300163132137,
	"grad_norm": 1.0292452997964692,
	"kl": 0.088134765625,
	"learning_rate": 7.688434594830391e-07,
	"loss": 0.0001,
	"reward": 1.7830208539962769,
	"reward_std": 0.7203674912452698,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 1.7830208539962769,
	"step": 212
	},
	{
	"completion_length": 443.1875,
	"epoch": 0.04363784665579119,
	"grad_norm": 1.1857098524166056,
	"kl": 0.169921875,
	"learning_rate": 7.641801732169795e-07,
	"loss": 0.0002,
	"reward": 2.93423593044281,
	"reward_std": 1.0427783131599426,
	"rewards/equation_reward_func": 1.125,
	"rewards/format_reward_func": 1.809236228466034,
	"step": 214
	},
	{
	"completion_length": 489.66668701171875,
	"epoch": 0.04404567699836868,
	"grad_norm": 0.8656675869839974,
	"kl": 0.13232421875,
	"learning_rate": 7.594847868906076e-07,
	"loss": 0.0001,
	"reward": 2.7152432203292847,
	"reward_std": 1.0624222159385681,
	"rewards/equation_reward_func": 1.1250000298023224,
	"rewards/format_reward_func": 1.59024316072464,
	"step": 216
	},
	{
	"completion_length": 396.4166717529297,
	"epoch": 0.04445350734094616,
	"grad_norm": 1.2559326528283787,
	"kl": 0.1279296875,
	"learning_rate": 7.547578710319174e-07,
	"loss": 0.0001,
	"reward": 3.0093750953674316,
	"reward_std": 0.960063099861145,
	"rewards/equation_reward_func": 1.2916666865348816,
	"rewards/format_reward_func": 1.71770840883255,
	"step": 218
	},
	{
	"completion_length": 444.39585876464844,
	"epoch": 0.044861337683523655,
	"grad_norm": 1.0899183864856226,
	"kl": 0.378173828125,
	"learning_rate": 7.5e-07,
	"loss": 0.0004,
	"reward": 2.7316668033599854,
	"reward_std": 0.6873580813407898,
	"rewards/equation_reward_func": 0.8333333358168602,
	"rewards/format_reward_func": 1.898333489894867,
	"step": 220
	},
	{
	"completion_length": 464.70835876464844,
	"epoch": 0.04526916802610114,
	"grad_norm": 0.8216128962927133,
	"kl": 0.115966796875,
	"learning_rate": 7.452117519152541e-07,
	"loss": 0.0001,
	"reward": 2.5972570180892944,
	"reward_std": 0.7697752714157104,
	"rewards/equation_reward_func": 0.75,
	"rewards/format_reward_func": 1.8472568988800049,
	"step": 222
	},
	{
	"completion_length": 531.8958587646484,
	"epoch": 0.04567699836867863,
	"grad_norm": 0.8041197621718661,
	"kl": 0.144775390625,
	"learning_rate": 7.403937085891397e-07,
	"loss": 0.0001,
	"reward": 2.5897916555404663,
	"reward_std": 0.7150984704494476,
	"rewards/equation_reward_func": 0.9166666865348816,
	"rewards/format_reward_func": 1.6731250286102295,
	"step": 224
	},
	{
	"completion_length": 647.2500305175781,
	"epoch": 0.04608482871125612,
	"grad_norm": 1.1739617017348787,
	"kl": 0.093017578125,
	"learning_rate": 7.355464554534836e-07,
	"loss": 0.0001,
	"reward": 2.5721182823181152,
	"reward_std": 1.2919026017189026,
	"rewards/equation_reward_func": 0.7083333432674408,
	"rewards/format_reward_func": 1.8637848496437073,
	"step": 226
	},
	{
	"completion_length": 618.6041870117188,
	"epoch": 0.0464926590538336,
	"grad_norm": 0.786794707945746,
	"kl": 0.091064453125,
	"learning_rate": 7.306705814893439e-07,
	"loss": 0.0001,
	"reward": 2.3971527814865112,
	"reward_std": 0.9052496254444122,
	"rewards/equation_reward_func": 0.5,
	"rewards/format_reward_func": 1.8971527814865112,
	"step": 228
	},
	{
	"completion_length": 378.6041717529297,
	"epoch": 0.046900489396411095,
	"grad_norm": 1.1431295777314772,
	"kl": 0.14111328125,
	"learning_rate": 7.257666791554447e-07,
	"loss": 0.0001,
	"reward": 3.0398958921432495,
	"reward_std": 0.7211508750915527,
	"rewards/equation_reward_func": 1.25,
	"rewards/format_reward_func": 1.7898958921432495,
	"step": 230
	},
	{
	"completion_length": 390.97918701171875,
	"epoch": 0.04730831973898858,
	"grad_norm": 1.3315143130569003,
	"kl": 0.1064453125,
	"learning_rate": 7.20835344316187e-07,
	"loss": 0.0001,
	"reward": 3.165451407432556,
	"reward_std": 0.8909177780151367,
	"rewards/equation_reward_func": 1.375,
	"rewards/format_reward_func": 1.7904514074325562,
	"step": 232
	},
	{
	"completion_length": 535.4166870117188,
	"epoch": 0.047716150081566065,
	"grad_norm": 0.8301567265751203,
	"kl": 0.10302734375,
	"learning_rate": 7.158771761692464e-07,
	"loss": 0.0001,
	"reward": 2.5394792556762695,
	"reward_std": 0.8184142112731934,
	"rewards/equation_reward_func": 0.75,
	"rewards/format_reward_func": 1.7894791960716248,
	"step": 234
	},
	{
	"completion_length": 569.0833435058594,
	"epoch": 0.04812398042414356,
	"grad_norm": 0.7756037952607522,
	"kl": 0.11376953125,
	"learning_rate": 7.108927771727661e-07,
	"loss": 0.0001,
	"reward": 2.432673692703247,
	"reward_std": 0.8917776942253113,
	"rewards/equation_reward_func": 0.5416666865348816,
	"rewards/format_reward_func": 1.8910069465637207,
	"step": 236
	},
	{
	"completion_length": 668.8125305175781,
	"epoch": 0.04853181076672104,
	"grad_norm": 1.0059181715098997,
	"kl": 0.084228515625,
	"learning_rate": 7.058827529721525e-07,
	"loss": 0.0001,
	"reward": 1.8420140147209167,
	"reward_std": 0.8704274594783783,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 1.842013955116272,
	"step": 238
	},
	{
	"completion_length": 530.625,
	"epoch": 0.048939641109298535,
	"grad_norm": 0.9400020844643003,
	"kl": 0.095458984375,
	"learning_rate": 7.008477123264847e-07,
	"loss": 0.0001,
	"reward": 2.611979365348816,
	"reward_std": 0.9893729388713837,
	"rewards/equation_reward_func": 0.6250000298023224,
	"rewards/format_reward_func": 1.9869792461395264,
	"step": 240
	},
	{
	"completion_length": 593.2083740234375,
	"epoch": 0.04934747145187602,
	"grad_norm": 0.7712890526722358,
	"kl": 0.086669921875,
	"learning_rate": 6.957882670345458e-07,
	"loss": 0.0001,
	"reward": 2.4697917699813843,
	"reward_std": 1.0504232347011566,
	"rewards/equation_reward_func": 0.5416666865348816,
	"rewards/format_reward_func": 1.9281250834465027,
	"step": 242
	},
	{
	"completion_length": 594.3958435058594,
	"epoch": 0.049755301794453505,
	"grad_norm": 0.8588310596425649,
	"kl": 0.0986328125,
	"learning_rate": 6.90705031860483e-07,
	"loss": 0.0001,
	"reward": 1.9615973234176636,
	"reward_std": 0.6058675646781921,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 1.9615971446037292,
	"step": 244
	},
	{
	"completion_length": 448.3125228881836,
	"epoch": 0.050163132137031,
	"grad_norm": 1.8069886458180306,
	"kl": 0.113525390625,
	"learning_rate": 6.855986244591103e-07,
	"loss": 0.0001,
	"reward": 2.5989930629730225,
	"reward_std": 0.7186898589134216,
	"rewards/equation_reward_func": 0.8333333730697632,
	"rewards/format_reward_func": 1.7656598091125488,
	"step": 246
	},
	{
	"completion_length": 487.33335876464844,
	"epoch": 0.05057096247960848,
	"grad_norm": 1.9638362270119054,
	"kl": 0.1494140625,
	"learning_rate": 6.804696653008574e-07,
	"loss": 0.0001,
	"reward": 2.645763874053955,
	"reward_std": 0.979635089635849,
	"rewards/equation_reward_func": 0.8333333730697632,
	"rewards/format_reward_func": 1.8124305605888367,
	"step": 248
	},
	{
	"completion_length": 536.5833740234375,
	"epoch": 0.050978792822185974,
	"grad_norm": 0.8482235665719111,
	"kl": 0.094482421875,
	"learning_rate": 6.753187775963772e-07,
	"loss": 0.0001,
	"reward": 1.9076389074325562,
	"reward_std": 0.5429915189743042,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 1.9076389074325562,
	"step": 250
	},
	{
	"completion_length": 398.5208435058594,
	"epoch": 0.05138662316476346,
	"grad_norm": 1.5501066370417451,
	"kl": 0.10986328125,
	"learning_rate": 6.701465872208216e-07,
	"loss": 0.0001,
	"reward": 2.95270836353302,
	"reward_std": 0.8335215449333191,
	"rewards/equation_reward_func": 1.166666716337204,
	"rewards/format_reward_func": 1.7860416173934937,
	"step": 252
	},
	{
	"completion_length": 427.0000305175781,
	"epoch": 0.051794453507340944,
	"grad_norm": 0.8535810763610331,
	"kl": 0.13330078125,
	"learning_rate": 6.649537226377914e-07,
	"loss": 0.0001,
	"reward": 2.610729217529297,
	"reward_std": 0.6564360558986664,
	"rewards/equation_reward_func": 0.7916666865348816,
	"rewards/format_reward_func": 1.8190626502037048,
	"step": 254
	},
	{
	"completion_length": 459.0208435058594,
	"epoch": 0.052202283849918436,
	"grad_norm": 1.253749573558056,
	"kl": 0.12646484375,
	"learning_rate": 6.597408148229741e-07,
	"loss": 0.0001,
	"reward": 2.7206597328186035,
	"reward_std": 0.5680619776248932,
	"rewards/equation_reward_func": 0.75,
	"rewards/format_reward_func": 1.970659613609314,
	"step": 256
	},
	{
	"completion_length": 459.16668701171875,
	"epoch": 0.05261011419249592,
	"grad_norm": 1.5903888848286962,
	"kl": 0.12060546875,
	"learning_rate": 6.545084971874736e-07,
	"loss": 0.0001,
	"reward": 2.6335763931274414,
	"reward_std": 0.6806207001209259,
	"rewards/equation_reward_func": 0.7083333730697632,
	"rewards/format_reward_func": 1.925243079662323,
	"step": 258
	},
	{
	"completion_length": 390.5208435058594,
	"epoch": 0.05301794453507341,
	"grad_norm": 1.5527056038492013,
	"kl": 0.118408203125,
	"learning_rate": 6.492574055008473e-07,
	"loss": 0.0001,
	"reward": 2.4415969848632812,
	"reward_std": 0.600139319896698,
	"rewards/equation_reward_func": 0.625,
	"rewards/format_reward_func": 1.81659734249115,
	"step": 260
	},
	{
	"completion_length": 531.9166870117188,
	"epoch": 0.0534257748776509,
	"grad_norm": 1.4622847388569014,
	"kl": 0.12255859375,
	"learning_rate": 6.439881778138531e-07,
	"loss": 0.0001,
	"reward": 2.7648611068725586,
	"reward_std": 0.6601312011480331,
	"rewards/equation_reward_func": 0.7083333730697632,
	"rewards/format_reward_func": 2.056527853012085,
	"step": 262
	},
	{
	"completion_length": 515.7916870117188,
	"epoch": 0.053833605220228384,
	"grad_norm": 1.386912182976191,
	"kl": 0.138427734375,
	"learning_rate": 6.387014543809223e-07,
	"loss": 0.0001,
	"reward": 2.7789584398269653,
	"reward_std": 0.6216670870780945,
	"rewards/equation_reward_func": 0.8333333730697632,
	"rewards/format_reward_func": 1.9456250667572021,
	"step": 264
	},
	{
	"completion_length": 350.0208435058594,
	"epoch": 0.054241435562805876,
	"grad_norm": 1.32827783707619,
	"kl": 0.14892578125,
	"learning_rate": 6.333978775823631e-07,
	"loss": 0.0001,
	"reward": 3.3326735496520996,
	"reward_std": 0.5917892754077911,
	"rewards/equation_reward_func": 1.5833333730697632,
	"rewards/format_reward_func": 1.7493401765823364,
	"step": 266
	},
	{
	"completion_length": 418.87501525878906,
	"epoch": 0.05464926590538336,
	"grad_norm": 1.7098008888477785,
	"kl": 0.162109375,
	"learning_rate": 6.280780918463057e-07,
	"loss": 0.0002,
	"reward": 2.589617967605591,
	"reward_std": 0.6024105995893478,
	"rewards/equation_reward_func": 0.75,
	"rewards/format_reward_func": 1.8396180868148804,
	"step": 268
	},
	{
	"completion_length": 513.5625152587891,
	"epoch": 0.055057096247960846,
	"grad_norm": 1.117454148344459,
	"kl": 0.16162109375,
	"learning_rate": 6.227427435703995e-07,
	"loss": 0.0002,
	"reward": 2.7452430725097656,
	"reward_std": 1.3093486428260803,
	"rewards/equation_reward_func": 1.125,
	"rewards/format_reward_func": 1.6202431321144104,
	"step": 270
	},
	{
	"completion_length": 616.9166870117188,
	"epoch": 0.05546492659053834,
	"grad_norm": 0.9401293165638854,
	"kl": 0.1728515625,
	"learning_rate": 6.173924810432704e-07,
	"loss": 0.0002,
	"reward": 2.637951374053955,
	"reward_std": 0.9178789854049683,
	"rewards/equation_reward_func": 0.625,
	"rewards/format_reward_func": 2.0129514336586,
	"step": 272
	},
	{
	"completion_length": 651.5833740234375,
	"epoch": 0.05587275693311582,
	"grad_norm": 0.9567005196766424,
	"kl": 0.14697265625,
	"learning_rate": 6.12027954365748e-07,
	"loss": 0.0001,
	"reward": 1.926597237586975,
	"reward_std": 0.8993740975856781,
	"rewards/equation_reward_func": 0.0416666679084301,
	"rewards/format_reward_func": 1.8849304914474487,
	"step": 274
	},
	{
	"completion_length": 634.5208435058594,
	"epoch": 0.05628058727569331,
	"grad_norm": 1.358076325982119,
	"kl": 0.13427734375,
	"learning_rate": 6.066498153718734e-07,
	"loss": 0.0001,
	"reward": 2.3687500953674316,
	"reward_std": 1.000350534915924,
	"rewards/equation_reward_func": 0.4166666865348816,
	"rewards/format_reward_func": 1.9520832300186157,
	"step": 276
	},
	{
	"completion_length": 517.4166870117188,
	"epoch": 0.0566884176182708,
	"grad_norm": 1.5910966658956645,
	"kl": 0.1484375,
	"learning_rate": 6.01258717549696e-07,
	"loss": 0.0001,
	"reward": 2.7329167127609253,
	"reward_std": 0.6304636597633362,
	"rewards/equation_reward_func": 1.0,
	"rewards/format_reward_func": 1.7329167127609253,
	"step": 278
	},
	{
	"completion_length": 693.8125305175781,
	"epoch": 0.057096247960848286,
	"grad_norm": 1.0227721122110067,
	"kl": 0.12451171875,
	"learning_rate": 5.958553159618692e-07,
	"loss": 0.0001,
	"reward": 2.247395873069763,
	"reward_std": 0.8254929631948471,
	"rewards/equation_reward_func": 0.1666666716337204,
	"rewards/format_reward_func": 2.0807292461395264,
	"step": 280
	},
	{
	"completion_length": 699.3125305175781,
	"epoch": 0.05750407830342578,
	"grad_norm": 0.9489795742265218,
	"kl": 0.1298828125,
	"learning_rate": 5.90440267166055e-07,
	"loss": 0.0001,
	"reward": 2.170659899711609,
	"reward_std": 0.7723036706447601,
	"rewards/equation_reward_func": 0.0416666679084301,
	"rewards/format_reward_func": 2.128993034362793,
	"step": 282
	},
	{
	"completion_length": 652.3333435058594,
	"epoch": 0.05791190864600326,
	"grad_norm": 1.2529290369484056,
	"kl": 0.13623046875,
	"learning_rate": 5.850142291351465e-07,
	"loss": 0.0001,
	"reward": 2.2495139837265015,
	"reward_std": 0.8483322262763977,
	"rewards/equation_reward_func": 0.2083333432674408,
	"rewards/format_reward_func": 2.0411804914474487,
	"step": 284
	},
	{
	"completion_length": 367.91668701171875,
	"epoch": 0.05831973898858075,
	"grad_norm": 1.40910503148467,
	"kl": 0.16064453125,
	"learning_rate": 5.795778611773197e-07,
	"loss": 0.0002,
	"reward": 3.3931944370269775,
	"reward_std": 0.7464114725589752,
	"rewards/equation_reward_func": 1.5833333730697632,
	"rewards/format_reward_func": 1.809861183166504,
	"step": 286
	},
	{
	"completion_length": 525.25,
	"epoch": 0.05872756933115824,
	"grad_norm": 1.4485621962260458,
	"kl": 0.150390625,
	"learning_rate": 5.741318238559209e-07,
	"loss": 0.0002,
	"reward": 3.194236159324646,
	"reward_std": 0.8501316905021667,
	"rewards/equation_reward_func": 1.166666716337204,
	"rewards/format_reward_func": 2.027569532394409,
	"step": 288
	},
	{
	"completion_length": 683.4166870117188,
	"epoch": 0.059135399673735725,
	"grad_norm": 1.1717608782080553,
	"kl": 0.1416015625,
	"learning_rate": 5.686767789092041e-07,
	"loss": 0.0001,
	"reward": 2.2353820204734802,
	"reward_std": 1.0596205294132233,
	"rewards/equation_reward_func": 0.2916666865348816,
	"rewards/format_reward_func": 1.9437153339385986,
	"step": 290
	},
	{
	"completion_length": 401.06251525878906,
	"epoch": 0.05954323001631321,
	"grad_norm": 1.469208845355834,
	"kl": 0.18115234375,
	"learning_rate": 5.632133891699231e-07,
	"loss": 0.0002,
	"reward": 3.5194097757339478,
	"reward_std": 0.6208974719047546,
	"rewards/equation_reward_func": 1.7083333730697632,
	"rewards/format_reward_func": 1.8110764622688293,
	"step": 292
	},
	{
	"completion_length": 726.2916870117188,
	"epoch": 0.0599510603588907,
	"grad_norm": 1.3400119923719016,
	"kl": 0.135009765625,
	"learning_rate": 5.577423184847931e-07,
	"loss": 0.0001,
	"reward": 2.288576364517212,
	"reward_std": 0.4163784384727478,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 2.288576364517212,
	"step": 294
	},
	{
	"completion_length": 408.81251525878906,
	"epoch": 0.06035889070146819,
	"grad_norm": 1.6377898052337172,
	"kl": 0.16259765625,
	"learning_rate": 5.522642316338268e-07,
	"loss": 0.0002,
	"reward": 3.5491667985916138,
	"reward_std": 0.6619178652763367,
	"rewards/equation_reward_func": 1.6666666865348816,
	"rewards/format_reward_func": 1.8825000524520874,
	"step": 296
	},
	{
	"completion_length": 662.7916870117188,
	"epoch": 0.06076672104404568,
	"grad_norm": 1.0601282664430811,
	"kl": 0.16845703125,
	"learning_rate": 5.467797942495589e-07,
	"loss": 0.0002,
	"reward": 2.235729455947876,
	"reward_std": 1.0819981396198273,
	"rewards/equation_reward_func": 0.3333333544433117,
	"rewards/format_reward_func": 1.9023959636688232,
	"step": 298
	},
	{
	"completion_length": 563.1875305175781,
	"epoch": 0.061174551386623165,
	"grad_norm": 0.9614419208572907,
	"kl": 0.193359375,
	"learning_rate": 5.412896727361662e-07,
	"loss": 0.0002,
	"reward": 2.6000348329544067,
	"reward_std": 0.9562007784843445,
	"rewards/equation_reward_func": 0.7916666865348816,
	"rewards/format_reward_func": 1.8083681464195251,
	"step": 300
	},
	{
	"completion_length": 819.2916870117188,
	"epoch": 0.06158238172920065,
	"grad_norm": 0.9771200528468638,
	"kl": 0.128662109375,
	"learning_rate": 5.357945341884935e-07,
	"loss": 0.0001,
	"reward": 1.7778472304344177,
	"reward_std": 1.077535629272461,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 1.7778472900390625,
	"step": 302
	},
	{
	"completion_length": 553.4166870117188,
	"epoch": 0.06199021207177814,
	"grad_norm": 1.1955694878738563,
	"kl": 0.23388671875,
	"learning_rate": 5.302950463109969e-07,
	"loss": 0.0002,
	"reward": 2.829687714576721,
	"reward_std": 1.1161695718765259,
	"rewards/equation_reward_func": 0.916666716337204,
	"rewards/format_reward_func": 1.9130208492279053,
	"step": 304
	},
	{
	"completion_length": 710.7291870117188,
	"epoch": 0.06239804241435563,
	"grad_norm": 1.3779449810449336,
	"kl": 0.1650390625,
	"learning_rate": 5.247918773366111e-07,
	"loss": 0.0002,
	"reward": 2.022604286670685,
	"reward_std": 0.8615612387657166,
	"rewards/equation_reward_func": 0.0833333358168602,
	"rewards/format_reward_func": 1.9392709136009216,
	"step": 306
	},
	{
	"completion_length": 589.2083435058594,
	"epoch": 0.06280587275693311,
	"grad_norm": 1.1497542405094912,
	"kl": 0.1552734375,
	"learning_rate": 5.192856959455552e-07,
	"loss": 0.0002,
	"reward": 3.0122569799423218,
	"reward_std": 0.8370742797851562,
	"rewards/equation_reward_func": 0.9583333544433117,
	"rewards/format_reward_func": 2.0539236068725586,
	"step": 308
	},
	{
	"completion_length": 373.6041717529297,
	"epoch": 0.0632137030995106,
	"grad_norm": 1.527186652658105,
	"kl": 0.24267578125,
	"learning_rate": 5.137771711840811e-07,
	"loss": 0.0002,
	"reward": 3.4156596660614014,
	"reward_std": 0.5625910460948944,
	"rewards/equation_reward_func": 1.6250000596046448,
	"rewards/format_reward_func": 1.790659785270691,
	"step": 310
	},
	{
	"completion_length": 395.37501525878906,
	"epoch": 0.0636215334420881,
	"grad_norm": 1.7273540516921173,
	"kl": 0.20361328125,
	"learning_rate": 5.082669723831793e-07,
	"loss": 0.0002,
	"reward": 3.51725697517395,
	"reward_std": 0.6541823446750641,
	"rewards/equation_reward_func": 1.6666667461395264,
	"rewards/format_reward_func": 1.8505903482437134,
	"step": 312
	},
	{
	"completion_length": 385.5208435058594,
	"epoch": 0.06402936378466557,
	"grad_norm": 1.698447178314297,
	"kl": 0.2001953125,
	"learning_rate": 5.027557690772503e-07,
	"loss": 0.0002,
	"reward": 3.766666889190674,
	"reward_std": 0.5374718904495239,
	"rewards/equation_reward_func": 1.9166667461395264,
	"rewards/format_reward_func": 1.850000023841858,
	"step": 314
	},
	{
	"completion_length": 597.7083435058594,
	"epoch": 0.06443719412724307,
	"grad_norm": 1.2167733375338632,
	"kl": 0.25439453125,
	"learning_rate": 4.972442309227498e-07,
	"loss": 0.0003,
	"reward": 2.8143749237060547,
	"reward_std": 0.9374454021453857,
	"rewards/equation_reward_func": 0.9583333544433117,
	"rewards/format_reward_func": 1.856041669845581,
	"step": 316
	},
	{
	"completion_length": 687.9375305175781,
	"epoch": 0.06484502446982056,
	"grad_norm": 1.1609904401618012,
	"kl": 0.17822265625,
	"learning_rate": 4.917330276168208e-07,
	"loss": 0.0002,
	"reward": 2.6170140504837036,
	"reward_std": 1.1427516341209412,
	"rewards/equation_reward_func": 0.6250000409781933,
	"rewards/format_reward_func": 1.9920140504837036,
	"step": 318
	},
	{
	"completion_length": 684.1250305175781,
	"epoch": 0.06525285481239804,
	"grad_norm": 1.0056701516120197,
	"kl": 0.20947265625,
	"learning_rate": 4.86222828815919e-07,
	"loss": 0.0002,
	"reward": 2.5053821802139282,
	"reward_std": 0.9234158992767334,
	"rewards/equation_reward_func": 0.4166666865348816,
	"rewards/format_reward_func": 2.088715434074402,
	"step": 320
	},
	{
	"completion_length": 673.8750305175781,
	"epoch": 0.06566068515497553,
	"grad_norm": 1.0975585144657385,
	"kl": 0.18798828125,
	"learning_rate": 4.807143040544446e-07,
	"loss": 0.0002,
	"reward": 3.1653473377227783,
	"reward_std": 1.1166218519210815,
	"rewards/equation_reward_func": 1.0416666865348816,
	"rewards/format_reward_func": 2.123680830001831,
	"step": 322
	},
	{
	"completion_length": 830.4791870117188,
	"epoch": 0.06606851549755302,
	"grad_norm": 1.0602033792436276,
	"kl": 0.1513671875,
	"learning_rate": 4.752081226633888e-07,
	"loss": 0.0002,
	"reward": 1.821250081062317,
	"reward_std": 1.0921660661697388,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 1.821250081062317,
	"step": 324
	},
	{
	"completion_length": 639.4375305175781,
	"epoch": 0.0664763458401305,
	"grad_norm": 1.100729586233426,
	"kl": 0.1552734375,
	"learning_rate": 4.697049536890033e-07,
	"loss": 0.0002,
	"reward": 2.8303472995758057,
	"reward_std": 0.8279085159301758,
	"rewards/equation_reward_func": 0.7916666865348816,
	"rewards/format_reward_func": 2.038680672645569,
	"step": 326
	},
	{
	"completion_length": 686.9375305175781,
	"epoch": 0.06688417618270799,
	"grad_norm": 1.0245543586959098,
	"kl": 0.17041015625,
	"learning_rate": 4.642054658115066e-07,
	"loss": 0.0002,
	"reward": 2.826840400695801,
	"reward_std": 0.9287701547145844,
	"rewards/equation_reward_func": 0.7916666865348816,
	"rewards/format_reward_func": 2.0351736545562744,
	"step": 328
	},
	{
	"completion_length": 527.375,
	"epoch": 0.06729200652528548,
	"grad_norm": 1.0458228845510584,
	"kl": 0.173828125,
	"learning_rate": 4.5871032726383385e-07,
	"loss": 0.0002,
	"reward": 3.5178821086883545,
	"reward_std": 1.0241894721984863,
	"rewards/equation_reward_func": 1.5416666865348816,
	"rewards/format_reward_func": 1.9762153625488281,
	"step": 330
	},
	{
	"completion_length": 574.0000152587891,
	"epoch": 0.06769983686786298,
	"grad_norm": 1.3045692619665175,
	"kl": 0.1962890625,
	"learning_rate": 4.532202057504411e-07,
	"loss": 0.0002,
	"reward": 3.1286113262176514,
	"reward_std": 1.1157885491847992,
	"rewards/equation_reward_func": 1.125,
	"rewards/format_reward_func": 2.003611207008362,
	"step": 332
	},
	{
	"completion_length": 783.9375305175781,
	"epoch": 0.06810766721044045,
	"grad_norm": 1.0379555283649509,
	"kl": 0.15966796875,
	"learning_rate": 4.477357683661733e-07,
	"loss": 0.0002,
	"reward": 2.033749997615814,
	"reward_std": 0.8268265128135681,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 2.0337501168251038,
	"step": 334
	},
	{
	"completion_length": 748.5416870117188,
	"epoch": 0.06851549755301795,
	"grad_norm": 1.0608562150572372,
	"kl": 0.3369140625,
	"learning_rate": 4.4225768151520694e-07,
	"loss": 0.0003,
	"reward": 2.0848264694213867,
	"reward_std": 0.8205204904079437,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 2.0848264694213867,
	"step": 336
	},
	{
	"completion_length": 815.5625305175781,
	"epoch": 0.06892332789559544,
	"grad_norm": 1.0418888295786408,
	"kl": 0.18310546875,
	"learning_rate": 4.3678661083007685e-07,
	"loss": 0.0002,
	"reward": 1.7861458659172058,
	"reward_std": 1.0723278522491455,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 1.7861458659172058,
	"step": 338
	},
	{
	"completion_length": 555.1666717529297,
	"epoch": 0.06933115823817292,
	"grad_norm": 1.4518474976562326,
	"kl": 0.17236328125,
	"learning_rate": 4.313232210907959e-07,
	"loss": 0.0002,
	"reward": 3.1211459636688232,
	"reward_std": 0.9402068853378296,
	"rewards/equation_reward_func": 1.0416666865348816,
	"rewards/format_reward_func": 2.0794793367385864,
	"step": 340
	},
	{
	"completion_length": 500.79168701171875,
	"epoch": 0.06973898858075041,
	"grad_norm": 1.5942769271225012,
	"kl": 0.20947265625,
	"learning_rate": 4.258681761440789e-07,
	"loss": 0.0002,
	"reward": 3.415902853012085,
	"reward_std": 0.6841486990451813,
	"rewards/equation_reward_func": 1.3750000298023224,
	"rewards/format_reward_func": 2.04090279340744,
	"step": 342
	},
	{
	"completion_length": 648.5625,
	"epoch": 0.0701468189233279,
	"grad_norm": 1.063650258930375,
	"kl": 0.15478515625,
	"learning_rate": 4.2042213882268025e-07,
	"loss": 0.0002,
	"reward": 2.6829168796539307,
	"reward_std": 0.8894191086292267,
	"rewards/equation_reward_func": 0.5416666865348816,
	"rewards/format_reward_func": 2.1412501335144043,
	"step": 344
	},
	{
	"completion_length": 561.6666870117188,
	"epoch": 0.07055464926590538,
	"grad_norm": 1.457579727519852,
	"kl": 0.17724609375,
	"learning_rate": 4.149857708648535e-07,
	"loss": 0.0002,
	"reward": 2.8364583253860474,
	"reward_std": 0.47896429151296616,
	"rewards/equation_reward_func": 0.6666666865348816,
	"rewards/format_reward_func": 2.1697916984558105,
	"step": 346
	},
	{
	"completion_length": 642.3541870117188,
	"epoch": 0.07096247960848287,
	"grad_norm": 1.3912364072475296,
	"kl": 0.16064453125,
	"learning_rate": 4.095597328339452e-07,
	"loss": 0.0002,
	"reward": 2.601736068725586,
	"reward_std": 0.6701973676681519,
	"rewards/equation_reward_func": 0.3333333544433117,
	"rewards/format_reward_func": 2.2684028148651123,
	"step": 348
	},
	{
	"completion_length": 565.8541870117188,
	"epoch": 0.07137030995106036,
	"grad_norm": 1.4335488442307787,
	"kl": 0.15869140625,
	"learning_rate": 4.041446840381309e-07,
	"loss": 0.0002,
	"reward": 2.8512500524520874,
	"reward_std": 0.6541395485401154,
	"rewards/equation_reward_func": 0.7916666865348816,
	"rewards/format_reward_func": 2.0595834851264954,
	"step": 350
	},
	{
	"completion_length": 592.4583435058594,
	"epoch": 0.07177814029363784,
	"grad_norm": 1.6711244477487293,
	"kl": 0.1640625,
	"learning_rate": 3.98741282450304e-07,
	"loss": 0.0002,
	"reward": 2.683958411216736,
	"reward_std": 0.9120919704437256,
	"rewards/equation_reward_func": 0.5833333730697632,
	"rewards/format_reward_func": 2.1006250977516174,
	"step": 352
	},
	{
	"completion_length": 647.5625305175781,
	"epoch": 0.07218597063621533,
	"grad_norm": 1.3418439173813352,
	"kl": 0.1611328125,
	"learning_rate": 3.9335018462812664e-07,
	"loss": 0.0002,
	"reward": 2.5612502098083496,
	"reward_std": 0.9770323932170868,
	"rewards/equation_reward_func": 0.5,
	"rewards/format_reward_func": 2.06125009059906,
	"step": 354
	},
	{
	"completion_length": 593.5,
	"epoch": 0.07259380097879282,
	"grad_norm": 0.8818594196791458,
	"kl": 0.15478515625,
	"learning_rate": 3.879720456342521e-07,
	"loss": 0.0002,
	"reward": 2.828229308128357,
	"reward_std": 0.7171844244003296,
	"rewards/equation_reward_func": 0.7083333730697632,
	"rewards/format_reward_func": 2.119895815849304,
	"step": 356
	},
	{
	"completion_length": 458.3125,
	"epoch": 0.07300163132137032,
	"grad_norm": 1.4981060215710775,
	"kl": 0.1640625,
	"learning_rate": 3.8260751895672954e-07,
	"loss": 0.0002,
	"reward": 3.318923592567444,
	"reward_std": 0.8009838759899139,
	"rewards/equation_reward_func": 1.3333333432674408,
	"rewards/format_reward_func": 1.9855904579162598,
	"step": 358
	},
	{
	"completion_length": 455.9166717529297,
	"epoch": 0.0734094616639478,
	"grad_norm": 1.3586016748782879,
	"kl": 0.18408203125,
	"learning_rate": 3.772572564296004e-07,
	"loss": 0.0002,
	"reward": 3.7097569704055786,
	"reward_std": 0.5928686857223511,
	"rewards/equation_reward_func": 1.7083333730697632,
	"rewards/format_reward_func": 2.001423716545105,
	"step": 360
	},
	{
	"completion_length": 673.6875305175781,
	"epoch": 0.07381729200652529,
	"grad_norm": 1.2301932410337926,
	"kl": 0.1787109375,
	"learning_rate": 3.719219081536942e-07,
	"loss": 0.0002,
	"reward": 2.9322917461395264,
	"reward_std": 1.2178776860237122,
	"rewards/equation_reward_func": 0.8333333730697632,
	"rewards/format_reward_func": 2.098958373069763,
	"step": 362
	},
	{
	"completion_length": 621.8333435058594,
	"epoch": 0.07422512234910278,
	"grad_norm": 1.2515697084532456,
	"kl": 0.15673828125,
	"learning_rate": 3.666021224176369e-07,
	"loss": 0.0002,
	"reward": 3.1526390314102173,
	"reward_std": 1.0030421912670135,
	"rewards/equation_reward_func": 0.9166666865348816,
	"rewards/format_reward_func": 2.235972285270691,
	"step": 364
	},
	{
	"completion_length": 615.0000305175781,
	"epoch": 0.07463295269168026,
	"grad_norm": 1.5169652601615895,
	"kl": 0.19091796875,
	"learning_rate": 3.612985456190778e-07,
	"loss": 0.0002,
	"reward": 2.936007022857666,
	"reward_std": 0.7388836741447449,
	"rewards/equation_reward_func": 0.875,
	"rewards/format_reward_func": 2.0610069632530212,
	"step": 366
	},
	{
	"completion_length": 592.9583435058594,
	"epoch": 0.07504078303425775,
	"grad_norm": 1.4869853846405452,
	"kl": 0.1611328125,
	"learning_rate": 3.56011822186147e-07,
	"loss": 0.0002,
	"reward": 3.217986226081848,
	"reward_std": 0.7202288508415222,
	"rewards/equation_reward_func": 1.0416666716337204,
	"rewards/format_reward_func": 2.1763195991516113,
	"step": 368
	},
	{
	"completion_length": 696.0,
	"epoch": 0.07544861337683524,
	"grad_norm": 1.3749187528497846,
	"kl": 0.20947265625,
	"learning_rate": 3.507425944991528e-07,
	"loss": 0.0002,
	"reward": 2.269930601119995,
	"reward_std": 0.710529625415802,
	"rewards/equation_reward_func": 0.0833333358168602,
	"rewards/format_reward_func": 2.186597466468811,
	"step": 370
	},
	{
	"completion_length": 557.3125305175781,
	"epoch": 0.07585644371941272,
	"grad_norm": 1.4000574837745792,
	"kl": 0.16796875,
	"learning_rate": 3.454915028125263e-07,
	"loss": 0.0002,
	"reward": 3.027916669845581,
	"reward_std": 1.0261832475662231,
	"rewards/equation_reward_func": 1.0416666865348816,
	"rewards/format_reward_func": 1.9862500429153442,
	"step": 372
	},
	{
	"completion_length": 493.1875,
	"epoch": 0.07626427406199021,
	"grad_norm": 1.3346862160598578,
	"kl": 0.17724609375,
	"learning_rate": 3.4025918517702593e-07,
	"loss": 0.0002,
	"reward": 3.429097294807434,
	"reward_std": 0.7599293291568756,
	"rewards/equation_reward_func": 1.4166666865348816,
	"rewards/format_reward_func": 2.012430787086487,
	"step": 374
	},
	{
	"completion_length": 559.7916717529297,
	"epoch": 0.0766721044045677,
	"grad_norm": 1.674692584956449,
	"kl": 0.25830078125,
	"learning_rate": 3.3504627736220857e-07,
	"loss": 0.0003,
	"reward": 3.2719098329544067,
	"reward_std": 0.7151365131139755,
	"rewards/equation_reward_func": 1.2083333730697632,
	"rewards/format_reward_func": 2.063576579093933,
	"step": 376
	},
	{
	"completion_length": 504.3125,
	"epoch": 0.07707993474714518,
	"grad_norm": 1.5590357023489072,
	"kl": 0.21337890625,
	"learning_rate": 3.2985341277917846e-07,
	"loss": 0.0002,
	"reward": 2.8944443464279175,
	"reward_std": 0.7131877541542053,
	"rewards/equation_reward_func": 0.8750000409781933,
	"rewards/format_reward_func": 2.0194445848464966,
	"step": 378
	},
	{
	"completion_length": 735.75,
	"epoch": 0.07748776508972267,
	"grad_norm": 1.068431271506457,
	"kl": 0.1865234375,
	"learning_rate": 3.2468122240362285e-07,
	"loss": 0.0002,
	"reward": 2.7177083492279053,
	"reward_std": 0.7962678074836731,
	"rewards/equation_reward_func": 0.4166666865348816,
	"rewards/format_reward_func": 2.301041841506958,
	"step": 380
	},
	{
	"completion_length": 796.8541870117188,
	"epoch": 0.07789559543230017,
	"grad_norm": 1.1087256773204297,
	"kl": 0.162109375,
	"learning_rate": 3.195303346991427e-07,
	"loss": 0.0002,
	"reward": 2.0952779054641724,
	"reward_std": 0.8598673939704895,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 2.0952779054641724,
	"step": 382
	},
	{
	"completion_length": 570.0625152587891,
	"epoch": 0.07830342577487764,
	"grad_norm": 1.4382086945561208,
	"kl": 0.17578125,
	"learning_rate": 3.1440137554088953e-07,
	"loss": 0.0002,
	"reward": 2.951319456100464,
	"reward_std": 0.7555558383464813,
	"rewards/equation_reward_func": 0.875,
	"rewards/format_reward_func": 2.076319396495819,
	"step": 384
	},
	{
	"completion_length": 545.7291870117188,
	"epoch": 0.07871125611745514,
	"grad_norm": 1.1023634840652674,
	"kl": 0.20166015625,
	"learning_rate": 3.092949681395169e-07,
	"loss": 0.0002,
	"reward": 3.21753466129303,
	"reward_std": 1.1398820281028748,
	"rewards/equation_reward_func": 1.3333333730697632,
	"rewards/format_reward_func": 1.8842013478279114,
	"step": 386
	},
	{
	"completion_length": 540.5625152587891,
	"epoch": 0.07911908646003263,
	"grad_norm": 1.6785853811175349,
	"kl": 0.17529296875,
	"learning_rate": 3.042117329654544e-07,
	"loss": 0.0002,
	"reward": 3.2422919273376465,
	"reward_std": 0.8742612600326538,
	"rewards/equation_reward_func": 1.0833333432674408,
	"rewards/format_reward_func": 2.1589584350585938,
	"step": 388
	},
	{
	"completion_length": 437.12501525878906,
	"epoch": 0.07952691680261012,
	"grad_norm": 1.719678147524432,
	"kl": 0.25732421875,
	"learning_rate": 2.9915228767351535e-07,
	"loss": 0.0003,
	"reward": 3.636701464653015,
	"reward_std": 0.723703920841217,
	"rewards/equation_reward_func": 1.6666666865348816,
	"rewards/format_reward_func": 1.970034897327423,
	"step": 390
	},
	{
	"completion_length": 665.4375305175781,
	"epoch": 0.0799347471451876,
	"grad_norm": 1.2489486438524378,
	"kl": 0.2080078125,
	"learning_rate": 2.941172470278476e-07,
	"loss": 0.0002,
	"reward": 2.668472409248352,
	"reward_std": 0.8615556359291077,
	"rewards/equation_reward_func": 0.541666679084301,
	"rewards/format_reward_func": 2.1268056631088257,
	"step": 392
	},
	{
	"completion_length": 816.0208435058594,
	"epoch": 0.08034257748776509,
	"grad_norm": 0.947304383944691,
	"kl": 0.18359375,
	"learning_rate": 2.89107222827234e-07,
	"loss": 0.0002,
	"reward": 2.104305624961853,
	"reward_std": 0.866163969039917,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 2.1043055057525635,
	"step": 394
	},
	{
	"completion_length": 765.4791870117188,
	"epoch": 0.08075040783034258,
	"grad_norm": 1.400028124019858,
	"kl": 0.19287109375,
	"learning_rate": 2.841228238307536e-07,
	"loss": 0.0002,
	"reward": 2.2613543272018433,
	"reward_std": 0.5083828084170818,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 2.2613543272018433,
	"step": 396
	},
	{
	"completion_length": 781.6250305175781,
	"epoch": 0.08115823817292006,
	"grad_norm": 1.0827871893574141,
	"kl": 0.1767578125,
	"learning_rate": 2.79164655683813e-07,
	"loss": 0.0002,
	"reward": 2.1505903601646423,
	"reward_std": 0.7696040868759155,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 2.1505903005599976,
	"step": 398
	},
	{
	"completion_length": 493.43751525878906,
	"epoch": 0.08156606851549755,
	"grad_norm": 1.2921133198533294,
	"kl": 0.791015625,
	"learning_rate": 2.742333208445554e-07,
	"loss": 0.0008,
	"reward": 3.811944603919983,
	"reward_std": 0.5879083275794983,
	"rewards/equation_reward_func": 1.7500000596046448,
	"rewards/format_reward_func": 2.061944365501404,
	"step": 400
	},
	{
	"completion_length": 746.0625305175781,
	"epoch": 0.08197389885807504,
	"grad_norm": 1.305143762318282,
	"kl": 0.17529296875,
	"learning_rate": 2.6932941851065615e-07,
	"loss": 0.0002,
	"reward": 2.444791793823242,
	"reward_std": 0.4394510090351105,
	"rewards/equation_reward_func": 0.0416666679084301,
	"rewards/format_reward_func": 2.4031251668930054,
	"step": 402
	},
	{
	"completion_length": 544.4791717529297,
	"epoch": 0.08238172920065252,
	"grad_norm": 1.1953377442351993,
	"kl": 0.1748046875,
	"learning_rate": 2.6445354454651636e-07,
	"loss": 0.0002,
	"reward": 3.572013735771179,
	"reward_std": 0.8854174613952637,
	"rewards/equation_reward_func": 1.4583333730697632,
	"rewards/format_reward_func": 2.113680601119995,
	"step": 404
	},
	{
	"completion_length": 804.7708740234375,
	"epoch": 0.08278955954323002,
	"grad_norm": 0.9435020676134209,
	"kl": 0.2001953125,
	"learning_rate": 2.596062914108601e-07,
	"loss": 0.0002,
	"reward": 2.238854169845581,
	"reward_std": 0.7229233682155609,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 2.238854169845581,
	"step": 406
	},
	{
	"completion_length": 771.4166870117188,
	"epoch": 0.08319738988580751,
	"grad_norm": 1.0179706632601526,
	"kl": 0.171875,
	"learning_rate": 2.547882480847461e-07,
	"loss": 0.0002,
	"reward": 2.2952778339385986,
	"reward_std": 0.6089069843292236,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 2.2952778339385986,
	"step": 408
	},
	{
	"completion_length": 615.0625,
	"epoch": 0.08360522022838499,
	"grad_norm": 1.3095508272095453,
	"kl": 0.2060546875,
	"learning_rate": 2.500000000000001e-07,
	"loss": 0.0002,
	"reward": 2.916632056236267,
	"reward_std": 1.1873834133148193,
	"rewards/equation_reward_func": 0.875,
	"rewards/format_reward_func": 2.041632056236267,
	"step": 410
	},
	{
	"completion_length": 522.5833587646484,
	"epoch": 0.08401305057096248,
	"grad_norm": 1.3099266975063921,
	"kl": 0.1826171875,
	"learning_rate": 2.452421289680826e-07,
	"loss": 0.0002,
	"reward": 3.69243061542511,
	"reward_std": 0.7064912915229797,
	"rewards/equation_reward_func": 1.5833333730697632,
	"rewards/format_reward_func": 2.1090973615646362,
	"step": 412
	},
	{
	"completion_length": 554.5625305175781,
	"epoch": 0.08442088091353997,
	"grad_norm": 1.3331866727652546,
	"kl": 0.18212890625,
	"learning_rate": 2.4051521310939254e-07,
	"loss": 0.0002,
	"reward": 3.463784694671631,
	"reward_std": 0.8228816390037537,
	"rewards/equation_reward_func": 1.291666716337204,
	"rewards/format_reward_func": 2.1721181869506836,
	"step": 414
	},
	{
	"completion_length": 422.85418701171875,
	"epoch": 0.08482871125611746,
	"grad_norm": 1.4824642737659157,
	"kl": 0.171875,
	"learning_rate": 2.3581982678302058e-07,
	"loss": 0.0002,
	"reward": 3.8071876764297485,
	"reward_std": 0.43291839957237244,
	"rewards/equation_reward_func": 1.8750000596046448,
	"rewards/format_reward_func": 1.9321874976158142,
	"step": 416
	},
	{
	"completion_length": 674.2916870117188,
	"epoch": 0.08523654159869494,
	"grad_norm": 1.5561510539962522,
	"kl": 0.19189453125,
	"learning_rate": 2.3115654051696092e-07,
	"loss": 0.0002,
	"reward": 2.5582985877990723,
	"reward_std": 0.8232472538948059,
	"rewards/equation_reward_func": 0.3333333432674408,
	"rewards/format_reward_func": 2.2249653339385986,
	"step": 418
	},
	{
	"completion_length": 710.0208435058594,
	"epoch": 0.08564437194127243,
	"grad_norm": 1.2191039991941799,
	"kl": 0.205078125,
	"learning_rate": 2.2652592093878665e-07,
	"loss": 0.0002,
	"reward": 2.6046180725097656,
	"reward_std": 1.0610361099243164,
	"rewards/equation_reward_func": 0.4583333544433117,
	"rewards/format_reward_func": 2.146284818649292,
	"step": 420
	},
	{
	"completion_length": 609.6250305175781,
	"epoch": 0.08605220228384992,
	"grad_norm": 1.5426998553595659,
	"kl": 0.38818359375,
	"learning_rate": 2.2192853070679967e-07,
	"loss": 0.0004,
	"reward": 2.992326498031616,
	"reward_std": 0.6148561537265778,
	"rewards/equation_reward_func": 0.7916666865348816,
	"rewards/format_reward_func": 2.2006598711013794,
	"step": 422
	},
	{
	"completion_length": 603.0833587646484,
	"epoch": 0.0864600326264274,
	"grad_norm": 1.1676070955306959,
	"kl": 0.17626953125,
	"learning_rate": 2.1736492844166404e-07,
	"loss": 0.0002,
	"reward": 2.8410418033599854,
	"reward_std": 0.7288043797016144,
	"rewards/equation_reward_func": 0.75,
	"rewards/format_reward_func": 2.091041922569275,
	"step": 424
	},
	{
	"completion_length": 686.1041870117188,
	"epoch": 0.0868678629690049,
	"grad_norm": 1.2093809230932122,
	"kl": 0.16259765625,
	"learning_rate": 2.128356686585282e-07,
	"loss": 0.0002,
	"reward": 2.547639012336731,
	"reward_std": 1.0525963008403778,
	"rewards/equation_reward_func": 0.4583333544433117,
	"rewards/format_reward_func": 2.089305877685547,
	"step": 426
	},
	{
	"completion_length": 528.4166870117188,
	"epoch": 0.08727569331158239,
	"grad_norm": 1.493705154956843,
	"kl": 0.19921875,
	"learning_rate": 2.0834130169964692e-07,
	"loss": 0.0002,
	"reward": 3.80138897895813,
	"reward_std": 0.7043006718158722,
	"rewards/equation_reward_func": 1.6666667461395264,
	"rewards/format_reward_func": 2.1347222328186035,
	"step": 428
	},
	{
	"completion_length": 595.5416870117188,
	"epoch": 0.08768352365415986,
	"grad_norm": 1.0806302437363526,
	"kl": 0.162109375,
	"learning_rate": 2.0388237366751003e-07,
	"loss": 0.0002,
	"reward": 3.173958420753479,
	"reward_std": 1.080767273902893,
	"rewards/equation_reward_func": 1.125,
	"rewards/format_reward_func": 2.0489583611488342,
	"step": 430
	},
	{
	"completion_length": 461.81251525878906,
	"epoch": 0.08809135399673736,
	"grad_norm": 1.3305612303160375,
	"kl": 0.2109375,
	"learning_rate": 1.9945942635848745e-07,
	"loss": 0.0002,
	"reward": 3.8538542985916138,
	"reward_std": 0.5665659308433533,
	"rewards/equation_reward_func": 1.8333333730697632,
	"rewards/format_reward_func": 2.0205209255218506,
	"step": 432
	},
	{
	"completion_length": 655.4375,
	"epoch": 0.08849918433931485,
	"grad_norm": 1.5166587801432987,
	"kl": 0.23876953125,
	"learning_rate": 1.950729971969955e-07,
	"loss": 0.0002,
	"reward": 2.8268750309944153,
	"reward_std": 0.879076361656189,
	"rewards/equation_reward_func": 0.7916666865348816,
	"rewards/format_reward_func": 2.0352084040641785,
	"step": 434
	},
	{
	"completion_length": 768.7083435058594,
	"epoch": 0.08890701468189233,
	"grad_norm": 1.3585261445866479,
	"kl": 0.15380859375,
	"learning_rate": 1.9072361917019536e-07,
	"loss": 0.0002,
	"reward": 2.529687523841858,
	"reward_std": 0.5843232274055481,
	"rewards/equation_reward_func": 0.125,
	"rewards/format_reward_func": 2.4046876430511475,
	"step": 436
	},
	{
	"completion_length": 642.6458435058594,
	"epoch": 0.08931484502446982,
	"grad_norm": 1.2793508732682657,
	"kl": 0.18505859375,
	"learning_rate": 1.8641182076323148e-07,
	"loss": 0.0002,
	"reward": 3.2028820514678955,
	"reward_std": 0.9111791253089905,
	"rewards/equation_reward_func": 0.8750000298023224,
	"rewards/format_reward_func": 2.327882170677185,
	"step": 438
	},
	{
	"completion_length": 590.1041870117188,
	"epoch": 0.08972267536704731,
	"grad_norm": 1.243315094285279,
	"kl": 0.1865234375,
	"learning_rate": 1.8213812589501608e-07,
	"loss": 0.0002,
	"reward": 3.199236273765564,
	"reward_std": 0.7947587668895721,
	"rewards/equation_reward_func": 1.083333358168602,
	"rewards/format_reward_func": 2.115902900695801,
	"step": 440
	},
	{
	"completion_length": 667.2083435058594,
	"epoch": 0.0901305057096248,
	"grad_norm": 1.4563035634925794,
	"kl": 0.15966796875,
	"learning_rate": 1.7790305385456795e-07,
	"loss": 0.0002,
	"reward": 2.744722366333008,
	"reward_std": 0.8301202952861786,
	"rewards/equation_reward_func": 0.5416666865348816,
	"rewards/format_reward_func": 2.2030556201934814,
	"step": 442
	},
	{
	"completion_length": 628.7916870117188,
	"epoch": 0.09053833605220228,
	"grad_norm": 1.5549898799881567,
	"kl": 0.18359375,
	"learning_rate": 1.7370711923791564e-07,
	"loss": 0.0002,
	"reward": 2.978472352027893,
	"reward_std": 0.7657686173915863,
	"rewards/equation_reward_func": 0.875,
	"rewards/format_reward_func": 2.1034722328186035,
	"step": 444
	},
	{
	"completion_length": 589.9375152587891,
	"epoch": 0.09094616639477977,
	"grad_norm": 1.3961044134596396,
	"kl": 0.16455078125,
	"learning_rate": 1.6955083188556946e-07,
	"loss": 0.0002,
	"reward": 2.9413541555404663,
	"reward_std": 0.869944304227829,
	"rewards/equation_reward_func": 0.75,
	"rewards/format_reward_func": 2.191354274749756,
	"step": 446
	},
	{
	"completion_length": 588.5625305175781,
	"epoch": 0.09135399673735727,
	"grad_norm": 1.2868775692231729,
	"kl": 0.16845703125,
	"learning_rate": 1.6543469682057104e-07,
	"loss": 0.0002,
	"reward": 3.0225348472595215,
	"reward_std": 0.6649808585643768,
	"rewards/equation_reward_func": 0.9166666679084301,
	"rewards/format_reward_func": 2.105868101119995,
	"step": 448
	},
	{
	"completion_length": 619.4791717529297,
	"epoch": 0.09176182707993474,
	"grad_norm": 1.3540986287392276,
	"kl": 0.234375,
	"learning_rate": 1.6135921418712955e-07,
	"loss": 0.0002,
	"reward": 3.06413197517395,
	"reward_std": 0.5509577691555023,
	"rewards/equation_reward_func": 0.9166666865348816,
	"rewards/format_reward_func": 2.147465467453003,
	"step": 450
	},
	{
	"completion_length": 643.9166870117188,
	"epoch": 0.09216965742251224,
	"grad_norm": 1.3600242782766807,
	"kl": 0.169921875,
	"learning_rate": 1.5732487918985015e-07,
	"loss": 0.0002,
	"reward": 2.942257046699524,
	"reward_std": 0.6768557727336884,
	"rewards/equation_reward_func": 0.6666666865348816,
	"rewards/format_reward_func": 2.275590419769287,
	"step": 452
	},
	{
	"completion_length": 748.5625305175781,
	"epoch": 0.09257748776508973,
	"grad_norm": 1.0093428243067948,
	"kl": 0.15673828125,
	"learning_rate": 1.533321820335624e-07,
	"loss": 0.0002,
	"reward": 2.5672223567962646,
	"reward_std": 0.9604451656341553,
	"rewards/equation_reward_func": 0.3333333432674408,
	"rewards/format_reward_func": 2.233889102935791,
	"step": 454
	},
	{
	"completion_length": 631.9791870117188,
	"epoch": 0.0929853181076672,
	"grad_norm": 1.4428676303535133,
	"kl": 0.17236328125,
	"learning_rate": 1.493816078637557e-07,
	"loss": 0.0002,
	"reward": 3.1071181297302246,
	"reward_std": 0.5816036462783813,
	"rewards/equation_reward_func": 0.875,
	"rewards/format_reward_func": 2.232118010520935,
	"step": 456
	},
	{
	"completion_length": 745.5625,
	"epoch": 0.0933931484502447,
	"grad_norm": 0.9921529304927418,
	"kl": 0.16748046875,
	"learning_rate": 1.4547363670763136e-07,
	"loss": 0.0002,
	"reward": 2.374131917953491,
	"reward_std": 0.40968185663223267,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 2.374131917953491,
	"step": 458
	},
	{
	"completion_length": 705.0833740234375,
	"epoch": 0.09380097879282219,
	"grad_norm": 1.0713444392216345,
	"kl": 0.18310546875,
	"learning_rate": 1.4160874341577444e-07,
	"loss": 0.0002,
	"reward": 2.8997570276260376,
	"reward_std": 0.7406170666217804,
	"rewards/equation_reward_func": 0.5833333730697632,
	"rewards/format_reward_func": 2.3164236545562744,
	"step": 460
	},
	{
	"completion_length": 635.0000305175781,
	"epoch": 0.09420880913539967,
	"grad_norm": 1.3688348766889487,
	"kl": 0.18115234375,
	"learning_rate": 1.3778739760445552e-07,
	"loss": 0.0002,
	"reward": 2.9428473711013794,
	"reward_std": 0.6385838389396667,
	"rewards/equation_reward_func": 0.7083333730697632,
	"rewards/format_reward_func": 2.234513998031616,
	"step": 462
	},
	{
	"completion_length": 637.1458435058594,
	"epoch": 0.09461663947797716,
	"grad_norm": 1.07823940444348,
	"kl": 0.1787109375,
	"learning_rate": 1.3401006359856916e-07,
	"loss": 0.0002,
	"reward": 3.116041660308838,
	"reward_std": 0.6116780638694763,
	"rewards/equation_reward_func": 0.9166666865348816,
	"rewards/format_reward_func": 2.1993749141693115,
	"step": 464
	},
	{
	"completion_length": 671.1041870117188,
	"epoch": 0.09502446982055465,
	"grad_norm": 1.0251069650416453,
	"kl": 0.1611328125,
	"learning_rate": 1.3027720037521395e-07,
	"loss": 0.0002,
	"reward": 3.0604861974716187,
	"reward_std": 0.6963988989591599,
	"rewards/equation_reward_func": 0.9583333730697632,
	"rewards/format_reward_func": 2.1021528244018555,
	"step": 466
	},
	{
	"completion_length": 508.33335876464844,
	"epoch": 0.09543230016313213,
	"grad_norm": 1.2041214798556659,
	"kl": 0.1513671875,
	"learning_rate": 1.2658926150792322e-07,
	"loss": 0.0002,
	"reward": 3.716770887374878,
	"reward_std": 0.8307555913925171,
	"rewards/equation_reward_func": 1.6666666865348816,
	"rewards/format_reward_func": 2.050104081630707,
	"step": 468
	},
	{
	"completion_length": 702.5625,
	"epoch": 0.09584013050570962,
	"grad_norm": 1.4167156857768421,
	"kl": 0.171875,
	"learning_rate": 1.229466951115519e-07,
	"loss": 0.0002,
	"reward": 2.8170487880706787,
	"reward_std": 0.932531863451004,
	"rewards/equation_reward_func": 0.6666666865348816,
	"rewards/format_reward_func": 2.1503820419311523,
	"step": 470
	},
	{
	"completion_length": 440.3958435058594,
	"epoch": 0.09624796084828711,
	"grad_norm": 1.2804118870894239,
	"kl": 0.205078125,
	"learning_rate": 1.193499437878277e-07,
	"loss": 0.0002,
	"reward": 3.693055510520935,
	"reward_std": 0.6622753441333771,
	"rewards/equation_reward_func": 1.7083333730697632,
	"rewards/format_reward_func": 1.9847222566604614,
	"step": 472
	},
	{
	"completion_length": 654.7291870117188,
	"epoch": 0.0966557911908646,
	"grad_norm": 1.4440438187505384,
	"kl": 0.20458984375,
	"learning_rate": 1.1579944457157059e-07,
	"loss": 0.0002,
	"reward": 2.8649654388427734,
	"reward_std": 0.7565539479255676,
	"rewards/equation_reward_func": 0.6666666865348816,
	"rewards/format_reward_func": 2.198298692703247,
	"step": 474
	},
	{
	"completion_length": 618.1250305175781,
	"epoch": 0.09706362153344208,
	"grad_norm": 1.2861995217349655,
	"kl": 0.16748046875,
	"learning_rate": 1.1229562887758925e-07,
	"loss": 0.0002,
	"reward": 2.932604193687439,
	"reward_std": 0.7926245033740997,
	"rewards/equation_reward_func": 0.7916666679084301,
	"rewards/format_reward_func": 2.1409374475479126,
	"step": 476
	},
	{
	"completion_length": 566.7083435058594,
	"epoch": 0.09747145187601958,
	"grad_norm": 1.2073113401945212,
	"kl": 0.1943359375,
	"learning_rate": 1.088389224482617e-07,
	"loss": 0.0002,
	"reward": 3.6285417079925537,
	"reward_std": 0.7963749468326569,
	"rewards/equation_reward_func": 1.4583333730697632,
	"rewards/format_reward_func": 2.170208215713501,
	"step": 478
	},
	{
	"completion_length": 616.9791870117188,
	"epoch": 0.09787928221859707,
	"grad_norm": 3.5720337342156494,
	"kl": 0.1904296875,
	"learning_rate": 1.0542974530180327e-07,
	"loss": 0.0002,
	"reward": 3.047569513320923,
	"reward_std": 0.9450699985027313,
	"rewards/equation_reward_func": 0.833333358168602,
	"rewards/format_reward_func": 2.2142361402511597,
	"step": 480
	},
	{
	"completion_length": 656.5833435058594,
	"epoch": 0.09828711256117455,
	"grad_norm": 1.3363621901974427,
	"kl": 0.1962890625,
	"learning_rate": 1.0206851168123076e-07,
	"loss": 0.0002,
	"reward": 2.9283682107925415,
	"reward_std": 0.7495492100715637,
	"rewards/equation_reward_func": 0.7083333730697632,
	"rewards/format_reward_func": 2.2200348377227783,
	"step": 482
	},
	{
	"completion_length": 584.3125152587891,
	"epoch": 0.09869494290375204,
	"grad_norm": 1.235985667420378,
	"kl": 0.18017578125,
	"learning_rate": 9.875563000402948e-08,
	"loss": 0.0002,
	"reward": 3.0726042985916138,
	"reward_std": 0.9599539935588837,
	"rewards/equation_reward_func": 0.958333358168602,
	"rewards/format_reward_func": 2.1142709255218506,
	"step": 484
	},
	{
	"completion_length": 602.3958435058594,
	"epoch": 0.09910277324632953,
	"grad_norm": 1.352419507127413,
	"kl": 0.18310546875,
	"learning_rate": 9.549150281252632e-08,
	"loss": 0.0002,
	"reward": 3.627708315849304,
	"reward_std": 0.8821892440319061,
	"rewards/equation_reward_func": 1.4166666865348816,
	"rewards/format_reward_func": 2.211041808128357,
	"step": 486
	},
	{
	"completion_length": 684.2916870117188,
	"epoch": 0.09951060358890701,
	"grad_norm": 1.406310592245728,
	"kl": 0.181640625,
	"learning_rate": 9.22765267249776e-08,
	"loss": 0.0002,
	"reward": 2.766076445579529,
	"reward_std": 0.6145432703197002,
	"rewards/equation_reward_func": 0.4583333432674408,
	"rewards/format_reward_func": 2.3077430725097656,
	"step": 488
	},
	{
	"completion_length": 657.7916870117188,
	"epoch": 0.0999184339314845,
	"grad_norm": 1.3318403971159751,
	"kl": 0.2080078125,
	"learning_rate": 8.911109238737747e-08,
	"loss": 0.0002,
	"reward": 3.1873958110809326,
	"reward_std": 0.37190073914825916,
	"rewards/equation_reward_func": 0.8333333730697632,
	"rewards/format_reward_func": 2.354062557220459,
	"step": 490
	},
	{
	"completion_length": 756.6041870117188,
	"epoch": 0.100326264274062,
	"grad_norm": 1.4061978494714438,
	"kl": 0.20703125,
	"learning_rate": 8.599558442598998e-08,
	"loss": 0.0002,
	"reward": 2.171909749507904,
	"reward_std": 0.6123473569750786,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 2.171909749507904,
	"step": 492
	},
	{
	"completion_length": 590.2916717529297,
	"epoch": 0.10073409461663947,
	"grad_norm": 1.17520751465437,
	"kl": 0.19677734375,
	"learning_rate": 8.293038140061515e-08,
	"loss": 0.0002,
	"reward": 3.068298816680908,
	"reward_std": 0.5875828564167023,
	"rewards/equation_reward_func": 0.9166666865348816,
	"rewards/format_reward_func": 2.151632070541382,
	"step": 494
	},
	{
	"completion_length": 689.9166870117188,
	"epoch": 0.10114192495921696,
	"grad_norm": 1.329822562589213,
	"kl": 0.19287109375,
	"learning_rate": 7.991585575858961e-08,
	"loss": 0.0002,
	"reward": 2.7232291102409363,
	"reward_std": 0.9429112374782562,
	"rewards/equation_reward_func": 0.625,
	"rewards/format_reward_func": 2.0982291102409363,
	"step": 496
	},
	{
	"completion_length": 644.4791717529297,
	"epoch": 0.10154975530179446,
	"grad_norm": 1.7033208401953535,
	"kl": 0.17529296875,
	"learning_rate": 7.695237378953224e-08,
	"loss": 0.0002,
	"reward": 2.9771876335144043,
	"reward_std": 0.73157799243927,
	"rewards/equation_reward_func": 0.7916666865348816,
	"rewards/format_reward_func": 2.1855210065841675,
	"step": 498
	},
	{
	"completion_length": 737.6041870117188,
	"epoch": 0.10195758564437195,
	"grad_norm": 1.713508657462858,
	"kl": 0.18017578125,
	"learning_rate": 7.404029558083652e-08,
	"loss": 0.0002,
	"reward": 2.4721529483795166,
	"reward_std": 0.4938492923974991,
	"rewards/equation_reward_func": 0.0833333358168602,
	"rewards/format_reward_func": 2.388819456100464,
	"step": 500
	},
	{
	"completion_length": 665.3333740234375,
	"epoch": 0.10236541598694943,
	"grad_norm": 1.0340163471089046,
	"kl": 0.18701171875,
	"learning_rate": 7.117997497391648e-08,
	"loss": 0.0002,
	"reward": 2.9871530532836914,
	"reward_std": 0.7464583814144135,
	"rewards/equation_reward_func": 0.7916666865348816,
	"rewards/format_reward_func": 2.195486307144165,
	"step": 502
	},
	{
	"completion_length": 661.5625305175781,
	"epoch": 0.10277324632952692,
	"grad_norm": 1.0282672590274708,
	"kl": 0.17529296875,
	"learning_rate": 6.837175952121304e-08,
	"loss": 0.0002,
	"reward": 2.9892709255218506,
	"reward_std": 0.6545587778091431,
	"rewards/equation_reward_func": 0.7083333730697632,
	"rewards/format_reward_func": 2.2809375524520874,
	"step": 504
	},
	{
	"completion_length": 788.7500305175781,
	"epoch": 0.10318107667210441,
	"grad_norm": 1.2155250881363209,
	"kl": 0.1943359375,
	"learning_rate": 6.561599044396288e-08,
	"loss": 0.0002,
	"reward": 2.4754514694213867,
	"reward_std": 1.2856568098068237,
	"rewards/equation_reward_func": 0.5,
	"rewards/format_reward_func": 1.9754514694213867,
	"step": 506
	},
	{
	"completion_length": 689.5833435058594,
	"epoch": 0.10358890701468189,
	"grad_norm": 1.1923299231333921,
	"kl": 0.19775390625,
	"learning_rate": 6.291300259073722e-08,
	"loss": 0.0002,
	"reward": 2.958611249923706,
	"reward_std": 0.8271161913871765,
	"rewards/equation_reward_func": 0.8333333730697632,
	"rewards/format_reward_func": 2.125277876853943,
	"step": 508
	},
	{
	"completion_length": 637.3958435058594,
	"epoch": 0.10399673735725938,
	"grad_norm": 1.594736749913249,
	"kl": 0.2021484375,
	"learning_rate": 6.026312439675551e-08,
	"loss": 0.0002,
	"reward": 2.7334723472595215,
	"reward_std": 0.9248130321502686,
	"rewards/equation_reward_func": 0.625,
	"rewards/format_reward_func": 2.1084723472595215,
	"step": 510
	},
	{
	"completion_length": 648.875,
	"epoch": 0.10440456769983687,
	"grad_norm": 1.1533792615058107,
	"kl": 0.18505859375,
	"learning_rate": 5.7666677843977053e-08,
	"loss": 0.0002,
	"reward": 2.86263906955719,
	"reward_std": 0.8505788147449493,
	"rewards/equation_reward_func": 0.75,
	"rewards/format_reward_func": 2.1126389503479004,
	"step": 512
	},
	{
	"completion_length": 619.9166870117188,
	"epoch": 0.10481239804241435,
	"grad_norm": 1.1528844064024761,
	"kl": 0.18896484375,
	"learning_rate": 5.5123978421978464e-08,
	"loss": 0.0002,
	"reward": 3.175590395927429,
	"reward_std": 0.8909508585929871,
	"rewards/equation_reward_func": 1.1250000298023224,
	"rewards/format_reward_func": 2.050590455532074,
	"step": 514
	},
	{
	"completion_length": 652.8541870117188,
	"epoch": 0.10522022838499184,
	"grad_norm": 1.026362576623631,
	"kl": 0.18408203125,
	"learning_rate": 5.263533508961826e-08,
	"loss": 0.0002,
	"reward": 2.9189236164093018,
	"reward_std": 0.7488152384757996,
	"rewards/equation_reward_func": 0.7083333730697632,
	"rewards/format_reward_func": 2.210590362548828,
	"step": 516
	},
	{
	"completion_length": 659.4583435058594,
	"epoch": 0.10562805872756934,
	"grad_norm": 1.3341872745914232,
	"kl": 0.185546875,
	"learning_rate": 5.0201050237496435e-08,
	"loss": 0.0002,
	"reward": 2.915416717529297,
	"reward_std": 0.785500556230545,
	"rewards/equation_reward_func": 0.7916666865348816,
	"rewards/format_reward_func": 2.12375009059906,
	"step": 518
	},
	{
	"completion_length": 724.3333435058594,
	"epoch": 0.10603588907014681,
	"grad_norm": 1.1389027986321225,
	"kl": 0.16650390625,
	"learning_rate": 4.7821419651211284e-08,
	"loss": 0.0002,
	"reward": 2.604514002799988,
	"reward_std": 0.9652212858200073,
	"rewards/equation_reward_func": 0.4166666865348816,
	"rewards/format_reward_func": 2.187847375869751,
	"step": 520
	},
	{
	"completion_length": 616.1666717529297,
	"epoch": 0.1064437194127243,
	"grad_norm": 1.6950481305726997,
	"kl": 0.17822265625,
	"learning_rate": 4.549673247541874e-08,
	"loss": 0.0002,
	"reward": 2.983611226081848,
	"reward_std": 0.5816805064678192,
	"rewards/equation_reward_func": 0.75,
	"rewards/format_reward_func": 2.233611226081848,
	"step": 522
	},
	{
	"completion_length": 786.8541870117188,
	"epoch": 0.1068515497553018,
	"grad_norm": 0.9868783610320885,
	"kl": 0.18701171875,
	"learning_rate": 4.322727117869951e-08,
	"loss": 0.0002,
	"reward": 2.284409761428833,
	"reward_std": 0.6448712944984436,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 2.284409761428833,
	"step": 524
	},
	{
	"completion_length": 675.7291870117188,
	"epoch": 0.10725938009787928,
	"grad_norm": 1.5648006375954522,
	"kl": 0.1806640625,
	"learning_rate": 4.1013311519236485e-08,
	"loss": 0.0002,
	"reward": 2.776354193687439,
	"reward_std": 0.9456824660301208,
	"rewards/equation_reward_func": 0.7083333730697632,
	"rewards/format_reward_func": 2.0680209398269653,
	"step": 526
	},
	{
	"completion_length": 667.4375305175781,
	"epoch": 0.10766721044045677,
	"grad_norm": 1.53346953576534,
	"kl": 0.1943359375,
	"learning_rate": 3.8855122511307626e-08,
	"loss": 0.0002,
	"reward": 2.9528820514678955,
	"reward_std": 0.8039775192737579,
	"rewards/equation_reward_func": 0.7500000409781933,
	"rewards/format_reward_func": 2.2028820514678955,
	"step": 528
	},
	{
	"completion_length": 630.2083740234375,
	"epoch": 0.10807504078303426,
	"grad_norm": 1.5015454500255272,
	"kl": 0.18505859375,
	"learning_rate": 3.6752966392599117e-08,
	"loss": 0.0002,
	"reward": 2.824340343475342,
	"reward_std": 0.8222399055957794,
	"rewards/equation_reward_func": 0.5833333432674408,
	"rewards/format_reward_func": 2.2410069704055786,
	"step": 530
	},
	{
	"completion_length": 794.3541870117188,
	"epoch": 0.10848287112561175,
	"grad_norm": 1.0374860320295616,
	"kl": 0.17626953125,
	"learning_rate": 3.470709859234083e-08,
	"loss": 0.0002,
	"reward": 2.1905903816223145,
	"reward_std": 0.7955919802188873,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 2.1905903816223145,
	"step": 532
	},
	{
	"completion_length": 774.3541870117188,
	"epoch": 0.10889070146818923,
	"grad_norm": 1.120736957546931,
	"kl": 0.2001953125,
	"learning_rate": 3.271776770026963e-08,
	"loss": 0.0002,
	"reward": 2.2923611402511597,
	"reward_std": 0.7566681504249573,
	"rewards/equation_reward_func": 0.0416666679084301,
	"rewards/format_reward_func": 2.250694513320923,
	"step": 534
	},
	{
	"completion_length": 631.375,
	"epoch": 0.10929853181076672,
	"grad_norm": 1.1960849785247343,
	"kl": 0.20947265625,
	"learning_rate": 3.0785215436423985e-08,
	"loss": 0.0002,
	"reward": 3.0184723138809204,
	"reward_std": 0.9326076507568359,
	"rewards/equation_reward_func": 1.0,
	"rewards/format_reward_func": 2.0184723138809204,
	"step": 536
	},
	{
	"completion_length": 697.6041870117188,
	"epoch": 0.10970636215334421,
	"grad_norm": 1.3324134907829273,
	"kl": 0.19091796875,
	"learning_rate": 2.8909676621772848e-08,
	"loss": 0.0002,
	"reward": 2.5407986640930176,
	"reward_std": 0.8522857427597046,
	"rewards/equation_reward_func": 0.3333333432674408,
	"rewards/format_reward_func": 2.2074652910232544,
	"step": 538
	},
	{
	"completion_length": 661.75,
	"epoch": 0.11011419249592169,
	"grad_norm": 1.4930494245585781,
	"kl": 0.18701171875,
	"learning_rate": 2.7091379149682682e-08,
	"loss": 0.0002,
	"reward": 2.877777934074402,
	"reward_std": 0.41776843182742596,
	"rewards/equation_reward_func": 0.5416666865348816,
	"rewards/format_reward_func": 2.3361111879348755,
	"step": 540
	},
	{
	"completion_length": 503.8958435058594,
	"epoch": 0.11052202283849918,
	"grad_norm": 1.4985848888652291,
	"kl": 0.310546875,
	"learning_rate": 2.5330543958227035e-08,
	"loss": 0.0003,
	"reward": 3.7885764837265015,
	"reward_std": 0.5873951315879822,
	"rewards/equation_reward_func": 1.7083333730697632,
	"rewards/format_reward_func": 2.0802430510520935,
	"step": 542
	},
	{
	"completion_length": 812.0416870117188,
	"epoch": 0.11092985318107668,
	"grad_norm": 1.0755426609459213,
	"kl": 0.16943359375,
	"learning_rate": 2.362738500334055e-08,
	"loss": 0.0002,
	"reward": 2.2252084016799927,
	"reward_std": 0.7724728882312775,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 2.2252084016799927,
	"step": 544
	},
	{
	"completion_length": 589.3541717529297,
	"epoch": 0.11133768352365415,
	"grad_norm": 1.2868495738115369,
	"kl": 0.154296875,
	"learning_rate": 2.1982109232821176e-08,
	"loss": 0.0002,
	"reward": 3.426076292991638,
	"reward_std": 0.8766676485538483,
	"rewards/equation_reward_func": 1.2083333432674408,
	"rewards/format_reward_func": 2.217743158340454,
	"step": 546
	},
	{
	"completion_length": 697.1041870117188,
	"epoch": 0.11174551386623165,
	"grad_norm": 1.5843230276459015,
	"kl": 0.17822265625,
	"learning_rate": 2.0394916561185084e-08,
	"loss": 0.0002,
	"reward": 2.429861068725586,
	"reward_std": 0.6437118351459503,
	"rewards/equation_reward_func": 0.1666666716337204,
	"rewards/format_reward_func": 2.263194441795349,
	"step": 548
	},
	{
	"completion_length": 620.0416870117188,
	"epoch": 0.11215334420880914,
	"grad_norm": 1.43390485144146,
	"kl": 0.2021484375,
	"learning_rate": 1.8865999845374792e-08,
	"loss": 0.0002,
	"reward": 2.9577430486679077,
	"reward_std": 0.7144142985343933,
	"rewards/equation_reward_func": 0.9166666865348816,
	"rewards/format_reward_func": 2.0410765409469604,
	"step": 550
	},
	{
	"completion_length": 591.4375,
	"epoch": 0.11256117455138662,
	"grad_norm": 1.772375367915741,
	"kl": 0.26416015625,
	"learning_rate": 1.7395544861325718e-08,
	"loss": 0.0003,
	"reward": 3.147847294807434,
	"reward_std": 0.8900530934333801,
	"rewards/equation_reward_func": 0.958333358168602,
	"rewards/format_reward_func": 2.189513921737671,
	"step": 552
	},
	{
	"completion_length": 644.6666717529297,
	"epoch": 0.11296900489396411,
	"grad_norm": 1.0011090616007174,
	"kl": 0.15673828125,
	"learning_rate": 1.598373028139266e-08,
	"loss": 0.0002,
	"reward": 2.8859028816223145,
	"reward_std": 0.8658215999603271,
	"rewards/equation_reward_func": 0.75,
	"rewards/format_reward_func": 2.1359028220176697,
	"step": 554
	},
	{
	"completion_length": 802.8541870117188,
	"epoch": 0.1133768352365416,
	"grad_norm": 1.0859783026177827,
	"kl": 0.1611328125,
	"learning_rate": 1.4630727652640007e-08,
	"loss": 0.0002,
	"reward": 2.3715277910232544,
	"reward_std": 0.9544045031070709,
	"rewards/equation_reward_func": 0.1666666716337204,
	"rewards/format_reward_func": 2.204861283302307,
	"step": 556
	},
	{
	"completion_length": 653.8958435058594,
	"epoch": 0.1137846655791191,
	"grad_norm": 1.324673649956278,
	"kl": 0.189453125,
	"learning_rate": 1.3336701375997127e-08,
	"loss": 0.0002,
	"reward": 3.0635764598846436,
	"reward_std": 0.6987862586975098,
	"rewards/equation_reward_func": 0.75,
	"rewards/format_reward_func": 2.313576579093933,
	"step": 558
	},
	{
	"completion_length": 615.7708435058594,
	"epoch": 0.11419249592169657,
	"grad_norm": 1.9720955384622545,
	"kl": 0.1845703125,
	"learning_rate": 1.2101808686282189e-08,
	"loss": 0.0002,
	"reward": 2.958263874053955,
	"reward_std": 0.5063729882240295,
	"rewards/equation_reward_func": 0.7083333730697632,
	"rewards/format_reward_func": 2.2499306201934814,
	"step": 560
	},
	{
	"completion_length": 644.4166870117188,
	"epoch": 0.11460032626427406,
	"grad_norm": 0.9932246904810618,
	"kl": 0.1787109375,
	"learning_rate": 1.0926199633097154e-08,
	"loss": 0.0002,
	"reward": 2.9698264598846436,
	"reward_std": 0.7344387173652649,
	"rewards/equation_reward_func": 0.7916666865348816,
	"rewards/format_reward_func": 2.1781598329544067,
	"step": 562
	},
	{
	"completion_length": 647.9166870117188,
	"epoch": 0.11500815660685156,
	"grad_norm": 1.3817710664807803,
	"kl": 0.1806640625,
	"learning_rate": 9.810017062595321e-09,
	"loss": 0.0002,
	"reward": 2.9287848472595215,
	"reward_std": 0.8746606707572937,
	"rewards/equation_reward_func": 0.75,
	"rewards/format_reward_func": 2.1787847876548767,
	"step": 564
	},
	{
	"completion_length": 471.43751525878906,
	"epoch": 0.11541598694942903,
	"grad_norm": 1.3352359323731087,
	"kl": 0.19482421875,
	"learning_rate": 8.753396600124252e-09,
	"loss": 0.0002,
	"reward": 3.6786112785339355,
	"reward_std": 0.8317141830921173,
	"rewards/equation_reward_func": 1.7083333730697632,
	"rewards/format_reward_func": 1.9702778458595276,
	"step": 566
	},
	{
	"completion_length": 744.6041870117188,
	"epoch": 0.11582381729200653,
	"grad_norm": 1.4277278138028093,
	"kl": 0.1787109375,
	"learning_rate": 7.756466633746406e-09,
	"loss": 0.0002,
	"reward": 2.5164932012557983,
	"reward_std": 0.5315538048744202,
	"rewards/equation_reward_func": 0.125,
	"rewards/format_reward_func": 2.391493082046509,
	"step": 568
	},
	{
	"completion_length": 658.3333435058594,
	"epoch": 0.11623164763458402,
	"grad_norm": 1.1591152772878843,
	"kl": 0.189453125,
	"learning_rate": 6.819348298638839e-09,
	"loss": 0.0002,
	"reward": 2.8295485973358154,
	"reward_std": 0.7308537364006042,
	"rewards/equation_reward_func": 0.5833333730697632,
	"rewards/format_reward_func": 2.246215343475342,
	"step": 570
	},
	{
	"completion_length": 578.1875305175781,
	"epoch": 0.1166394779771615,
	"grad_norm": 1.4699911779642927,
	"kl": 0.21044921875,
	"learning_rate": 5.942155462374199e-09,
	"loss": 0.0002,
	"reward": 3.107847213745117,
	"reward_std": 0.4525897800922394,
	"rewards/equation_reward_func": 0.9583333730697632,
	"rewards/format_reward_func": 2.149513900279999,
	"step": 572
	},
	{
	"completion_length": 575.4375305175781,
	"epoch": 0.11704730831973899,
	"grad_norm": 1.4198721859673429,
	"kl": 0.19775390625,
	"learning_rate": 5.1249947110849626e-09,
	"loss": 0.0002,
	"reward": 3.4872570037841797,
	"reward_std": 0.8599075376987457,
	"rewards/equation_reward_func": 1.2916666865348816,
	"rewards/format_reward_func": 2.195590376853943,
	"step": 574
	},
	{
	"completion_length": 705.6041870117188,
	"epoch": 0.11745513866231648,
	"grad_norm": 1.4989903624292338,
	"kl": 0.1923828125,
	"learning_rate": 4.367965336512403e-09,
	"loss": 0.0002,
	"reward": 2.398923635482788,
	"reward_std": 0.3067256808280945,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 2.398923873901367,
	"step": 576
	},
	{
	"completion_length": 755.6875305175781,
	"epoch": 0.11786296900489396,
	"grad_norm": 1.1452197538999578,
	"kl": 0.1962890625,
	"learning_rate": 3.671159323941797e-09,
	"loss": 0.0002,
	"reward": 2.24670147895813,
	"reward_std": 0.6733859181404114,
	"rewards/equation_reward_func": 0.0,
	"rewards/format_reward_func": 2.24670147895813,
	"step": 578
	},
	{
	"completion_length": 664.6666870117188,
	"epoch": 0.11827079934747145,
	"grad_norm": 1.2449058428646427,
	"kl": 0.197265625,
	"learning_rate": 3.0346613410252574e-09,
	"loss": 0.0002,
	"reward": 3.29194438457489,
	"reward_std": 0.9043855667114258,
	"rewards/equation_reward_func": 1.0,
	"rewards/format_reward_func": 2.29194438457489,
	"step": 580
	},
	{
	"completion_length": 617.7291717529297,
	"epoch": 0.11867862969004894,
	"grad_norm": 1.6256483463504106,
	"kl": 0.23583984375,
	"learning_rate": 2.458548727494292e-09,
	"loss": 0.0002,
	"reward": 3.077187657356262,
	"reward_std": 0.5232462398707867,
	"rewards/equation_reward_func": 0.875,
	"rewards/format_reward_func": 2.2021875381469727,
	"step": 582
	},
	{
	"completion_length": 562.9791870117188,
	"epoch": 0.11908646003262642,
	"grad_norm": 1.3493720634814992,
	"kl": 0.20654296875,
	"learning_rate": 1.942891485762044e-09,
	"loss": 0.0002,
	"reward": 3.354375123977661,
	"reward_std": 0.5960628092288971,
	"rewards/equation_reward_func": 1.1666666865348816,
	"rewards/format_reward_func": 2.1877083778381348,
	"step": 584
	},
	{
	"completion_length": 643.0625305175781,
	"epoch": 0.11949429037520391,
	"grad_norm": 1.4429671637976917,
	"kl": 0.1787109375,
	"learning_rate": 1.4877522724175972e-09,
	"loss": 0.0002,
	"reward": 2.989027738571167,
	"reward_std": 1.0448077917099,
	"rewards/equation_reward_func": 0.8333333730697632,
	"rewards/format_reward_func": 2.1556944847106934,
	"step": 586
	},
	{
	"completion_length": 545.5208435058594,
	"epoch": 0.1199021207177814,
	"grad_norm": 1.3733935240774355,
	"kl": 0.18994140625,
	"learning_rate": 1.0931863906127325e-09,
	"loss": 0.0002,
	"reward": 3.299618124961853,
	"reward_std": 1.0864940881729126,
	"rewards/equation_reward_func": 1.1250000596046448,
	"rewards/format_reward_func": 2.174618124961853,
	"step": 588
	},
	{
	"completion_length": 597.1666870117188,
	"epoch": 0.1203099510603589,
	"grad_norm": 1.2952890180323302,
	"kl": 0.20654296875,
	"learning_rate": 7.592417833419129e-10,
	"loss": 0.0002,
	"reward": 3.2572569847106934,
	"reward_std": 0.8164662718772888,
	"rewards/equation_reward_func": 1.0833333730697632,
	"rewards/format_reward_func": 2.1739237308502197,
	"step": 590
	},
	{
	"completion_length": 557.7083435058594,
	"epoch": 0.12071778140293637,
	"grad_norm": 1.419396729242162,
	"kl": 0.18310546875,
	"learning_rate": 4.859590276170556e-10,
	"loss": 0.0002,
	"reward": 3.1976042985916138,
	"reward_std": 0.1676994524896145,
	"rewards/equation_reward_func": 1.0,
	"rewards/format_reward_func": 2.197604179382324,
	"step": 592
	},
	{
	"completion_length": 640.6666870117188,
	"epoch": 0.12112561174551387,
	"grad_norm": 1.7175944027716497,
	"kl": 0.21728515625,
	"learning_rate": 2.733713295369755e-10,
	"loss": 0.0002,
	"reward": 2.8080209493637085,
	"reward_std": 0.7391078174114227,
	"rewards/equation_reward_func": 0.5416666865348816,
	"rewards/format_reward_func": 2.266354203224182,
	"step": 594
	},
	{
	"completion_length": 658.6458435058594,
	"epoch": 0.12153344208809136,
	"grad_norm": 1.1130542587727132,
	"kl": 0.17919921875,
	"learning_rate": 1.215045202527243e-10,
	"loss": 0.0002,
	"reward": 2.9176390171051025,
	"reward_std": 0.8149993717670441,
	"rewards/equation_reward_func": 0.6666666865348816,
	"rewards/format_reward_func": 2.250972270965576,
	"step": 596
	},
	{
	"completion_length": 666.5416870117188,
	"epoch": 0.12194127243066884,
	"grad_norm": 1.3351873357408293,
	"kl": 0.1982421875,
	"learning_rate": 3.037705282848968e-11,
	"loss": 0.0002,
	"reward": 2.8039932250976562,
	"reward_std": 0.471679862588644,
	"rewards/equation_reward_func": 0.4583333432674408,
	"rewards/format_reward_func": 2.345659852027893,
	"step": 598
	},
	{
	"completion_length": 642.3125305175781,
	"epoch": 0.12234910277324633,
	"grad_norm": 1.3356459953636426,
	"kl": 0.21044921875,
	"learning_rate": 0.0,
	"loss": 0.0002,
	"reward": 2.9183679819107056,
	"reward_std": 0.771289050579071,
	"rewards/equation_reward_func": 0.75,
	"rewards/format_reward_func": 2.168368101119995,
	"step": 600
	},
	{
	"epoch": 0.12234910277324633,
	"step": 600,
	"total_flos": 0.0,
	"train_loss": 0.00014642298419068685,
	"train_runtime": 10716.9446,
	"train_samples_per_second": 1.344,
	"train_steps_per_second": 0.056
	}
	],
	"logging_steps": 2,
	"max_steps": 600,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": false,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}