Model save

4b48b2b verified about 1 year ago

93 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 100,
	"global_step": 2143,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"completion_length": 211.3571517944336,
	"epoch": 0.004666355576294913,
	"grad_norm": 2.9974076747894287,
	"kl": 0.00047588348388671875,
	"learning_rate": 4.6511627906976744e-08,
	"loss": 0.044,
	"reward": 0.6535714566707611,
	"reward_std": 0.5595175564289093,
	"rewards/accuracy_reward": 0.010714286193251609,
	"rewards/format_reward": 0.6428571760654449,
	"step": 10
	},
	{
	"completion_length": 211.85358123779298,
	"epoch": 0.009332711152589827,
	"grad_norm": 2.421142816543579,
	"kl": 0.0005392074584960937,
	"learning_rate": 9.302325581395349e-08,
	"loss": 0.0331,
	"reward": 0.6000000357627868,
	"reward_std": 0.6225969046354294,
	"rewards/accuracy_reward": 0.021428572386503218,
	"rewards/format_reward": 0.5785714596509933,
	"step": 20
	},
	{
	"completion_length": 225.71072235107422,
	"epoch": 0.013999066728884742,
	"grad_norm": 2.8735339641571045,
	"kl": 0.0006612777709960937,
	"learning_rate": 1.3953488372093021e-07,
	"loss": 0.0571,
	"reward": 0.5857143223285675,
	"reward_std": 0.5592944413423538,
	"rewards/accuracy_reward": 0.00714285746216774,
	"rewards/format_reward": 0.5785714656114578,
	"step": 30
	},
	{
	"completion_length": 205.19286651611327,
	"epoch": 0.018665422305179653,
	"grad_norm": 2.0310211181640625,
	"kl": 0.0027374267578125,
	"learning_rate": 1.8604651162790698e-07,
	"loss": 0.0065,
	"reward": 0.6285714566707611,
	"reward_std": 0.5308447808027268,
	"rewards/accuracy_reward": 0.01428571492433548,
	"rewards/format_reward": 0.6142857350409031,
	"step": 40
	},
	{
	"completion_length": 194.54643707275392,
	"epoch": 0.02333177788147457,
	"grad_norm": 3.083293914794922,
	"kl": 0.00838165283203125,
	"learning_rate": 2.3255813953488372e-07,
	"loss": 0.0626,
	"reward": 0.7464286029338837,
	"reward_std": 0.46758472323417666,
	"rewards/accuracy_reward": 0.01785714365541935,
	"rewards/format_reward": 0.7285714626312256,
	"step": 50
	},
	{
	"completion_length": 197.08929595947265,
	"epoch": 0.027998133457769483,
	"grad_norm": 2.4293816089630127,
	"kl": 0.0138580322265625,
	"learning_rate": 2.7906976744186043e-07,
	"loss": 0.0292,
	"reward": 0.685714328289032,
	"reward_std": 0.47790482342243196,
	"rewards/accuracy_reward": 0.00714285746216774,
	"rewards/format_reward": 0.67857146859169,
	"step": 60
	},
	{
	"completion_length": 193.36786499023438,
	"epoch": 0.032664489034064395,
	"grad_norm": 1.755541443824768,
	"kl": 0.00519561767578125,
	"learning_rate": 3.2558139534883724e-07,
	"loss": 0.028,
	"reward": 0.8035714745521545,
	"reward_std": 0.36622021347284317,
	"rewards/accuracy_reward": 0.01785714365541935,
	"rewards/format_reward": 0.7857143342494964,
	"step": 70
	},
	{
	"completion_length": 206.29644012451172,
	"epoch": 0.03733084461035931,
	"grad_norm": 1.8061885833740234,
	"kl": 0.0106536865234375,
	"learning_rate": 3.7209302325581396e-07,
	"loss": 0.023,
	"reward": 0.6857143223285675,
	"reward_std": 0.4770329385995865,
	"rewards/accuracy_reward": 0.00714285746216774,
	"rewards/format_reward": 0.6785714626312256,
	"step": 80
	},
	{
	"completion_length": 205.0571517944336,
	"epoch": 0.041997200186654225,
	"grad_norm": 1.5979427099227905,
	"kl": 0.008978271484375,
	"learning_rate": 4.186046511627907e-07,
	"loss": 0.0297,
	"reward": 0.8071428894996643,
	"reward_std": 0.3088400363922119,
	"rewards/accuracy_reward": 0.0,
	"rewards/format_reward": 0.8071428894996643,
	"step": 90
	},
	{
	"completion_length": 217.22858123779298,
	"epoch": 0.04666355576294914,
	"grad_norm": 1.7703214883804321,
	"kl": 0.0110107421875,
	"learning_rate": 4.6511627906976743e-07,
	"loss": 0.037,
	"reward": 0.7285714745521545,
	"reward_std": 0.4834458529949188,
	"rewards/accuracy_reward": 0.00714285746216774,
	"rewards/format_reward": 0.7214286148548126,
	"step": 100
	},
	{
	"completion_length": 198.60000915527343,
	"epoch": 0.05132991133924405,
	"grad_norm": 1.311502456665039,
	"kl": 0.0128143310546875,
	"learning_rate": 5.116279069767442e-07,
	"loss": 0.0184,
	"reward": 0.7964286148548126,
	"reward_std": 0.3687057480216026,
	"rewards/accuracy_reward": 0.010714286193251609,
	"rewards/format_reward": 0.7857143342494964,
	"step": 110
	},
	{
	"completion_length": 210.16072540283204,
	"epoch": 0.05599626691553897,
	"grad_norm": 4.063913345336914,
	"kl": 0.010107421875,
	"learning_rate": 5.581395348837209e-07,
	"loss": 0.0155,
	"reward": 0.7964286148548126,
	"reward_std": 0.34110155403614045,
	"rewards/accuracy_reward": 0.010714286193251609,
	"rewards/format_reward": 0.785714328289032,
	"step": 120
	},
	{
	"completion_length": 203.16429443359374,
	"epoch": 0.06066262249183388,
	"grad_norm": 1.8343654870986938,
	"kl": 0.00831298828125,
	"learning_rate": 6.046511627906976e-07,
	"loss": 0.0343,
	"reward": 0.8607143282890319,
	"reward_std": 0.25221002399921416,
	"rewards/accuracy_reward": 0.00357142873108387,
	"rewards/format_reward": 0.8571429014205932,
	"step": 130
	},
	{
	"completion_length": 202.78929595947267,
	"epoch": 0.06532897806812879,
	"grad_norm": 0.8969087600708008,
	"kl": 0.0120025634765625,
	"learning_rate": 6.511627906976745e-07,
	"loss": 0.0145,
	"reward": 0.8321428954601288,
	"reward_std": 0.2753357619047165,
	"rewards/accuracy_reward": 0.00357142873108387,
	"rewards/format_reward": 0.8285714685916901,
	"step": 140
	},
	{
	"completion_length": 200.78929595947267,
	"epoch": 0.0699953336444237,
	"grad_norm": 2.4758172035217285,
	"kl": 0.016839599609375,
	"learning_rate": 6.976744186046511e-07,
	"loss": 0.0205,
	"reward": 0.90357146859169,
	"reward_std": 0.22839727699756623,
	"rewards/accuracy_reward": 0.01785714365541935,
	"rewards/format_reward": 0.8857143342494964,
	"step": 150
	},
	{
	"completion_length": 208.1607238769531,
	"epoch": 0.07466168922071861,
	"grad_norm": 1.8052928447723389,
	"kl": 0.012713623046875,
	"learning_rate": 7.441860465116279e-07,
	"loss": 0.0122,
	"reward": 0.9321428835391998,
	"reward_std": 0.1500000089406967,
	"rewards/accuracy_reward": 0.00357142873108387,
	"rewards/format_reward": 0.9285714566707611,
	"step": 160
	},
	{
	"completion_length": 210.90000762939454,
	"epoch": 0.07932804479701354,
	"grad_norm": 1.3043458461761475,
	"kl": 0.0185272216796875,
	"learning_rate": 7.906976744186046e-07,
	"loss": 0.0076,
	"reward": 0.9178571820259094,
	"reward_std": 0.1664957284927368,
	"rewards/accuracy_reward": 0.00357142873108387,
	"rewards/format_reward": 0.9142857551574707,
	"step": 170
	},
	{
	"completion_length": 204.02858123779296,
	"epoch": 0.08399440037330845,
	"grad_norm": 1.9711344242095947,
	"kl": 0.024969482421875,
	"learning_rate": 8.372093023255814e-07,
	"loss": -0.0035,
	"reward": 0.903571480512619,
	"reward_std": 0.1994871750473976,
	"rewards/accuracy_reward": 0.010714286193251609,
	"rewards/format_reward": 0.8928571879863739,
	"step": 180
	},
	{
	"completion_length": 201.1821517944336,
	"epoch": 0.08866075594960336,
	"grad_norm": 8.437910079956055,
	"kl": 0.023162841796875,
	"learning_rate": 8.837209302325581e-07,
	"loss": 0.0113,
	"reward": 0.9178571820259094,
	"reward_std": 0.18299144729971886,
	"rewards/accuracy_reward": 0.010714286193251609,
	"rewards/format_reward": 0.9071428894996643,
	"step": 190
	},
	{
	"completion_length": 205.58929443359375,
	"epoch": 0.09332711152589827,
	"grad_norm": 0.09394335001707077,
	"kl": 0.01868896484375,
	"learning_rate": 9.302325581395349e-07,
	"loss": 0.0195,
	"reward": 0.9214285910129547,
	"reward_std": 0.13299144804477692,
	"rewards/accuracy_reward": 0.0,
	"rewards/format_reward": 0.9214285910129547,
	"step": 200
	},
	{
	"completion_length": 217.59286651611328,
	"epoch": 0.09799346710219319,
	"grad_norm": 2.8316187858581543,
	"kl": 0.021905517578125,
	"learning_rate": 9.767441860465115e-07,
	"loss": 0.0257,
	"reward": 0.860714340209961,
	"reward_std": 0.2807814501225948,
	"rewards/accuracy_reward": 0.010714286193251609,
	"rewards/format_reward": 0.8500000536441803,
	"step": 210
	},
	{
	"completion_length": 205.23929290771486,
	"epoch": 0.1026598226784881,
	"grad_norm": 1.3520991802215576,
	"kl": 0.015557861328125,
	"learning_rate": 9.99983405533249e-07,
	"loss": 0.0129,
	"reward": 0.9571429014205932,
	"reward_std": 0.11428571939468384,
	"rewards/accuracy_reward": 0.00714285746216774,
	"rewards/format_reward": 0.9500000238418579,
	"step": 220
	},
	{
	"completion_length": 201.4571533203125,
	"epoch": 0.10732617825478301,
	"grad_norm": 6.0174970626831055,
	"kl": 0.034246826171875,
	"learning_rate": 9.99850656408199e-07,
	"loss": 0.016,
	"reward": 0.9785714983940125,
	"reward_std": 0.1857142947614193,
	"rewards/accuracy_reward": 0.0357142873108387,
	"rewards/format_reward": 0.9428571701049805,
	"step": 230
	},
	{
	"completion_length": 197.5357223510742,
	"epoch": 0.11199253383107793,
	"grad_norm": 1.7986341714859009,
	"kl": 0.0531494140625,
	"learning_rate": 9.995851934039294e-07,
	"loss": 0.0582,
	"reward": 1.096428632736206,
	"reward_std": 0.23630646169185637,
	"rewards/accuracy_reward": 0.12500000596046448,
	"rewards/format_reward": 0.9714285850524902,
	"step": 240
	},
	{
	"completion_length": 208.5428680419922,
	"epoch": 0.11665888940737285,
	"grad_norm": 2.8913028240203857,
	"kl": 0.0509765625,
	"learning_rate": 9.991870870027424e-07,
	"loss": 0.0426,
	"reward": 1.0678572058677673,
	"reward_std": 0.19603439420461655,
	"rewards/accuracy_reward": 0.10357143431901931,
	"rewards/format_reward": 0.9642857313156128,
	"step": 250
	},
	{
	"completion_length": 187.68929443359374,
	"epoch": 0.12132524498366776,
	"grad_norm": 0.7588302493095398,
	"kl": 0.05869140625,
	"learning_rate": 9.98656442904699e-07,
	"loss": 0.028,
	"reward": 1.110714328289032,
	"reward_std": 0.17129081785678862,
	"rewards/accuracy_reward": 0.13928571566939354,
	"rewards/format_reward": 0.9714285850524902,
	"step": 260
	},
	{
	"completion_length": 196.61429443359376,
	"epoch": 0.12599160055996267,
	"grad_norm": 36.95159912109375,
	"kl": 0.0792724609375,
	"learning_rate": 9.979934019995547e-07,
	"loss": 0.0407,
	"reward": 1.1428571820259095,
	"reward_std": 0.299724480509758,
	"rewards/accuracy_reward": 0.20714286752045155,
	"rewards/format_reward": 0.935714316368103,
	"step": 270
	},
	{
	"completion_length": 207.1464385986328,
	"epoch": 0.13065795613625758,
	"grad_norm": 2.451353073120117,
	"kl": 0.057666015625,
	"learning_rate": 9.97198140329352e-07,
	"loss": 0.032,
	"reward": 1.1285714864730836,
	"reward_std": 0.24082783833146096,
	"rewards/accuracy_reward": 0.17142857611179352,
	"rewards/format_reward": 0.9571428775787354,
	"step": 280
	},
	{
	"completion_length": 207.25000610351563,
	"epoch": 0.1353243117125525,
	"grad_norm": 1.8005753755569458,
	"kl": 0.056298828125,
	"learning_rate": 9.962708690416806e-07,
	"loss": 0.0108,
	"reward": 1.221428632736206,
	"reward_std": 0.20909458994865418,
	"rewards/accuracy_reward": 0.25000000894069674,
	"rewards/format_reward": 0.9714285850524902,
	"step": 290
	},
	{
	"completion_length": 201.07143859863282,
	"epoch": 0.1399906672888474,
	"grad_norm": 1.7425264120101929,
	"kl": 0.052978515625,
	"learning_rate": 9.952118343336157e-07,
	"loss": 0.0208,
	"reward": 1.1678571820259094,
	"reward_std": 0.24439741671085358,
	"rewards/accuracy_reward": 0.22500001043081283,
	"rewards/format_reward": 0.9428571581840515,
	"step": 300
	},
	{
	"completion_length": 211.52858123779296,
	"epoch": 0.14465702286514232,
	"grad_norm": 2.8271803855895996,
	"kl": 0.0644287109375,
	"learning_rate": 9.940213173863515e-07,
	"loss": 0.0253,
	"reward": 1.1714285969734193,
	"reward_std": 0.2888915419578552,
	"rewards/accuracy_reward": 0.22857143878936767,
	"rewards/format_reward": 0.9428571701049805,
	"step": 310
	},
	{
	"completion_length": 212.41786499023436,
	"epoch": 0.14932337844143723,
	"grad_norm": 1.6736899614334106,
	"kl": 0.063427734375,
	"learning_rate": 9.926996342905446e-07,
	"loss": 0.0327,
	"reward": 1.2321429014205934,
	"reward_std": 0.22101710960268975,
	"rewards/accuracy_reward": 0.26785715818405154,
	"rewards/format_reward": 0.9642857313156128,
	"step": 320
	},
	{
	"completion_length": 222.3071533203125,
	"epoch": 0.15398973401773214,
	"grad_norm": 1.0232563018798828,
	"kl": 0.0625244140625,
	"learning_rate": 9.912471359623905e-07,
	"loss": 0.0303,
	"reward": 1.2321429014205934,
	"reward_std": 0.27462306767702105,
	"rewards/accuracy_reward": 0.30357144474983216,
	"rewards/format_reward": 0.9285714626312256,
	"step": 330
	},
	{
	"completion_length": 199.1357223510742,
	"epoch": 0.15865608959402708,
	"grad_norm": 0.4898677170276642,
	"kl": 0.057177734375,
	"learning_rate": 9.89664208050453e-07,
	"loss": 0.0513,
	"reward": 1.2321429133415223,
	"reward_std": 0.25317725613713266,
	"rewards/accuracy_reward": 0.27500001192092893,
	"rewards/format_reward": 0.9571428775787354,
	"step": 340
	},
	{
	"completion_length": 184.546435546875,
	"epoch": 0.163322445170322,
	"grad_norm": 2.1455774307250977,
	"kl": 0.069482421875,
	"learning_rate": 9.879512708332718e-07,
	"loss": 0.0067,
	"reward": 1.2250000476837157,
	"reward_std": 0.18287093117833136,
	"rewards/accuracy_reward": 0.2607142999768257,
	"rewards/format_reward": 0.9642857313156128,
	"step": 350
	},
	{
	"completion_length": 182.8071517944336,
	"epoch": 0.1679888007466169,
	"grad_norm": 1.5658093690872192,
	"kl": 0.0677490234375,
	"learning_rate": 9.861087791077743e-07,
	"loss": 0.0095,
	"reward": 1.2750000476837158,
	"reward_std": 0.16363511905074118,
	"rewards/accuracy_reward": 0.29642858952283857,
	"rewards/format_reward": 0.9785714387893677,
	"step": 360
	},
	{
	"completion_length": 190.7214385986328,
	"epoch": 0.1726551563229118,
	"grad_norm": 1.7997597455978394,
	"kl": 0.05615234375,
	"learning_rate": 9.841372220685253e-07,
	"loss": 0.0157,
	"reward": 1.235714316368103,
	"reward_std": 0.2049168437719345,
	"rewards/accuracy_reward": 0.2785714462399483,
	"rewards/format_reward": 0.9571428775787354,
	"step": 370
	},
	{
	"completion_length": 193.371435546875,
	"epoch": 0.17732151189920672,
	"grad_norm": 1.4841110706329346,
	"kl": 0.060205078125,
	"learning_rate": 9.820371231778422e-07,
	"loss": 0.0343,
	"reward": 1.3142857551574707,
	"reward_std": 0.23386457264423371,
	"rewards/accuracy_reward": 0.3642857328057289,
	"rewards/format_reward": 0.9500000178813934,
	"step": 380
	},
	{
	"completion_length": 201.2071563720703,
	"epoch": 0.18198786747550164,
	"grad_norm": 1.3704997301101685,
	"kl": 0.0554443359375,
	"learning_rate": 9.79809040026811e-07,
	"loss": 0.0187,
	"reward": 1.2250000596046449,
	"reward_std": 0.2502213083207607,
	"rewards/accuracy_reward": 0.28214287348091605,
	"rewards/format_reward": 0.9428571701049805,
	"step": 390
	},
	{
	"completion_length": 186.56429443359374,
	"epoch": 0.18665422305179655,
	"grad_norm": 2.2330009937286377,
	"kl": 0.0556884765625,
	"learning_rate": 9.774535641872433e-07,
	"loss": 0.0379,
	"reward": 1.2428571820259093,
	"reward_std": 0.3126678854227066,
	"rewards/accuracy_reward": 0.3214285898953676,
	"rewards/format_reward": 0.9214286029338836,
	"step": 400
	},
	{
	"completion_length": 171.86786651611328,
	"epoch": 0.19132057862809146,
	"grad_norm": 1.9319186210632324,
	"kl": 0.05830078125,
	"learning_rate": 9.749713210546087e-07,
	"loss": 0.0061,
	"reward": 1.371428632736206,
	"reward_std": 0.2255903147161007,
	"rewards/accuracy_reward": 0.4000000223517418,
	"rewards/format_reward": 0.9714285790920257,
	"step": 410
	},
	{
	"completion_length": 194.71429443359375,
	"epoch": 0.19598693420438637,
	"grad_norm": 1.76435387134552,
	"kl": 0.0529052734375,
	"learning_rate": 9.723629696819884e-07,
	"loss": 0.0143,
	"reward": 1.285714340209961,
	"reward_std": 0.20479509681463243,
	"rewards/accuracy_reward": 0.3357142999768257,
	"rewards/format_reward": 0.9500000238418579,
	"step": 420
	},
	{
	"completion_length": 188.8714370727539,
	"epoch": 0.20065328978068128,
	"grad_norm": 1.158916711807251,
	"kl": 0.0750244140625,
	"learning_rate": 9.696292026050922e-07,
	"loss": 0.0165,
	"reward": 1.3178571939468384,
	"reward_std": 0.26929790526628494,
	"rewards/accuracy_reward": 0.382142873480916,
	"rewards/format_reward": 0.935714316368103,
	"step": 430
	},
	{
	"completion_length": 179.84644012451173,
	"epoch": 0.2053196453569762,
	"grad_norm": 1.382643699645996,
	"kl": 0.11826171875,
	"learning_rate": 9.66770745658385e-07,
	"loss": 0.0183,
	"reward": 1.2571429371833802,
	"reward_std": 0.21266788095235825,
	"rewards/accuracy_reward": 0.3071428656578064,
	"rewards/format_reward": 0.9500000238418579,
	"step": 440
	},
	{
	"completion_length": 180.546435546875,
	"epoch": 0.2099860009332711,
	"grad_norm": 1.8777272701263428,
	"kl": 0.0839599609375,
	"learning_rate": 9.637883577823721e-07,
	"loss": 0.0276,
	"reward": 1.3428572058677672,
	"reward_std": 0.24049336314201356,
	"rewards/accuracy_reward": 0.40000001937150953,
	"rewards/format_reward": 0.9428571701049805,
	"step": 450
	},
	{
	"completion_length": 190.68572387695312,
	"epoch": 0.21465235650956602,
	"grad_norm": 1.0944005250930786,
	"kl": 0.0735107421875,
	"learning_rate": 9.606828308220969e-07,
	"loss": 0.0113,
	"reward": 1.2785714745521546,
	"reward_std": 0.21487789005041122,
	"rewards/accuracy_reward": 0.32857144325971605,
	"rewards/format_reward": 0.9500000238418579,
	"step": 460
	},
	{
	"completion_length": 197.60357971191405,
	"epoch": 0.21931871208586096,
	"grad_norm": 0.9634405970573425,
	"kl": 0.073779296875,
	"learning_rate": 9.574549893168977e-07,
	"loss": 0.0197,
	"reward": 1.2535714626312255,
	"reward_std": 0.17683308124542235,
	"rewards/accuracy_reward": 0.2892857242375612,
	"rewards/format_reward": 0.9642857313156128,
	"step": 470
	},
	{
	"completion_length": 203.69643859863282,
	"epoch": 0.22398506766215587,
	"grad_norm": 1.3643263578414917,
	"kl": 0.08203125,
	"learning_rate": 9.541056902814896e-07,
	"loss": 0.0227,
	"reward": 1.285714340209961,
	"reward_std": 0.27460705786943435,
	"rewards/accuracy_reward": 0.37857144623994826,
	"rewards/format_reward": 0.9071428894996643,
	"step": 480
	},
	{
	"completion_length": 220.28929595947267,
	"epoch": 0.22865142323845078,
	"grad_norm": 1.668428897857666,
	"kl": 0.0689453125,
	"learning_rate": 9.506358229784194e-07,
	"loss": 0.0146,
	"reward": 1.3071429133415222,
	"reward_std": 0.17622366920113564,
	"rewards/accuracy_reward": 0.3571428686380386,
	"rewards/format_reward": 0.9500000238418579,
	"step": 490
	},
	{
	"completion_length": 216.17501220703124,
	"epoch": 0.2333177788147457,
	"grad_norm": 2.019341468811035,
	"kl": 0.079345703125,
	"learning_rate": 9.4704630868196e-07,
	"loss": 0.0646,
	"reward": 1.1821429014205933,
	"reward_std": 0.23459327667951585,
	"rewards/accuracy_reward": 0.2535714410245419,
	"rewards/format_reward": 0.9285714566707611,
	"step": 500
	},
	{
	"completion_length": 205.07501068115235,
	"epoch": 0.2379841343910406,
	"grad_norm": 1.7414186000823975,
	"kl": 0.0832763671875,
	"learning_rate": 9.433381004335061e-07,
	"loss": 0.0468,
	"reward": 1.2071429073810578,
	"reward_std": 0.2705150328576565,
	"rewards/accuracy_reward": 0.30000001192092896,
	"rewards/format_reward": 0.9071428894996643,
	"step": 510
	},
	{
	"completion_length": 180.91429595947267,
	"epoch": 0.24265048996733551,
	"grad_norm": 2.2701659202575684,
	"kl": 0.124853515625,
	"learning_rate": 9.395121827885355e-07,
	"loss": 0.0327,
	"reward": 1.3142857670783996,
	"reward_std": 0.21858522519469262,
	"rewards/accuracy_reward": 0.37142859064042566,
	"rewards/format_reward": 0.9428571701049805,
	"step": 520
	},
	{
	"completion_length": 192.1821517944336,
	"epoch": 0.24731684554363043,
	"grad_norm": 14.688100814819336,
	"kl": 0.170263671875,
	"learning_rate": 9.355695715552011e-07,
	"loss": 0.0272,
	"reward": 1.2142857670783997,
	"reward_std": 0.20738017484545707,
	"rewards/accuracy_reward": 0.27142858095467093,
	"rewards/format_reward": 0.9428571701049805,
	"step": 530
	},
	{
	"completion_length": 202.57500915527345,
	"epoch": 0.25198320111992534,
	"grad_norm": 2.822713613510132,
	"kl": 0.1373046875,
	"learning_rate": 9.315113135246283e-07,
	"loss": 0.0432,
	"reward": 1.1928571820259095,
	"reward_std": 0.35453804582357407,
	"rewards/accuracy_reward": 0.28571429997682574,
	"rewards/format_reward": 0.9071429014205933,
	"step": 540
	},
	{
	"completion_length": 202.9321517944336,
	"epoch": 0.25664955669622025,
	"grad_norm": 1.5090000629425049,
	"kl": 0.12421875,
	"learning_rate": 9.273384861929836e-07,
	"loss": 0.0491,
	"reward": 1.1178572058677674,
	"reward_std": 0.23188644349575044,
	"rewards/accuracy_reward": 0.19642858132719992,
	"rewards/format_reward": 0.9214286029338836,
	"step": 550
	},
	{
	"completion_length": 192.82857666015624,
	"epoch": 0.26131591227251516,
	"grad_norm": 0.5006041526794434,
	"kl": 0.205029296875,
	"learning_rate": 9.230521974753919e-07,
	"loss": 0.0594,
	"reward": 1.2321429252624512,
	"reward_std": 0.2444589801132679,
	"rewards/accuracy_reward": 0.3321428716182709,
	"rewards/format_reward": 0.9000000298023224,
	"step": 560
	},
	{
	"completion_length": 171.6428649902344,
	"epoch": 0.26598226784881007,
	"grad_norm": 1.1855828762054443,
	"kl": 0.193359375,
	"learning_rate": 9.186535854117776e-07,
	"loss": 0.037,
	"reward": 1.260714328289032,
	"reward_std": 0.2411015473306179,
	"rewards/accuracy_reward": 0.33928573578596116,
	"rewards/format_reward": 0.9214286029338836,
	"step": 570
	},
	{
	"completion_length": 180.17143707275392,
	"epoch": 0.270648623425105,
	"grad_norm": 1.677296757698059,
	"kl": 0.1857421875,
	"learning_rate": 9.141438178647065e-07,
	"loss": 0.0374,
	"reward": 1.3000000596046448,
	"reward_std": 0.2666125223040581,
	"rewards/accuracy_reward": 0.3714285910129547,
	"rewards/format_reward": 0.9285714626312256,
	"step": 580
	},
	{
	"completion_length": 186.6821533203125,
	"epoch": 0.2753149790013999,
	"grad_norm": 5.2433247566223145,
	"kl": 0.16669921875,
	"learning_rate": 9.095240922093104e-07,
	"loss": 0.0407,
	"reward": 1.3500000715255738,
	"reward_std": 0.18397593572735788,
	"rewards/accuracy_reward": 0.39285715818405154,
	"rewards/format_reward": 0.9571428656578064,
	"step": 590
	},
	{
	"completion_length": 180.6428680419922,
	"epoch": 0.2799813345776948,
	"grad_norm": 0.4842807650566101,
	"kl": 0.190380859375,
	"learning_rate": 9.047956350153752e-07,
	"loss": 0.0147,
	"reward": 1.246428620815277,
	"reward_std": 0.21586237102746964,
	"rewards/accuracy_reward": 0.28928572684526443,
	"rewards/format_reward": 0.9571428775787354,
	"step": 600
	},
	{
	"completion_length": 191.20358123779297,
	"epoch": 0.2846476901539897,
	"grad_norm": 2.350338935852051,
	"kl": 0.14912109375,
	"learning_rate": 8.999597017216782e-07,
	"loss": 0.0334,
	"reward": 1.3035714983940125,
	"reward_std": 0.16870573312044143,
	"rewards/accuracy_reward": 0.33928572833538057,
	"rewards/format_reward": 0.9642857313156128,
	"step": 610
	},
	{
	"completion_length": 193.98215026855468,
	"epoch": 0.28931404573028463,
	"grad_norm": 2.8800251483917236,
	"kl": 0.21923828125,
	"learning_rate": 8.950175763026604e-07,
	"loss": 0.0245,
	"reward": 1.2071429133415221,
	"reward_std": 0.2516971692442894,
	"rewards/accuracy_reward": 0.2642857298254967,
	"rewards/format_reward": 0.942857164144516,
	"step": 620
	},
	{
	"completion_length": 191.61429290771486,
	"epoch": 0.29398040130657954,
	"grad_norm": 2.0671656131744385,
	"kl": 0.1837890625,
	"learning_rate": 8.899705709275217e-07,
	"loss": 0.0145,
	"reward": 1.385714340209961,
	"reward_std": 0.20700510069727898,
	"rewards/accuracy_reward": 0.4428571671247482,
	"rewards/format_reward": 0.9428571701049805,
	"step": 630
	},
	{
	"completion_length": 199.62858123779296,
	"epoch": 0.29864675688287445,
	"grad_norm": 5.944628715515137,
	"kl": 0.29609375,
	"learning_rate": 8.848200256118312e-07,
	"loss": 0.0386,
	"reward": 1.246428644657135,
	"reward_std": 0.2530567437410355,
	"rewards/accuracy_reward": 0.3035714406520128,
	"rewards/format_reward": 0.942857164144516,
	"step": 640
	},
	{
	"completion_length": 227.48572540283203,
	"epoch": 0.30331311245916937,
	"grad_norm": 8.969457626342773,
	"kl": 0.387255859375,
	"learning_rate": 8.795673078617432e-07,
	"loss": 0.0707,
	"reward": 1.2464286088943481,
	"reward_std": 0.2629224382340908,
	"rewards/accuracy_reward": 0.3250000149011612,
	"rewards/format_reward": 0.9214286029338836,
	"step": 650
	},
	{
	"completion_length": 210.75715026855468,
	"epoch": 0.3079794680354643,
	"grad_norm": 4.416165828704834,
	"kl": 0.473828125,
	"learning_rate": 8.74213812310915e-07,
	"loss": 0.0801,
	"reward": 1.221428632736206,
	"reward_std": 0.27719090431928634,
	"rewards/accuracy_reward": 0.29285715967416764,
	"rewards/format_reward": 0.9285714626312256,
	"step": 660
	},
	{
	"completion_length": 200.8928649902344,
	"epoch": 0.31264582361175924,
	"grad_norm": 7.957707405090332,
	"kl": 0.52421875,
	"learning_rate": 8.68760960350222e-07,
	"loss": 0.0485,
	"reward": 1.221428644657135,
	"reward_std": 0.31562927216291425,
	"rewards/accuracy_reward": 0.3071428701281548,
	"rewards/format_reward": 0.9142857432365418,
	"step": 670
	},
	{
	"completion_length": 194.02857971191406,
	"epoch": 0.31731217918805416,
	"grad_norm": 2.773921012878418,
	"kl": 0.4138671875,
	"learning_rate": 8.632101997503674e-07,
	"loss": 0.0431,
	"reward": 1.246428620815277,
	"reward_std": 0.2256075546145439,
	"rewards/accuracy_reward": 0.3178571492433548,
	"rewards/format_reward": 0.9285714626312256,
	"step": 680
	},
	{
	"completion_length": 183.4214324951172,
	"epoch": 0.32197853476434907,
	"grad_norm": 3.124154567718506,
	"kl": 0.189404296875,
	"learning_rate": 8.575630042774902e-07,
	"loss": 0.0263,
	"reward": 1.260714340209961,
	"reward_std": 0.1950671538710594,
	"rewards/accuracy_reward": 0.3107142999768257,
	"rewards/format_reward": 0.950000011920929,
	"step": 690
	},
	{
	"completion_length": 214.20000915527345,
	"epoch": 0.326644890340644,
	"grad_norm": 5.170936107635498,
	"kl": 0.279833984375,
	"learning_rate": 8.518208733018689e-07,
	"loss": 0.0798,
	"reward": 1.2071429252624513,
	"reward_std": 0.36203873455524443,
	"rewards/accuracy_reward": 0.30714287534356116,
	"rewards/format_reward": 0.9000000417232513,
	"step": 700
	},
	{
	"completion_length": 236.79644165039062,
	"epoch": 0.3313112459169389,
	"grad_norm": 4.168279647827148,
	"kl": 0.5509765625,
	"learning_rate": 8.459853313998283e-07,
	"loss": 0.1131,
	"reward": 1.2428571939468385,
	"reward_std": 0.33234085887670517,
	"rewards/accuracy_reward": 0.35714287459850313,
	"rewards/format_reward": 0.8857143223285675,
	"step": 710
	},
	{
	"completion_length": 212.58929443359375,
	"epoch": 0.3359776014932338,
	"grad_norm": 5.4327569007873535,
	"kl": 0.4990234375,
	"learning_rate": 8.400579279489541e-07,
	"loss": 0.095,
	"reward": 1.2250000715255738,
	"reward_std": 0.31540548279881475,
	"rewards/accuracy_reward": 0.2964285884052515,
	"rewards/format_reward": 0.9285714626312256,
	"step": 720
	},
	{
	"completion_length": 219.4178665161133,
	"epoch": 0.3406439570695287,
	"grad_norm": 6.700848579406738,
	"kl": 0.37919921875,
	"learning_rate": 8.340402367167216e-07,
	"loss": 0.0824,
	"reward": 1.1571429014205932,
	"reward_std": 0.30023063272237777,
	"rewards/accuracy_reward": 0.25000000819563867,
	"rewards/format_reward": 0.9071428835391998,
	"step": 730
	},
	{
	"completion_length": 193.31786346435547,
	"epoch": 0.3453103126458236,
	"grad_norm": 4.084702014923096,
	"kl": 0.28115234375,
	"learning_rate": 8.2793385544265e-07,
	"loss": 0.0288,
	"reward": 1.2535714745521545,
	"reward_std": 0.3358024753630161,
	"rewards/accuracy_reward": 0.339285734295845,
	"rewards/format_reward": 0.9142857432365418,
	"step": 740
	},
	{
	"completion_length": 208.07858123779297,
	"epoch": 0.34997666822211854,
	"grad_norm": 5.686543941497803,
	"kl": 0.33671875,
	"learning_rate": 8.217404054140909e-07,
	"loss": 0.0335,
	"reward": 1.1714286088943482,
	"reward_std": 0.2581101007759571,
	"rewards/accuracy_reward": 0.23571430072188376,
	"rewards/format_reward": 0.9357143104076385,
	"step": 750
	},
	{
	"completion_length": 205.19286651611327,
	"epoch": 0.35464302379841345,
	"grad_norm": 2.9921562671661377,
	"kl": 0.177294921875,
	"learning_rate": 8.154615310357649e-07,
	"loss": 0.0755,
	"reward": 1.2428571939468385,
	"reward_std": 0.27265038043260575,
	"rewards/accuracy_reward": 0.30714286789298056,
	"rewards/format_reward": 0.935714316368103,
	"step": 760
	},
	{
	"completion_length": 211.06072692871095,
	"epoch": 0.35930937937470836,
	"grad_norm": 2.7796568870544434,
	"kl": 0.48134765625,
	"learning_rate": 8.090988993931609e-07,
	"loss": 0.0967,
	"reward": 1.3071429133415222,
	"reward_std": 0.27672048956155776,
	"rewards/accuracy_reward": 0.39285716861486436,
	"rewards/format_reward": 0.9142857491970062,
	"step": 770
	},
	{
	"completion_length": 210.21429595947265,
	"epoch": 0.36397573495100327,
	"grad_norm": 4.467612266540527,
	"kl": 0.39296875,
	"learning_rate": 8.026541998099126e-07,
	"loss": 0.1026,
	"reward": 1.1821429014205933,
	"reward_std": 0.20331501960754395,
	"rewards/accuracy_reward": 0.24642858393490313,
	"rewards/format_reward": 0.9357143044471741,
	"step": 780
	},
	{
	"completion_length": 184.62858123779296,
	"epoch": 0.3686420905272982,
	"grad_norm": 2.8182897567749023,
	"kl": 0.4158203125,
	"learning_rate": 7.961291433992723e-07,
	"loss": 0.0864,
	"reward": 1.2571429133415222,
	"reward_std": 0.3440789520740509,
	"rewards/accuracy_reward": 0.35714287906885145,
	"rewards/format_reward": 0.9000000417232513,
	"step": 790
	},
	{
	"completion_length": 177.10000915527343,
	"epoch": 0.3733084461035931,
	"grad_norm": 5.841248035430908,
	"kl": 0.25205078125,
	"learning_rate": 7.895254626097964e-07,
	"loss": 0.0477,
	"reward": 1.3178572177886962,
	"reward_std": 0.26967298090457914,
	"rewards/accuracy_reward": 0.3750000178813934,
	"rewards/format_reward": 0.9428571701049805,
	"step": 800
	},
	{
	"completion_length": 186.17857971191407,
	"epoch": 0.377974801679888,
	"grad_norm": 2.7772974967956543,
	"kl": 0.372216796875,
	"learning_rate": 7.828449107653703e-07,
	"loss": 0.0548,
	"reward": 1.2035714864730835,
	"reward_std": 0.21819290220737458,
	"rewards/accuracy_reward": 0.26071429774165156,
	"rewards/format_reward": 0.9428571701049805,
	"step": 810
	},
	{
	"completion_length": 179.5714370727539,
	"epoch": 0.3826411572561829,
	"grad_norm": 3.573528528213501,
	"kl": 0.5103515625,
	"learning_rate": 7.760892615996862e-07,
	"loss": 0.0807,
	"reward": 1.296428620815277,
	"reward_std": 0.20319449976086618,
	"rewards/accuracy_reward": 0.3392857268452644,
	"rewards/format_reward": 0.9571428775787354,
	"step": 820
	},
	{
	"completion_length": 201.9464370727539,
	"epoch": 0.38730751283247783,
	"grad_norm": 2.7865989208221436,
	"kl": 0.32451171875,
	"learning_rate": 7.692603087853061e-07,
	"loss": 0.129,
	"reward": 1.1964286327362061,
	"reward_std": 0.2745025597512722,
	"rewards/accuracy_reward": 0.28214287012815475,
	"rewards/format_reward": 0.9142857372760773,
	"step": 830
	},
	{
	"completion_length": 187.04286499023436,
	"epoch": 0.39197386840877274,
	"grad_norm": 5.086669445037842,
	"kl": 0.412451171875,
	"learning_rate": 7.623598654574282e-07,
	"loss": 0.0784,
	"reward": 1.2285714864730835,
	"reward_std": 0.19613576233386992,
	"rewards/accuracy_reward": 0.2785714466124773,
	"rewards/format_reward": 0.9500000238418579,
	"step": 840
	},
	{
	"completion_length": 205.9321517944336,
	"epoch": 0.39664022398506765,
	"grad_norm": 6.3026580810546875,
	"kl": 0.42822265625,
	"learning_rate": 7.553897637324871e-07,
	"loss": 0.1118,
	"reward": 1.23571435213089,
	"reward_std": 0.264027439057827,
	"rewards/accuracy_reward": 0.32142858356237414,
	"rewards/format_reward": 0.9142857491970062,
	"step": 850
	},
	{
	"completion_length": 211.72857971191405,
	"epoch": 0.40130657956136256,
	"grad_norm": 7.240902423858643,
	"kl": 0.609912109375,
	"learning_rate": 7.483518542217136e-07,
	"loss": 0.1452,
	"reward": 1.2392857789993286,
	"reward_std": 0.2891633503139019,
	"rewards/accuracy_reward": 0.3250000163912773,
	"rewards/format_reward": 0.9142857491970062,
	"step": 860
	},
	{
	"completion_length": 196.15000915527344,
	"epoch": 0.4059729351376575,
	"grad_norm": 7.294248104095459,
	"kl": 0.38701171875,
	"learning_rate": 7.412480055397843e-07,
	"loss": 0.0556,
	"reward": 1.2500000596046448,
	"reward_std": 0.2849683463573456,
	"rewards/accuracy_reward": 0.3285714417695999,
	"rewards/format_reward": 0.9214285969734192,
	"step": 870
	},
	{
	"completion_length": 202.96786651611328,
	"epoch": 0.4106392907139524,
	"grad_norm": 2.0189414024353027,
	"kl": 0.35,
	"learning_rate": 7.340801038086918e-07,
	"loss": 0.0262,
	"reward": 1.2250000476837157,
	"reward_std": 0.19948717057704926,
	"rewards/accuracy_reward": 0.2750000137835741,
	"rewards/format_reward": 0.9500000238418579,
	"step": 880
	},
	{
	"completion_length": 190.95001068115235,
	"epoch": 0.4153056462902473,
	"grad_norm": 11.575712203979492,
	"kl": 0.3896484375,
	"learning_rate": 7.268500521569655e-07,
	"loss": 0.0922,
	"reward": 1.2142857670783997,
	"reward_std": 0.26723918691277504,
	"rewards/accuracy_reward": 0.3071428701281548,
	"rewards/format_reward": 0.9071428835391998,
	"step": 890
	},
	{
	"completion_length": 181.60000762939453,
	"epoch": 0.4199720018665422,
	"grad_norm": 8.530049324035645,
	"kl": 0.45927734375,
	"learning_rate": 7.195597702143772e-07,
	"loss": 0.0985,
	"reward": 1.1571429133415223,
	"reward_std": 0.27336115539073946,
	"rewards/accuracy_reward": 0.22857143953442574,
	"rewards/format_reward": 0.9285714626312256,
	"step": 900
	},
	{
	"completion_length": 190.7464385986328,
	"epoch": 0.4246383574428371,
	"grad_norm": 5.701374530792236,
	"kl": 1.1736328125,
	"learning_rate": 7.122111936022668e-07,
	"loss": 0.1988,
	"reward": 1.2500000596046448,
	"reward_std": 0.24506716057658195,
	"rewards/accuracy_reward": 0.32857144474983213,
	"rewards/format_reward": 0.9214286029338836,
	"step": 910
	},
	{
	"completion_length": 172.73214950561524,
	"epoch": 0.42930471301913203,
	"grad_norm": 4.281832695007324,
	"kl": 1.024951171875,
	"learning_rate": 7.048062734196204e-07,
	"loss": 0.1912,
	"reward": 1.2642857909202576,
	"reward_std": 0.343449330329895,
	"rewards/accuracy_reward": 0.35000001043081286,
	"rewards/format_reward": 0.9142857432365418,
	"step": 920
	},
	{
	"completion_length": 197.4178665161133,
	"epoch": 0.43397106859542695,
	"grad_norm": 4.720562934875488,
	"kl": 0.543603515625,
	"learning_rate": 6.9734697572504e-07,
	"loss": 0.0907,
	"reward": 1.2571429133415222,
	"reward_std": 0.2518312208354473,
	"rewards/accuracy_reward": 0.3285714462399483,
	"rewards/format_reward": 0.9285714566707611,
	"step": 930
	},
	{
	"completion_length": 196.92858123779297,
	"epoch": 0.4386374241717219,
	"grad_norm": 77.73806762695312,
	"kl": 1.05439453125,
	"learning_rate": 6.89835281014741e-07,
	"loss": 0.1745,
	"reward": 1.285714328289032,
	"reward_std": 0.28164542019367217,
	"rewards/accuracy_reward": 0.3642857253551483,
	"rewards/format_reward": 0.9214285969734192,
	"step": 940
	},
	{
	"completion_length": 179.39286575317382,
	"epoch": 0.4433037797480168,
	"grad_norm": 2.6931166648864746,
	"kl": 0.42705078125,
	"learning_rate": 6.822731836967168e-07,
	"loss": 0.0645,
	"reward": 1.3428572177886964,
	"reward_std": 0.19739395827054979,
	"rewards/accuracy_reward": 0.392857152223587,
	"rewards/format_reward": 0.9500000238418579,
	"step": 950
	},
	{
	"completion_length": 187.36429443359376,
	"epoch": 0.44797013532431174,
	"grad_norm": 5.5171427726745605,
	"kl": 0.443359375,
	"learning_rate": 6.746626915612085e-07,
	"loss": 0.0781,
	"reward": 1.2857143521308898,
	"reward_std": 0.19799869433045386,
	"rewards/accuracy_reward": 0.357142873108387,
	"rewards/format_reward": 0.9285714566707611,
	"step": 960
	},
	{
	"completion_length": 184.37500915527343,
	"epoch": 0.45263649090060665,
	"grad_norm": 13.36310863494873,
	"kl": 1.1681640625,
	"learning_rate": 6.670058252476235e-07,
	"loss": 0.2008,
	"reward": 1.3428571820259094,
	"reward_std": 0.262357784062624,
	"rewards/accuracy_reward": 0.41428573429584503,
	"rewards/format_reward": 0.9285714626312256,
	"step": 970
	},
	{
	"completion_length": 195.95358123779297,
	"epoch": 0.45730284647690156,
	"grad_norm": 2.2677857875823975,
	"kl": 1.1369140625,
	"learning_rate": 6.593046177080408e-07,
	"loss": 0.1455,
	"reward": 1.1714286088943482,
	"reward_std": 0.3041789963841438,
	"rewards/accuracy_reward": 0.2714285865426064,
	"rewards/format_reward": 0.9000000298023224,
	"step": 980
	},
	{
	"completion_length": 193.67857818603517,
	"epoch": 0.46196920205319647,
	"grad_norm": 1.030552625656128,
	"kl": 0.56953125,
	"learning_rate": 6.515611136674479e-07,
	"loss": 0.0992,
	"reward": 1.2642857789993287,
	"reward_std": 0.1844715215265751,
	"rewards/accuracy_reward": 0.32142859101295473,
	"rewards/format_reward": 0.9428571701049805,
	"step": 990
	},
	{
	"completion_length": 191.07143630981446,
	"epoch": 0.4666355576294914,
	"grad_norm": 7.8564453125,
	"kl": 0.504833984375,
	"learning_rate": 6.437773690808524e-07,
	"loss": 0.099,
	"reward": 1.3071429133415222,
	"reward_std": 0.24715664908289908,
	"rewards/accuracy_reward": 0.3714285910129547,
	"rewards/format_reward": 0.935714316368103,
	"step": 1000
	},
	{
	"completion_length": 201.9714370727539,
	"epoch": 0.4713019132057863,
	"grad_norm": 2.8117690086364746,
	"kl": 1.044677734375,
	"learning_rate": 6.359554505874109e-07,
	"loss": 0.2054,
	"reward": 1.196428608894348,
	"reward_std": 0.3307777248322964,
	"rewards/accuracy_reward": 0.2821428716182709,
	"rewards/format_reward": 0.9142857551574707,
	"step": 1010
	},
	{
	"completion_length": 189.82500915527345,
	"epoch": 0.4759682687820812,
	"grad_norm": 11.323598861694336,
	"kl": 0.63037109375,
	"learning_rate": 6.280974349617214e-07,
	"loss": 0.095,
	"reward": 1.2785714745521546,
	"reward_std": 0.26157640293240547,
	"rewards/accuracy_reward": 0.35000001788139345,
	"rewards/format_reward": 0.9285714566707611,
	"step": 1020
	},
	{
	"completion_length": 190.90001068115234,
	"epoch": 0.4806346243583761,
	"grad_norm": 14.018318176269531,
	"kl": 0.6455078125,
	"learning_rate": 6.202054085624261e-07,
	"loss": 0.1192,
	"reward": 1.2857143521308898,
	"reward_std": 0.23778653591871263,
	"rewards/accuracy_reward": 0.35714287161827085,
	"rewards/format_reward": 0.9285714566707611,
	"step": 1030
	},
	{
	"completion_length": 189.96786499023438,
	"epoch": 0.48530097993467103,
	"grad_norm": 5.3534932136535645,
	"kl": 0.632958984375,
	"learning_rate": 6.122814667782673e-07,
	"loss": 0.0864,
	"reward": 1.2285714626312256,
	"reward_std": 0.1533150166273117,
	"rewards/accuracy_reward": 0.2500000149011612,
	"rewards/format_reward": 0.9785714387893677,
	"step": 1040
	},
	{
	"completion_length": 195.0642936706543,
	"epoch": 0.48996733551096594,
	"grad_norm": 6.974513530731201,
	"kl": 0.494384765625,
	"learning_rate": 6.043277134717475e-07,
	"loss": 0.0765,
	"reward": 1.3321428894996643,
	"reward_std": 0.1950671575963497,
	"rewards/accuracy_reward": 0.37500001639127734,
	"rewards/format_reward": 0.9571428775787354,
	"step": 1050
	},
	{
	"completion_length": 204.17501068115234,
	"epoch": 0.49463369108726085,
	"grad_norm": 6.67943000793457,
	"kl": 0.497265625,
	"learning_rate": 5.963462604205392e-07,
	"loss": 0.0889,
	"reward": 1.260714340209961,
	"reward_std": 0.23447152674198152,
	"rewards/accuracy_reward": 0.3250000193715096,
	"rewards/format_reward": 0.935714316368103,
	"step": 1060
	},
	{
	"completion_length": 217.91072692871094,
	"epoch": 0.49930004666355576,
	"grad_norm": 2.6225903034210205,
	"kl": 1.211474609375,
	"learning_rate": 5.883392267567924e-07,
	"loss": 0.1539,
	"reward": 1.2142857789993287,
	"reward_std": 0.2801480941474438,
	"rewards/accuracy_reward": 0.28571429699659345,
	"rewards/format_reward": 0.9285714566707611,
	"step": 1070
	},
	{
	"completion_length": 200.80000762939454,
	"epoch": 0.5039664022398507,
	"grad_norm": 17.208133697509766,
	"kl": 1.3998046875,
	"learning_rate": 5.803087384044902e-07,
	"loss": 0.2627,
	"reward": 1.2071429014205932,
	"reward_std": 0.3747034803032875,
	"rewards/accuracy_reward": 0.3214285850524902,
	"rewards/format_reward": 0.885714328289032,
	"step": 1080
	},
	{
	"completion_length": 184.55357818603517,
	"epoch": 0.5086327578161456,
	"grad_norm": 4.367872714996338,
	"kl": 0.80498046875,
	"learning_rate": 5.722569275150019e-07,
	"loss": 0.1581,
	"reward": 1.2642857551574707,
	"reward_std": 0.2569018341600895,
	"rewards/accuracy_reward": 0.3285714417695999,
	"rewards/format_reward": 0.9357143104076385,
	"step": 1090
	},
	{
	"completion_length": 179.18572387695312,
	"epoch": 0.5132991133924405,
	"grad_norm": 4.963561058044434,
	"kl": 0.592578125,
	"learning_rate": 5.641859319009801e-07,
	"loss": 0.0957,
	"reward": 1.3250000715255736,
	"reward_std": 0.2563889928162098,
	"rewards/accuracy_reward": 0.3892857372760773,
	"rewards/format_reward": 0.9357143104076385,
	"step": 1100
	},
	{
	"completion_length": 180.88929290771483,
	"epoch": 0.5179654689687354,
	"grad_norm": 1.608384609222412,
	"kl": 0.348974609375,
	"learning_rate": 5.560978944687576e-07,
	"loss": 0.0775,
	"reward": 1.2714286208152772,
	"reward_std": 0.19492939710617066,
	"rewards/accuracy_reward": 0.32142858654260636,
	"rewards/format_reward": 0.9500000238418579,
	"step": 1110
	},
	{
	"completion_length": 164.9321502685547,
	"epoch": 0.5226318245450303,
	"grad_norm": 6.095414638519287,
	"kl": 0.59853515625,
	"learning_rate": 5.479949626493908e-07,
	"loss": 0.0792,
	"reward": 1.3428571939468383,
	"reward_std": 0.18014808967709542,
	"rewards/accuracy_reward": 0.37142859399318695,
	"rewards/format_reward": 0.9714285850524902,
	"step": 1120
	},
	{
	"completion_length": 179.71072387695312,
	"epoch": 0.5272981801213252,
	"grad_norm": 13.79627513885498,
	"kl": 0.299853515625,
	"learning_rate": 5.398792878285002e-07,
	"loss": 0.0579,
	"reward": 1.296428632736206,
	"reward_std": 0.16341925486922265,
	"rewards/accuracy_reward": 0.32500001788139343,
	"rewards/format_reward": 0.9714285850524902,
	"step": 1130
	},
	{
	"completion_length": 189.71429595947265,
	"epoch": 0.5319645356976201,
	"grad_norm": 7.43311071395874,
	"kl": 0.44296875,
	"learning_rate": 5.317530247750639e-07,
	"loss": 0.0818,
	"reward": 1.2785714983940124,
	"reward_std": 0.1776016980409622,
	"rewards/accuracy_reward": 0.32142858393490314,
	"rewards/format_reward": 0.9571428716182708,
	"step": 1140
	},
	{
	"completion_length": 207.7714416503906,
	"epoch": 0.5366308912739151,
	"grad_norm": 27.736406326293945,
	"kl": 1.2056640625,
	"learning_rate": 5.2361833106931e-07,
	"loss": 0.2633,
	"reward": 1.228571480512619,
	"reward_std": 0.36894305497407914,
	"rewards/accuracy_reward": 0.3571428719907999,
	"rewards/format_reward": 0.8714286148548126,
	"step": 1150
	},
	{
	"completion_length": 216.8928695678711,
	"epoch": 0.54129724685021,
	"grad_norm": 8.771681785583496,
	"kl": 0.88974609375,
	"learning_rate": 5.154773665298648e-07,
	"loss": 0.1611,
	"reward": 1.1535714745521546,
	"reward_std": 0.2724130667746067,
	"rewards/accuracy_reward": 0.2392857253551483,
	"rewards/format_reward": 0.9142857491970062,
	"step": 1160
	},
	{
	"completion_length": 190.18572082519532,
	"epoch": 0.5459636024265049,
	"grad_norm": 6.968381404876709,
	"kl": 0.37958984375,
	"learning_rate": 5.073322926403045e-07,
	"loss": 0.0619,
	"reward": 1.260714340209961,
	"reward_std": 0.15576233565807343,
	"rewards/accuracy_reward": 0.275000012293458,
	"rewards/format_reward": 0.9857142925262451,
	"step": 1170
	},
	{
	"completion_length": 220.9714370727539,
	"epoch": 0.5506299580027998,
	"grad_norm": 1.6743552684783936,
	"kl": 0.696728515625,
	"learning_rate": 4.991852719752678e-07,
	"loss": 0.1253,
	"reward": 1.2321429014205934,
	"reward_std": 0.24198277071118354,
	"rewards/accuracy_reward": 0.31071430146694184,
	"rewards/format_reward": 0.9214285969734192,
	"step": 1180
	},
	{
	"completion_length": 203.98929595947266,
	"epoch": 0.5552963135790947,
	"grad_norm": 8.832259178161621,
	"kl": 1.82734375,
	"learning_rate": 4.910384676262752e-07,
	"loss": 0.1067,
	"reward": 1.26071435213089,
	"reward_std": 0.32460705041885374,
	"rewards/accuracy_reward": 0.36785716116428374,
	"rewards/format_reward": 0.8928571701049804,
	"step": 1190
	},
	{
	"completion_length": 188.37858123779296,
	"epoch": 0.5599626691553896,
	"grad_norm": 4.268427848815918,
	"kl": 0.414404296875,
	"learning_rate": 4.828940426274142e-07,
	"loss": 0.0621,
	"reward": 1.3285714864730835,
	"reward_std": 0.23999654203653337,
	"rewards/accuracy_reward": 0.3714285850524902,
	"rewards/format_reward": 0.9571428775787354,
	"step": 1200
	},
	{
	"completion_length": 207.16429290771484,
	"epoch": 0.5646290247316845,
	"grad_norm": 22.58124542236328,
	"kl": 0.891845703125,
	"learning_rate": 4.747541593810377e-07,
	"loss": 0.1984,
	"reward": 1.2178572058677672,
	"reward_std": 0.3189430497586727,
	"rewards/accuracy_reward": 0.310714303329587,
	"rewards/format_reward": 0.9071428954601288,
	"step": 1210
	},
	{
	"completion_length": 218.35000915527343,
	"epoch": 0.5692953803079794,
	"grad_norm": 7.771918773651123,
	"kl": 0.96904296875,
	"learning_rate": 4.666209790836316e-07,
	"loss": 0.1555,
	"reward": 1.2107143342494964,
	"reward_std": 0.3533112980425358,
	"rewards/accuracy_reward": 0.3178571552038193,
	"rewards/format_reward": 0.8928571820259095,
	"step": 1220
	},
	{
	"completion_length": 187.87857971191406,
	"epoch": 0.5739617358842743,
	"grad_norm": 13.805558204650879,
	"kl": 0.933251953125,
	"learning_rate": 4.5849666115200143e-07,
	"loss": 0.1366,
	"reward": 1.2500000715255737,
	"reward_std": 0.21033736318349838,
	"rewards/accuracy_reward": 0.30714286863803864,
	"rewards/format_reward": 0.942857164144516,
	"step": 1230
	},
	{
	"completion_length": 197.11786804199218,
	"epoch": 0.5786280914605693,
	"grad_norm": 3.612844228744507,
	"kl": 0.625244140625,
	"learning_rate": 4.503833626499317e-07,
	"loss": 0.1048,
	"reward": 1.1892857551574707,
	"reward_std": 0.3342569015920162,
	"rewards/accuracy_reward": 0.2821428693830967,
	"rewards/format_reward": 0.9071428894996643,
	"step": 1240
	},
	{
	"completion_length": 193.096435546875,
	"epoch": 0.5832944470368642,
	"grad_norm": 4.014871597290039,
	"kl": 0.572314453125,
	"learning_rate": 4.42283237715471e-07,
	"loss": 0.0812,
	"reward": 1.160714316368103,
	"reward_std": 0.28212499171495437,
	"rewards/accuracy_reward": 0.26071429550647734,
	"rewards/format_reward": 0.9000000357627869,
	"step": 1250
	},
	{
	"completion_length": 195.02500762939454,
	"epoch": 0.5879608026131591,
	"grad_norm": 4.279513359069824,
	"kl": 0.7986328125,
	"learning_rate": 4.3419843698899234e-07,
	"loss": 0.1005,
	"reward": 1.2928572058677674,
	"reward_std": 0.25148131176829336,
	"rewards/accuracy_reward": 0.3571428656578064,
	"rewards/format_reward": 0.9357143044471741,
	"step": 1260
	},
	{
	"completion_length": 221.07858123779297,
	"epoch": 0.592627158189454,
	"grad_norm": 4.270975589752197,
	"kl": 0.7974609375,
	"learning_rate": 4.2613110704218336e-07,
	"loss": 0.1913,
	"reward": 1.210714340209961,
	"reward_std": 0.27596538737416265,
	"rewards/accuracy_reward": 0.30357144251465795,
	"rewards/format_reward": 0.9071429014205933,
	"step": 1270
	},
	{
	"completion_length": 192.57857971191407,
	"epoch": 0.5972935137657489,
	"grad_norm": 6.560425281524658,
	"kl": 1.0640625,
	"learning_rate": 4.1808338980811666e-07,
	"loss": 0.1447,
	"reward": 1.2214286208152771,
	"reward_std": 0.2975998237729073,
	"rewards/accuracy_reward": 0.3285714462399483,
	"rewards/format_reward": 0.8928571760654449,
	"step": 1280
	},
	{
	"completion_length": 210.92501220703124,
	"epoch": 0.6019598693420438,
	"grad_norm": 2.6335413455963135,
	"kl": 1.1158203125,
	"learning_rate": 4.100574220125506e-07,
	"loss": 0.2254,
	"reward": 1.2178571939468383,
	"reward_std": 0.38201676979660987,
	"rewards/accuracy_reward": 0.3250000149011612,
	"rewards/format_reward": 0.892857164144516,
	"step": 1290
	},
	{
	"completion_length": 226.9035842895508,
	"epoch": 0.6066262249183387,
	"grad_norm": 6.515714645385742,
	"kl": 1.377734375,
	"learning_rate": 4.020553346066144e-07,
	"loss": 0.2749,
	"reward": 1.2035714745521546,
	"reward_std": 0.37217203676700594,
	"rewards/accuracy_reward": 0.3107142999768257,
	"rewards/format_reward": 0.8928571879863739,
	"step": 1300
	},
	{
	"completion_length": 211.1928680419922,
	"epoch": 0.6112925804946336,
	"grad_norm": 16.117403030395508,
	"kl": 1.2681640625,
	"learning_rate": 3.9407925220102493e-07,
	"loss": 0.2125,
	"reward": 1.1928571820259095,
	"reward_std": 0.3735316038131714,
	"rewards/accuracy_reward": 0.2928571544587612,
	"rewards/format_reward": 0.9000000357627869,
	"step": 1310
	},
	{
	"completion_length": 203.11429290771486,
	"epoch": 0.6159589360709286,
	"grad_norm": 7.737660884857178,
	"kl": 0.8955078125,
	"learning_rate": 3.86131292501988e-07,
	"loss": 0.126,
	"reward": 1.2571429014205933,
	"reward_std": 0.31292245015501974,
	"rewards/accuracy_reward": 0.3428571581840515,
	"rewards/format_reward": 0.9142857551574707,
	"step": 1320
	},
	{
	"completion_length": 188.27857971191406,
	"epoch": 0.6206252916472235,
	"grad_norm": 3.5433154106140137,
	"kl": 0.89716796875,
	"learning_rate": 3.7821356574893204e-07,
	"loss": 0.1548,
	"reward": 1.31071435213089,
	"reward_std": 0.26513244956731796,
	"rewards/accuracy_reward": 0.36785716116428374,
	"rewards/format_reward": 0.942857164144516,
	"step": 1330
	},
	{
	"completion_length": 196.4714385986328,
	"epoch": 0.6252916472235185,
	"grad_norm": 6.886636734008789,
	"kl": 0.853076171875,
	"learning_rate": 3.7032817415422517e-07,
	"loss": 0.1634,
	"reward": 1.2678572058677673,
	"reward_std": 0.2711702950298786,
	"rewards/accuracy_reward": 0.3321428790688515,
	"rewards/format_reward": 0.935714316368103,
	"step": 1340
	},
	{
	"completion_length": 197.9714385986328,
	"epoch": 0.6299580027998134,
	"grad_norm": 10.59721565246582,
	"kl": 1.061083984375,
	"learning_rate": 3.624772113450223e-07,
	"loss": 0.1761,
	"reward": 1.2678572058677673,
	"reward_std": 0.32303600385785103,
	"rewards/accuracy_reward": 0.36071430891752243,
	"rewards/format_reward": 0.9071428954601288,
	"step": 1350
	},
	{
	"completion_length": 180.4321502685547,
	"epoch": 0.6346243583761083,
	"grad_norm": 2.4233856201171875,
	"kl": 0.690625,
	"learning_rate": 3.5466276180739264e-07,
	"loss": 0.0947,
	"reward": 1.2892857670783997,
	"reward_std": 0.21290518939495087,
	"rewards/accuracy_reward": 0.3392857272177935,
	"rewards/format_reward": 0.9500000238418579,
	"step": 1360
	},
	{
	"completion_length": 196.02857971191406,
	"epoch": 0.6392907139524032,
	"grad_norm": 18.396207809448242,
	"kl": 0.962060546875,
	"learning_rate": 3.4688690033287414e-07,
	"loss": 0.155,
	"reward": 1.3535714745521545,
	"reward_std": 0.24271938800811768,
	"rewards/accuracy_reward": 0.4250000178813934,
	"rewards/format_reward": 0.9285714626312256,
	"step": 1370
	},
	{
	"completion_length": 194.17501068115234,
	"epoch": 0.6439570695286981,
	"grad_norm": 12.984419822692871,
	"kl": 0.37880859375,
	"learning_rate": 3.3915169146760137e-07,
	"loss": 0.096,
	"reward": 1.2642857909202576,
	"reward_std": 0.2268330782651901,
	"rewards/accuracy_reward": 0.33571430034935473,
	"rewards/format_reward": 0.9285714507102967,
	"step": 1380
	},
	{
	"completion_length": 180.59286499023438,
	"epoch": 0.648623425104993,
	"grad_norm": 3.471736192703247,
	"kl": 0.78525390625,
	"learning_rate": 3.3145918896415394e-07,
	"loss": 0.0905,
	"reward": 1.3535714745521545,
	"reward_std": 0.1773286685347557,
	"rewards/accuracy_reward": 0.417857164144516,
	"rewards/format_reward": 0.935714316368103,
	"step": 1390
	},
	{
	"completion_length": 172.69286499023437,
	"epoch": 0.653289780681288,
	"grad_norm": 5.568473815917969,
	"kl": 0.4484130859375,
	"learning_rate": 3.2381143523627106e-07,
	"loss": 0.0142,
	"reward": 1.3071429252624511,
	"reward_std": 0.19887898862361908,
	"rewards/accuracy_reward": 0.3500000134110451,
	"rewards/format_reward": 0.9571428775787354,
	"step": 1400
	},
	{
	"completion_length": 197.35714874267578,
	"epoch": 0.6579561362575829,
	"grad_norm": 5.128924369812012,
	"kl": 0.848291015625,
	"learning_rate": 3.16210460816576e-07,
	"loss": 0.1411,
	"reward": 1.2464286088943481,
	"reward_std": 0.20331502109766006,
	"rewards/accuracy_reward": 0.3035714402794838,
	"rewards/format_reward": 0.9428571701049805,
	"step": 1410
	},
	{
	"completion_length": 205.62858123779296,
	"epoch": 0.6626224918338778,
	"grad_norm": 6.538782596588135,
	"kl": 0.71435546875,
	"learning_rate": 3.086582838174551e-07,
	"loss": 0.1207,
	"reward": 1.210714328289032,
	"reward_std": 0.26858522146940234,
	"rewards/accuracy_reward": 0.2750000096857548,
	"rewards/format_reward": 0.9357143104076385,
	"step": 1420
	},
	{
	"completion_length": 177.58214874267577,
	"epoch": 0.6672888474101727,
	"grad_norm": 2.0602848529815674,
	"kl": 0.540087890625,
	"learning_rate": 3.0115690939523514e-07,
	"loss": 0.0609,
	"reward": 1.2571429014205933,
	"reward_std": 0.19617216065526008,
	"rewards/accuracy_reward": 0.3071428701281548,
	"rewards/format_reward": 0.9500000238418579,
	"step": 1430
	},
	{
	"completion_length": 190.9821517944336,
	"epoch": 0.6719552029864676,
	"grad_norm": 1.0282678604125977,
	"kl": 0.74091796875,
	"learning_rate": 2.9370832921779983e-07,
	"loss": 0.1188,
	"reward": 1.2035714626312255,
	"reward_std": 0.22572807371616363,
	"rewards/accuracy_reward": 0.25357144251465796,
	"rewards/format_reward": 0.9500000238418579,
	"step": 1440
	},
	{
	"completion_length": 197.7464385986328,
	"epoch": 0.6766215585627625,
	"grad_norm": 5.613475799560547,
	"kl": 0.711767578125,
	"learning_rate": 2.8631452093578814e-07,
	"loss": 0.1211,
	"reward": 1.3035714864730834,
	"reward_std": 0.20981329679489136,
	"rewards/accuracy_reward": 0.3750000141561031,
	"rewards/format_reward": 0.9285714626312256,
	"step": 1450
	},
	{
	"completion_length": 200.86786651611328,
	"epoch": 0.6812879141390574,
	"grad_norm": 6.9082841873168945,
	"kl": 1.02734375,
	"learning_rate": 2.7897744765751375e-07,
	"loss": 0.1942,
	"reward": 1.321428620815277,
	"reward_std": 0.2701858140528202,
	"rewards/accuracy_reward": 0.4000000197440386,
	"rewards/format_reward": 0.9214286088943482,
	"step": 1460
	},
	{
	"completion_length": 191.17858123779297,
	"epoch": 0.6859542697153523,
	"grad_norm": 116.39089965820312,
	"kl": 0.575634765625,
	"learning_rate": 2.716990574277469e-07,
	"loss": 0.086,
	"reward": 1.2821429133415223,
	"reward_std": 0.21748021617531776,
	"rewards/accuracy_reward": 0.33214287310838697,
	"rewards/format_reward": 0.9500000178813934,
	"step": 1470
	},
	{
	"completion_length": 196.97500762939453,
	"epoch": 0.6906206252916472,
	"grad_norm": 5.2841033935546875,
	"kl": 0.8533203125,
	"learning_rate": 2.644812827104933e-07,
	"loss": 0.1501,
	"reward": 1.175000047683716,
	"reward_std": 0.30686734020709994,
	"rewards/accuracy_reward": 0.2821428686380386,
	"rewards/format_reward": 0.8928571820259095,
	"step": 1480
	},
	{
	"completion_length": 186.7571533203125,
	"epoch": 0.6952869808679422,
	"grad_norm": 4.615259170532227,
	"kl": 0.45205078125,
	"learning_rate": 2.573260398759125e-07,
	"loss": 0.0948,
	"reward": 1.346428632736206,
	"reward_std": 0.12943540289998054,
	"rewards/accuracy_reward": 0.36785715967416766,
	"rewards/format_reward": 0.9785714387893677,
	"step": 1490
	},
	{
	"completion_length": 175.87857818603516,
	"epoch": 0.6999533364442371,
	"grad_norm": 2.3132364749908447,
	"kl": 0.661865234375,
	"learning_rate": 2.5023522869150705e-07,
	"loss": 0.0561,
	"reward": 1.2535714864730836,
	"reward_std": 0.21969022005796432,
	"rewards/accuracy_reward": 0.31785715371370316,
	"rewards/format_reward": 0.935714316368103,
	"step": 1500
	},
	{
	"completion_length": 187.2821517944336,
	"epoch": 0.704619692020532,
	"grad_norm": 29.17850685119629,
	"kl": 0.95556640625,
	"learning_rate": 2.432107318177217e-07,
	"loss": 0.1785,
	"reward": 1.3500000596046449,
	"reward_std": 0.25344905629754066,
	"rewards/accuracy_reward": 0.42142859399318694,
	"rewards/format_reward": 0.9285714566707611,
	"step": 1510
	},
	{
	"completion_length": 177.58572235107422,
	"epoch": 0.7092860475968269,
	"grad_norm": 1.220908284187317,
	"kl": 0.591015625,
	"learning_rate": 2.3625441430808347e-07,
	"loss": 0.0738,
	"reward": 1.4071429133415223,
	"reward_std": 0.21487789303064347,
	"rewards/accuracy_reward": 0.4714285969734192,
	"rewards/format_reward": 0.9357143044471741,
	"step": 1520
	},
	{
	"completion_length": 180.8821533203125,
	"epoch": 0.7139524031731218,
	"grad_norm": 4.141109943389893,
	"kl": 0.378857421875,
	"learning_rate": 2.2936812311401682e-07,
	"loss": 0.0597,
	"reward": 1.3000000715255737,
	"reward_std": 0.17239581793546677,
	"rewards/accuracy_reward": 0.3357143022119999,
	"rewards/format_reward": 0.9642857313156128,
	"step": 1530
	},
	{
	"completion_length": 183.73214874267578,
	"epoch": 0.7186187587494167,
	"grad_norm": 10.828474044799805,
	"kl": 0.504296875,
	"learning_rate": 2.225536865944646e-07,
	"loss": 0.0564,
	"reward": 1.3321429133415221,
	"reward_std": 0.14654723256826402,
	"rewards/accuracy_reward": 0.3607143074274063,
	"rewards/format_reward": 0.9714285850524902,
	"step": 1540
	},
	{
	"completion_length": 189.9714370727539,
	"epoch": 0.7232851143257116,
	"grad_norm": 7.55503511428833,
	"kl": 0.721484375,
	"learning_rate": 2.1581291403044632e-07,
	"loss": 0.1054,
	"reward": 1.2250000596046449,
	"reward_std": 0.2633721731603146,
	"rewards/accuracy_reward": 0.2892857283353806,
	"rewards/format_reward": 0.9357143104076385,
	"step": 1550
	},
	{
	"completion_length": 180.25000762939453,
	"epoch": 0.7279514699020065,
	"grad_norm": 9.971400260925293,
	"kl": 0.6979736328125,
	"learning_rate": 2.0914759514468106e-07,
	"loss": 0.1232,
	"reward": 1.2785714745521546,
	"reward_std": 0.2545368172228336,
	"rewards/accuracy_reward": 0.357142873480916,
	"rewards/format_reward": 0.9214286029338836,
	"step": 1560
	},
	{
	"completion_length": 198.396435546875,
	"epoch": 0.7326178254783015,
	"grad_norm": 9.208026885986328,
	"kl": 1.296337890625,
	"learning_rate": 2.0255949962640333e-07,
	"loss": 0.2623,
	"reward": 1.2785715103149413,
	"reward_std": 0.27719091176986693,
	"rewards/accuracy_reward": 0.3785714417695999,
	"rewards/format_reward": 0.900000023841858,
	"step": 1570
	},
	{
	"completion_length": 204.6928680419922,
	"epoch": 0.7372841810545964,
	"grad_norm": 7.680899620056152,
	"kl": 0.668994140625,
	"learning_rate": 1.9605037666149832e-07,
	"loss": 0.1278,
	"reward": 1.2857143521308898,
	"reward_std": 0.24715665131807327,
	"rewards/accuracy_reward": 0.357142873108387,
	"rewards/format_reward": 0.9285714566707611,
	"step": 1580
	},
	{
	"completion_length": 185.85357818603515,
	"epoch": 0.7419505366308913,
	"grad_norm": 8.488438606262207,
	"kl": 0.361083984375,
	"learning_rate": 1.8962195446808083e-07,
	"loss": 0.0404,
	"reward": 1.196428644657135,
	"reward_std": 0.25750192254781723,
	"rewards/accuracy_reward": 0.26785715520381925,
	"rewards/format_reward": 0.9285714507102967,
	"step": 1590
	},
	{
	"completion_length": 196.72500762939453,
	"epoch": 0.7466168922071862,
	"grad_norm": 4.548067092895508,
	"kl": 1.42060546875,
	"learning_rate": 1.8327593983764057e-07,
	"loss": 0.2529,
	"reward": 1.335714328289032,
	"reward_std": 0.377190912514925,
	"rewards/accuracy_reward": 0.4285714507102966,
	"rewards/format_reward": 0.9071428894996643,
	"step": 1600
	},
	{
	"completion_length": 177.2678649902344,
	"epoch": 0.7512832477834811,
	"grad_norm": 3.3683552742004395,
	"kl": 0.58388671875,
	"learning_rate": 1.770140176818774e-07,
	"loss": 0.0739,
	"reward": 1.3428571939468383,
	"reward_std": 0.18543876633048056,
	"rewards/accuracy_reward": 0.3642857313156128,
	"rewards/format_reward": 0.9785714387893677,
	"step": 1610
	},
	{
	"completion_length": 203.56429595947264,
	"epoch": 0.755949603359776,
	"grad_norm": 3.158090114593506,
	"kl": 0.81240234375,
	"learning_rate": 1.7083785058534566e-07,
	"loss": 0.1285,
	"reward": 1.2821429371833801,
	"reward_std": 0.24443381130695344,
	"rewards/accuracy_reward": 0.3392857268452644,
	"rewards/format_reward": 0.9428571701049805,
	"step": 1620
	},
	{
	"completion_length": 203.41429443359374,
	"epoch": 0.7606159589360709,
	"grad_norm": 3.8291237354278564,
	"kl": 1.1529296875,
	"learning_rate": 1.6474907836402507e-07,
	"loss": 0.1792,
	"reward": 1.2678571939468384,
	"reward_std": 0.24378738924860954,
	"rewards/accuracy_reward": 0.3464285895228386,
	"rewards/format_reward": 0.9214285969734192,
	"step": 1630
	},
	{
	"completion_length": 204.32500915527345,
	"epoch": 0.7652823145123658,
	"grad_norm": 127.166259765625,
	"kl": 1.08779296875,
	"learning_rate": 1.5874931762993933e-07,
	"loss": 0.1349,
	"reward": 1.196428620815277,
	"reward_std": 0.26433941870927813,
	"rewards/accuracy_reward": 0.28928572684526443,
	"rewards/format_reward": 0.9071428775787354,
	"step": 1640
	},
	{
	"completion_length": 210.50001068115233,
	"epoch": 0.7699486700886607,
	"grad_norm": 1.736830472946167,
	"kl": 0.989453125,
	"learning_rate": 1.5284016136193396e-07,
	"loss": 0.2122,
	"reward": 1.2178571939468383,
	"reward_std": 0.2605919159948826,
	"rewards/accuracy_reward": 0.2964285835623741,
	"rewards/format_reward": 0.9214286088943482,
	"step": 1650
	},
	{
	"completion_length": 201.36072235107423,
	"epoch": 0.7746150256649557,
	"grad_norm": 10.542801856994629,
	"kl": 1.331201171875,
	"learning_rate": 1.4702317848272838e-07,
	"loss": 0.2161,
	"reward": 1.3214286327362061,
	"reward_std": 0.28298772796988486,
	"rewards/accuracy_reward": 0.40000002086162567,
	"rewards/format_reward": 0.9214286029338836,
	"step": 1660
	},
	{
	"completion_length": 192.8857208251953,
	"epoch": 0.7792813812412506,
	"grad_norm": 6.193233966827393,
	"kl": 1.0849609375,
	"learning_rate": 1.4129991344235653e-07,
	"loss": 0.1358,
	"reward": 1.2321429014205934,
	"reward_std": 0.2178552895784378,
	"rewards/accuracy_reward": 0.31785715706646445,
	"rewards/format_reward": 0.9142857432365418,
	"step": 1670
	},
	{
	"completion_length": 173.0357223510742,
	"epoch": 0.7839477368175455,
	"grad_norm": 16.36906623840332,
	"kl": 0.372314453125,
	"learning_rate": 1.3567188580810435e-07,
	"loss": 0.0753,
	"reward": 1.4285714864730834,
	"reward_std": 0.19271938651800155,
	"rewards/accuracy_reward": 0.46428574323654176,
	"rewards/format_reward": 0.9642857313156128,
	"step": 1680
	},
	{
	"completion_length": 194.05357971191407,
	"epoch": 0.7886140923938404,
	"grad_norm": 2.392770290374756,
	"kl": 0.406396484375,
	"learning_rate": 1.3014058986105374e-07,
	"loss": 0.0856,
	"reward": 1.2535714864730836,
	"reward_std": 0.15812735334038736,
	"rewards/accuracy_reward": 0.2892857283353806,
	"rewards/format_reward": 0.9642857313156128,
	"step": 1690
	},
	{
	"completion_length": 175.20000762939452,
	"epoch": 0.7932804479701353,
	"grad_norm": 4.713147163391113,
	"kl": 0.342333984375,
	"learning_rate": 1.2470749419934057e-07,
	"loss": 0.0522,
	"reward": 1.435714340209961,
	"reward_std": 0.1269535943865776,
	"rewards/accuracy_reward": 0.4428571715950966,
	"rewards/format_reward": 0.9928571462631226,
	"step": 1700
	},
	{
	"completion_length": 178.71429595947265,
	"epoch": 0.7979468035464302,
	"grad_norm": 2.6368408203125,
	"kl": 0.63681640625,
	"learning_rate": 1.1937404134823175e-07,
	"loss": 0.0749,
	"reward": 1.2642857551574707,
	"reward_std": 0.21649573594331742,
	"rewards/accuracy_reward": 0.3000000137835741,
	"rewards/format_reward": 0.9642857313156128,
	"step": 1710
	},
	{
	"completion_length": 180.82500915527345,
	"epoch": 0.8026131591227251,
	"grad_norm": 4.20245361328125,
	"kl": 0.404296875,
	"learning_rate": 1.1414164737712401e-07,
	"loss": 0.0445,
	"reward": 1.3035714864730834,
	"reward_std": 0.21377288773655892,
	"rewards/accuracy_reward": 0.35357144474983215,
	"rewards/format_reward": 0.9500000178813934,
	"step": 1720
	},
	{
	"completion_length": 193.33929290771485,
	"epoch": 0.80727951469902,
	"grad_norm": 12.832620620727539,
	"kl": 0.924365234375,
	"learning_rate": 1.0901170152356775e-07,
	"loss": 0.1151,
	"reward": 1.2142857551574706,
	"reward_std": 0.24824440032243728,
	"rewards/accuracy_reward": 0.3000000149011612,
	"rewards/format_reward": 0.9142857551574707,
	"step": 1730
	},
	{
	"completion_length": 195.20358123779297,
	"epoch": 0.811945870275315,
	"grad_norm": 8.172798156738281,
	"kl": 0.75888671875,
	"learning_rate": 1.0398556582441481e-07,
	"loss": 0.1337,
	"reward": 1.271428644657135,
	"reward_std": 0.271032539755106,
	"rewards/accuracy_reward": 0.3428571570664644,
	"rewards/format_reward": 0.9285714626312256,
	"step": 1740
	},
	{
	"completion_length": 183.7714385986328,
	"epoch": 0.8166122258516099,
	"grad_norm": 12.028782844543457,
	"kl": 1.259375,
	"learning_rate": 9.906457475418778e-08,
	"loss": 0.1913,
	"reward": 1.3107143759727478,
	"reward_std": 0.25871951803565024,
	"rewards/accuracy_reward": 0.38214287757873533,
	"rewards/format_reward": 0.9285714566707611,
	"step": 1750
	},
	{
	"completion_length": 195.21072387695312,
	"epoch": 0.8212785814279048,
	"grad_norm": 8.357789039611816,
	"kl": 0.935986328125,
	"learning_rate": 9.425003487076789e-08,
	"loss": 0.1143,
	"reward": 1.2392857670783997,
	"reward_std": 0.2283131591975689,
	"rewards/accuracy_reward": 0.30357144549489024,
	"rewards/format_reward": 0.9357143104076385,
	"step": 1760
	},
	{
	"completion_length": 186.48572387695313,
	"epoch": 0.8259449370041997,
	"grad_norm": 4.591169834136963,
	"kl": 0.8271484375,
	"learning_rate": 8.954322446849444e-08,
	"loss": 0.1123,
	"reward": 1.3535715103149415,
	"reward_std": 0.23052316084504126,
	"rewards/accuracy_reward": 0.40357144773006437,
	"rewards/format_reward": 0.9500000238418579,
	"step": 1770
	},
	{
	"completion_length": 203.71072082519532,
	"epoch": 0.8306112925804946,
	"grad_norm": 4.072372913360596,
	"kl": 1.01142578125,
	"learning_rate": 8.494539323876871e-08,
	"loss": 0.1496,
	"reward": 1.2678571939468384,
	"reward_std": 0.24972448274493217,
	"rewards/accuracy_reward": 0.34642858654260633,
	"rewards/format_reward": 0.9214285969734192,
	"step": 1780
	},
	{
	"completion_length": 173.66429290771484,
	"epoch": 0.8352776481567895,
	"grad_norm": 1.4727064371109009,
	"kl": 0.4848876953125,
	"learning_rate": 8.045776193825204e-08,
	"loss": 0.0449,
	"reward": 1.335714340209961,
	"reward_std": 0.20700509771704673,
	"rewards/accuracy_reward": 0.3857143074274063,
	"rewards/format_reward": 0.9500000238418579,
	"step": 1790
	},
	{
	"completion_length": 178.2857223510742,
	"epoch": 0.8399440037330844,
	"grad_norm": 2.1876659393310547,
	"kl": 0.60693359375,
	"learning_rate": 7.608152206474638e-08,
	"loss": 0.0354,
	"reward": 1.36071435213089,
	"reward_std": 0.2141479544341564,
	"rewards/accuracy_reward": 0.41071430742740633,
	"rewards/format_reward": 0.9500000238418579,
	"step": 1800
	},
	{
	"completion_length": 184.4964370727539,
	"epoch": 0.8446103593093793,
	"grad_norm": 1.164255976676941,
	"kl": 0.330322265625,
	"learning_rate": 7.181783554084308e-08,
	"loss": 0.0332,
	"reward": 1.3071429133415222,
	"reward_std": 0.13999654576182366,
	"rewards/accuracy_reward": 0.32142859026789666,
	"rewards/format_reward": 0.9857142925262451,
	"step": 1810
	},
	{
	"completion_length": 180.47501068115236,
	"epoch": 0.8492767148856742,
	"grad_norm": 17.824142456054688,
	"kl": 0.4853271484375,
	"learning_rate": 6.766783440542434e-08,
	"loss": 0.0599,
	"reward": 1.2642857670783996,
	"reward_std": 0.19838216677308082,
	"rewards/accuracy_reward": 0.32857144847512243,
	"rewards/format_reward": 0.935714316368103,
	"step": 1820
	},
	{
	"completion_length": 187.25000915527343,
	"epoch": 0.8539430704619692,
	"grad_norm": 7.02644681930542,
	"kl": 0.693896484375,
	"learning_rate": 6.363262051309908e-08,
	"loss": 0.1129,
	"reward": 1.2892857670783997,
	"reward_std": 0.27438203766942026,
	"rewards/accuracy_reward": 0.35357144474983215,
	"rewards/format_reward": 0.9357143104076385,
	"step": 1830
	},
	{
	"completion_length": 190.3964370727539,
	"epoch": 0.8586094260382641,
	"grad_norm": 0.5623534321784973,
	"kl": 0.6712890625,
	"learning_rate": 5.971326524165226e-08,
	"loss": 0.1025,
	"reward": 1.296428644657135,
	"reward_std": 0.2583474151790142,
	"rewards/accuracy_reward": 0.36785715967416766,
	"rewards/format_reward": 0.9285714566707611,
	"step": 1840
	},
	{
	"completion_length": 191.0107223510742,
	"epoch": 0.863275781614559,
	"grad_norm": 0.3061552047729492,
	"kl": 0.79541015625,
	"learning_rate": 5.591080920758695e-08,
	"loss": 0.1553,
	"reward": 1.2821429252624512,
	"reward_std": 0.2908777602016926,
	"rewards/accuracy_reward": 0.3678571581840515,
	"rewards/format_reward": 0.9142857491970062,
	"step": 1850
	},
	{
	"completion_length": 190.6214385986328,
	"epoch": 0.8679421371908539,
	"grad_norm": 4.034696578979492,
	"kl": 0.664599609375,
	"learning_rate": 5.22262619898331e-08,
	"loss": 0.1263,
	"reward": 1.2821429133415223,
	"reward_std": 0.24259887337684632,
	"rewards/accuracy_reward": 0.3464285880327225,
	"rewards/format_reward": 0.935714316368103,
	"step": 1860
	},
	{
	"completion_length": 192.10358276367188,
	"epoch": 0.8726084927671488,
	"grad_norm": 11.7506742477417,
	"kl": 1.0009765625,
	"learning_rate": 4.8660601861697294e-08,
	"loss": 0.1442,
	"reward": 1.3321429133415221,
	"reward_std": 0.2509672470390797,
	"rewards/accuracy_reward": 0.39642858803272246,
	"rewards/format_reward": 0.935714316368103,
	"step": 1870
	},
	{
	"completion_length": 194.44286346435547,
	"epoch": 0.8772748483434438,
	"grad_norm": 2.883983850479126,
	"kl": 0.7970703125,
	"learning_rate": 4.5214775531124184e-08,
	"loss": 0.0791,
	"reward": 1.2214286148548126,
	"reward_std": 0.2235020525753498,
	"rewards/accuracy_reward": 0.2785714402794838,
	"rewards/format_reward": 0.9428571581840515,
	"step": 1880
	},
	{
	"completion_length": 177.9107223510742,
	"epoch": 0.8819412039197387,
	"grad_norm": 12.7833251953125,
	"kl": 0.6814453125,
	"learning_rate": 4.188969788933899e-08,
	"loss": 0.0794,
	"reward": 1.2928571939468383,
	"reward_std": 0.2521940000355244,
	"rewards/accuracy_reward": 0.36428572833538053,
	"rewards/format_reward": 0.9285714507102967,
	"step": 1890
	},
	{
	"completion_length": 181.83929595947265,
	"epoch": 0.8866075594960336,
	"grad_norm": 1.639757513999939,
	"kl": 1.08232421875,
	"learning_rate": 3.8686251767937325e-08,
	"loss": 0.1071,
	"reward": 1.3000000596046448,
	"reward_std": 0.22904308661818504,
	"rewards/accuracy_reward": 0.35714287161827085,
	"rewards/format_reward": 0.942857164144516,
	"step": 1900
	},
	{
	"completion_length": 192.0964370727539,
	"epoch": 0.8912739150723286,
	"grad_norm": 3.8928933143615723,
	"kl": 0.3626220703125,
	"learning_rate": 3.560528770448712e-08,
	"loss": 0.064,
	"reward": 1.3571429014205934,
	"reward_std": 0.14244568049907685,
	"rewards/accuracy_reward": 0.3928571566939354,
	"rewards/format_reward": 0.9642857313156128,
	"step": 1910
	},
	{
	"completion_length": 198.77500915527344,
	"epoch": 0.8959402706486235,
	"grad_norm": 4.202512741088867,
	"kl": 0.386767578125,
	"learning_rate": 3.264762371670493e-08,
	"loss": 0.0725,
	"reward": 1.2428572058677674,
	"reward_std": 0.18409645855426787,
	"rewards/accuracy_reward": 0.2928571604192257,
	"rewards/format_reward": 0.9500000238418579,
	"step": 1920
	},
	{
	"completion_length": 182.1321548461914,
	"epoch": 0.9006066262249184,
	"grad_norm": 8.796235084533691,
	"kl": 0.31845703125,
	"learning_rate": 2.981404508526653e-08,
	"loss": 0.049,
	"reward": 1.3142857670783996,
	"reward_std": 0.19875723943114282,
	"rewards/accuracy_reward": 0.35714287757873536,
	"rewards/format_reward": 0.9571428775787354,
	"step": 1930
	},
	{
	"completion_length": 183.12857818603516,
	"epoch": 0.9052729818012133,
	"grad_norm": 5.363933086395264,
	"kl": 0.4515380859375,
	"learning_rate": 2.7105304145309317e-08,
	"loss": 0.0753,
	"reward": 1.3535714864730835,
	"reward_std": 0.22955592721700668,
	"rewards/accuracy_reward": 0.40357145145535467,
	"rewards/format_reward": 0.9500000238418579,
	"step": 1940
	},
	{
	"completion_length": 178.5964370727539,
	"epoch": 0.9099393373775082,
	"grad_norm": 4.07145357131958,
	"kl": 0.243212890625,
	"learning_rate": 2.4522120086681975e-08,
	"loss": 0.035,
	"reward": 1.3750000596046448,
	"reward_std": 0.1731257550418377,
	"rewards/accuracy_reward": 0.38928572833538055,
	"rewards/format_reward": 0.9857142925262451,
	"step": 1950
	},
	{
	"completion_length": 191.87858123779296,
	"epoch": 0.9146056929538031,
	"grad_norm": 4.126840114593506,
	"kl": 0.7501953125,
	"learning_rate": 2.2065178762994517e-08,
	"loss": 0.1034,
	"reward": 1.2821429014205932,
	"reward_std": 0.1828709363937378,
	"rewards/accuracy_reward": 0.3392857313156128,
	"rewards/format_reward": 0.942857164144516,
	"step": 1960
	},
	{
	"completion_length": 191.27857818603516,
	"epoch": 0.919272048530098,
	"grad_norm": 3.2844011783599854,
	"kl": 1.066259765625,
	"learning_rate": 1.9735132509519302e-08,
	"loss": 0.1838,
	"reward": 1.271428632736206,
	"reward_std": 0.33275041803717614,
	"rewards/accuracy_reward": 0.35714287757873536,
	"rewards/format_reward": 0.9142857491970062,
	"step": 1970
	},
	{
	"completion_length": 182.68929290771484,
	"epoch": 0.9239384041063929,
	"grad_norm": 5.930522441864014,
	"kl": 0.534765625,
	"learning_rate": 1.7532599969991347e-08,
	"loss": 0.0479,
	"reward": 1.2785714864730835,
	"reward_std": 0.19234431087970733,
	"rewards/accuracy_reward": 0.3214285895228386,
	"rewards/format_reward": 0.9571428775787354,
	"step": 1980
	},
	{
	"completion_length": 178.8928649902344,
	"epoch": 0.9286047596826879,
	"grad_norm": 0.8274029493331909,
	"kl": 0.40849609375,
	"learning_rate": 1.545816593235416e-08,
	"loss": 0.0388,
	"reward": 1.3142857789993285,
	"reward_std": 0.20442002266645432,
	"rewards/accuracy_reward": 0.3500000134110451,
	"rewards/format_reward": 0.9642857313156128,
	"step": 1990
	},
	{
	"completion_length": 188.56786499023437,
	"epoch": 0.9332711152589828,
	"grad_norm": 6.531651020050049,
	"kl": 1.097607421875,
	"learning_rate": 1.3512381173494458e-08,
	"loss": 0.2064,
	"reward": 1.3535714983940124,
	"reward_std": 0.24394118189811706,
	"rewards/accuracy_reward": 0.4250000178813934,
	"rewards/format_reward": 0.9285714626312256,
	"step": 2000
	},
	{
	"completion_length": 194.05000762939454,
	"epoch": 0.9379374708352777,
	"grad_norm": 7.329962253570557,
	"kl": 0.97109375,
	"learning_rate": 1.169576231300684e-08,
	"loss": 0.1501,
	"reward": 1.2750000476837158,
	"reward_std": 0.3136565685272217,
	"rewards/accuracy_reward": 0.3607142955064774,
	"rewards/format_reward": 0.9142857491970062,
	"step": 2010
	},
	{
	"completion_length": 198.34286499023438,
	"epoch": 0.9426038264115726,
	"grad_norm": 5.229209899902344,
	"kl": 0.5191162109375,
	"learning_rate": 1.000879167602764e-08,
	"loss": 0.087,
	"reward": 1.285714340209961,
	"reward_std": 0.1509844921529293,
	"rewards/accuracy_reward": 0.32857144698500634,
	"rewards/format_reward": 0.9571428775787354,
	"step": 2020
	},
	{
	"completion_length": 202.35357971191405,
	"epoch": 0.9472701819878675,
	"grad_norm": 2.168286085128784,
	"kl": 0.821923828125,
	"learning_rate": 8.451917165174404e-09,
	"loss": 0.1315,
	"reward": 1.3642857670783997,
	"reward_std": 0.23890879452228547,
	"rewards/accuracy_reward": 0.4214285880327225,
	"rewards/format_reward": 0.9428571581840515,
	"step": 2030
	},
	{
	"completion_length": 205.11786346435548,
	"epoch": 0.9519365375641624,
	"grad_norm": 11.269577980041504,
	"kl": 1.1117919921875,
	"learning_rate": 7.025552141624369e-09,
	"loss": 0.2032,
	"reward": 1.1714286088943482,
	"reward_std": 0.2642820030450821,
	"rewards/accuracy_reward": 0.2571428693830967,
	"rewards/format_reward": 0.9142857372760773,
	"step": 2040
	},
	{
	"completion_length": 190.096435546875,
	"epoch": 0.9566028931404573,
	"grad_norm": 0.18682968616485596,
	"kl": 0.72197265625,
	"learning_rate": 5.730075315364346e-09,
	"loss": 0.1334,
	"reward": 1.2321429133415223,
	"reward_std": 0.25800683721899986,
	"rewards/accuracy_reward": 0.29642858505249026,
	"rewards/format_reward": 0.935714316368103,
	"step": 2050
	},
	{
	"completion_length": 184.56429443359374,
	"epoch": 0.9612692487167522,
	"grad_norm": 2.113898754119873,
	"kl": 0.876220703125,
	"learning_rate": 4.565830644640223e-09,
	"loss": 0.1067,
	"reward": 1.271428632736206,
	"reward_std": 0.3147573724389076,
	"rewards/accuracy_reward": 0.3642857313156128,
	"rewards/format_reward": 0.9071428894996643,
	"step": 2060
	},
	{
	"completion_length": 184.8857208251953,
	"epoch": 0.9659356042930471,
	"grad_norm": 6.786799907684326,
	"kl": 0.4216796875,
	"learning_rate": 3.533127244634171e-09,
	"loss": 0.046,
	"reward": 1.3571429133415223,
	"reward_std": 0.17572808191180228,
	"rewards/accuracy_reward": 0.38571430146694186,
	"rewards/format_reward": 0.9714285790920257,
	"step": 2070
	},
	{
	"completion_length": 188.2321517944336,
	"epoch": 0.9706019598693421,
	"grad_norm": 6.5551042556762695,
	"kl": 0.491552734375,
	"learning_rate": 2.6322393053916925e-09,
	"loss": 0.082,
	"reward": 1.2392857670783997,
	"reward_std": 0.24259887263178825,
	"rewards/accuracy_reward": 0.29642858952283857,
	"rewards/format_reward": 0.9428571701049805,
	"step": 2080
	},
	{
	"completion_length": 197.81429748535157,
	"epoch": 0.975268315445637,
	"grad_norm": 3.5728259086608887,
	"kl": 0.3767578125,
	"learning_rate": 1.86340601902274e-09,
	"loss": 0.052,
	"reward": 1.2035714983940125,
	"reward_std": 0.18816160932183265,
	"rewards/accuracy_reward": 0.26071429550647734,
	"rewards/format_reward": 0.9428571701049805,
	"step": 2090
	},
	{
	"completion_length": 184.00000915527343,
	"epoch": 0.9799346710219319,
	"grad_norm": 8.470995903015137,
	"kl": 0.66552734375,
	"learning_rate": 1.2268315161944044e-09,
	"loss": 0.0892,
	"reward": 1.2678572058677673,
	"reward_std": 0.16525296717882157,
	"rewards/accuracy_reward": 0.2964285921305418,
	"rewards/format_reward": 0.9714285850524902,
	"step": 2100
	},
	{
	"completion_length": 190.1964370727539,
	"epoch": 0.9846010265982268,
	"grad_norm": 5.933376312255859,
	"kl": 0.58525390625,
	"learning_rate": 7.226848119326057e-10,
	"loss": 0.0743,
	"reward": 1.2571429133415222,
	"reward_std": 0.20183914229273797,
	"rewards/accuracy_reward": 0.3285714477300644,
	"rewards/format_reward": 0.9285714566707611,
	"step": 2110
	},
	{
	"completion_length": 203.46429290771485,
	"epoch": 0.9892673821745217,
	"grad_norm": 11.98684310913086,
	"kl": 0.8004150390625,
	"learning_rate": 3.510997607475974e-10,
	"loss": 0.144,
	"reward": 1.2071429133415221,
	"reward_std": 0.29701889082789423,
	"rewards/accuracy_reward": 0.28571429923176767,
	"rewards/format_reward": 0.9214285969734192,
	"step": 2120
	},
	{
	"completion_length": 193.4964370727539,
	"epoch": 0.9939337377508166,
	"grad_norm": 1.8809298276901245,
	"kl": 0.745263671875,
	"learning_rate": 1.121750210946737e-10,
	"loss": 0.1279,
	"reward": 1.2571429133415222,
	"reward_std": 0.26994478702545166,
	"rewards/accuracy_reward": 0.3357143022119999,
	"rewards/format_reward": 0.9214286029338836,
	"step": 2130
	},
	{
	"completion_length": 185.08929443359375,
	"epoch": 0.9986000933271115,
	"grad_norm": 1.6485497951507568,
	"kl": 0.567529296875,
	"learning_rate": 5.974029179456331e-12,
	"loss": 0.097,
	"reward": 1.310714328289032,
	"reward_std": 0.1667502835392952,
	"rewards/accuracy_reward": 0.3535714462399483,
	"rewards/format_reward": 0.9571428775787354,
	"step": 2140
	},
	{
	"epoch": 1.0,
	"eval_completion_length": 203.0802721296038,
	"eval_kl": 0.6515764508928571,
	"eval_loss": 0.1416667252779007,
	"eval_reward": 1.1919643453189306,
	"eval_reward_std": 0.2649446129798889,
	"eval_rewards/accuracy_reward": 0.24681123665400914,
	"eval_rewards/format_reward": 0.9451530916350228,
	"eval_runtime": 118.4791,
	"eval_samples_per_second": 2.532,
	"eval_steps_per_second": 0.025,
	"step": 2143
	},
	{
	"epoch": 1.0,
	"step": 2143,
	"total_flos": 0.0,
	"train_loss": 0.08651691437249102,
	"train_runtime": 12893.4863,
	"train_samples_per_second": 1.163,
	"train_steps_per_second": 0.166
	}
	],
	"logging_steps": 10,
	"max_steps": 2143,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": false,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}