Qwen2.5-1.5B-Open-R1-GRPO / trainer_state.json

Model save

9afce01 verified about 1 year ago

53.8 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9992131527726011,
	"eval_steps": 100,
	"global_step": 1131,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"completion_length": 894.0125112533569,
	"epoch": 0.008834775886583565,
	"grad_norm": 0.10339409232367645,
	"kl": 6.553309503942728e-05,
	"learning_rate": 1.7543859649122807e-06,
	"loss": 0.0,
	"reward": 0.20572917186655104,
	"reward_std": 0.22462533507496119,
	"rewards/accuracy_reward": 0.20572917186655104,
	"rewards/format_reward": 0.0,
	"step": 10
	},
	{
	"completion_length": 871.2338674545288,
	"epoch": 0.01766955177316713,
	"grad_norm": 0.1191837579508088,
	"kl": 0.0008328911615535616,
	"learning_rate": 3.5087719298245615e-06,
	"loss": 0.0,
	"reward": 0.250000006519258,
	"reward_std": 0.275143482722342,
	"rewards/accuracy_reward": 0.250000006519258,
	"rewards/format_reward": 0.0,
	"step": 20
	},
	{
	"completion_length": 805.9927246570587,
	"epoch": 0.026504327659750693,
	"grad_norm": 0.11427842333813355,
	"kl": 0.006137973070144654,
	"learning_rate": 5.263157894736842e-06,
	"loss": 0.0002,
	"reward": 0.3583333409391344,
	"reward_std": 0.3040109956637025,
	"rewards/accuracy_reward": 0.3583333409391344,
	"rewards/format_reward": 0.0,
	"step": 30
	},
	{
	"completion_length": 815.7588698387146,
	"epoch": 0.03533910354633426,
	"grad_norm": 0.1094331129364983,
	"kl": 0.011934018135070801,
	"learning_rate": 7.017543859649123e-06,
	"loss": 0.0005,
	"reward": 0.3635416746605188,
	"reward_std": 0.31483631301671267,
	"rewards/accuracy_reward": 0.3635416746605188,
	"rewards/format_reward": 0.0,
	"step": 40
	},
	{
	"completion_length": 811.1395996570587,
	"epoch": 0.044173879432917826,
	"grad_norm": 0.11064742736511399,
	"kl": 0.027907085418701173,
	"learning_rate": 8.771929824561405e-06,
	"loss": 0.0011,
	"reward": 0.38958334126509725,
	"reward_std": 0.31934686191380024,
	"rewards/accuracy_reward": 0.38958334126509725,
	"rewards/format_reward": 0.0,
	"step": 50
	},
	{
	"completion_length": 729.52032995224,
	"epoch": 0.053008655319501385,
	"grad_norm": 0.5600590072843962,
	"kl": 0.11420574188232421,
	"learning_rate": 1.0526315789473684e-05,
	"loss": 0.0046,
	"reward": 0.47083334238268437,
	"reward_std": 0.34550804551690817,
	"rewards/accuracy_reward": 0.47083334238268437,
	"rewards/format_reward": 0.0,
	"step": 60
	},
	{
	"completion_length": 748.378140592575,
	"epoch": 0.06184343120608495,
	"grad_norm": 0.49897174304455477,
	"kl": 0.4907238006591797,
	"learning_rate": 1.2280701754385966e-05,
	"loss": 0.0196,
	"reward": 0.35729167410172524,
	"reward_std": 0.3094236543402076,
	"rewards/accuracy_reward": 0.35729167410172524,
	"rewards/format_reward": 0.0,
	"step": 70
	},
	{
	"completion_length": 731.9463713169098,
	"epoch": 0.07067820709266852,
	"grad_norm": 2.1010371186603622,
	"kl": 0.5549324035644532,
	"learning_rate": 1.4035087719298246e-05,
	"loss": 0.0222,
	"reward": 0.39947917480021716,
	"reward_std": 0.3283679597079754,
	"rewards/accuracy_reward": 0.39947917480021716,
	"rewards/format_reward": 0.0,
	"step": 80
	},
	{
	"completion_length": 636.9864743709564,
	"epoch": 0.07951298297925208,
	"grad_norm": 0.3320296791157868,
	"kl": 0.8359504699707031,
	"learning_rate": 1.578947368421053e-05,
	"loss": 0.0334,
	"reward": 0.35625000754371283,
	"reward_std": 0.30491310544312,
	"rewards/accuracy_reward": 0.35625000754371283,
	"rewards/format_reward": 0.0,
	"step": 90
	},
	{
	"completion_length": 752.3406419754028,
	"epoch": 0.08834775886583565,
	"grad_norm": 13.222864026304222,
	"kl": 1.2244148254394531,
	"learning_rate": 1.754385964912281e-05,
	"loss": 0.049,
	"reward": 0.3458333408460021,
	"reward_std": 0.2922835685312748,
	"rewards/accuracy_reward": 0.3458333408460021,
	"rewards/format_reward": 0.0,
	"step": 100
	},
	{
	"epoch": 0.08834775886583565,
	"eval_completion_length": 806.9528756189828,
	"eval_kl": 0.7132556029040404,
	"eval_loss": 0.028531787917017937,
	"eval_reward": 0.3063973137224563,
	"eval_reward_std": 0.3090865022004253,
	"eval_rewards/accuracy_reward": 0.3063973137224563,
	"eval_rewards/format_reward": 0.0,
	"eval_runtime": 538.1844,
	"eval_samples_per_second": 0.184,
	"eval_steps_per_second": 0.061,
	"step": 100
	},
	{
	"completion_length": 788.5630361557007,
	"epoch": 0.09718253475241921,
	"grad_norm": 1.9841707275878488,
	"kl": 1.9315879821777344,
	"learning_rate": 1.929824561403509e-05,
	"loss": 0.0773,
	"reward": 0.3375000071246177,
	"reward_std": 0.28867512941360474,
	"rewards/accuracy_reward": 0.3375000071246177,
	"rewards/format_reward": 0.0,
	"step": 110
	},
	{
	"completion_length": 782.2432436466217,
	"epoch": 0.10601731063900277,
	"grad_norm": 1.6220755341742679,
	"kl": 1.2291488647460938,
	"learning_rate": 1.9998282416292057e-05,
	"loss": 0.0492,
	"reward": 0.29166667312383654,
	"reward_std": 0.2625139458104968,
	"rewards/accuracy_reward": 0.29166667312383654,
	"rewards/format_reward": 0.0,
	"step": 120
	},
	{
	"completion_length": 855.3958479881287,
	"epoch": 0.11485208652558634,
	"grad_norm": 1.2506380617356658,
	"kl": 0.8863227844238282,
	"learning_rate": 1.9987788208027496e-05,
	"loss": 0.0355,
	"reward": 0.3015625067986548,
	"reward_std": 0.2796540316194296,
	"rewards/accuracy_reward": 0.3015625067986548,
	"rewards/format_reward": 0.0,
	"step": 130
	},
	{
	"completion_length": 923.2276175498962,
	"epoch": 0.1236868624121699,
	"grad_norm": 0.7947305780961375,
	"kl": 0.8832084655761718,
	"learning_rate": 1.9967764005730785e-05,
	"loss": 0.0353,
	"reward": 0.17343750461004676,
	"reward_std": 0.2128979079425335,
	"rewards/accuracy_reward": 0.17343750461004676,
	"rewards/format_reward": 0.0,
	"step": 140
	},
	{
	"completion_length": 867.6395987987519,
	"epoch": 0.13252163829875346,
	"grad_norm": 0.497580876778096,
	"kl": 0.5946540832519531,
	"learning_rate": 1.993822891578708e-05,
	"loss": 0.0238,
	"reward": 0.18281250479631125,
	"reward_std": 0.2192126763984561,
	"rewards/accuracy_reward": 0.18281250479631125,
	"rewards/format_reward": 0.0,
	"step": 150
	},
	{
	"completion_length": 718.904184293747,
	"epoch": 0.14135641418533704,
	"grad_norm": 1.857046714456291,
	"kl": 0.6682144165039062,
	"learning_rate": 1.9899211119533938e-05,
	"loss": 0.0267,
	"reward": 0.3848958414513618,
	"reward_std": 0.33107428904622793,
	"rewards/accuracy_reward": 0.3848958414513618,
	"rewards/format_reward": 0.0,
	"step": 160
	},
	{
	"completion_length": 918.8239655733108,
	"epoch": 0.1501911900719206,
	"grad_norm": 0.20248662305659806,
	"kl": 0.5040359497070312,
	"learning_rate": 1.985074784637167e-05,
	"loss": 0.0202,
	"reward": 0.09479166907258332,
	"reward_std": 0.09923207573592663,
	"rewards/accuracy_reward": 0.09479166907258332,
	"rewards/format_reward": 0.0,
	"step": 170
	},
	{
	"completion_length": 827.5974071979523,
	"epoch": 0.15902596595850416,
	"grad_norm": 0.19897870444761726,
	"kl": 0.17742691040039063,
	"learning_rate": 1.9792885338240375e-05,
	"loss": 0.0071,
	"reward": 0.17291667088866233,
	"reward_std": 0.17771562654525042,
	"rewards/accuracy_reward": 0.17291667088866233,
	"rewards/format_reward": 0.0,
	"step": 180
	},
	{
	"completion_length": 696.4333508253097,
	"epoch": 0.16786074184508773,
	"grad_norm": 0.4541804472147627,
	"kl": 0.3155979156494141,
	"learning_rate": 1.9725678805497507e-05,
	"loss": 0.0126,
	"reward": 0.42395834233611823,
	"reward_std": 0.3536270335316658,
	"rewards/accuracy_reward": 0.42395834233611823,
	"rewards/format_reward": 0.0,
	"step": 190
	},
	{
	"completion_length": 709.8849118709564,
	"epoch": 0.1766955177316713,
	"grad_norm": 0.5097645308657522,
	"kl": 1.0620399475097657,
	"learning_rate": 1.964919237423812e-05,
	"loss": 0.0425,
	"reward": 0.2687500062398612,
	"reward_std": 0.2625139458104968,
	"rewards/accuracy_reward": 0.2687500062398612,
	"rewards/format_reward": 0.0,
	"step": 200
	},
	{
	"epoch": 0.1766955177316713,
	"eval_completion_length": 699.2357113000119,
	"eval_kl": 0.9798473011363636,
	"eval_loss": 0.039183806627988815,
	"eval_reward": 0.3872053963367385,
	"eval_reward_std": 0.34990924777406635,
	"eval_rewards/accuracy_reward": 0.3872053963367385,
	"eval_rewards/format_reward": 0.0,
	"eval_runtime": 513.8181,
	"eval_samples_per_second": 0.193,
	"eval_steps_per_second": 0.064,
	"step": 200
	},
	{
	"completion_length": 786.7765783786774,
	"epoch": 0.18553029361825485,
	"grad_norm": 0.15936983650030578,
	"kl": 1.27841796875,
	"learning_rate": 1.9563499025108e-05,
	"loss": 0.0511,
	"reward": 0.25937500610016284,
	"reward_std": 0.25980761647224426,
	"rewards/accuracy_reward": 0.25937500610016284,
	"rewards/format_reward": 0.0,
	"step": 210
	},
	{
	"completion_length": 909.2531366825103,
	"epoch": 0.19436506950483842,
	"grad_norm": 0.15108105876463188,
	"kl": 0.6172576904296875,
	"learning_rate": 1.9468680523668136e-05,
	"loss": 0.0247,
	"reward": 0.08593750246800483,
	"reward_std": 0.11998060066252947,
	"rewards/accuracy_reward": 0.08593750246800483,
	"rewards/format_reward": 0.0,
	"step": 220
	},
	{
	"completion_length": 847.0453273773194,
	"epoch": 0.203199845391422,
	"grad_norm": 0.4781092711117684,
	"kl": 0.719610595703125,
	"learning_rate": 1.936482734237689e-05,
	"loss": 0.0288,
	"reward": 0.1854166716337204,
	"reward_std": 0.2201147861778736,
	"rewards/accuracy_reward": 0.1854166716337204,
	"rewards/format_reward": 0.0,
	"step": 230
	},
	{
	"completion_length": 844.9718894481659,
	"epoch": 0.21203462127800554,
	"grad_norm": 0.6125806510450937,
	"kl": 0.6312515258789062,
	"learning_rate": 1.9252038574264403e-05,
	"loss": 0.0253,
	"reward": 0.1963541720993817,
	"reward_std": 0.25168862845748663,
	"rewards/accuracy_reward": 0.1963541720993817,
	"rewards/format_reward": 0.0,
	"step": 240
	},
	{
	"completion_length": 716.1927267074585,
	"epoch": 0.22086939716458912,
	"grad_norm": 0.42158257729983767,
	"kl": 1.013921356201172,
	"learning_rate": 1.913042183838153e-05,
	"loss": 0.0406,
	"reward": 0.3276041746605188,
	"reward_std": 0.3418996063992381,
	"rewards/accuracy_reward": 0.3276041746605188,
	"rewards/format_reward": 0.0,
	"step": 250
	},
	{
	"completion_length": 772.1078284740448,
	"epoch": 0.2297041730511727,
	"grad_norm": 0.49721786332420803,
	"kl": 1.1279647827148438,
	"learning_rate": 1.9000093177113524e-05,
	"loss": 0.0451,
	"reward": 0.25833333977498113,
	"reward_std": 0.27604559250175953,
	"rewards/accuracy_reward": 0.25833333977498113,
	"rewards/format_reward": 0.0,
	"step": 260
	},
	{
	"completion_length": 798.2672049999237,
	"epoch": 0.23853894893775623,
	"grad_norm": 0.6009045781426623,
	"kl": 0.8998489379882812,
	"learning_rate": 1.8861176945456542e-05,
	"loss": 0.036,
	"reward": 0.26093750656582415,
	"reward_std": 0.2931856783106923,
	"rewards/accuracy_reward": 0.26093750656582415,
	"rewards/format_reward": 0.0,
	"step": 270
	},
	{
	"completion_length": 739.2422043561935,
	"epoch": 0.2473737248243398,
	"grad_norm": 0.9064888423502573,
	"kl": 1.204058837890625,
	"learning_rate": 1.8713805692362458e-05,
	"loss": 0.0482,
	"reward": 0.31979167396202685,
	"reward_std": 0.30761943478137255,
	"rewards/accuracy_reward": 0.31979167396202685,
	"rewards/format_reward": 0.0,
	"step": 280
	},
	{
	"completion_length": 823.738035774231,
	"epoch": 0.2562085007109234,
	"grad_norm": 0.4395412639205522,
	"kl": 0.8689178466796875,
	"learning_rate": 1.8558120034265396e-05,
	"loss": 0.0348,
	"reward": 0.24218750628642738,
	"reward_std": 0.275143482722342,
	"rewards/accuracy_reward": 0.24218750628642738,
	"rewards/format_reward": 0.0,
	"step": 290
	},
	{
	"completion_length": 866.1130366325378,
	"epoch": 0.2650432765975069,
	"grad_norm": 0.4910227951322757,
	"kl": 0.7059478759765625,
	"learning_rate": 1.8394268520910467e-05,
	"loss": 0.0282,
	"reward": 0.236458339728415,
	"reward_std": 0.27153504360467196,
	"rewards/accuracy_reward": 0.236458339728415,
	"rewards/format_reward": 0.0,
	"step": 300
	},
	{
	"epoch": 0.2650432765975069,
	"eval_completion_length": 855.1784671051333,
	"eval_kl": 0.9380622632575758,
	"eval_loss": 0.03754038363695145,
	"eval_reward": 0.2558922623143052,
	"eval_reward_std": 0.2857592190154875,
	"eval_rewards/accuracy_reward": 0.2558922623143052,
	"eval_rewards/format_reward": 0.0,
	"eval_runtime": 552.4722,
	"eval_samples_per_second": 0.179,
	"eval_steps_per_second": 0.06,
	"step": 300
	},
	{
	"completion_length": 812.8906393527984,
	"epoch": 0.27387805248409053,
	"grad_norm": 0.8576089815755503,
	"kl": 1.0579757690429688,
	"learning_rate": 1.8222407493612878e-05,
	"loss": 0.0423,
	"reward": 0.2651041731238365,
	"reward_std": 0.27153504360467196,
	"rewards/accuracy_reward": 0.2651041731238365,
	"rewards/format_reward": 0.0,
	"step": 310
	},
	{
	"completion_length": 733.2239722013474,
	"epoch": 0.2827128283706741,
	"grad_norm": 0.2427855401581468,
	"kl": 0.7223701477050781,
	"learning_rate": 1.8042700936082574e-05,
	"loss": 0.0289,
	"reward": 0.29479167317040267,
	"reward_std": 0.27604559250175953,
	"rewards/accuracy_reward": 0.29479167317040267,
	"rewards/format_reward": 0.0,
	"step": 320
	},
	{
	"completion_length": 711.7026183843612,
	"epoch": 0.2915476042572576,
	"grad_norm": 1.9778007104616155,
	"kl": 0.8535140991210938,
	"learning_rate": 1.7855320317956785e-05,
	"loss": 0.0341,
	"reward": 0.3192708408460021,
	"reward_std": 0.303108885884285,
	"rewards/accuracy_reward": 0.3192708408460021,
	"rewards/format_reward": 0.0,
	"step": 330
	},
	{
	"completion_length": 728.3005360603332,
	"epoch": 0.3003823801438412,
	"grad_norm": 0.38171472488642083,
	"kl": 0.7892318725585937,
	"learning_rate": 1.766044443118978e-05,
	"loss": 0.0316,
	"reward": 0.3526041739620268,
	"reward_std": 0.3112278738990426,
	"rewards/accuracy_reward": 0.3526041739620268,
	"rewards/format_reward": 0.0,
	"step": 340
	},
	{
	"completion_length": 767.1573046445847,
	"epoch": 0.30921715603042477,
	"grad_norm": 0.24577197070273166,
	"kl": 0.5293319702148438,
	"learning_rate": 1.7458259219455896e-05,
	"loss": 0.0212,
	"reward": 0.3062500067986548,
	"reward_std": 0.2814582511782646,
	"rewards/accuracy_reward": 0.3062500067986548,
	"rewards/format_reward": 0.0,
	"step": 350
	},
	{
	"completion_length": 743.670326089859,
	"epoch": 0.3180519319170083,
	"grad_norm": 2.0103657238013652,
	"kl": 0.5427993774414063,
	"learning_rate": 1.7248957600728664e-05,
	"loss": 0.0217,
	"reward": 0.3505208409391344,
	"reward_std": 0.3175426423549652,
	"rewards/accuracy_reward": 0.3505208409391344,
	"rewards/format_reward": 0.0,
	"step": 360
	},
	{
	"completion_length": 840.4734511613846,
	"epoch": 0.3268867078035919,
	"grad_norm": 1.0323054081356446,
	"kl": 1.1146942138671876,
	"learning_rate": 1.7032739283205324e-05,
	"loss": 0.0446,
	"reward": 0.2598958395421505,
	"reward_std": 0.25890550669282675,
	"rewards/accuracy_reward": 0.2598958395421505,
	"rewards/format_reward": 0.0,
	"step": 370
	},
	{
	"completion_length": 839.7666805267334,
	"epoch": 0.33572148369017546,
	"grad_norm": 0.5119633048650775,
	"kl": 1.2632476806640625,
	"learning_rate": 1.6809810574752316e-05,
	"loss": 0.0505,
	"reward": 0.2333333392161876,
	"reward_std": 0.25168862845748663,
	"rewards/accuracy_reward": 0.2333333392161876,
	"rewards/format_reward": 0.0,
	"step": 380
	},
	{
	"completion_length": 733.7547018527985,
	"epoch": 0.344556259576759,
	"grad_norm": 1.5656576378617317,
	"kl": 1.1475967407226562,
	"learning_rate": 1.658038418605361e-05,
	"loss": 0.0459,
	"reward": 0.2567708396818489,
	"reward_std": 0.2634160555899143,
	"rewards/accuracy_reward": 0.2567708396818489,
	"rewards/format_reward": 0.0,
	"step": 390
	},
	{
	"completion_length": 885.3140710353852,
	"epoch": 0.3533910354633426,
	"grad_norm": 1.4058117586591972,
	"kl": 1.0219383239746094,
	"learning_rate": 1.6344679027649726e-05,
	"loss": 0.0409,
	"reward": 0.247916672937572,
	"reward_std": 0.2688287142664194,
	"rewards/accuracy_reward": 0.247916672937572,
	"rewards/format_reward": 0.0,
	"step": 400
	},
	{
	"epoch": 0.3533910354633426,
	"eval_completion_length": 985.952867296007,
	"eval_kl": 1.9370610400883839,
	"eval_loss": 0.07748492807149887,
	"eval_reward": 0.26262626924900095,
	"eval_reward_std": 0.27992739821925305,
	"eval_rewards/accuracy_reward": 0.26262626924900095,
	"eval_rewards/format_reward": 0.0,
	"eval_runtime": 572.8755,
	"eval_samples_per_second": 0.173,
	"eval_steps_per_second": 0.058,
	"step": 400
	},
	{
	"completion_length": 956.2359453678131,
	"epoch": 0.36222581134992615,
	"grad_norm": 0.42438124420657664,
	"kl": 1.3301658630371094,
	"learning_rate": 1.6102920001061003e-05,
	"loss": 0.0532,
	"reward": 0.20677083879709243,
	"reward_std": 0.2381569817662239,
	"rewards/accuracy_reward": 0.20677083879709243,
	"rewards/format_reward": 0.0,
	"step": 410
	},
	{
	"completion_length": 952.6323000907898,
	"epoch": 0.3710605872365097,
	"grad_norm": 0.44079559643052724,
	"kl": 1.332806396484375,
	"learning_rate": 1.5855337784194576e-05,
	"loss": 0.0533,
	"reward": 0.19427083847112953,
	"reward_std": 0.2309401035308838,
	"rewards/accuracy_reward": 0.19427083847112953,
	"rewards/format_reward": 0.0,
	"step": 420
	},
	{
	"completion_length": 976.3510466098785,
	"epoch": 0.3798953631230933,
	"grad_norm": 1.0796755649934018,
	"kl": 1.4209449768066407,
	"learning_rate": 1.560216861123964e-05,
	"loss": 0.0568,
	"reward": 0.22760417237877845,
	"reward_std": 0.2498844088986516,
	"rewards/accuracy_reward": 0.22760417237877845,
	"rewards/format_reward": 0.0,
	"step": 430
	},
	{
	"completion_length": 959.9578190803528,
	"epoch": 0.38873013900967684,
	"grad_norm": 0.46008757265822564,
	"kl": 1.3368026733398437,
	"learning_rate": 1.534365404726116e-05,
	"loss": 0.0535,
	"reward": 0.20885417223908007,
	"reward_std": 0.24808018933981657,
	"rewards/accuracy_reward": 0.20885417223908007,
	"rewards/format_reward": 0.0,
	"step": 440
	},
	{
	"completion_length": 917.8979267597199,
	"epoch": 0.3975649148962604,
	"grad_norm": 1.329880644661546,
	"kl": 1.244671630859375,
	"learning_rate": 1.5080040757707045e-05,
	"loss": 0.0498,
	"reward": 0.20833333865739406,
	"reward_std": 0.22462533507496119,
	"rewards/accuracy_reward": 0.20833333865739406,
	"rewards/format_reward": 0.0,
	"step": 450
	},
	{
	"completion_length": 877.7073036193848,
	"epoch": 0.406399690782844,
	"grad_norm": 2.63876569492226,
	"kl": 1.6055191040039063,
	"learning_rate": 1.4811580273048707e-05,
	"loss": 0.0642,
	"reward": 0.21770833879709245,
	"reward_std": 0.23635276220738888,
	"rewards/accuracy_reward": 0.21770833879709245,
	"rewards/format_reward": 0.0,
	"step": 460
	},
	{
	"completion_length": 842.9104291439056,
	"epoch": 0.41523446666942754,
	"grad_norm": 2.9897920260252797,
	"kl": 1.5962646484375,
	"learning_rate": 1.4538528748779561e-05,
	"loss": 0.0638,
	"reward": 0.27239584024064245,
	"reward_std": 0.2976962272077799,
	"rewards/accuracy_reward": 0.27239584024064245,
	"rewards/format_reward": 0.0,
	"step": 470
	},
	{
	"completion_length": 846.857304239273,
	"epoch": 0.4240692425560111,
	"grad_norm": 0.4405188552245265,
	"kl": 2.0165779113769533,
	"learning_rate": 1.4261146721000554e-05,
	"loss": 0.0807,
	"reward": 0.26614583996124563,
	"reward_std": 0.275143482722342,
	"rewards/accuracy_reward": 0.26614583996124563,
	"rewards/format_reward": 0.0,
	"step": 480
	},
	{
	"completion_length": 788.802097249031,
	"epoch": 0.4329040184425947,
	"grad_norm": 0.9995458801565597,
	"kl": 2.145621490478516,
	"learning_rate": 1.3979698857825816e-05,
	"loss": 0.0858,
	"reward": 0.2781250068452209,
	"reward_std": 0.28416458051651716,
	"rewards/accuracy_reward": 0.2781250068452209,
	"rewards/format_reward": 0.0,
	"step": 490
	},
	{
	"completion_length": 716.1062657117843,
	"epoch": 0.44173879432917823,
	"grad_norm": 0.7288658015008603,
	"kl": 1.736468505859375,
	"learning_rate": 1.3694453706845725e-05,
	"loss": 0.0695,
	"reward": 0.273437506519258,
	"reward_std": 0.2787519218400121,
	"rewards/accuracy_reward": 0.273437506519258,
	"rewards/format_reward": 0.0,
	"step": 500
	},
	{
	"epoch": 0.44173879432917823,
	"eval_completion_length": 691.8889026834507,
	"eval_kl": 1.6545336174242424,
	"eval_loss": 0.06618843972682953,
	"eval_reward": 0.2828282897520547,
	"eval_reward_std": 0.29159103981172196,
	"eval_rewards/accuracy_reward": 0.2828282897520547,
	"eval_rewards/format_reward": 0.0,
	"eval_runtime": 537.4204,
	"eval_samples_per_second": 0.184,
	"eval_steps_per_second": 0.061,
	"step": 500
	},
	{
	"completion_length": 708.6135584831238,
	"epoch": 0.4505735702157618,
	"grad_norm": 0.3575580002721733,
	"kl": 1.9233924865722656,
	"learning_rate": 1.3405683438888281e-05,
	"loss": 0.0769,
	"reward": 0.23697917256504297,
	"reward_std": 0.2571012871339917,
	"rewards/accuracy_reward": 0.23697917256504297,
	"rewards/format_reward": 0.0,
	"step": 510
	},
	{
	"completion_length": 768.7807433485984,
	"epoch": 0.4594083461023454,
	"grad_norm": 0.3623016043344235,
	"kl": 1.5948562622070312,
	"learning_rate": 1.3113663588323356e-05,
	"loss": 0.0638,
	"reward": 0.2958333403803408,
	"reward_std": 0.29679411742836237,
	"rewards/accuracy_reward": 0.2958333403803408,
	"rewards/format_reward": 0.0,
	"step": 520
	},
	{
	"completion_length": 761.9812644720078,
	"epoch": 0.4682431219889289,
	"grad_norm": 1.1199341162268286,
	"kl": 2.285528564453125,
	"learning_rate": 1.2818672790157543e-05,
	"loss": 0.0914,
	"reward": 0.3104166739620268,
	"reward_std": 0.3112278738990426,
	"rewards/accuracy_reward": 0.3104166739620268,
	"rewards/format_reward": 0.0,
	"step": 530
	},
	{
	"completion_length": 801.8776177227497,
	"epoch": 0.47707789787551247,
	"grad_norm": 2.033721333586972,
	"kl": 1.8555000305175782,
	"learning_rate": 1.252099251417048e-05,
	"loss": 0.0742,
	"reward": 0.26406250600703063,
	"reward_std": 0.2625139458104968,
	"rewards/accuracy_reward": 0.26406250600703063,
	"rewards/format_reward": 0.0,
	"step": 540
	},
	{
	"completion_length": 772.0724115848541,
	"epoch": 0.48591267376209607,
	"grad_norm": 0.7488074779014002,
	"kl": 1.9588623046875,
	"learning_rate": 1.2220906796346375e-05,
	"loss": 0.0784,
	"reward": 0.28177083991467955,
	"reward_std": 0.2796540316194296,
	"rewards/accuracy_reward": 0.28177083991467955,
	"rewards/format_reward": 0.0,
	"step": 550
	},
	{
	"completion_length": 853.2635561227798,
	"epoch": 0.4947474496486796,
	"grad_norm": 0.8443715089551579,
	"kl": 1.8191993713378907,
	"learning_rate": 1.1918701967856892e-05,
	"loss": 0.0728,
	"reward": 0.3036458405200392,
	"reward_std": 0.29679411742836237,
	"rewards/accuracy_reward": 0.3036458405200392,
	"rewards/format_reward": 0.0,
	"step": 560
	},
	{
	"completion_length": 858.300532579422,
	"epoch": 0.5035822255352632,
	"grad_norm": 1.2444227038825535,
	"kl": 2.2291900634765627,
	"learning_rate": 1.1614666381854107e-05,
	"loss": 0.0892,
	"reward": 0.26041667321696876,
	"reward_std": 0.2805561413988471,
	"rewards/accuracy_reward": 0.26041667321696876,
	"rewards/format_reward": 0.0,
	"step": 570
	},
	{
	"completion_length": 960.0770899295807,
	"epoch": 0.5124170014218468,
	"grad_norm": 0.5125806971801138,
	"kl": 1.9308998107910156,
	"learning_rate": 1.1309090138334112e-05,
	"loss": 0.0772,
	"reward": 0.3078125073108822,
	"reward_std": 0.30040255654603243,
	"rewards/accuracy_reward": 0.3078125073108822,
	"rewards/format_reward": 0.0,
	"step": 580
	},
	{
	"completion_length": 884.6036564350128,
	"epoch": 0.5212517773084303,
	"grad_norm": 0.6680675746939368,
	"kl": 1.9921707153320312,
	"learning_rate": 1.100226480733388e-05,
	"loss": 0.0797,
	"reward": 0.24947917312383652,
	"reward_std": 0.28867512941360474,
	"rewards/accuracy_reward": 0.24947917312383652,
	"rewards/format_reward": 0.0,
	"step": 590
	},
	{
	"completion_length": 799.9510572910309,
	"epoch": 0.5300865531950139,
	"grad_norm": 3.062049979351596,
	"kl": 2.207135009765625,
	"learning_rate": 1.0694483150725458e-05,
	"loss": 0.0883,
	"reward": 0.29583334028720853,
	"reward_std": 0.29498989786952734,
	"rewards/accuracy_reward": 0.29583334028720853,
	"rewards/format_reward": 0.0,
	"step": 600
	},
	{
	"epoch": 0.5300865531950139,
	"eval_completion_length": 775.0841884420375,
	"eval_kl": 2.8066208964646466,
	"eval_loss": 0.11227121949195862,
	"eval_reward": 0.28619529352043616,
	"eval_reward_std": 0.3207501437928941,
	"eval_rewards/accuracy_reward": 0.28619529352043616,
	"eval_rewards/format_reward": 0.0,
	"eval_runtime": 554.5488,
	"eval_samples_per_second": 0.179,
	"eval_steps_per_second": 0.06,
	"step": 600
	},
	{
	"completion_length": 862.4078252792358,
	"epoch": 0.5389213290815974,
	"grad_norm": 0.4132033561721883,
	"kl": 1.8186492919921875,
	"learning_rate": 1.038603884287294e-05,
	"loss": 0.0728,
	"reward": 0.15156250400468707,
	"reward_std": 0.17861773632466793,
	"rewards/accuracy_reward": 0.15156250400468707,
	"rewards/format_reward": 0.0,
	"step": 610
	},
	{
	"completion_length": 623.4411586642266,
	"epoch": 0.5477561049681811,
	"grad_norm": 0.5984776310180936,
	"kl": 0.5929832458496094,
	"learning_rate": 1.0077226190418783e-05,
	"loss": 0.0237,
	"reward": 0.1755208382382989,
	"reward_std": 0.2255274448543787,
	"rewards/accuracy_reward": 0.1755208382382989,
	"rewards/format_reward": 0.0,
	"step": 620
	},
	{
	"completion_length": 675.0708496570587,
	"epoch": 0.5565908808547646,
	"grad_norm": 0.4802015784335563,
	"kl": 0.47046356201171874,
	"learning_rate": 9.768339851466818e-06,
	"loss": 0.0188,
	"reward": 0.2515625067520887,
	"reward_std": 0.2940877880901098,
	"rewards/accuracy_reward": 0.2515625067520887,
	"rewards/format_reward": 0.0,
	"step": 630
	},
	{
	"completion_length": 768.3067860364914,
	"epoch": 0.5654256567413481,
	"grad_norm": 2.4930383667378413,
	"kl": 1.0879661560058593,
	"learning_rate": 9.45967455442995e-06,
	"loss": 0.0435,
	"reward": 0.34322917480021714,
	"reward_std": 0.3301721792668104,
	"rewards/accuracy_reward": 0.34322917480021714,
	"rewards/format_reward": 0.0,
	"step": 640
	},
	{
	"completion_length": 789.8026188373566,
	"epoch": 0.5742604326279317,
	"grad_norm": 1.7100954361428433,
	"kl": 2.7097198486328127,
	"learning_rate": 9.151524816810686e-06,
	"loss": 0.1084,
	"reward": 0.31666667400859294,
	"reward_std": 0.30671732500195503,
	"rewards/accuracy_reward": 0.31666667400859294,
	"rewards/format_reward": 0.0,
	"step": 650
	},
	{
	"completion_length": 707.0859542965889,
	"epoch": 0.5830952085145152,
	"grad_norm": 1.57666179442439,
	"kl": 1.7728652954101562,
	"learning_rate": 8.844184664182993e-06,
	"loss": 0.0709,
	"reward": 0.35000000791624186,
	"reward_std": 0.33107428904622793,
	"rewards/accuracy_reward": 0.35000000791624186,
	"rewards/format_reward": 0.0,
	"step": 660
	},
	{
	"completion_length": 773.0073058724404,
	"epoch": 0.5919299844010988,
	"grad_norm": 0.9807231122231896,
	"kl": 2.1020263671875,
	"learning_rate": 8.537947349643493e-06,
	"loss": 0.0841,
	"reward": 0.29739584047347306,
	"reward_std": 0.3112278738990426,
	"rewards/accuracy_reward": 0.29739584047347306,
	"rewards/format_reward": 0.0,
	"step": 670
	},
	{
	"completion_length": 777.6401177406311,
	"epoch": 0.6007647602876824,
	"grad_norm": 0.5403220713078971,
	"kl": 1.6934829711914063,
	"learning_rate": 8.23310507399973e-06,
	"loss": 0.0678,
	"reward": 0.2744791732635349,
	"reward_std": 0.2805561413988471,
	"rewards/accuracy_reward": 0.2744791732635349,
	"rewards/format_reward": 0.0,
	"step": 680
	},
	{
	"completion_length": 767.1880352020264,
	"epoch": 0.609599536174266,
	"grad_norm": 0.6884159799218071,
	"kl": 2.134033203125,
	"learning_rate": 7.929948706962508e-06,
	"loss": 0.0854,
	"reward": 0.28958334047347306,
	"reward_std": 0.30671732500195503,
	"rewards/accuracy_reward": 0.28958334047347306,
	"rewards/format_reward": 0.0,
	"step": 690
	},
	{
	"completion_length": 716.2224100291729,
	"epoch": 0.6184343120608495,
	"grad_norm": 0.9853920893844104,
	"kl": 1.9078399658203125,
	"learning_rate": 7.628767509608304e-06,
	"loss": 0.0763,
	"reward": 0.31041667447425425,
	"reward_std": 0.32566163036972284,
	"rewards/accuracy_reward": 0.31041667447425425,
	"rewards/format_reward": 0.0,
	"step": 700
	},
	{
	"epoch": 0.6184343120608495,
	"eval_completion_length": 676.0437842475044,
	"eval_kl": 2.118035827020202,
	"eval_loss": 0.08472807705402374,
	"eval_reward": 0.30976431749083777,
	"eval_reward_std": 0.3382456061815975,
	"eval_rewards/accuracy_reward": 0.30976431749083777,
	"eval_rewards/format_reward": 0.0,
	"eval_runtime": 527.3635,
	"eval_samples_per_second": 0.188,
	"eval_steps_per_second": 0.063,
	"step": 700
	},
	{
	"completion_length": 693.3250136733055,
	"epoch": 0.6272690879474331,
	"grad_norm": 0.6986064715250526,
	"kl": 2.01304931640625,
	"learning_rate": 7.329848858376585e-06,
	"loss": 0.0805,
	"reward": 0.31510417414829134,
	"reward_std": 0.3166405325755477,
	"rewards/accuracy_reward": 0.31510417414829134,
	"rewards/format_reward": 0.0,
	"step": 710
	},
	{
	"completion_length": 737.9067856788636,
	"epoch": 0.6361038638340166,
	"grad_norm": 2.3133745632209393,
	"kl": 2.0740203857421875,
	"learning_rate": 7.033477970865381e-06,
	"loss": 0.083,
	"reward": 0.32343750772997737,
	"reward_std": 0.3175426423549652,
	"rewards/accuracy_reward": 0.32343750772997737,
	"rewards/format_reward": 0.0,
	"step": 720
	},
	{
	"completion_length": 747.067202681303,
	"epoch": 0.6449386397206002,
	"grad_norm": 0.7455664324085425,
	"kl": 2.0231887817382814,
	"learning_rate": 6.73993763368675e-06,
	"loss": 0.0809,
	"reward": 0.3057291737757623,
	"reward_std": 0.30040255654603243,
	"rewards/accuracy_reward": 0.3057291737757623,
	"rewards/format_reward": 0.0,
	"step": 730
	},
	{
	"completion_length": 730.435950744152,
	"epoch": 0.6537734156071838,
	"grad_norm": 1.9312009716198788,
	"kl": 2.154399108886719,
	"learning_rate": 6.449507932641796e-06,
	"loss": 0.0862,
	"reward": 0.2927083405200392,
	"reward_std": 0.3040109956637025,
	"rewards/accuracy_reward": 0.2927083405200392,
	"rewards/format_reward": 0.0,
	"step": 740
	},
	{
	"completion_length": 707.3302231192589,
	"epoch": 0.6626081914937674,
	"grad_norm": 0.6668502719545971,
	"kl": 1.8355056762695312,
	"learning_rate": 6.16246598547271e-06,
	"loss": 0.0734,
	"reward": 0.2916666741017252,
	"reward_std": 0.32115108147263527,
	"rewards/accuracy_reward": 0.2916666741017252,
	"rewards/format_reward": 0.0,
	"step": 750
	},
	{
	"completion_length": 740.6020975530148,
	"epoch": 0.6714429673803509,
	"grad_norm": 0.7705413022710031,
	"kl": 2.15982666015625,
	"learning_rate": 5.8790856774468385e-06,
	"loss": 0.0864,
	"reward": 0.3046875072643161,
	"reward_std": 0.30491310544312,
	"rewards/accuracy_reward": 0.3046875072643161,
	"rewards/format_reward": 0.0,
	"step": 760
	},
	{
	"completion_length": 739.286992508173,
	"epoch": 0.6802777432669345,
	"grad_norm": 0.5391118755792965,
	"kl": 2.0162887573242188,
	"learning_rate": 5.599637400025036e-06,
	"loss": 0.0807,
	"reward": 0.31458334061317145,
	"reward_std": 0.3112278738990426,
	"rewards/accuracy_reward": 0.31458334061317145,
	"rewards/format_reward": 0.0,
	"step": 770
	},
	{
	"completion_length": 748.7869940280914,
	"epoch": 0.689112519153518,
	"grad_norm": 0.7122982868192613,
	"kl": 2.226336669921875,
	"learning_rate": 5.324387792863719e-06,
	"loss": 0.0891,
	"reward": 0.3234375074971467,
	"reward_std": 0.3058152152225375,
	"rewards/accuracy_reward": 0.3234375074971467,
	"rewards/format_reward": 0.0,
	"step": 780
	},
	{
	"completion_length": 737.4474101424217,
	"epoch": 0.6979472950401016,
	"grad_norm": 0.6757655195430946,
	"kl": 2.05509033203125,
	"learning_rate": 5.053599489396732e-06,
	"loss": 0.0822,
	"reward": 0.31250000759027896,
	"reward_std": 0.31393420323729515,
	"rewards/accuracy_reward": 0.31250000759027896,
	"rewards/format_reward": 0.0,
	"step": 790
	},
	{
	"completion_length": 711.7630351662635,
	"epoch": 0.7067820709266852,
	"grad_norm": 0.5761504098242444,
	"kl": 1.904425048828125,
	"learning_rate": 4.787530866239826e-06,
	"loss": 0.0762,
	"reward": 0.30729167386889455,
	"reward_std": 0.303108885884285,
	"rewards/accuracy_reward": 0.30729167386889455,
	"rewards/format_reward": 0.0,
	"step": 800
	},
	{
	"epoch": 0.7067820709266852,
	"eval_completion_length": 720.3198793199327,
	"eval_kl": 1.9343237058080809,
	"eval_loss": 0.07739535719156265,
	"eval_reward": 0.32996633739182446,
	"eval_reward_std": 0.3149183229966597,
	"eval_rewards/accuracy_reward": 0.32996633739182446,
	"eval_rewards/format_reward": 0.0,
	"eval_runtime": 534.7287,
	"eval_samples_per_second": 0.185,
	"eval_steps_per_second": 0.062,
	"step": 800
	},
	{
	"completion_length": 715.5786605343222,
	"epoch": 0.7156168468132688,
	"grad_norm": 0.7254446582873234,
	"kl": 2.05001220703125,
	"learning_rate": 4.52643579665683e-06,
	"loss": 0.082,
	"reward": 0.3187500074040145,
	"reward_std": 0.31303209345787764,
	"rewards/accuracy_reward": 0.3187500074040145,
	"rewards/format_reward": 0.0,
	"step": 810
	},
	{
	"completion_length": 729.5484510660172,
	"epoch": 0.7244516226998523,
	"grad_norm": 0.8829844749096067,
	"kl": 2.499810791015625,
	"learning_rate": 4.270563408322772e-06,
	"loss": 0.1,
	"reward": 0.3192708410322666,
	"reward_std": 0.3184447521343827,
	"rewards/accuracy_reward": 0.3192708410322666,
	"rewards/format_reward": 0.0,
	"step": 820
	},
	{
	"completion_length": 717.5286597132683,
	"epoch": 0.7332863985864359,
	"grad_norm": 1.7173630228550354,
	"kl": 2.062689208984375,
	"learning_rate": 4.020157845615075e-06,
	"loss": 0.0825,
	"reward": 0.33333334093913436,
	"reward_std": 0.3094236543402076,
	"rewards/accuracy_reward": 0.33333334093913436,
	"rewards/format_reward": 0.0,
	"step": 830
	},
	{
	"completion_length": 731.0494927078486,
	"epoch": 0.7421211744730194,
	"grad_norm": 0.829005223012386,
	"kl": 2.804341125488281,
	"learning_rate": 3.7754580366596116e-06,
	"loss": 0.1122,
	"reward": 0.29739584065973756,
	"reward_std": 0.3220531912520528,
	"rewards/accuracy_reward": 0.29739584065973756,
	"rewards/format_reward": 0.0,
	"step": 840
	},
	{
	"completion_length": 706.3677220225334,
	"epoch": 0.7509559503596029,
	"grad_norm": 1.6348693110104273,
	"kl": 1.9862686157226563,
	"learning_rate": 3.5366974653539653e-06,
	"loss": 0.0795,
	"reward": 0.30312500717118385,
	"reward_std": 0.30761943478137255,
	"rewards/accuracy_reward": 0.30312500717118385,
	"rewards/format_reward": 0.0,
	"step": 850
	},
	{
	"completion_length": 698.5177225530148,
	"epoch": 0.7597907262461866,
	"grad_norm": 0.9159549909583196,
	"kl": 2.294660949707031,
	"learning_rate": 3.304103948585341e-06,
	"loss": 0.0918,
	"reward": 0.3046875072643161,
	"reward_std": 0.30130466632544994,
	"rewards/accuracy_reward": 0.3046875072643161,
	"rewards/format_reward": 0.0,
	"step": 860
	},
	{
	"completion_length": 672.9390772372484,
	"epoch": 0.7686255021327701,
	"grad_norm": 2.1045299190913833,
	"kl": 2.3146575927734374,
	"learning_rate": 3.0778994188557722e-06,
	"loss": 0.0926,
	"reward": 0.315625007962808,
	"reward_std": 0.32475952059030533,
	"rewards/accuracy_reward": 0.315625007962808,
	"rewards/format_reward": 0.0,
	"step": 870
	},
	{
	"completion_length": 674.6109511375428,
	"epoch": 0.7774602780193537,
	"grad_norm": 0.7983792148121029,
	"kl": 2.302967834472656,
	"learning_rate": 2.8582997125219604e-06,
	"loss": 0.0921,
	"reward": 0.30260417428798975,
	"reward_std": 0.32566163036972284,
	"rewards/accuracy_reward": 0.30260417428798975,
	"rewards/format_reward": 0.0,
	"step": 880
	},
	{
	"completion_length": 656.9838689267635,
	"epoch": 0.7862950539059372,
	"grad_norm": 0.669988664196779,
	"kl": 2.0931640625,
	"learning_rate": 2.645514363851874e-06,
	"loss": 0.0837,
	"reward": 0.3010416736826301,
	"reward_std": 0.2931856783106923,
	"rewards/accuracy_reward": 0.3010416736826301,
	"rewards/format_reward": 0.0,
	"step": 890
	},
	{
	"completion_length": 652.4843894541264,
	"epoch": 0.7951298297925208,
	"grad_norm": 1.3222110289859523,
	"kl": 1.9164962768554688,
	"learning_rate": 2.4397464050945753e-06,
	"loss": 0.0767,
	"reward": 0.2838541739154607,
	"reward_std": 0.31393420323729515,
	"rewards/accuracy_reward": 0.2838541739154607,
	"rewards/format_reward": 0.0,
	"step": 900
	},
	{
	"epoch": 0.7951298297925208,
	"eval_completion_length": 622.8788027522539,
	"eval_kl": 2.0288036616161618,
	"eval_loss": 0.08118358999490738,
	"eval_reward": 0.3131313209581857,
	"eval_reward_std": 0.3265819645891286,
	"eval_rewards/accuracy_reward": 0.3131313209581857,
	"eval_rewards/format_reward": 0.0,
	"eval_runtime": 506.0213,
	"eval_samples_per_second": 0.196,
	"eval_steps_per_second": 0.065,
	"step": 900
	},
	{
	"completion_length": 651.8578262448311,
	"epoch": 0.8039646056791043,
	"grad_norm": 1.0220083602716086,
	"kl": 2.2107833862304687,
	"learning_rate": 2.24119217275401e-06,
	"loss": 0.0884,
	"reward": 0.2739583405200392,
	"reward_std": 0.30671732500195503,
	"rewards/accuracy_reward": 0.2739583405200392,
	"rewards/format_reward": 0.0,
	"step": 910
	},
	{
	"completion_length": 630.3770972907544,
	"epoch": 0.812799381565688,
	"grad_norm": 1.140106665270527,
	"kl": 2.0034912109375,
	"learning_rate": 2.0500411202516814e-06,
	"loss": 0.0802,
	"reward": 0.29166667340323327,
	"reward_std": 0.2850666902959347,
	"rewards/accuracy_reward": 0.29166667340323327,
	"rewards/format_reward": 0.0,
	"step": 920
	},
	{
	"completion_length": 633.9614718899131,
	"epoch": 0.8216341574522715,
	"grad_norm": 1.1778599052603038,
	"kl": 1.8928955078125,
	"learning_rate": 1.8664756371568981e-06,
	"loss": 0.0757,
	"reward": 0.2963541735429317,
	"reward_std": 0.29498989786952734,
	"rewards/accuracy_reward": 0.2963541735429317,
	"rewards/format_reward": 0.0,
	"step": 930
	},
	{
	"completion_length": 658.522930726409,
	"epoch": 0.8304689333388551,
	"grad_norm": 0.6577212329055425,
	"kl": 2.294940185546875,
	"learning_rate": 1.6906708751570955e-06,
	"loss": 0.0918,
	"reward": 0.31093750675208864,
	"reward_std": 0.30220677610486746,
	"rewards/accuracy_reward": 0.31093750675208864,
	"rewards/format_reward": 0.0,
	"step": 940
	},
	{
	"completion_length": 677.2802217006683,
	"epoch": 0.8393037092254386,
	"grad_norm": 0.7422568973111673,
	"kl": 2.5144363403320313,
	"learning_rate": 1.5227945809342992e-06,
	"loss": 0.1006,
	"reward": 0.3151041742414236,
	"reward_std": 0.3166405325755477,
	"rewards/accuracy_reward": 0.3151041742414236,
	"rewards/format_reward": 0.0,
	"step": 950
	},
	{
	"completion_length": 652.5901178598403,
	"epoch": 0.8481384851120222,
	"grad_norm": 0.810421906439625,
	"kl": 2.262736511230469,
	"learning_rate": 1.363006936107183e-06,
	"loss": 0.0905,
	"reward": 0.34635417480021713,
	"reward_std": 0.336486947722733,
	"rewards/accuracy_reward": 0.34635417480021713,
	"rewards/format_reward": 0.0,
	"step": 960
	},
	{
	"completion_length": 670.2057422459126,
	"epoch": 0.8569732609986057,
	"grad_norm": 0.7920465762778155,
	"kl": 2.5366302490234376,
	"learning_rate": 1.2114604043914225e-06,
	"loss": 0.1015,
	"reward": 0.32031250768341124,
	"reward_std": 0.3175426423549652,
	"rewards/accuracy_reward": 0.32031250768341124,
	"rewards/format_reward": 0.0,
	"step": 970
	},
	{
	"completion_length": 682.0869930744171,
	"epoch": 0.8658080368851894,
	"grad_norm": 0.6071556277616226,
	"kl": 2.4378128051757812,
	"learning_rate": 1.068299586124224e-06,
	"loss": 0.0975,
	"reward": 0.33072917396202683,
	"reward_std": 0.2995004467666149,
	"rewards/accuracy_reward": 0.33072917396202683,
	"rewards/format_reward": 0.0,
	"step": 980
	},
	{
	"completion_length": 663.8849090188742,
	"epoch": 0.8746428127717729,
	"grad_norm": 0.7004418244247146,
	"kl": 2.3257492065429686,
	"learning_rate": 9.336610802918044e-07,
	"loss": 0.093,
	"reward": 0.32447917433455586,
	"reward_std": 0.3094236543402076,
	"rewards/accuracy_reward": 0.32447917433455586,
	"rewards/format_reward": 0.0,
	"step": 990
	},
	{
	"completion_length": 678.5744934767484,
	"epoch": 0.8834775886583565,
	"grad_norm": 1.5130552859053217,
	"kl": 2.3184799194335937,
	"learning_rate": 8.076733541914617e-07,
	"loss": 0.0927,
	"reward": 0.33281250740401447,
	"reward_std": 0.30491310544312,
	"rewards/accuracy_reward": 0.33281250740401447,
	"rewards/format_reward": 0.0,
	"step": 1000
	},
	{
	"epoch": 0.8834775886583565,
	"eval_completion_length": 664.8687005476518,
	"eval_kl": 2.323409880050505,
	"eval_loss": 0.0929863303899765,
	"eval_reward": 0.3535353619642932,
	"eval_reward_std": 0.3440774269778319,
	"eval_rewards/accuracy_reward": 0.3535353619642932,
	"eval_rewards/format_reward": 0.0,
	"eval_runtime": 516.2096,
	"eval_samples_per_second": 0.192,
	"eval_steps_per_second": 0.064,
	"step": 1000
	},
	{
	"completion_length": 702.9177223086357,
	"epoch": 0.89231236454494,
	"grad_norm": 1.529025375905959,
	"kl": 2.152081298828125,
	"learning_rate": 6.90456620852632e-07,
	"loss": 0.0861,
	"reward": 0.3427083408460021,
	"reward_std": 0.31393420323729515,
	"rewards/accuracy_reward": 0.3427083408460021,
	"rewards/format_reward": 0.0,
	"step": 1010
	},
	{
	"completion_length": 693.2552229389548,
	"epoch": 0.9011471404315236,
	"grad_norm": 0.6357248703500725,
	"kl": 2.1104583740234375,
	"learning_rate": 5.821227243338712e-07,
	"loss": 0.0844,
	"reward": 0.32656250763684513,
	"reward_std": 0.3157384227961302,
	"rewards/accuracy_reward": 0.32656250763684513,
	"rewards/format_reward": 0.0,
	"step": 1020
	},
	{
	"completion_length": 669.4468886733055,
	"epoch": 0.9099819163181071,
	"grad_norm": 2.2284285054958324,
	"kl": 2.1510406494140626,
	"learning_rate": 4.827750330052117e-07,
	"loss": 0.0861,
	"reward": 0.3536458413582295,
	"reward_std": 0.32566163036972284,
	"rewards/accuracy_reward": 0.3536458413582295,
	"rewards/format_reward": 0.0,
	"step": 1030
	},
	{
	"completion_length": 683.547409978509,
	"epoch": 0.9188166922046908,
	"grad_norm": 0.6632003611968932,
	"kl": 2.2973922729492187,
	"learning_rate": 3.925083409177266e-07,
	"loss": 0.0919,
	"reward": 0.34010417442768814,
	"reward_std": 0.31934686191380024,
	"rewards/accuracy_reward": 0.34010417442768814,
	"rewards/format_reward": 0.0,
	"step": 1040
	},
	{
	"completion_length": 679.4802215665579,
	"epoch": 0.9276514680912743,
	"grad_norm": 0.8599780179720123,
	"kl": 2.3347732543945314,
	"learning_rate": 3.114087773543939e-07,
	"loss": 0.0934,
	"reward": 0.3500000080559403,
	"reward_std": 0.33107428904622793,
	"rewards/accuracy_reward": 0.3500000080559403,
	"rewards/format_reward": 0.0,
	"step": 1050
	},
	{
	"completion_length": 703.7713681519032,
	"epoch": 0.9364862439778578,
	"grad_norm": 1.174851381620777,
	"kl": 2.408406066894531,
	"learning_rate": 2.395537246485846e-07,
	"loss": 0.0963,
	"reward": 0.329166674753651,
	"reward_std": 0.34370382595807314,
	"rewards/accuracy_reward": 0.329166674753651,
	"rewards/format_reward": 0.0,
	"step": 1060
	},
	{
	"completion_length": 678.3260560303927,
	"epoch": 0.9453210198644414,
	"grad_norm": 1.54743742951263,
	"kl": 2.394914245605469,
	"learning_rate": 1.7701174434858193e-07,
	"loss": 0.0958,
	"reward": 0.33802084121853115,
	"reward_std": 0.32024897169321775,
	"rewards/accuracy_reward": 0.33802084121853115,
	"rewards/format_reward": 0.0,
	"step": 1070
	},
	{
	"completion_length": 664.8302224695683,
	"epoch": 0.9541557957510249,
	"grad_norm": 1.5666079028942566,
	"kl": 2.3258026123046873,
	"learning_rate": 1.2384251179857642e-07,
	"loss": 0.093,
	"reward": 0.3578125084284693,
	"reward_std": 0.35001859441399574,
	"rewards/accuracy_reward": 0.3578125084284693,
	"rewards/format_reward": 0.0,
	"step": 1080
	},
	{
	"completion_length": 682.4229293212295,
	"epoch": 0.9629905716376085,
	"grad_norm": 0.6943507484399737,
	"kl": 2.487345886230469,
	"learning_rate": 8.009675919856574e-08,
	"loss": 0.0995,
	"reward": 0.32239584033377466,
	"reward_std": 0.29679411742836237,
	"rewards/accuracy_reward": 0.32239584033377466,
	"rewards/format_reward": 0.0,
	"step": 1090
	},
	{
	"completion_length": 689.0625125810504,
	"epoch": 0.9718253475241921,
	"grad_norm": 0.6276023210613672,
	"kl": 2.3767745971679686,
	"learning_rate": 4.581622719748269e-08,
	"loss": 0.0951,
	"reward": 0.3395833406597376,
	"reward_std": 0.2985983369871974,
	"rewards/accuracy_reward": 0.3395833406597376,
	"rewards/format_reward": 0.0,
	"step": 1100
	},
	{
	"epoch": 0.9718253475241921,
	"eval_completion_length": 665.5656705528799,
	"eval_kl": 2.368923611111111,
	"eval_loss": 0.09475857019424438,
	"eval_reward": 0.3804713891010092,
	"eval_reward_std": 0.3382456061815975,
	"eval_rewards/accuracy_reward": 0.3804713891010092,
	"eval_rewards/format_reward": 0.0,
	"eval_runtime": 510.5875,
	"eval_samples_per_second": 0.194,
	"eval_steps_per_second": 0.065,
	"step": 1100
	},
	{
	"completion_length": 687.5755343332887,
	"epoch": 0.9806601234107757,
	"grad_norm": 0.5833877177508657,
	"kl": 2.3449798583984376,
	"learning_rate": 2.1033625065747244e-08,
	"loss": 0.0938,
	"reward": 0.3359375076368451,
	"reward_std": 0.31393420323729515,
	"rewards/accuracy_reward": 0.3359375076368451,
	"rewards/format_reward": 0.0,
	"step": 1110
	},
	{
	"completion_length": 686.5161595344543,
	"epoch": 0.9894948992973592,
	"grad_norm": 0.8177663703595698,
	"kl": 2.952043151855469,
	"learning_rate": 5.772599485236452e-09,
	"loss": 0.118,
	"reward": 0.3333333409857005,
	"reward_std": 0.3238574108108878,
	"rewards/accuracy_reward": 0.3333333409857005,
	"rewards/format_reward": 0.0,
	"step": 1120
	},
	{
	"completion_length": 679.1244929388165,
	"epoch": 0.9983296751839428,
	"grad_norm": 1.027763278137717,
	"kl": 2.3051712036132814,
	"learning_rate": 4.7711986460585725e-11,
	"loss": 0.0922,
	"reward": 0.3552083419635892,
	"reward_std": 0.34370382595807314,
	"rewards/accuracy_reward": 0.3552083419635892,
	"rewards/format_reward": 0.0,
	"step": 1130
	},
	{
	"completion_length": 695.1406378149986,
	"epoch": 0.9992131527726011,
	"kl": 2.40301513671875,
	"reward": 0.3125000074505806,
	"reward_std": 0.32475952059030533,
	"rewards/accuracy_reward": 0.3125000074505806,
	"rewards/format_reward": 0.0,
	"step": 1131,
	"total_flos": 0.0,
	"train_loss": 0.06294877494734573,
	"train_runtime": 428958.1793,
	"train_samples_per_second": 0.169,
	"train_steps_per_second": 0.003
	}
	],
	"logging_steps": 10,
	"max_steps": 1131,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 200,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}