Qwen2.5-Math-7B-cn-zero-class2 / trainer_state.json

Upload folder using huggingface_hub

5769136 verified 10 months ago

63.2 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9966996699669967,
	"eval_steps": 10,
	"global_step": 151,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"completion_length": 761.6875305175781,
	"epoch": 0.006600660066006601,
	"grad_norm": 0.09082216769456863,
	"kl": 0.0,
	"learning_rate": 1.875e-07,
	"loss": -0.0159,
	"reward": 0.2291666679084301,
	"reward_std": 0.1705273911356926,
	"rewards/accuracy_reward": 0.2291666679084301,
	"rewards/format_reward": 0.0,
	"step": 1
	},
	{
	"completion_length": 897.8541717529297,
	"epoch": 0.013201320132013201,
	"grad_norm": 0.12771357595920563,
	"kl": 0.0,
	"learning_rate": 3.75e-07,
	"loss": 0.0257,
	"reward": 0.3750000111758709,
	"reward_std": 0.2861081659793854,
	"rewards/accuracy_reward": 0.3750000111758709,
	"rewards/format_reward": 0.0,
	"step": 2
	},
	{
	"completion_length": 946.2291717529297,
	"epoch": 0.019801980198019802,
	"grad_norm": 0.202493816614151,
	"kl": 0.0002696514129638672,
	"learning_rate": 5.625e-07,
	"loss": 0.0767,
	"reward": 0.43750002048909664,
	"reward_std": 0.33713919669389725,
	"rewards/accuracy_reward": 0.43750002048909664,
	"rewards/format_reward": 0.0,
	"step": 3
	},
	{
	"completion_length": 947.2708740234375,
	"epoch": 0.026402640264026403,
	"grad_norm": 0.13421419262886047,
	"kl": 0.00023603439331054688,
	"learning_rate": 7.5e-07,
	"loss": 0.0437,
	"reward": 0.3541666716337204,
	"reward_std": 0.4932760149240494,
	"rewards/accuracy_reward": 0.3541666716337204,
	"rewards/format_reward": 0.0,
	"step": 4
	},
	{
	"completion_length": 949.7708587646484,
	"epoch": 0.033003300330033,
	"grad_norm": 0.15579567849636078,
	"kl": 0.0001881122589111328,
	"learning_rate": 9.375e-07,
	"loss": 0.082,
	"reward": 0.583333358168602,
	"reward_std": 0.4701542407274246,
	"rewards/accuracy_reward": 0.583333358168602,
	"rewards/format_reward": 0.0,
	"step": 5
	},
	{
	"completion_length": 679.7500305175781,
	"epoch": 0.039603960396039604,
	"grad_norm": 0.19298173487186432,
	"kl": 0.0002353191375732422,
	"learning_rate": 1.125e-06,
	"loss": -0.055,
	"reward": 0.7500000149011612,
	"reward_std": 0.3332235999405384,
	"rewards/accuracy_reward": 0.7500000149011612,
	"rewards/format_reward": 0.0,
	"step": 6
	},
	{
	"completion_length": 713.4375305175781,
	"epoch": 0.0462046204620462,
	"grad_norm": 0.151686891913414,
	"kl": 0.00026154518127441406,
	"learning_rate": 1.3125000000000001e-06,
	"loss": 0.0054,
	"reward": 0.416666679084301,
	"reward_std": 0.377695269882679,
	"rewards/accuracy_reward": 0.416666679084301,
	"rewards/format_reward": 0.0,
	"step": 7
	},
	{
	"completion_length": 721.6250076293945,
	"epoch": 0.052805280528052806,
	"grad_norm": 0.0006056017591618001,
	"kl": 0.00021958351135253906,
	"learning_rate": 1.5e-06,
	"loss": 0.0,
	"reward": 0.5,
	"reward_std": 0.0,
	"rewards/accuracy_reward": 0.5,
	"rewards/format_reward": 0.0,
	"step": 8
	},
	{
	"completion_length": 756.0000228881836,
	"epoch": 0.0594059405940594,
	"grad_norm": 0.14626246690750122,
	"kl": 0.0002689361572265625,
	"learning_rate": 1.6875e-06,
	"loss": -0.0,
	"reward": 0.33333334140479565,
	"reward_std": 0.23116152361035347,
	"rewards/accuracy_reward": 0.33333334140479565,
	"rewards/format_reward": 0.0,
	"step": 9
	},
	{
	"completion_length": 755.75,
	"epoch": 0.066006600660066,
	"grad_norm": 0.14428134262561798,
	"kl": 0.00023508071899414062,
	"learning_rate": 1.875e-06,
	"loss": -0.0386,
	"reward": 0.7291666865348816,
	"reward_std": 0.21764282882213593,
	"rewards/accuracy_reward": 0.7291666865348816,
	"rewards/format_reward": 0.0,
	"step": 10
	},
	{
	"completion_length": 993.1042022705078,
	"epoch": 0.07260726072607261,
	"grad_norm": 0.1510692834854126,
	"kl": 0.0003027915954589844,
	"learning_rate": 2.0625e-06,
	"loss": 0.118,
	"reward": 0.5208333432674408,
	"reward_std": 0.4932760149240494,
	"rewards/accuracy_reward": 0.5208333432674408,
	"rewards/format_reward": 0.0,
	"step": 11
	},
	{
	"completion_length": 831.3125152587891,
	"epoch": 0.07920792079207921,
	"grad_norm": 0.08587031811475754,
	"kl": 0.00022935867309570312,
	"learning_rate": 2.25e-06,
	"loss": 0.0158,
	"reward": 0.708333358168602,
	"reward_std": 0.24859580025076866,
	"rewards/accuracy_reward": 0.708333358168602,
	"rewards/format_reward": 0.0,
	"step": 12
	},
	{
	"completion_length": 786.7708435058594,
	"epoch": 0.0858085808580858,
	"grad_norm": 0.15709738433361053,
	"kl": 0.0002751350402832031,
	"learning_rate": 2.4375e-06,
	"loss": 0.0416,
	"reward": 0.4375000149011612,
	"reward_std": 0.28219255432486534,
	"rewards/accuracy_reward": 0.4375000149011612,
	"rewards/format_reward": 0.0,
	"step": 13
	},
	{
	"completion_length": 896.3958587646484,
	"epoch": 0.0924092409240924,
	"grad_norm": 0.1950385421514511,
	"kl": 0.0004210472106933594,
	"learning_rate": 2.6250000000000003e-06,
	"loss": -0.0025,
	"reward": 0.416666679084301,
	"reward_std": 0.30354245752096176,
	"rewards/accuracy_reward": 0.416666679084301,
	"rewards/format_reward": 0.0,
	"step": 14
	},
	{
	"completion_length": 915.1458587646484,
	"epoch": 0.09900990099009901,
	"grad_norm": 0.1464419662952423,
	"kl": 0.00046825408935546875,
	"learning_rate": 2.8125e-06,
	"loss": 0.0378,
	"reward": 0.5208333358168602,
	"reward_std": 0.3720077723264694,
	"rewards/accuracy_reward": 0.5208333358168602,
	"rewards/format_reward": 0.0,
	"step": 15
	},
	{
	"completion_length": 733.4792022705078,
	"epoch": 0.10561056105610561,
	"grad_norm": 0.195227712392807,
	"kl": 0.0011754035949707031,
	"learning_rate": 3e-06,
	"loss": -0.026,
	"reward": 0.645833358168602,
	"reward_std": 0.41912318766117096,
	"rewards/accuracy_reward": 0.645833358168602,
	"rewards/format_reward": 0.0,
	"step": 16
	},
	{
	"completion_length": 864.2083740234375,
	"epoch": 0.11221122112211221,
	"grad_norm": 0.29113319516181946,
	"kl": 0.0006542205810546875,
	"learning_rate": 2.9995938617691924e-06,
	"loss": 0.0484,
	"reward": 0.5000000186264515,
	"reward_std": 0.4152075983583927,
	"rewards/accuracy_reward": 0.5000000186264515,
	"rewards/format_reward": 0.0,
	"step": 17
	},
	{
	"completion_length": 795.2291870117188,
	"epoch": 0.1188118811881188,
	"grad_norm": 0.13108719885349274,
	"kl": 0.0011267662048339844,
	"learning_rate": 2.998375667007787e-06,
	"loss": 0.0592,
	"reward": 0.6666666865348816,
	"reward_std": 0.3035424277186394,
	"rewards/accuracy_reward": 0.6666666865348816,
	"rewards/format_reward": 0.0,
	"step": 18
	},
	{
	"completion_length": 722.3542022705078,
	"epoch": 0.1254125412541254,
	"grad_norm": 0.17488506436347961,
	"kl": 0.0010900497436523438,
	"learning_rate": 2.9963460753897363e-06,
	"loss": 0.0007,
	"reward": 0.6458333432674408,
	"reward_std": 0.29962683096528053,
	"rewards/accuracy_reward": 0.6458333432674408,
	"rewards/format_reward": 0.0,
	"step": 19
	},
	{
	"completion_length": 776.3750152587891,
	"epoch": 0.132013201320132,
	"grad_norm": 0.11859464645385742,
	"kl": 0.00139617919921875,
	"learning_rate": 2.9935061859747068e-06,
	"loss": 0.0307,
	"reward": 0.3333333432674408,
	"reward_std": 0.26603007316589355,
	"rewards/accuracy_reward": 0.3333333432674408,
	"rewards/format_reward": 0.0,
	"step": 20
	},
	{
	"completion_length": 661.0625152587891,
	"epoch": 0.13861386138613863,
	"grad_norm": 0.15094302594661713,
	"kl": 0.0016927719116210938,
	"learning_rate": 2.989857536612915e-06,
	"loss": -0.0411,
	"reward": 0.770833358168602,
	"reward_std": 0.33713918551802635,
	"rewards/accuracy_reward": 0.770833358168602,
	"rewards/format_reward": 0.0,
	"step": 21
	},
	{
	"completion_length": 848.6666870117188,
	"epoch": 0.14521452145214522,
	"grad_norm": 0.2171953022480011,
	"kl": 0.00218963623046875,
	"learning_rate": 2.9854021031123555e-06,
	"loss": 0.074,
	"reward": 0.6041666716337204,
	"reward_std": 0.18796169012784958,
	"rewards/accuracy_reward": 0.6041666716337204,
	"rewards/format_reward": 0.0,
	"step": 22
	},
	{
	"completion_length": 764.2083587646484,
	"epoch": 0.15181518151815182,
	"grad_norm": 0.19823089241981506,
	"kl": 0.004238128662109375,
	"learning_rate": 2.980142298168869e-06,
	"loss": 0.0469,
	"reward": 0.35416667722165585,
	"reward_std": 0.36417657136917114,
	"rewards/accuracy_reward": 0.35416667722165585,
	"rewards/format_reward": 0.0,
	"step": 23
	},
	{
	"completion_length": 1017.3333435058594,
	"epoch": 0.15841584158415842,
	"grad_norm": 0.1434755176305771,
	"kl": 0.006870269775390625,
	"learning_rate": 2.97408097005962e-06,
	"loss": 0.0274,
	"reward": 0.2500000074505806,
	"reward_std": 0.3506578952074051,
	"rewards/accuracy_reward": 0.2500000074505806,
	"rewards/format_reward": 0.0,
	"step": 24
	},
	{
	"completion_length": 750.2917022705078,
	"epoch": 0.16501650165016502,
	"grad_norm": 0.13002969324588776,
	"kl": 0.0044384002685546875,
	"learning_rate": 2.9672214011007086e-06,
	"loss": 0.0874,
	"reward": 0.583333358168602,
	"reward_std": 0.3061862215399742,
	"rewards/accuracy_reward": 0.583333358168602,
	"rewards/format_reward": 0.0,
	"step": 25
	},
	{
	"completion_length": 810.7916870117188,
	"epoch": 0.1716171617161716,
	"grad_norm": 0.23493841290473938,
	"kl": 0.008636474609375,
	"learning_rate": 2.959567305869736e-06,
	"loss": 0.0438,
	"reward": 0.4583333432674408,
	"reward_std": 0.32274864614009857,
	"rewards/accuracy_reward": 0.4583333432674408,
	"rewards/format_reward": 0.0,
	"step": 26
	},
	{
	"completion_length": 814.3750152587891,
	"epoch": 0.1782178217821782,
	"grad_norm": 0.319170206785202,
	"kl": 0.007965087890625,
	"learning_rate": 2.951122829194296e-06,
	"loss": -0.0679,
	"reward": 0.5833333507180214,
	"reward_std": 0.24859580025076866,
	"rewards/accuracy_reward": 0.5833333507180214,
	"rewards/format_reward": 0.0,
	"step": 27
	},
	{
	"completion_length": 758.1041870117188,
	"epoch": 0.1848184818481848,
	"grad_norm": 0.27551642060279846,
	"kl": 0.007470130920410156,
	"learning_rate": 2.9418925439074784e-06,
	"loss": 0.0304,
	"reward": 0.6875000298023224,
	"reward_std": 0.3842546343803406,
	"rewards/accuracy_reward": 0.6875000298023224,
	"rewards/format_reward": 0.0,
	"step": 28
	},
	{
	"completion_length": 950.4375152587891,
	"epoch": 0.19141914191419143,
	"grad_norm": 0.10155142843723297,
	"kl": 0.021270751953125,
	"learning_rate": 2.9318814483715983e-06,
	"loss": 0.0413,
	"reward": 0.3541666679084301,
	"reward_std": 0.13301505148410797,
	"rewards/accuracy_reward": 0.3541666679084301,
	"rewards/format_reward": 0.0,
	"step": 29
	},
	{
	"completion_length": 718.0208587646484,
	"epoch": 0.19801980198019803,
	"grad_norm": 0.25280967354774475,
	"kl": 0.01032257080078125,
	"learning_rate": 2.921094963771494e-06,
	"loss": -0.0332,
	"reward": 0.5416666772216558,
	"reward_std": 0.2861081622540951,
	"rewards/accuracy_reward": 0.5416666772216558,
	"rewards/format_reward": 0.0,
	"step": 30
	},
	{
	"completion_length": 836.3333587646484,
	"epoch": 0.20462046204620463,
	"grad_norm": 0.42321765422821045,
	"kl": 0.0301666259765625,
	"learning_rate": 2.9095389311788626e-06,
	"loss": -0.0053,
	"reward": 0.4583333544433117,
	"reward_std": 0.3506578803062439,
	"rewards/accuracy_reward": 0.4583333544433117,
	"rewards/format_reward": 0.0,
	"step": 31
	},
	{
	"completion_length": 704.520866394043,
	"epoch": 0.21122112211221122,
	"grad_norm": 0.23243634402751923,
	"kl": 0.015577316284179688,
	"learning_rate": 2.8972196083892137e-06,
	"loss": 0.0638,
	"reward": 0.6666666865348816,
	"reward_std": 0.3035424277186394,
	"rewards/accuracy_reward": 0.6666666865348816,
	"rewards/format_reward": 0.0,
	"step": 32
	},
	{
	"completion_length": 819.6458587646484,
	"epoch": 0.21782178217821782,
	"grad_norm": 0.2788753807544708,
	"kl": 0.017120361328125,
	"learning_rate": 2.8841436665331635e-06,
	"loss": 0.1618,
	"reward": 0.583333358168602,
	"reward_std": 0.4326418936252594,
	"rewards/accuracy_reward": 0.583333358168602,
	"rewards/format_reward": 0.0,
	"step": 33
	},
	{
	"completion_length": 953.5417175292969,
	"epoch": 0.22442244224422442,
	"grad_norm": 0.168825164437294,
	"kl": 0.0284271240234375,
	"learning_rate": 2.8703181864639013e-06,
	"loss": 0.1058,
	"reward": 0.4375000149011612,
	"reward_std": 0.43655748665332794,
	"rewards/accuracy_reward": 0.4375000149011612,
	"rewards/format_reward": 0.0,
	"step": 34
	},
	{
	"completion_length": 712.7916870117188,
	"epoch": 0.23102310231023102,
	"grad_norm": 0.3284476101398468,
	"kl": 0.02169036865234375,
	"learning_rate": 2.855750654922781e-06,
	"loss": 0.0903,
	"reward": 0.708333358168602,
	"reward_std": 0.3236205019056797,
	"rewards/accuracy_reward": 0.708333358168602,
	"rewards/format_reward": 0.0,
	"step": 35
	},
	{
	"completion_length": 975.9791870117188,
	"epoch": 0.2376237623762376,
	"grad_norm": 0.11752771586179733,
	"kl": 0.04449462890625,
	"learning_rate": 2.8404489604851183e-06,
	"loss": 0.0141,
	"reward": 0.3125000074505806,
	"reward_std": 0.3720077723264694,
	"rewards/accuracy_reward": 0.3125000074505806,
	"rewards/format_reward": 0.0,
	"step": 36
	},
	{
	"completion_length": 727.8125,
	"epoch": 0.24422442244224424,
	"grad_norm": 0.20371825993061066,
	"kl": 0.0565185546875,
	"learning_rate": 2.8244213892883906e-06,
	"loss": 0.0715,
	"reward": 0.6666667014360428,
	"reward_std": 0.350657869130373,
	"rewards/accuracy_reward": 0.6666667014360428,
	"rewards/format_reward": 0.0,
	"step": 37
	},
	{
	"completion_length": 971.9375305175781,
	"epoch": 0.2508250825082508,
	"grad_norm": 0.10167910903692245,
	"kl": 0.0328369140625,
	"learning_rate": 2.8076766205451433e-06,
	"loss": 0.0277,
	"reward": 0.39583334885537624,
	"reward_std": 0.21764282882213593,
	"rewards/accuracy_reward": 0.39583334885537624,
	"rewards/format_reward": 0.0,
	"step": 38
	},
	{
	"completion_length": 996.3750305175781,
	"epoch": 0.25742574257425743,
	"grad_norm": 0.10488853603601456,
	"kl": 0.072265625,
	"learning_rate": 2.7902237218430485e-06,
	"loss": 0.0558,
	"reward": 0.3958333432674408,
	"reward_std": 0.29962684214115143,
	"rewards/accuracy_reward": 0.3958333432674408,
	"rewards/format_reward": 0.0,
	"step": 39
	},
	{
	"completion_length": 786.3125152587891,
	"epoch": 0.264026402640264,
	"grad_norm": 0.11269073933362961,
	"kl": 0.0630340576171875,
	"learning_rate": 2.772072144234639e-06,
	"loss": 0.0412,
	"reward": 0.5833333432674408,
	"reward_std": 0.16661179438233376,
	"rewards/accuracy_reward": 0.5833333432674408,
	"rewards/format_reward": 0.0,
	"step": 40
	},
	{
	"completion_length": 884.9375305175781,
	"epoch": 0.2706270627062706,
	"grad_norm": 0.1405339539051056,
	"kl": 0.0887451171875,
	"learning_rate": 2.753231717119405e-06,
	"loss": 0.1139,
	"reward": 0.6458333432674408,
	"reward_std": 0.44616057723760605,
	"rewards/accuracy_reward": 0.6458333432674408,
	"rewards/format_reward": 0.0,
	"step": 41
	},
	{
	"completion_length": 861.7291870117188,
	"epoch": 0.27722772277227725,
	"grad_norm": 0.11663912236690521,
	"kl": 0.08587646484375,
	"learning_rate": 2.7337126429209934e-06,
	"loss": 0.1666,
	"reward": 0.5833333544433117,
	"reward_std": 0.23116152733564377,
	"rewards/accuracy_reward": 0.5833333544433117,
	"rewards/format_reward": 0.0,
	"step": 42
	},
	{
	"completion_length": 920.8958587646484,
	"epoch": 0.2838283828382838,
	"grad_norm": 0.1270524263381958,
	"kl": 0.1448974609375,
	"learning_rate": 2.713525491562421e-06,
	"loss": 0.1552,
	"reward": 0.5208333432674408,
	"reward_std": 0.28219256550073624,
	"rewards/accuracy_reward": 0.5208333432674408,
	"rewards/format_reward": 0.0,
	"step": 43
	},
	{
	"completion_length": 1177.687515258789,
	"epoch": 0.29042904290429045,
	"grad_norm": 0.17139725387096405,
	"kl": 0.176513671875,
	"learning_rate": 2.6926811947422717e-06,
	"loss": 0.0787,
	"reward": 0.29166666977107525,
	"reward_std": 0.2957112528383732,
	"rewards/accuracy_reward": 0.29166666977107525,
	"rewards/format_reward": 0.0,
	"step": 44
	},
	{
	"completion_length": 951.2500305175781,
	"epoch": 0.297029702970297,
	"grad_norm": 0.11752501130104065,
	"kl": 0.1422119140625,
	"learning_rate": 2.671191040014989e-06,
	"loss": 0.1136,
	"reward": 0.4375000149011612,
	"reward_std": 0.309229951351881,
	"rewards/accuracy_reward": 0.4375000149011612,
	"rewards/format_reward": 0.0,
	"step": 45
	},
	{
	"completion_length": 922.6458435058594,
	"epoch": 0.30363036303630364,
	"grad_norm": 0.16094517707824707,
	"kl": 0.15997314453125,
	"learning_rate": 2.649066664678467e-06,
	"loss": 0.0865,
	"reward": 0.416666679084301,
	"reward_std": 0.32274864614009857,
	"rewards/accuracy_reward": 0.416666679084301,
	"rewards/format_reward": 0.0,
	"step": 46
	},
	{
	"completion_length": 713.6458740234375,
	"epoch": 0.3102310231023102,
	"grad_norm": 0.17246519029140472,
	"kl": 0.08984375,
	"learning_rate": 2.626320049472249e-06,
	"loss": 0.1438,
	"reward": 0.5000000260770321,
	"reward_std": 0.3332235999405384,
	"rewards/accuracy_reward": 0.5000000260770321,
	"rewards/format_reward": 0.0,
	"step": 47
	},
	{
	"completion_length": 924.0208435058594,
	"epoch": 0.31683168316831684,
	"grad_norm": 0.13788333535194397,
	"kl": 0.11041259765625,
	"learning_rate": 2.6029635120897432e-06,
	"loss": 0.1128,
	"reward": 0.3125000111758709,
	"reward_std": 0.40168891102075577,
	"rewards/accuracy_reward": 0.3125000111758709,
	"rewards/format_reward": 0.0,
	"step": 48
	},
	{
	"completion_length": 1077.2292175292969,
	"epoch": 0.3234323432343234,
	"grad_norm": 0.12129193544387817,
	"kl": 0.18906784057617188,
	"learning_rate": 2.5790097005079765e-06,
	"loss": 0.0767,
	"reward": 0.3125000037252903,
	"reward_std": 0.2350771278142929,
	"rewards/accuracy_reward": 0.3125000037252903,
	"rewards/format_reward": 0.0,
	"step": 49
	},
	{
	"completion_length": 866.0416870117188,
	"epoch": 0.33003300330033003,
	"grad_norm": 0.12490338832139969,
	"kl": 0.1341552734375,
	"learning_rate": 2.5544715861384928e-06,
	"loss": 0.1316,
	"reward": 0.41666667722165585,
	"reward_std": 0.2957112640142441,
	"rewards/accuracy_reward": 0.41666667722165585,
	"rewards/format_reward": 0.0,
	"step": 50
	},
	{
	"completion_length": 851.5208587646484,
	"epoch": 0.33663366336633666,
	"grad_norm": 0.1823125034570694,
	"kl": 0.0992431640625,
	"learning_rate": 2.529362456803101e-06,
	"loss": 0.0959,
	"reward": 0.4791666828095913,
	"reward_std": 0.43655748665332794,
	"rewards/accuracy_reward": 0.4791666828095913,
	"rewards/format_reward": 0.0,
	"step": 51
	},
	{
	"completion_length": 1083.4583435058594,
	"epoch": 0.3432343234323432,
	"grad_norm": 0.12086265534162521,
	"kl": 0.25439453125,
	"learning_rate": 2.5036959095382875e-06,
	"loss": 0.1457,
	"reward": 0.16666667349636555,
	"reward_std": 0.24859580397605896,
	"rewards/accuracy_reward": 0.16666667349636555,
	"rewards/format_reward": 0.0,
	"step": 52
	},
	{
	"completion_length": 663.4583587646484,
	"epoch": 0.34983498349834985,
	"grad_norm": 0.1067744717001915,
	"kl": 0.0916290283203125,
	"learning_rate": 2.477485843232183e-06,
	"loss": 0.1077,
	"reward": 0.6666666716337204,
	"reward_std": 0.11949635669589043,
	"rewards/accuracy_reward": 0.6666666716337204,
	"rewards/format_reward": 0.0,
	"step": 53
	},
	{
	"completion_length": 1239.0834045410156,
	"epoch": 0.3564356435643564,
	"grad_norm": 0.1427147090435028,
	"kl": 0.22607421875,
	"learning_rate": 2.4507464510980654e-06,
	"loss": 0.1453,
	"reward": 0.22916667722165585,
	"reward_std": 0.23507710918784142,
	"rewards/accuracy_reward": 0.22916667722165585,
	"rewards/format_reward": 0.0,
	"step": 54
	},
	{
	"completion_length": 835.8750152587891,
	"epoch": 0.36303630363036304,
	"grad_norm": 0.171806201338768,
	"kl": 0.1243896484375,
	"learning_rate": 2.4234922129884873e-06,
	"loss": 0.1779,
	"reward": 0.5625000055879354,
	"reward_std": 0.31970490142703056,
	"rewards/accuracy_reward": 0.5625000055879354,
	"rewards/format_reward": 0.0,
	"step": 55
	},
	{
	"completion_length": 1060.2916870117188,
	"epoch": 0.3696369636963696,
	"grad_norm": 0.11252501606941223,
	"kl": 0.179443359375,
	"learning_rate": 2.3957378875541795e-06,
	"loss": 0.1761,
	"reward": 0.3333333432674408,
	"reward_std": 0.30354245379567146,
	"rewards/accuracy_reward": 0.3333333432674408,
	"rewards/format_reward": 0.0,
	"step": 56
	},
	{
	"completion_length": 1031.6458435058594,
	"epoch": 0.37623762376237624,
	"grad_norm": 0.08250569552183151,
	"kl": 0.1865234375,
	"learning_rate": 2.36749850425198e-06,
	"loss": 0.0708,
	"reward": 0.33333334140479565,
	"reward_std": 0.31314554437994957,
	"rewards/accuracy_reward": 0.33333334140479565,
	"rewards/format_reward": 0.0,
	"step": 57
	},
	{
	"completion_length": 948.4583587646484,
	"epoch": 0.38283828382838286,
	"grad_norm": 0.07917948067188263,
	"kl": 0.1787109375,
	"learning_rate": 2.3387893552061204e-06,
	"loss": 0.0915,
	"reward": 0.35416666977107525,
	"reward_std": 0.1705274023115635,
	"rewards/accuracy_reward": 0.35416666977107525,
	"rewards/format_reward": 0.0,
	"step": 58
	},
	{
	"completion_length": 972.2083587646484,
	"epoch": 0.38943894389438943,
	"grad_norm": 0.1615315079689026,
	"kl": 0.1478271484375,
	"learning_rate": 2.3096259869272697e-06,
	"loss": 0.0861,
	"reward": 0.4375000223517418,
	"reward_std": 0.40168892592191696,
	"rewards/accuracy_reward": 0.4375000223517418,
	"rewards/format_reward": 0.0,
	"step": 59
	},
	{
	"completion_length": 922.2708587646484,
	"epoch": 0.39603960396039606,
	"grad_norm": 0.1217813566327095,
	"kl": 0.1329345703125,
	"learning_rate": 2.280024191893823e-06,
	"loss": 0.1169,
	"reward": 0.4583333507180214,
	"reward_std": 0.2957112640142441,
	"rewards/accuracy_reward": 0.4583333507180214,
	"rewards/format_reward": 0.0,
	"step": 60
	},
	{
	"completion_length": 923.3750152587891,
	"epoch": 0.40264026402640263,
	"grad_norm": 0.1521437168121338,
	"kl": 0.11083984375,
	"learning_rate": 2.25e-06,
	"loss": 0.122,
	"reward": 0.5625000149011612,
	"reward_std": 0.40168890357017517,
	"rewards/accuracy_reward": 0.5625000149011612,
	"rewards/format_reward": 0.0,
	"step": 61
	},
	{
	"completion_length": 776.1250152587891,
	"epoch": 0.40924092409240925,
	"grad_norm": 0.15655189752578735,
	"kl": 0.13427734375,
	"learning_rate": 2.2195696698753695e-06,
	"loss": 0.0472,
	"reward": 0.3333333395421505,
	"reward_std": 0.3680921792984009,
	"rewards/accuracy_reward": 0.3333333395421505,
	"rewards/format_reward": 0.0,
	"step": 62
	},
	{
	"completion_length": 927.9792022705078,
	"epoch": 0.4158415841584158,
	"grad_norm": 0.08691170066595078,
	"kl": 0.1297607421875,
	"learning_rate": 2.1887496800805174e-06,
	"loss": 0.0569,
	"reward": 0.5208333507180214,
	"reward_std": 0.2350771315395832,
	"rewards/accuracy_reward": 0.5208333507180214,
	"rewards/format_reward": 0.0,
	"step": 63
	},
	{
	"completion_length": 1035.8125,
	"epoch": 0.42244224422442245,
	"grad_norm": 0.10468967258930206,
	"kl": 0.16912841796875,
	"learning_rate": 2.157556720183616e-06,
	"loss": 0.009,
	"reward": 0.2708333395421505,
	"reward_std": 0.2996268570423126,
	"rewards/accuracy_reward": 0.2708333395421505,
	"rewards/format_reward": 0.0,
	"step": 64
	},
	{
	"completion_length": 891.8333435058594,
	"epoch": 0.429042904290429,
	"grad_norm": 0.09926916658878326,
	"kl": 0.11190414428710938,
	"learning_rate": 2.126007681722727e-06,
	"loss": 0.0617,
	"reward": 0.5000000204890966,
	"reward_std": 0.2861081399023533,
	"rewards/accuracy_reward": 0.5000000204890966,
	"rewards/format_reward": 0.0,
	"step": 65
	},
	{
	"completion_length": 756.2708587646484,
	"epoch": 0.43564356435643564,
	"grad_norm": 0.14332562685012817,
	"kl": 0.09716796875,
	"learning_rate": 2.0941196490587354e-06,
	"loss": 0.0435,
	"reward": 0.5000000298023224,
	"reward_std": 0.2686738669872284,
	"rewards/accuracy_reward": 0.5000000298023224,
	"rewards/format_reward": 0.0,
	"step": 66
	},
	{
	"completion_length": 889.8125228881836,
	"epoch": 0.44224422442244227,
	"grad_norm": 0.16792258620262146,
	"kl": 0.1457672119140625,
	"learning_rate": 2.061909890123868e-06,
	"loss": 0.1384,
	"reward": 0.5416666865348816,
	"reward_std": 0.3506578765809536,
	"rewards/accuracy_reward": 0.5416666865348816,
	"rewards/format_reward": 0.0,
	"step": 67
	},
	{
	"completion_length": 870.2292098999023,
	"epoch": 0.44884488448844884,
	"grad_norm": 0.1451350599527359,
	"kl": 0.1453857421875,
	"learning_rate": 2.0293958470708033e-06,
	"loss": 0.0586,
	"reward": 0.3750000149011612,
	"reward_std": 0.23899272456765175,
	"rewards/accuracy_reward": 0.3750000149011612,
	"rewards/format_reward": 0.0,
	"step": 68
	},
	{
	"completion_length": 931.5625305175781,
	"epoch": 0.45544554455445546,
	"grad_norm": 0.17694266140460968,
	"kl": 0.2371826171875,
	"learning_rate": 1.9965951268274372e-06,
	"loss": 0.1671,
	"reward": 0.3750000149011612,
	"reward_std": 0.26603008806705475,
	"rewards/accuracy_reward": 0.3750000149011612,
	"rewards/format_reward": 0.0,
	"step": 69
	},
	{
	"completion_length": 767.4167022705078,
	"epoch": 0.46204620462046203,
	"grad_norm": 0.13988901674747467,
	"kl": 0.1268310546875,
	"learning_rate": 1.963525491562421e-06,
	"loss": -0.0182,
	"reward": 0.5833333432674408,
	"reward_std": 0.2957112491130829,
	"rewards/accuracy_reward": 0.5833333432674408,
	"rewards/format_reward": 0.0,
	"step": 70
	},
	{
	"completion_length": 945.3125305175781,
	"epoch": 0.46864686468646866,
	"grad_norm": 0.17755043506622314,
	"kl": 0.244384765625,
	"learning_rate": 1.9302048490666355e-06,
	"loss": 0.1788,
	"reward": 0.3541666828095913,
	"reward_std": 0.4662386551499367,
	"rewards/accuracy_reward": 0.3541666828095913,
	"rewards/format_reward": 0.0,
	"step": 71
	},
	{
	"completion_length": 935.2083435058594,
	"epoch": 0.4752475247524752,
	"grad_norm": 0.14559805393218994,
	"kl": 0.17041015625,
	"learning_rate": 1.8966512430558036e-06,
	"loss": 0.1942,
	"reward": 0.416666679084301,
	"reward_std": 0.4596792608499527,
	"rewards/accuracy_reward": 0.416666679084301,
	"rewards/format_reward": 0.0,
	"step": 72
	},
	{
	"completion_length": 908.1458587646484,
	"epoch": 0.48184818481848185,
	"grad_norm": 0.11466598510742188,
	"kl": 0.2431640625,
	"learning_rate": 1.8628828433995015e-06,
	"loss": -0.0209,
	"reward": 0.31250001676380634,
	"reward_std": 0.21764283999800682,
	"rewards/accuracy_reward": 0.31250001676380634,
	"rewards/format_reward": 0.0,
	"step": 73
	},
	{
	"completion_length": 868.7917022705078,
	"epoch": 0.4884488448844885,
	"grad_norm": 0.11173044145107269,
	"kl": 0.1383056640625,
	"learning_rate": 1.828917936281855e-06,
	"loss": 0.0838,
	"reward": 0.35416667722165585,
	"reward_std": 0.1530931033194065,
	"rewards/accuracy_reward": 0.35416667722165585,
	"rewards/format_reward": 0.0,
	"step": 74
	},
	{
	"completion_length": 933.4583587646484,
	"epoch": 0.49504950495049505,
	"grad_norm": 0.12861062586307526,
	"kl": 0.17724609375,
	"learning_rate": 1.7947749142992453e-06,
	"loss": 0.0587,
	"reward": 0.2291666716337204,
	"reward_std": 0.35457348823547363,
	"rewards/accuracy_reward": 0.2291666716337204,
	"rewards/format_reward": 0.0,
	"step": 75
	},
	{
	"completion_length": 924.4166717529297,
	"epoch": 0.5016501650165016,
	"grad_norm": 0.09584160894155502,
	"kl": 0.221435546875,
	"learning_rate": 1.7604722665003958e-06,
	"loss": 0.0786,
	"reward": 0.16666667722165585,
	"reward_std": 0.18404607474803925,
	"rewards/accuracy_reward": 0.16666667722165585,
	"rewards/format_reward": 0.0,
	"step": 76
	},
	{
	"completion_length": 1081.0208435058594,
	"epoch": 0.5082508250825083,
	"grad_norm": 0.11683700233697891,
	"kl": 0.1298828125,
	"learning_rate": 1.7260285683742248e-06,
	"loss": 0.1236,
	"reward": 0.416666679084301,
	"reward_std": 0.3680921830236912,
	"rewards/accuracy_reward": 0.416666679084301,
	"rewards/format_reward": 0.0,
	"step": 77
	},
	{
	"completion_length": 978.3333435058594,
	"epoch": 0.5148514851485149,
	"grad_norm": 0.09451648592948914,
	"kl": 0.1480712890625,
	"learning_rate": 1.6914624717908924e-06,
	"loss": 0.0095,
	"reward": 0.2708333395421505,
	"reward_std": 0.34674229472875595,
	"rewards/accuracy_reward": 0.2708333395421505,
	"rewards/format_reward": 0.0,
	"step": 78
	},
	{
	"completion_length": 1018.5417175292969,
	"epoch": 0.5214521452145214,
	"grad_norm": 0.10737847536802292,
	"kl": 0.217529296875,
	"learning_rate": 1.6567926949014804e-06,
	"loss": 0.0826,
	"reward": 0.3750000074505806,
	"reward_std": 0.24859581142663956,
	"rewards/accuracy_reward": 0.3750000074505806,
	"rewards/format_reward": 0.0,
	"step": 79
	},
	{
	"completion_length": 893.5000457763672,
	"epoch": 0.528052805280528,
	"grad_norm": 0.1193479523062706,
	"kl": 0.171875,
	"learning_rate": 1.6220380120017874e-06,
	"loss": 0.045,
	"reward": 0.43750002048909664,
	"reward_std": 0.35457346960902214,
	"rewards/accuracy_reward": 0.43750002048909664,
	"rewards/format_reward": 0.0,
	"step": 80
	},
	{
	"completion_length": 772.6041717529297,
	"epoch": 0.5346534653465347,
	"grad_norm": 0.1544453501701355,
	"kl": 0.15875244140625,
	"learning_rate": 1.5872172433657137e-06,
	"loss": -0.0317,
	"reward": 0.5416666828095913,
	"reward_std": 0.3332236036658287,
	"rewards/accuracy_reward": 0.5416666828095913,
	"rewards/format_reward": 0.0,
	"step": 81
	},
	{
	"completion_length": 817.8750305175781,
	"epoch": 0.5412541254125413,
	"grad_norm": 0.08425965160131454,
	"kl": 0.09405517578125,
	"learning_rate": 1.5523492450537518e-06,
	"loss": 0.0603,
	"reward": 0.5000000055879354,
	"reward_std": 0.23899271711707115,
	"rewards/accuracy_reward": 0.5000000055879354,
	"rewards/format_reward": 0.0,
	"step": 82
	},
	{
	"completion_length": 883.8542175292969,
	"epoch": 0.5478547854785478,
	"grad_norm": 0.14589935541152954,
	"kl": 0.218994140625,
	"learning_rate": 1.5174528987020958e-06,
	"loss": 0.1737,
	"reward": 0.3750000037252903,
	"reward_std": 0.4248107075691223,
	"rewards/accuracy_reward": 0.3750000037252903,
	"rewards/format_reward": 0.0,
	"step": 83
	},
	{
	"completion_length": 1053.2083740234375,
	"epoch": 0.5544554455445545,
	"grad_norm": 0.09967659413814545,
	"kl": 0.287841796875,
	"learning_rate": 1.4825471012979047e-06,
	"loss": -0.0045,
	"reward": 0.25000000558793545,
	"reward_std": 0.10206207260489464,
	"rewards/accuracy_reward": 0.25000000558793545,
	"rewards/format_reward": 0.0,
	"step": 84
	},
	{
	"completion_length": 1129.2083587646484,
	"epoch": 0.5610561056105611,
	"grad_norm": 0.0934222936630249,
	"kl": 0.2568359375,
	"learning_rate": 1.4476507549462489e-06,
	"loss": 0.0961,
	"reward": 0.37500001303851604,
	"reward_std": 0.2957112528383732,
	"rewards/accuracy_reward": 0.37500001303851604,
	"rewards/format_reward": 0.0,
	"step": 85
	},
	{
	"completion_length": 904.125,
	"epoch": 0.5676567656765676,
	"grad_norm": 0.13640955090522766,
	"kl": 0.2188720703125,
	"learning_rate": 1.4127827566342864e-06,
	"loss": 0.0729,
	"reward": 0.354166679084301,
	"reward_std": 0.3720077723264694,
	"rewards/accuracy_reward": 0.354166679084301,
	"rewards/format_reward": 0.0,
	"step": 86
	},
	{
	"completion_length": 931.2291870117188,
	"epoch": 0.5742574257425742,
	"grad_norm": 0.21060959994792938,
	"kl": 0.2344970703125,
	"learning_rate": 1.3779619879982127e-06,
	"loss": 0.1297,
	"reward": 0.4583333507180214,
	"reward_std": 0.3506578877568245,
	"rewards/accuracy_reward": 0.4583333507180214,
	"rewards/format_reward": 0.0,
	"step": 87
	},
	{
	"completion_length": 997.7916717529297,
	"epoch": 0.5808580858085809,
	"grad_norm": 0.14985467493534088,
	"kl": 0.306396484375,
	"learning_rate": 1.3432073050985201e-06,
	"loss": 0.0972,
	"reward": 0.25,
	"reward_std": 0.1369306445121765,
	"rewards/accuracy_reward": 0.25,
	"rewards/format_reward": 0.0,
	"step": 88
	},
	{
	"completion_length": 931.5833587646484,
	"epoch": 0.5874587458745875,
	"grad_norm": 0.33125752210617065,
	"kl": 0.2950439453125,
	"learning_rate": 1.308537528209108e-06,
	"loss": 0.1418,
	"reward": 0.5208333507180214,
	"reward_std": 0.2900237627327442,
	"rewards/accuracy_reward": 0.5208333507180214,
	"rewards/format_reward": 0.0,
	"step": 89
	},
	{
	"completion_length": 1021.1666870117188,
	"epoch": 0.594059405940594,
	"grad_norm": 0.16106674075126648,
	"kl": 0.379638671875,
	"learning_rate": 1.2739714316257753e-06,
	"loss": 0.0325,
	"reward": 0.3333333432674408,
	"reward_std": 0.3776952549815178,
	"rewards/accuracy_reward": 0.3333333432674408,
	"rewards/format_reward": 0.0,
	"step": 90
	},
	{
	"completion_length": 988.3125305175781,
	"epoch": 0.6006600660066007,
	"grad_norm": 16.83741569519043,
	"kl": 0.857177734375,
	"learning_rate": 1.2395277334996047e-06,
	"loss": 0.1811,
	"reward": 0.27083334140479565,
	"reward_std": 0.37465154752135277,
	"rewards/accuracy_reward": 0.27083334140479565,
	"rewards/format_reward": 0.0,
	"step": 91
	},
	{
	"completion_length": 828.8125305175781,
	"epoch": 0.6072607260726073,
	"grad_norm": 0.5444411039352417,
	"kl": 0.21484375,
	"learning_rate": 1.2052250857007548e-06,
	"loss": 0.1801,
	"reward": 0.5625000223517418,
	"reward_std": 0.38161084055900574,
	"rewards/accuracy_reward": 0.5625000223517418,
	"rewards/format_reward": 0.0,
	"step": 92
	},
	{
	"completion_length": 1117.7917022705078,
	"epoch": 0.6138613861386139,
	"grad_norm": 0.33171162009239197,
	"kl": 0.449462890625,
	"learning_rate": 1.1710820637181448e-06,
	"loss": 0.2095,
	"reward": 0.2500000111758709,
	"reward_std": 0.26603008806705475,
	"rewards/accuracy_reward": 0.2500000111758709,
	"rewards/format_reward": 0.0,
	"step": 93
	},
	{
	"completion_length": 825.5208740234375,
	"epoch": 0.6204620462046204,
	"grad_norm": 0.30983299016952515,
	"kl": 0.7236328125,
	"learning_rate": 1.1371171566004986e-06,
	"loss": 0.0181,
	"reward": 0.3333333432674408,
	"reward_std": 0.20148035883903503,
	"rewards/accuracy_reward": 0.3333333432674408,
	"rewards/format_reward": 0.0,
	"step": 94
	},
	{
	"completion_length": 973.3750152587891,
	"epoch": 0.6270627062706271,
	"grad_norm": 0.7808173894882202,
	"kl": 0.62158203125,
	"learning_rate": 1.103348756944197e-06,
	"loss": 0.1762,
	"reward": 0.3750000037252903,
	"reward_std": 0.4422450140118599,
	"rewards/accuracy_reward": 0.3750000037252903,
	"rewards/format_reward": 0.0,
	"step": 95
	},
	{
	"completion_length": 991.2708587646484,
	"epoch": 0.6336633663366337,
	"grad_norm": 0.6956799030303955,
	"kl": 0.50244140625,
	"learning_rate": 1.069795150933365e-06,
	"loss": 0.1548,
	"reward": 0.2291666753590107,
	"reward_std": 0.2996268570423126,
	"rewards/accuracy_reward": 0.2291666753590107,
	"rewards/format_reward": 0.0,
	"step": 96
	},
	{
	"completion_length": 845.6041870117188,
	"epoch": 0.6402640264026402,
	"grad_norm": 0.6455105543136597,
	"kl": 0.8310546875,
	"learning_rate": 1.036474508437579e-06,
	"loss": 0.0902,
	"reward": 0.2916666716337204,
	"reward_std": 0.11949635669589043,
	"rewards/accuracy_reward": 0.2916666716337204,
	"rewards/format_reward": 0.0,
	"step": 97
	},
	{
	"completion_length": 961.2708587646484,
	"epoch": 0.6468646864686468,
	"grad_norm": 1.0175178050994873,
	"kl": 1.361572265625,
	"learning_rate": 1.003404873172563e-06,
	"loss": 0.2628,
	"reward": 0.2916666716337204,
	"reward_std": 0.3506578765809536,
	"rewards/accuracy_reward": 0.2916666716337204,
	"rewards/format_reward": 0.0,
	"step": 98
	},
	{
	"completion_length": 801.7500152587891,
	"epoch": 0.6534653465346535,
	"grad_norm": 0.9493899941444397,
	"kl": 1.8583984375,
	"learning_rate": 9.70604152929197e-07,
	"loss": 0.1342,
	"reward": 0.27083333395421505,
	"reward_std": 0.33713919296860695,
	"rewards/accuracy_reward": 0.27083333395421505,
	"rewards/format_reward": 0.0,
	"step": 99
	},
	{
	"completion_length": 1018.9583587646484,
	"epoch": 0.6600660066006601,
	"grad_norm": 0.641622006893158,
	"kl": 1.20654296875,
	"learning_rate": 9.380901098761319e-07,
	"loss": 0.1288,
	"reward": 0.354166679084301,
	"reward_std": 0.21764283999800682,
	"rewards/accuracy_reward": 0.354166679084301,
	"rewards/format_reward": 0.0,
	"step": 100
	},
	{
	"completion_length": 991.6666870117188,
	"epoch": 0.6666666666666666,
	"grad_norm": 3.699712038040161,
	"kl": 2.2578125,
	"learning_rate": 9.058803509412648e-07,
	"loss": 0.1524,
	"reward": 0.20833334140479565,
	"reward_std": 0.2686738781630993,
	"rewards/accuracy_reward": 0.20833334140479565,
	"rewards/format_reward": 0.0,
	"step": 101
	},
	{
	"completion_length": 851.1458740234375,
	"epoch": 0.6732673267326733,
	"grad_norm": 0.7072895765304565,
	"kl": 0.2276611328125,
	"learning_rate": 8.739923182772733e-07,
	"loss": 0.0363,
	"reward": 0.5000000074505806,
	"reward_std": 0.341054804623127,
	"rewards/accuracy_reward": 0.5000000074505806,
	"rewards/format_reward": 0.0,
	"step": 102
	},
	{
	"completion_length": 609.0000152587891,
	"epoch": 0.6798679867986799,
	"grad_norm": 1.4843007326126099,
	"kl": 0.269775390625,
	"learning_rate": 8.424432798163837e-07,
	"loss": 0.03,
	"reward": 0.604166679084301,
	"reward_std": 0.28219255805015564,
	"rewards/accuracy_reward": 0.604166679084301,
	"rewards/format_reward": 0.0,
	"step": 103
	},
	{
	"completion_length": 905.5625152587891,
	"epoch": 0.6864686468646864,
	"grad_norm": 1.7519278526306152,
	"kl": 0.4345703125,
	"learning_rate": 8.112503199194822e-07,
	"loss": 0.026,
	"reward": 0.20833333767950535,
	"reward_std": 0.3602609820663929,
	"rewards/accuracy_reward": 0.20833333767950535,
	"rewards/format_reward": 0.0,
	"step": 104
	},
	{
	"completion_length": 880.8541870117188,
	"epoch": 0.693069306930693,
	"grad_norm": 2.7430357933044434,
	"kl": 2.5283203125,
	"learning_rate": 7.804303301246311e-07,
	"loss": 0.212,
	"reward": 0.31250001303851604,
	"reward_std": 0.21764283999800682,
	"rewards/accuracy_reward": 0.31250001303851604,
	"rewards/format_reward": 0.0,
	"step": 105
	},
	{
	"completion_length": 1010.9792022705078,
	"epoch": 0.6996699669966997,
	"grad_norm": 1.1869699954986572,
	"kl": 2.6875,
	"learning_rate": 7.500000000000003e-07,
	"loss": 0.2102,
	"reward": 0.37500001676380634,
	"reward_std": 0.3131455294787884,
	"rewards/accuracy_reward": 0.37500001676380634,
	"rewards/format_reward": 0.0,
	"step": 106
	},
	{
	"completion_length": 1013.1875305175781,
	"epoch": 0.7062706270627063,
	"grad_norm": 1.6787883043289185,
	"kl": 1.580078125,
	"learning_rate": 7.19975808106177e-07,
	"loss": 0.215,
	"reward": 0.2500000074505806,
	"reward_std": 0.31314554065465927,
	"rewards/accuracy_reward": 0.2500000074505806,
	"rewards/format_reward": 0.0,
	"step": 107
	},
	{
	"completion_length": 818.2917022705078,
	"epoch": 0.7128712871287128,
	"grad_norm": 1.6915416717529297,
	"kl": 0.703125,
	"learning_rate": 6.903740130727312e-07,
	"loss": 0.1459,
	"reward": 0.5000000149011612,
	"reward_std": 0.33057980239391327,
	"rewards/accuracy_reward": 0.5000000149011612,
	"rewards/format_reward": 0.0,
	"step": 108
	},
	{
	"completion_length": 1075.5833740234375,
	"epoch": 0.7194719471947195,
	"grad_norm": 0.8402836918830872,
	"kl": 0.9658203125,
	"learning_rate": 6.6121064479388e-07,
	"loss": 0.0926,
	"reward": 0.2916666716337204,
	"reward_std": 0.19364918768405914,
	"rewards/accuracy_reward": 0.2916666716337204,
	"rewards/format_reward": 0.0,
	"step": 109
	},
	{
	"completion_length": 848.4375305175781,
	"epoch": 0.7260726072607261,
	"grad_norm": 4.569257736206055,
	"kl": 0.77294921875,
	"learning_rate": 6.325014957480202e-07,
	"loss": 0.221,
	"reward": 0.5416666865348816,
	"reward_std": 0.4422449842095375,
	"rewards/accuracy_reward": 0.5416666865348816,
	"rewards/format_reward": 0.0,
	"step": 110
	},
	{
	"completion_length": 891.8750381469727,
	"epoch": 0.7326732673267327,
	"grad_norm": 1.430153489112854,
	"kl": 1.53662109375,
	"learning_rate": 6.04262112445821e-07,
	"loss": 0.1013,
	"reward": 0.43750000558793545,
	"reward_std": 0.2350771203637123,
	"rewards/accuracy_reward": 0.43750000558793545,
	"rewards/format_reward": 0.0,
	"step": 111
	},
	{
	"completion_length": 755.6458435058594,
	"epoch": 0.7392739273927392,
	"grad_norm": 0.3871193826198578,
	"kl": 0.632415771484375,
	"learning_rate": 5.765077870115125e-07,
	"loss": 0.0524,
	"reward": 0.43750002048909664,
	"reward_std": 0.21764283627271652,
	"rewards/accuracy_reward": 0.43750002048909664,
	"rewards/format_reward": 0.0,
	"step": 112
	},
	{
	"completion_length": 899.6875305175781,
	"epoch": 0.7458745874587459,
	"grad_norm": 2.0980653762817383,
	"kl": 0.4720458984375,
	"learning_rate": 5.492535489019345e-07,
	"loss": 0.1302,
	"reward": 0.41666667349636555,
	"reward_std": 0.3332235962152481,
	"rewards/accuracy_reward": 0.41666667349636555,
	"rewards/format_reward": 0.0,
	"step": 113
	},
	{
	"completion_length": 769.0417022705078,
	"epoch": 0.7524752475247525,
	"grad_norm": 2.5095949172973633,
	"kl": 0.71484375,
	"learning_rate": 5.225141567678172e-07,
	"loss": 0.1271,
	"reward": 0.5416666865348816,
	"reward_std": 0.4500761739909649,
	"rewards/accuracy_reward": 0.5416666865348816,
	"rewards/format_reward": 0.0,
	"step": 114
	},
	{
	"completion_length": 1073.0416870117188,
	"epoch": 0.759075907590759,
	"grad_norm": 1.9907251596450806,
	"kl": 1.24365234375,
	"learning_rate": 4.963040904617131e-07,
	"loss": 0.1739,
	"reward": 0.3333333507180214,
	"reward_std": 0.350657869130373,
	"rewards/accuracy_reward": 0.3333333507180214,
	"rewards/format_reward": 0.0,
	"step": 115
	},
	{
	"completion_length": 935.7500305175781,
	"epoch": 0.7656765676567657,
	"grad_norm": 3.745811939239502,
	"kl": 3.703125,
	"learning_rate": 4.7063754319689976e-07,
	"loss": 0.2618,
	"reward": 0.1458333395421505,
	"reward_std": 0.23507710546255112,
	"rewards/accuracy_reward": 0.1458333395421505,
	"rewards/format_reward": 0.0,
	"step": 116
	},
	{
	"completion_length": 1031.5208587646484,
	"epoch": 0.7722772277227723,
	"grad_norm": 5.434175968170166,
	"kl": 3.8812255859375,
	"learning_rate": 4.4552841386150737e-07,
	"loss": 0.2507,
	"reward": 0.22916666977107525,
	"reward_std": 0.25515518710017204,
	"rewards/accuracy_reward": 0.22916666977107525,
	"rewards/format_reward": 0.0,
	"step": 117
	},
	{
	"completion_length": 894.9375305175781,
	"epoch": 0.7788778877887789,
	"grad_norm": 2.229215621948242,
	"kl": 1.484375,
	"learning_rate": 4.2099029949202353e-07,
	"loss": 0.2131,
	"reward": 0.5625000223517418,
	"reward_std": 0.39208584651350975,
	"rewards/accuracy_reward": 0.5625000223517418,
	"rewards/format_reward": 0.0,
	"step": 118
	},
	{
	"completion_length": 884.8333435058594,
	"epoch": 0.7854785478547854,
	"grad_norm": 3.206272602081299,
	"kl": 2.19384765625,
	"learning_rate": 3.9703648791025716e-07,
	"loss": 0.121,
	"reward": 0.2291666753590107,
	"reward_std": 0.2621144950389862,
	"rewards/accuracy_reward": 0.2291666753590107,
	"rewards/format_reward": 0.0,
	"step": 119
	},
	{
	"completion_length": 927.5208587646484,
	"epoch": 0.7920792079207921,
	"grad_norm": 1.4413719177246094,
	"kl": 1.4619140625,
	"learning_rate": 3.736799505277512e-07,
	"loss": 0.2241,
	"reward": 0.3750000074505806,
	"reward_std": 0.2957112640142441,
	"rewards/accuracy_reward": 0.3750000074505806,
	"rewards/format_reward": 0.0,
	"step": 120
	},
	{
	"completion_length": 1030.8333740234375,
	"epoch": 0.7986798679867987,
	"grad_norm": 2.288118362426758,
	"kl": 2.2021484375,
	"learning_rate": 3.5093333532153313e-07,
	"loss": 0.2132,
	"reward": 0.5000000149011612,
	"reward_std": 0.3332235887646675,
	"rewards/accuracy_reward": 0.5000000149011612,
	"rewards/format_reward": 0.0,
	"step": 121
	},
	{
	"completion_length": 795.2291870117188,
	"epoch": 0.8052805280528053,
	"grad_norm": 4.600270748138428,
	"kl": 0.909210205078125,
	"learning_rate": 3.288089599850112e-07,
	"loss": 0.1673,
	"reward": 0.6250000149011612,
	"reward_std": 0.23116153478622437,
	"rewards/accuracy_reward": 0.6250000149011612,
	"rewards/format_reward": 0.0,
	"step": 122
	},
	{
	"completion_length": 820.2708740234375,
	"epoch": 0.8118811881188119,
	"grad_norm": 1.4757143259048462,
	"kl": 0.82757568359375,
	"learning_rate": 3.073188052577282e-07,
	"loss": 0.0951,
	"reward": 0.3333333432674408,
	"reward_std": 0.20412414520978928,
	"rewards/accuracy_reward": 0.3333333432674408,
	"rewards/format_reward": 0.0,
	"step": 123
	},
	{
	"completion_length": 1093.0417022705078,
	"epoch": 0.8184818481848185,
	"grad_norm": 1.748262643814087,
	"kl": 2.27734375,
	"learning_rate": 2.86474508437579e-07,
	"loss": 0.2423,
	"reward": 0.37500001303851604,
	"reward_std": 0.4248107150197029,
	"rewards/accuracy_reward": 0.37500001303851604,
	"rewards/format_reward": 0.0,
	"step": 124
	},
	{
	"completion_length": 906.8958587646484,
	"epoch": 0.8250825082508251,
	"grad_norm": 1.2707668542861938,
	"kl": 2.072265625,
	"learning_rate": 2.6628735707900655e-07,
	"loss": 0.1805,
	"reward": 0.3750000074505806,
	"reward_std": 0.3332236036658287,
	"rewards/accuracy_reward": 0.3750000074505806,
	"rewards/format_reward": 0.0,
	"step": 125
	},
	{
	"completion_length": 1030.1041717529297,
	"epoch": 0.8316831683168316,
	"grad_norm": 1.1277378797531128,
	"kl": 2.2890625,
	"learning_rate": 2.467682828805956e-07,
	"loss": 0.1976,
	"reward": 0.3125000111758709,
	"reward_std": 0.28219256177544594,
	"rewards/accuracy_reward": 0.3125000111758709,
	"rewards/format_reward": 0.0,
	"step": 126
	},
	{
	"completion_length": 740.7291870117188,
	"epoch": 0.8382838283828383,
	"grad_norm": 1.2501320838928223,
	"kl": 1.093414306640625,
	"learning_rate": 2.2792785576536108e-07,
	"loss": 0.1343,
	"reward": 0.6666666716337204,
	"reward_std": 0.16661179438233376,
	"rewards/accuracy_reward": 0.6666666716337204,
	"rewards/format_reward": 0.0,
	"step": 127
	},
	{
	"completion_length": 924.0625305175781,
	"epoch": 0.8448844884488449,
	"grad_norm": 1.4948713779449463,
	"kl": 1.78173828125,
	"learning_rate": 2.0977627815695215e-07,
	"loss": 0.1317,
	"reward": 0.3333333507180214,
	"reward_std": 0.23116152361035347,
	"rewards/accuracy_reward": 0.3333333507180214,
	"rewards/format_reward": 0.0,
	"step": 128
	},
	{
	"completion_length": 942.5208740234375,
	"epoch": 0.8514851485148515,
	"grad_norm": 0.5847099423408508,
	"kl": 0.99560546875,
	"learning_rate": 1.9232337945485655e-07,
	"loss": 0.0936,
	"reward": 0.4375,
	"reward_std": 0.06846532225608826,
	"rewards/accuracy_reward": 0.4375,
	"rewards/format_reward": 0.0,
	"step": 129
	},
	{
	"completion_length": 917.1666870117188,
	"epoch": 0.858085808580858,
	"grad_norm": 0.5804275274276733,
	"kl": 0.701263427734375,
	"learning_rate": 1.7557861071160953e-07,
	"loss": 0.0218,
	"reward": 0.31250000558793545,
	"reward_std": 0.2446802258491516,
	"rewards/accuracy_reward": 0.31250000558793545,
	"rewards/format_reward": 0.0,
	"step": 130
	},
	{
	"completion_length": 1004.8333587646484,
	"epoch": 0.8646864686468647,
	"grad_norm": 0.8942325711250305,
	"kl": 0.6883544921875,
	"learning_rate": 1.5955103951488177e-07,
	"loss": 0.1236,
	"reward": 0.35416667722165585,
	"reward_std": 0.36417656019330025,
	"rewards/accuracy_reward": 0.35416667722165585,
	"rewards/format_reward": 0.0,
	"step": 131
	},
	{
	"completion_length": 881.7916870117188,
	"epoch": 0.8712871287128713,
	"grad_norm": 2.220564365386963,
	"kl": 0.78369140625,
	"learning_rate": 1.4424934507721927e-07,
	"loss": 0.1166,
	"reward": 0.41666667722165585,
	"reward_std": 0.2686738669872284,
	"rewards/accuracy_reward": 0.41666667722165585,
	"rewards/format_reward": 0.0,
	"step": 132
	},
	{
	"completion_length": 997.3541870117188,
	"epoch": 0.8778877887788779,
	"grad_norm": 1.1939600706100464,
	"kl": 0.900390625,
	"learning_rate": 1.2968181353609853e-07,
	"loss": 0.0486,
	"reward": 0.3125000111758709,
	"reward_std": 0.1801304891705513,
	"rewards/accuracy_reward": 0.3125000111758709,
	"rewards/format_reward": 0.0,
	"step": 133
	},
	{
	"completion_length": 728.3541793823242,
	"epoch": 0.8844884488448845,
	"grad_norm": 0.9555450677871704,
	"kl": 0.58154296875,
	"learning_rate": 1.1585633346683655e-07,
	"loss": 0.0358,
	"reward": 0.45833334885537624,
	"reward_std": 0.3332235924899578,
	"rewards/accuracy_reward": 0.45833334885537624,
	"rewards/format_reward": 0.0,
	"step": 134
	},
	{
	"completion_length": 979.4167175292969,
	"epoch": 0.8910891089108911,
	"grad_norm": 0.5510440468788147,
	"kl": 0.7451171875,
	"learning_rate": 1.0278039161078634e-07,
	"loss": 0.0197,
	"reward": 0.3125000111758709,
	"reward_std": 0.25515517219901085,
	"rewards/accuracy_reward": 0.3125000111758709,
	"rewards/format_reward": 0.0,
	"step": 135
	},
	{
	"completion_length": 975.3750152587891,
	"epoch": 0.8976897689768977,
	"grad_norm": 0.4859466552734375,
	"kl": 0.39111328125,
	"learning_rate": 9.046106882113752e-08,
	"loss": 0.0393,
	"reward": 0.4791666716337204,
	"reward_std": 0.2525114044547081,
	"rewards/accuracy_reward": 0.4791666716337204,
	"rewards/format_reward": 0.0,
	"step": 136
	},
	{
	"completion_length": 873.8333587646484,
	"epoch": 0.9042904290429042,
	"grad_norm": 0.8227368593215942,
	"kl": 0.5703125,
	"learning_rate": 7.89050362285062e-08,
	"loss": 0.0192,
	"reward": 0.4583333507180214,
	"reward_std": 0.3855264447629452,
	"rewards/accuracy_reward": 0.4583333507180214,
	"rewards/format_reward": 0.0,
	"step": 137
	},
	{
	"completion_length": 879.6667022705078,
	"epoch": 0.9108910891089109,
	"grad_norm": 2.8329885005950928,
	"kl": 0.44970703125,
	"learning_rate": 6.811855162840214e-08,
	"loss": 0.1331,
	"reward": 0.4791666753590107,
	"reward_std": 0.27258947491645813,
	"rewards/accuracy_reward": 0.4791666753590107,
	"rewards/format_reward": 0.0,
	"step": 138
	},
	{
	"completion_length": 677.9166870117188,
	"epoch": 0.9174917491749175,
	"grad_norm": 2.366013288497925,
	"kl": 0.3238067626953125,
	"learning_rate": 5.810745609252166e-08,
	"loss": 0.1267,
	"reward": 0.5208333637565374,
	"reward_std": 0.25515517592430115,
	"rewards/accuracy_reward": 0.5208333637565374,
	"rewards/format_reward": 0.0,
	"step": 139
	},
	{
	"completion_length": 1135.9791870117188,
	"epoch": 0.9240924092409241,
	"grad_norm": 0.692542314529419,
	"kl": 1.0966796875,
	"learning_rate": 4.887717080570431e-08,
	"loss": 0.1422,
	"reward": 0.06250000186264515,
	"reward_std": 0.1530931107699871,
	"rewards/accuracy_reward": 0.06250000186264515,
	"rewards/format_reward": 0.0,
	"step": 140
	},
	{
	"completion_length": 1054.6875305175781,
	"epoch": 0.9306930693069307,
	"grad_norm": 2.231672763824463,
	"kl": 0.7978515625,
	"learning_rate": 4.0432694130264294e-08,
	"loss": 0.166,
	"reward": 0.29166667722165585,
	"reward_std": 0.2686738669872284,
	"rewards/accuracy_reward": 0.29166667722165585,
	"rewards/format_reward": 0.0,
	"step": 141
	},
	{
	"completion_length": 692.4375152587891,
	"epoch": 0.9372937293729373,
	"grad_norm": 0.28133484721183777,
	"kl": 0.2666015625,
	"learning_rate": 3.277859889929147e-08,
	"loss": -0.0049,
	"reward": 0.3125000149011612,
	"reward_std": 0.11558076366782188,
	"rewards/accuracy_reward": 0.3125000149011612,
	"rewards/format_reward": 0.0,
	"step": 142
	},
	{
	"completion_length": 908.3750534057617,
	"epoch": 0.9438943894389439,
	"grad_norm": 0.6757098436355591,
	"kl": 0.28759765625,
	"learning_rate": 2.5919029940380145e-08,
	"loss": -0.0196,
	"reward": 0.3333333507180214,
	"reward_std": 0.30354244261980057,
	"rewards/accuracy_reward": 0.3333333507180214,
	"rewards/format_reward": 0.0,
	"step": 143
	},
	{
	"completion_length": 788.1666793823242,
	"epoch": 0.9504950495049505,
	"grad_norm": 2.814443349838257,
	"kl": 0.331787109375,
	"learning_rate": 1.985770183113117e-08,
	"loss": 0.1527,
	"reward": 0.41666669212281704,
	"reward_std": 0.3680921457707882,
	"rewards/accuracy_reward": 0.41666669212281704,
	"rewards/format_reward": 0.0,
	"step": 144
	},
	{
	"completion_length": 876.6041717529297,
	"epoch": 0.9570957095709571,
	"grad_norm": 1.0456154346466064,
	"kl": 0.763427734375,
	"learning_rate": 1.4597896887644457e-08,
	"loss": 0.086,
	"reward": 0.29166667349636555,
	"reward_std": 0.16661180555820465,
	"rewards/accuracy_reward": 0.29166667349636555,
	"rewards/format_reward": 0.0,
	"step": 145
	},
	{
	"completion_length": 947.5208587646484,
	"epoch": 0.9636963696369637,
	"grad_norm": 0.5970892310142517,
	"kl": 0.9365234375,
	"learning_rate": 1.0142463387085465e-08,
	"loss": 0.0589,
	"reward": 0.1458333358168602,
	"reward_std": 0.13301505148410797,
	"rewards/accuracy_reward": 0.1458333358168602,
	"rewards/format_reward": 0.0,
	"step": 146
	},
	{
	"completion_length": 971.2916870117188,
	"epoch": 0.9702970297029703,
	"grad_norm": 0.4104056656360626,
	"kl": 0.8409423828125,
	"learning_rate": 6.493814025293476e-09,
	"loss": 0.0431,
	"reward": 0.33333334140479565,
	"reward_std": 0.2686738818883896,
	"rewards/accuracy_reward": 0.33333334140479565,
	"rewards/format_reward": 0.0,
	"step": 147
	},
	{
	"completion_length": 869.8958587646484,
	"epoch": 0.976897689768977,
	"grad_norm": 3.5218846797943115,
	"kl": 0.5218505859375,
	"learning_rate": 3.6539246102637037e-09,
	"loss": 0.1713,
	"reward": 0.4791666828095913,
	"reward_std": 0.2996268570423126,
	"rewards/accuracy_reward": 0.4791666828095913,
	"rewards/format_reward": 0.0,
	"step": 148
	},
	{
	"completion_length": 775.1875152587891,
	"epoch": 0.9834983498349835,
	"grad_norm": 2.006347417831421,
	"kl": 0.35626220703125,
	"learning_rate": 1.624332992213151e-09,
	"loss": 0.1167,
	"reward": 0.5625000223517418,
	"reward_std": 0.28219255805015564,
	"rewards/accuracy_reward": 0.5625000223517418,
	"rewards/format_reward": 0.0,
	"step": 149
	},
	{
	"completion_length": 690.9166870117188,
	"epoch": 0.9900990099009901,
	"grad_norm": 3.488175630569458,
	"kl": 0.43896484375,
	"learning_rate": 4.0613823080742907e-10,
	"loss": 0.094,
	"reward": 0.6250000149011612,
	"reward_std": 0.3977733254432678,
	"rewards/accuracy_reward": 0.6250000149011612,
	"rewards/format_reward": 0.0,
	"step": 150
	},
	{
	"completion_length": 961.7500305175781,
	"epoch": 0.9966996699669967,
	"grad_norm": 2.3887975215911865,
	"kl": 0.55078125,
	"learning_rate": 0.0,
	"loss": 0.1768,
	"reward": 0.3958333507180214,
	"reward_std": 0.41912319883704185,
	"rewards/accuracy_reward": 0.3958333507180214,
	"rewards/format_reward": 0.0,
	"step": 151
	},
	{
	"epoch": 0.9966996699669967,
	"step": 151,
	"total_flos": 0.0,
	"train_loss": 0.09152872039099531,
	"train_runtime": 28966.5677,
	"train_samples_per_second": 0.042,
	"train_steps_per_second": 0.005
	}
	],
	"logging_steps": 1,
	"max_steps": 151,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 3,
	"trial_name": null,
	"trial_params": null
	}