chenggong

Model save

5b47d40 verified 12 months ago

45.8 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.997867803837953,
	"eval_steps": 116,
	"global_step": 468,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"clip_ratio": 0.0,
	"completion_length": 625.9241256713867,
	"epoch": 0.008528784648187633,
	"grad_norm": 0.20551569759845734,
	"kl": 0.0,
	"learning_rate": 2.127659574468085e-08,
	"loss": 0.0447,
	"reward": 0.7433036118745804,
	"reward_std": 0.190913749858737,
	"rewards/accuracy_reward": 0.7299107536673546,
	"rewards/format_reward": 0.013392857741564512,
	"step": 1
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 583.8616371154785,
	"epoch": 0.042643923240938165,
	"grad_norm": 0.5290549397468567,
	"kl": 7.251650094985962e-05,
	"learning_rate": 1.0638297872340425e-07,
	"loss": 0.054,
	"reward": 0.7550223553553224,
	"reward_std": 0.237873874604702,
	"rewards/accuracy_reward": 0.7466518199071288,
	"rewards/format_reward": 0.008370536146685481,
	"step": 5
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 599.1326179504395,
	"epoch": 0.08528784648187633,
	"grad_norm": 0.28203362226486206,
	"kl": 8.721351623535157e-05,
	"learning_rate": 2.127659574468085e-07,
	"loss": 0.0351,
	"reward": 0.727232176065445,
	"reward_std": 0.2079640648327768,
	"rewards/accuracy_reward": 0.7214286044239998,
	"rewards/format_reward": 0.005803571781143546,
	"step": 10
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 575.5317222595215,
	"epoch": 0.1279317697228145,
	"grad_norm": 0.22249764204025269,
	"kl": 0.00016361474990844727,
	"learning_rate": 3.1914893617021275e-07,
	"loss": 0.03,
	"reward": 0.7473214611411094,
	"reward_std": 0.22900055218487977,
	"rewards/accuracy_reward": 0.7375000298023224,
	"rewards/format_reward": 0.009821429150179029,
	"step": 15
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 582.1107414245605,
	"epoch": 0.17057569296375266,
	"grad_norm": 0.3668869137763977,
	"kl": 0.00010156631469726562,
	"learning_rate": 4.25531914893617e-07,
	"loss": 0.0314,
	"reward": 0.7700893200933934,
	"reward_std": 0.21237293258309364,
	"rewards/accuracy_reward": 0.7607143215835095,
	"rewards/format_reward": 0.009375000512227416,
	"step": 20
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 565.0393089294433,
	"epoch": 0.21321961620469082,
	"grad_norm": 0.27896830439567566,
	"kl": 0.00015020370483398438,
	"learning_rate": 5.319148936170212e-07,
	"loss": 0.036,
	"reward": 0.7875000402331352,
	"reward_std": 0.21531264819204807,
	"rewards/accuracy_reward": 0.7767857536673546,
	"rewards/format_reward": 0.010714286286383868,
	"step": 25
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 576.9236869812012,
	"epoch": 0.255863539445629,
	"grad_norm": 0.41902390122413635,
	"kl": 0.0003345251083374023,
	"learning_rate": 6.382978723404255e-07,
	"loss": 0.0403,
	"reward": 0.775000037252903,
	"reward_std": 0.23194959200918674,
	"rewards/accuracy_reward": 0.7656250312924385,
	"rewards/format_reward": 0.00937500041909516,
	"step": 30
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 569.61029586792,
	"epoch": 0.29850746268656714,
	"grad_norm": 0.16671252250671387,
	"kl": 0.13303523063659667,
	"learning_rate": 7.446808510638297e-07,
	"loss": 0.0383,
	"reward": 0.7870536059141159,
	"reward_std": 0.21664966912940145,
	"rewards/accuracy_reward": 0.7705357536673546,
	"rewards/format_reward": 0.0165178578812629,
	"step": 35
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 577.1330627441406,
	"epoch": 0.3411513859275053,
	"grad_norm": 0.4918578565120697,
	"kl": 0.0008090019226074218,
	"learning_rate": 8.51063829787234e-07,
	"loss": 0.0388,
	"reward": 0.8004464715719223,
	"reward_std": 0.23178436178714037,
	"rewards/accuracy_reward": 0.771428607404232,
	"rewards/format_reward": 0.02901785881258547,
	"step": 40
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 591.5464546203614,
	"epoch": 0.3837953091684435,
	"grad_norm": 0.5081108808517456,
	"kl": 0.005326557159423828,
	"learning_rate": 9.574468085106384e-07,
	"loss": 0.0432,
	"reward": 0.8508928954601288,
	"reward_std": 0.2962774943560362,
	"rewards/accuracy_reward": 0.7718750327825546,
	"rewards/format_reward": 0.07901786002330483,
	"step": 45
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 590.6241355895996,
	"epoch": 0.42643923240938164,
	"grad_norm": 1.225230097770691,
	"kl": 0.02999114990234375,
	"learning_rate": 9.998747147528373e-07,
	"loss": 0.0284,
	"reward": 0.9977679073810577,
	"reward_std": 0.4272202838212252,
	"rewards/accuracy_reward": 0.701339316368103,
	"rewards/format_reward": 0.2964285858441144,
	"step": 50
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 584.9955612182617,
	"epoch": 0.4690831556503198,
	"grad_norm": 1.62312912940979,
	"kl": 0.04905548095703125,
	"learning_rate": 9.991093100466482e-07,
	"loss": 0.052,
	"reward": 1.2584822058677674,
	"reward_std": 0.4769852660596371,
	"rewards/accuracy_reward": 0.7388393208384514,
	"rewards/format_reward": 0.5196428842842579,
	"step": 55
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 619.11029586792,
	"epoch": 0.511727078891258,
	"grad_norm": 0.35674989223480225,
	"kl": 0.02668609619140625,
	"learning_rate": 9.976491676662678e-07,
	"loss": 0.0348,
	"reward": 1.3142857804894448,
	"reward_std": 0.4189721491187811,
	"rewards/accuracy_reward": 0.7379464611411095,
	"rewards/format_reward": 0.5763393118977547,
	"step": 60
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 606.5446723937988,
	"epoch": 0.5543710021321961,
	"grad_norm": 0.7614251375198364,
	"kl": 0.1965301513671875,
	"learning_rate": 9.95496320064109e-07,
	"loss": 0.0326,
	"reward": 1.4531250655651093,
	"reward_std": 0.39104298427700995,
	"rewards/accuracy_reward": 0.7379464611411095,
	"rewards/format_reward": 0.7151786029338837,
	"step": 65
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 619.4513656616211,
	"epoch": 0.5970149253731343,
	"grad_norm": 0.5526299476623535,
	"kl": 0.0309814453125,
	"learning_rate": 9.926537639070456e-07,
	"loss": 0.0332,
	"reward": 1.5433036401867866,
	"reward_std": 0.345558512583375,
	"rewards/accuracy_reward": 0.7343750335276127,
	"rewards/format_reward": 0.8089286044239998,
	"step": 70
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 601.5808296203613,
	"epoch": 0.6396588486140725,
	"grad_norm": 0.3345666825771332,
	"kl": 0.02752227783203125,
	"learning_rate": 9.891254559051884e-07,
	"loss": 0.0323,
	"reward": 1.6361607968807221,
	"reward_std": 0.3074555268511176,
	"rewards/accuracy_reward": 0.764285746216774,
	"rewards/format_reward": 0.8718750342726708,
	"step": 75
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 611.288419342041,
	"epoch": 0.6823027718550106,
	"grad_norm": 0.35215917229652405,
	"kl": 0.02867279052734375,
	"learning_rate": 9.849163073043223e-07,
	"loss": 0.0428,
	"reward": 1.6526786476373672,
	"reward_std": 0.28676611334085467,
	"rewards/accuracy_reward": 0.7589286133646965,
	"rewards/format_reward": 0.8937500417232513,
	"step": 80
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 626.8102943420411,
	"epoch": 0.7249466950959488,
	"grad_norm": 0.3329945206642151,
	"kl": 0.01969757080078125,
	"learning_rate": 9.800321770496724e-07,
	"loss": 0.028,
	"reward": 1.6875000774860383,
	"reward_std": 0.2533166547305882,
	"rewards/accuracy_reward": 0.7848214626312255,
	"rewards/format_reward": 0.9026786088943481,
	"step": 85
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 606.9535957336426,
	"epoch": 0.767590618336887,
	"grad_norm": 0.29067689180374146,
	"kl": 0.0251251220703125,
	"learning_rate": 9.744798636305187e-07,
	"loss": 0.024,
	"reward": 1.662500074505806,
	"reward_std": 0.2734585601836443,
	"rewards/accuracy_reward": 0.7611607506871223,
	"rewards/format_reward": 0.9013393223285675,
	"step": 90
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 608.546459197998,
	"epoch": 0.8102345415778252,
	"grad_norm": 0.33922263979911804,
	"kl": 0.02018585205078125,
	"learning_rate": 9.68267095617003e-07,
	"loss": 0.0242,
	"reward": 1.6745536416769027,
	"reward_std": 0.24658216908574104,
	"rewards/accuracy_reward": 0.7522321805357933,
	"rewards/format_reward": 0.9223214715719223,
	"step": 95
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 609.9174369812011,
	"epoch": 0.8528784648187633,
	"grad_norm": 0.5688201785087585,
	"kl": 0.02324676513671875,
	"learning_rate": 9.614025209023083e-07,
	"loss": 0.0296,
	"reward": 1.6991072326898575,
	"reward_std": 0.24431310119107366,
	"rewards/accuracy_reward": 0.781250037252903,
	"rewards/format_reward": 0.9178571790456772,
	"step": 100
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 589.7357414245605,
	"epoch": 0.8955223880597015,
	"grad_norm": 0.3856689929962158,
	"kl": 0.02101287841796875,
	"learning_rate": 9.538956946651815e-07,
	"loss": 0.0288,
	"reward": 1.7343750864267349,
	"reward_std": 0.2345518351532519,
	"rewards/accuracy_reward": 0.8107143267989159,
	"rewards/format_reward": 0.9236607521772384,
	"step": 105
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 600.2009185791015,
	"epoch": 0.9381663113006397,
	"grad_norm": 0.3187831938266754,
	"kl": 0.02591400146484375,
	"learning_rate": 9.457570660695539e-07,
	"loss": 0.0116,
	"reward": 1.734821507334709,
	"reward_std": 0.22256441051140427,
	"rewards/accuracy_reward": 0.8138393193483353,
	"rewards/format_reward": 0.9209821775555611,
	"step": 110
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 577.4808288574219,
	"epoch": 0.9808102345415778,
	"grad_norm": 0.19666177034378052,
	"kl": 0.0201080322265625,
	"learning_rate": 9.369979637197774e-07,
	"loss": 0.0232,
	"reward": 1.7446429431438446,
	"reward_std": 0.2030067172832787,
	"rewards/accuracy_reward": 0.7982143253087998,
	"rewards/format_reward": 0.9464286059141159,
	"step": 115
	},
	{
	"epoch": 0.9893390191897654,
	"eval_clip_ratio": 0.0,
	"eval_completion_length": 591.1813688732329,
	"eval_kl": 0.027180020771329364,
	"eval_loss": 0.00365327182225883,
	"eval_reward": 1.684807332735213,
	"eval_reward_std": 0.22303236411913993,
	"eval_rewards/accuracy_reward": 0.7500000307484279,
	"eval_rewards/format_reward": 0.9348072892143613,
	"eval_runtime": 686.4197,
	"eval_samples_per_second": 0.728,
	"eval_steps_per_second": 0.013,
	"step": 116
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 598.285604095459,
	"epoch": 1.0255863539445629,
	"grad_norm": 0.17957638204097748,
	"kl": 0.0184295654296875,
	"learning_rate": 9.276305798917158e-07,
	"loss": 0.0077,
	"reward": 1.723214367032051,
	"reward_std": 0.22227218970656396,
	"rewards/accuracy_reward": 0.7964286059141159,
	"rewards/format_reward": 0.9267857506871223,
	"step": 120
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 582.7888671875,
	"epoch": 1.068230277185501,
	"grad_norm": 0.35526904463768005,
	"kl": 0.0201629638671875,
	"learning_rate": 9.176679535616476e-07,
	"loss": 0.0216,
	"reward": 1.751785784959793,
	"reward_std": 0.2007270947098732,
	"rewards/accuracy_reward": 0.8142857477068901,
	"rewards/format_reward": 0.9375000387430191,
	"step": 125
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 572.4165481567383,
	"epoch": 1.1108742004264391,
	"grad_norm": 0.44200047850608826,
	"kl": 0.362432861328125,
	"learning_rate": 9.071239522565976e-07,
	"loss": 0.021,
	"reward": 1.732142946124077,
	"reward_std": 0.21233755089342593,
	"rewards/accuracy_reward": 0.8000000350177288,
	"rewards/format_reward": 0.9321428954601287,
	"step": 130
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 551.3214492797852,
	"epoch": 1.1535181236673775,
	"grad_norm": 0.1597866415977478,
	"kl": 0.0220245361328125,
	"learning_rate": 8.960132527513642e-07,
	"loss": 0.0171,
	"reward": 1.7830357879400254,
	"reward_std": 0.1866126311942935,
	"rewards/accuracy_reward": 0.8316964685916901,
	"rewards/format_reward": 0.9513393223285675,
	"step": 135
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 581.4509185791015,
	"epoch": 1.1961620469083156,
	"grad_norm": 0.24776776134967804,
	"kl": 0.0202850341796875,
	"learning_rate": 8.8435132063911e-07,
	"loss": 0.0073,
	"reward": 1.7156250864267348,
	"reward_std": 0.18961388804018497,
	"rewards/accuracy_reward": 0.77857146859169,
	"rewards/format_reward": 0.9370535984635353,
	"step": 140
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 600.3785957336426,
	"epoch": 1.2388059701492538,
	"grad_norm": 0.38918188214302063,
	"kl": 0.0415618896484375,
	"learning_rate": 8.721543888039532e-07,
	"loss": 0.0098,
	"reward": 1.7325893640518188,
	"reward_std": 0.20605442952364683,
	"rewards/accuracy_reward": 0.7897321820259094,
	"rewards/format_reward": 0.942857176065445,
	"step": 145
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 586.5723472595215,
	"epoch": 1.2814498933901919,
	"grad_norm": 0.39274245500564575,
	"kl": 0.0493682861328125,
	"learning_rate": 8.594394348255237e-07,
	"loss": 0.0246,
	"reward": 1.7558036506175996,
	"reward_std": 0.2199950136244297,
	"rewards/accuracy_reward": 0.8058036044239998,
	"rewards/format_reward": 0.9500000298023223,
	"step": 150
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 564.6044891357421,
	"epoch": 1.32409381663113,
	"grad_norm": 0.7922531962394714,
	"kl": 0.0613037109375,
	"learning_rate": 8.462241573469377e-07,
	"loss": 0.0263,
	"reward": 1.7375000715255737,
	"reward_std": 0.17584939412772654,
	"rewards/accuracy_reward": 0.8004464656114578,
	"rewards/format_reward": 0.9370536029338836,
	"step": 155
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 575.3759223937989,
	"epoch": 1.3667377398720681,
	"grad_norm": 10.02066707611084,
	"kl": 0.46389617919921877,
	"learning_rate": 8.325269514390834e-07,
	"loss": 0.0185,
	"reward": 1.7901786595582962,
	"reward_std": 0.17941874554380774,
	"rewards/accuracy_reward": 0.8223214641213417,
	"rewards/format_reward": 0.9678571701049805,
	"step": 160
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 572.3335052490235,
	"epoch": 1.4093816631130065,
	"grad_norm": 0.1462014764547348,
	"kl": 0.05237274169921875,
	"learning_rate": 8.183668829955111e-07,
	"loss": 0.0162,
	"reward": 1.7723215103149415,
	"reward_std": 0.1762597480788827,
	"rewards/accuracy_reward": 0.816071467101574,
	"rewards/format_reward": 0.9562500298023224,
	"step": 165
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 575.169223022461,
	"epoch": 1.4520255863539446,
	"grad_norm": 1.8751811981201172,
	"kl": 0.18811492919921874,
	"learning_rate": 8.037636621935684e-07,
	"loss": 0.0151,
	"reward": 1.7419643700122833,
	"reward_std": 0.1959962229244411,
	"rewards/accuracy_reward": 0.7982143238186836,
	"rewards/format_reward": 0.9437500312924385,
	"step": 170
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 588.2317245483398,
	"epoch": 1.4946695095948828,
	"grad_norm": 0.17714911699295044,
	"kl": 0.132525634765625,
	"learning_rate": 7.887376160587213e-07,
	"loss": 0.0172,
	"reward": 1.7156250804662705,
	"reward_std": 0.19640195239335298,
	"rewards/accuracy_reward": 0.7674107566475868,
	"rewards/format_reward": 0.948214316368103,
	"step": 175
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 559.4638603210449,
	"epoch": 1.537313432835821,
	"grad_norm": 0.21344700455665588,
	"kl": 0.0337677001953125,
	"learning_rate": 7.733096601702507e-07,
	"loss": 0.0098,
	"reward": 1.788839367032051,
	"reward_std": 0.1706329697743058,
	"rewards/accuracy_reward": 0.8178571820259094,
	"rewards/format_reward": 0.9709821701049804,
	"step": 180
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 574.9826164245605,
	"epoch": 1.579957356076759,
	"grad_norm": 0.3246748745441437,
	"kl": 0.0662689208984375,
	"learning_rate": 7.575012695477076e-07,
	"loss": 0.0171,
	"reward": 1.764285796880722,
	"reward_std": 0.18098030481487512,
	"rewards/accuracy_reward": 0.8044643223285675,
	"rewards/format_reward": 0.9598214566707611,
	"step": 185
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 591.3893157958985,
	"epoch": 1.6226012793176974,
	"grad_norm": 0.47960391640663147,
	"kl": 0.056695556640625,
	"learning_rate": 7.413344487586542e-07,
	"loss": 0.0212,
	"reward": 1.7665179401636124,
	"reward_std": 0.22513661198318005,
	"rewards/accuracy_reward": 0.8071428954601287,
	"rewards/format_reward": 0.9593750357627868,
	"step": 190
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 576.8236846923828,
	"epoch": 1.6652452025586353,
	"grad_norm": 0.9285232424736023,
	"kl": 0.2149566650390625,
	"learning_rate": 7.248317012892968e-07,
	"loss": 0.0264,
	"reward": 1.7383929401636125,
	"reward_std": 0.21417219610884786,
	"rewards/accuracy_reward": 0.7852678969502449,
	"rewards/format_reward": 0.9531250342726707,
	"step": 195
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 569.6236854553223,
	"epoch": 1.7078891257995736,
	"grad_norm": 19.19864845275879,
	"kl": 0.493951416015625,
	"learning_rate": 7.08015998220647e-07,
	"loss": 0.025,
	"reward": 1.7593750774860382,
	"reward_std": 0.1970167408697307,
	"rewards/accuracy_reward": 0.7933036029338837,
	"rewards/format_reward": 0.9660714626312256,
	"step": 200
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 579.9201164245605,
	"epoch": 1.7505330490405118,
	"grad_norm": 8.568023681640625,
	"kl": 0.36058349609375,
	"learning_rate": 6.909107462538111e-07,
	"loss": 0.0273,
	"reward": 1.7156250894069671,
	"reward_std": 0.2314098752103746,
	"rewards/accuracy_reward": 0.762946467101574,
	"rewards/format_reward": 0.9526785984635353,
	"step": 205
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 585.3098495483398,
	"epoch": 1.79317697228145,
	"grad_norm": 1.4387701749801636,
	"kl": 0.8639892578125,
	"learning_rate": 6.735397551289178e-07,
	"loss": 0.0267,
	"reward": 1.6991072207689286,
	"reward_std": 0.25122642405331136,
	"rewards/accuracy_reward": 0.740625037252903,
	"rewards/format_reward": 0.9584821745753288,
	"step": 210
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 573.5219017028809,
	"epoch": 1.835820895522388,
	"grad_norm": 8.508292198181152,
	"kl": 1.6532470703125,
	"learning_rate": 6.559272044830316e-07,
	"loss": 0.0335,
	"reward": 1.7223215013742448,
	"reward_std": 0.23952382281422616,
	"rewards/accuracy_reward": 0.7700893215835094,
	"rewards/format_reward": 0.9522321805357933,
	"step": 215
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 577.850471496582,
	"epoch": 1.8784648187633262,
	"grad_norm": 3.9072465896606445,
	"kl": 0.9760009765625,
	"learning_rate": 6.380976101931879e-07,
	"loss": 0.0349,
	"reward": 1.6732143580913543,
	"reward_std": 0.2966056760400534,
	"rewards/accuracy_reward": 0.7321428880095482,
	"rewards/format_reward": 0.9410714641213417,
	"step": 220
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 571.9951133728027,
	"epoch": 1.9211087420042645,
	"grad_norm": 13.385315895080566,
	"kl": 2.62431640625,
	"learning_rate": 6.200757902513962e-07,
	"loss": 0.0609,
	"reward": 1.6495536506175994,
	"reward_std": 0.29212585240602496,
	"rewards/accuracy_reward": 0.7040178939700127,
	"rewards/format_reward": 0.9455357491970062,
	"step": 225
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 602.8174324035645,
	"epoch": 1.9637526652452024,
	"grad_norm": 3.510239362716675,
	"kl": 1.172021484375,
	"learning_rate": 6.018868302191139e-07,
	"loss": 0.0426,
	"reward": 1.5660715043544768,
	"reward_std": 0.343078551068902,
	"rewards/accuracy_reward": 0.6276786014437675,
	"rewards/format_reward": 0.9383928880095482,
	"step": 230
	},
	{
	"epoch": 1.9808102345415777,
	"eval_clip_ratio": 0.0,
	"eval_completion_length": 590.3601776607453,
	"eval_kl": 2.955357142857143,
	"eval_loss": 0.06222715228796005,
	"eval_reward": 1.3279479032471067,
	"eval_reward_std": 0.4392576685973576,
	"eval_rewards/accuracy_reward": 0.46938777679488775,
	"eval_rewards/format_reward": 0.858560131655799,
	"eval_runtime": 674.3732,
	"eval_samples_per_second": 0.741,
	"eval_steps_per_second": 0.013,
	"step": 232
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 605.6790473937988,
	"epoch": 2.008528784648188,
	"grad_norm": 6.303433418273926,
	"kl": 3.3275390625,
	"learning_rate": 5.835560483092742e-07,
	"loss": 0.0882,
	"reward": 1.3517857775092126,
	"reward_std": 0.4619227208197117,
	"rewards/accuracy_reward": 0.5165178820490837,
	"rewards/format_reward": 0.8352678924798965,
	"step": 235
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 588.4384216308594,
	"epoch": 2.0511727078891258,
	"grad_norm": 20.91950225830078,
	"kl": 7.1640625,
	"learning_rate": 5.651089601444752e-07,
	"loss": 0.1247,
	"reward": 1.1812500566244126,
	"reward_std": 0.5094705298542976,
	"rewards/accuracy_reward": 0.43125002160668374,
	"rewards/format_reward": 0.7500000283122062,
	"step": 240
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 582.0741310119629,
	"epoch": 2.093816631130064,
	"grad_norm": 13.203470230102539,
	"kl": 6.3,
	"learning_rate": 5.465712432403811e-07,
	"loss": 0.1256,
	"reward": 1.2410714894533157,
	"reward_std": 0.5110540725290775,
	"rewards/accuracy_reward": 0.46830358877778056,
	"rewards/format_reward": 0.7727678924798965,
	"step": 245
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 590.8152046203613,
	"epoch": 2.136460554371002,
	"grad_norm": 88.20843505859375,
	"kl": 11.7703125,
	"learning_rate": 5.279687012637798e-07,
	"loss": 0.2042,
	"reward": 1.3339286342263221,
	"reward_std": 0.5208067961037159,
	"rewards/accuracy_reward": 0.5129464477300644,
	"rewards/format_reward": 0.8209821820259094,
	"step": 250
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 582.5169929504394,
	"epoch": 2.1791044776119404,
	"grad_norm": 19.759809494018555,
	"kl": 4.6005859375,
	"learning_rate": 5.093272281150382e-07,
	"loss": 0.0949,
	"reward": 1.3361607685685157,
	"reward_std": 0.5283136948943138,
	"rewards/accuracy_reward": 0.5258928835391998,
	"rewards/format_reward": 0.8102678999304771,
	"step": 255
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 574.399136352539,
	"epoch": 2.2217484008528783,
	"grad_norm": 73.8835678100586,
	"kl": 13.4765625,
	"learning_rate": 4.906727718849618e-07,
	"loss": 0.209,
	"reward": 1.168750050663948,
	"reward_std": 0.5519715771079063,
	"rewards/accuracy_reward": 0.4321428779512644,
	"rewards/format_reward": 0.7366071745753289,
	"step": 260
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 569.409400177002,
	"epoch": 2.2643923240938166,
	"grad_norm": 16.285621643066406,
	"kl": 15.2921875,
	"learning_rate": 4.7203129873622036e-07,
	"loss": 0.2319,
	"reward": 1.1008929148316384,
	"reward_std": 0.5826808042824269,
	"rewards/accuracy_reward": 0.39241073541343213,
	"rewards/format_reward": 0.7084821775555611,
	"step": 265
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 563.786190032959,
	"epoch": 2.307036247334755,
	"grad_norm": 5.511695861816406,
	"kl": 3.4419921875,
	"learning_rate": 4.534287567596188e-07,
	"loss": 0.0542,
	"reward": 1.3165179178118707,
	"reward_std": 0.49827431738376615,
	"rewards/accuracy_reward": 0.5075893081724644,
	"rewards/format_reward": 0.8089286148548126,
	"step": 270
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 558.287523651123,
	"epoch": 2.349680170575693,
	"grad_norm": 7.120125770568848,
	"kl": 5.0576171875,
	"learning_rate": 4.348910398555249e-07,
	"loss": 0.0723,
	"reward": 1.3750000685453414,
	"reward_std": 0.5270605705678463,
	"rewards/accuracy_reward": 0.5455357402563095,
	"rewards/format_reward": 0.8294643267989159,
	"step": 275
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 573.1196708679199,
	"epoch": 2.3923240938166312,
	"grad_norm": 9.884531021118164,
	"kl": 10.0318359375,
	"learning_rate": 4.1644395169072575e-07,
	"loss": 0.1729,
	"reward": 1.2901786297559739,
	"reward_std": 0.5422291226685048,
	"rewards/accuracy_reward": 0.48660716265439985,
	"rewards/format_reward": 0.8035714611411094,
	"step": 280
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 557.1683288574219,
	"epoch": 2.434968017057569,
	"grad_norm": 8.612386703491211,
	"kl": 4.2802734375,
	"learning_rate": 3.9811316978088615e-07,
	"loss": 0.0639,
	"reward": 1.4187500596046447,
	"reward_std": 0.4759579010307789,
	"rewards/accuracy_reward": 0.5776785999536515,
	"rewards/format_reward": 0.8410714656114578,
	"step": 285
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 546.3219017028808,
	"epoch": 2.4776119402985075,
	"grad_norm": 31.60814094543457,
	"kl": 9.052734375,
	"learning_rate": 3.799242097486038e-07,
	"loss": 0.1517,
	"reward": 1.3687500596046447,
	"reward_std": 0.5219749353826046,
	"rewards/accuracy_reward": 0.5669643111526966,
	"rewards/format_reward": 0.8017857521772385,
	"step": 290
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 548.1094017028809,
	"epoch": 2.520255863539446,
	"grad_norm": 59.2335090637207,
	"kl": 10.06796875,
	"learning_rate": 3.619023898068123e-07,
	"loss": 0.1374,
	"reward": 1.2995536252856255,
	"reward_std": 0.51812051422894,
	"rewards/accuracy_reward": 0.5620535910129547,
	"rewards/format_reward": 0.7375000342726707,
	"step": 295
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 558.5031517028808,
	"epoch": 2.5628997867803838,
	"grad_norm": 31.365585327148438,
	"kl": 3.1970703125,
	"learning_rate": 3.4407279551696846e-07,
	"loss": 0.0461,
	"reward": 1.2352679088711738,
	"reward_std": 0.531840232014656,
	"rewards/accuracy_reward": 0.5383928880095482,
	"rewards/format_reward": 0.6968750298023224,
	"step": 300
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 548.0366317749024,
	"epoch": 2.605543710021322,
	"grad_norm": 13.923192977905273,
	"kl": 6.5228515625,
	"learning_rate": 3.2646024487108213e-07,
	"loss": 0.0853,
	"reward": 1.2236607685685157,
	"reward_std": 0.5477135334163904,
	"rewards/accuracy_reward": 0.5044643051922322,
	"rewards/format_reward": 0.7191964611411095,
	"step": 305
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 517.9973487854004,
	"epoch": 2.64818763326226,
	"grad_norm": 11.7457914352417,
	"kl": 11.935546875,
	"learning_rate": 3.0908925374618887e-07,
	"loss": 0.1622,
	"reward": 1.2687500640749931,
	"reward_std": 0.5634565785527229,
	"rewards/accuracy_reward": 0.5196428790688514,
	"rewards/format_reward": 0.7491071805357933,
	"step": 310
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 542.1607376098633,
	"epoch": 2.6908315565031984,
	"grad_norm": 10.802907943725586,
	"kl": 7.883203125,
	"learning_rate": 2.91984001779353e-07,
	"loss": 0.1125,
	"reward": 1.2767857626080512,
	"reward_std": 0.5758342906832695,
	"rewards/accuracy_reward": 0.5187500260770321,
	"rewards/format_reward": 0.7580357491970062,
	"step": 315
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 536.2406478881836,
	"epoch": 2.7334754797441363,
	"grad_norm": 9.723703384399414,
	"kl": 6.530859375,
	"learning_rate": 2.751682987107029e-07,
	"loss": 0.0812,
	"reward": 1.3321429282426833,
	"reward_std": 0.526002112776041,
	"rewards/accuracy_reward": 0.5491071671247483,
	"rewards/format_reward": 0.7830357521772384,
	"step": 320
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 521.1303764343262,
	"epoch": 2.7761194029850746,
	"grad_norm": 18.712772369384766,
	"kl": 10.8078125,
	"learning_rate": 2.5866555124134577e-07,
	"loss": 0.1505,
	"reward": 1.2674107685685159,
	"reward_std": 0.5784162662923336,
	"rewards/accuracy_reward": 0.5366071693599224,
	"rewards/format_reward": 0.730803607404232,
	"step": 325
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 535.4544891357422,
	"epoch": 2.818763326226013,
	"grad_norm": 7.585498809814453,
	"kl": 9.569921875,
	"learning_rate": 2.424987304522924e-07,
	"loss": 0.1261,
	"reward": 1.19464291036129,
	"reward_std": 0.5549623288214207,
	"rewards/accuracy_reward": 0.5209821693599224,
	"rewards/format_reward": 0.6736607439815998,
	"step": 330
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 528.2076141357422,
	"epoch": 2.861407249466951,
	"grad_norm": 9.224991798400879,
	"kl": 6.6015625,
	"learning_rate": 2.2669033982974944e-07,
	"loss": 0.0755,
	"reward": 1.228125052154064,
	"reward_std": 0.5089043751358986,
	"rewards/accuracy_reward": 0.550000024586916,
	"rewards/format_reward": 0.6781250283122062,
	"step": 335
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 530.958950805664,
	"epoch": 2.9040511727078893,
	"grad_norm": 24.710325241088867,
	"kl": 7.4828125,
	"learning_rate": 2.1126238394127867e-07,
	"loss": 0.114,
	"reward": 1.2035714864730835,
	"reward_std": 0.5295904573053122,
	"rewards/accuracy_reward": 0.5526785984635353,
	"rewards/format_reward": 0.6508928887546063,
	"step": 340
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 529.0553779602051,
	"epoch": 2.946695095948827,
	"grad_norm": 36.00743865966797,
	"kl": 11.071875,
	"learning_rate": 1.9623633780643155e-07,
	"loss": 0.188,
	"reward": 1.220535770058632,
	"reward_std": 0.5231191631406545,
	"rewards/accuracy_reward": 0.5361607357859611,
	"rewards/format_reward": 0.6843750298023223,
	"step": 345
	},
	{
	"epoch": 2.9722814498933903,
	"eval_clip_ratio": 0.0,
	"eval_completion_length": 531.799803234282,
	"eval_kl": 9.749503968253968,
	"eval_loss": 0.13944962620735168,
	"eval_reward": 1.1026077540147872,
	"eval_reward_std": 0.4790610531492839,
	"eval_rewards/accuracy_reward": 0.4600340352644996,
	"eval_rewards/format_reward": 0.642573726082605,
	"eval_runtime": 734.1918,
	"eval_samples_per_second": 0.681,
	"eval_steps_per_second": 0.012,
	"step": 348
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 531.3727928161621,
	"epoch": 2.9893390191897655,
	"grad_norm": 17.88933753967285,
	"kl": 10.34296875,
	"learning_rate": 1.8163311700448898e-07,
	"loss": 0.1236,
	"reward": 1.1388393327593804,
	"reward_std": 0.4919752091169357,
	"rewards/accuracy_reward": 0.49821431189775467,
	"rewards/format_reward": 0.6406250275671482,
	"step": 350
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 524.6839851379394,
	"epoch": 3.0341151385927505,
	"grad_norm": 8.39860725402832,
	"kl": 7.53515625,
	"learning_rate": 1.674730485609166e-07,
	"loss": 0.099,
	"reward": 1.140625049173832,
	"reward_std": 0.5006550896912814,
	"rewards/accuracy_reward": 0.5415178820490837,
	"rewards/format_reward": 0.5991071693599224,
	"step": 355
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 531.0768104553223,
	"epoch": 3.076759061833689,
	"grad_norm": 18.39265251159668,
	"kl": 8.1181640625,
	"learning_rate": 1.537758426530622e-07,
	"loss": 0.1106,
	"reward": 1.1013393431901932,
	"reward_std": 0.4775242738425732,
	"rewards/accuracy_reward": 0.5392857365310192,
	"rewards/format_reward": 0.5620535992085933,
	"step": 360
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 534.2736846923829,
	"epoch": 3.1194029850746268,
	"grad_norm": 11.617506980895996,
	"kl": 7.2947265625,
	"learning_rate": 1.4056056517447634e-07,
	"loss": 0.0915,
	"reward": 1.0933036252856254,
	"reward_std": 0.4881337985396385,
	"rewards/accuracy_reward": 0.532589315623045,
	"rewards/format_reward": 0.5607143111526967,
	"step": 365
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 538.0062713623047,
	"epoch": 3.162046908315565,
	"grad_norm": 11.465629577636719,
	"kl": 7.7173828125,
	"learning_rate": 1.2784561119604682e-07,
	"loss": 0.0985,
	"reward": 1.10089291036129,
	"reward_std": 0.4965208202600479,
	"rewards/accuracy_reward": 0.5200893104076385,
	"rewards/format_reward": 0.5808035977184772,
	"step": 370
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 531.9433242797852,
	"epoch": 3.204690831556503,
	"grad_norm": 23.9652156829834,
	"kl": 9.834765625,
	"learning_rate": 1.156486793608899e-07,
	"loss": 0.1229,
	"reward": 1.101339338719845,
	"reward_std": 0.452479437738657,
	"rewards/accuracy_reward": 0.5160714529454709,
	"rewards/format_reward": 0.5852678865194321,
	"step": 375
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 534.8468994140625,
	"epoch": 3.2473347547974414,
	"grad_norm": 18.34585189819336,
	"kl": 10.09140625,
	"learning_rate": 1.0398674724863581e-07,
	"loss": 0.1464,
	"reward": 1.1111607685685159,
	"reward_std": 0.5048069790005684,
	"rewards/accuracy_reward": 0.5276785962283611,
	"rewards/format_reward": 0.5834821693599224,
	"step": 380
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 536.6924369812011,
	"epoch": 3.2899786780383797,
	"grad_norm": 14.767237663269043,
	"kl": 9.25234375,
	"learning_rate": 9.287604774340235e-08,
	"loss": 0.1232,
	"reward": 1.101339329779148,
	"reward_std": 0.49512304849922656,
	"rewards/accuracy_reward": 0.5138393111526967,
	"rewards/format_reward": 0.5875000298023224,
	"step": 385
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 532.2884185791015,
	"epoch": 3.3326226012793176,
	"grad_norm": 9.985774993896484,
	"kl": 7.86640625,
	"learning_rate": 8.233204643835234e-08,
	"loss": 0.1138,
	"reward": 1.075446480512619,
	"reward_std": 0.46411947570741174,
	"rewards/accuracy_reward": 0.5026785962283611,
	"rewards/format_reward": 0.5727678835391998,
	"step": 390
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 527.2410995483399,
	"epoch": 3.375266524520256,
	"grad_norm": 10.612527847290039,
	"kl": 8.09375,
	"learning_rate": 7.236942010828429e-08,
	"loss": 0.0785,
	"reward": 1.1446428999304772,
	"reward_std": 0.48770338781177996,
	"rewards/accuracy_reward": 0.5575893074274063,
	"rewards/format_reward": 0.5870535977184772,
	"step": 395
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 519.1937744140625,
	"epoch": 3.417910447761194,
	"grad_norm": 14.665472984313965,
	"kl": 11.00234375,
	"learning_rate": 6.300203628022271e-08,
	"loss": 0.152,
	"reward": 1.1830357760190964,
	"reward_std": 0.5015905275940895,
	"rewards/accuracy_reward": 0.5790178842842579,
	"rewards/format_reward": 0.6040178872644901,
	"step": 400
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 531.4053771972656,
	"epoch": 3.4605543710021323,
	"grad_norm": 8.385228157043457,
	"kl": 9.28125,
	"learning_rate": 5.42429339304461e-08,
	"loss": 0.1379,
	"reward": 1.1437500521540642,
	"reward_std": 0.46195379123091695,
	"rewards/accuracy_reward": 0.5531250216066838,
	"rewards/format_reward": 0.5906250216066837,
	"step": 405
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 531.0544860839843,
	"epoch": 3.50319829424307,
	"grad_norm": 18.6485652923584,
	"kl": 8.909765625,
	"learning_rate": 4.610430533481857e-08,
	"loss": 0.1119,
	"reward": 1.1084821969270706,
	"reward_std": 0.4929712563753128,
	"rewards/accuracy_reward": 0.5491071715950966,
	"rewards/format_reward": 0.5593750216066837,
	"step": 410
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 533.8643081665039,
	"epoch": 3.5458422174840085,
	"grad_norm": 84.65238189697266,
	"kl": 8.594140625,
	"learning_rate": 3.859747909769162e-08,
	"loss": 0.1078,
	"reward": 1.0660714849829673,
	"reward_std": 0.473931773006916,
	"rewards/accuracy_reward": 0.5361607417464256,
	"rewards/format_reward": 0.5299107395112514,
	"step": 415
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 536.6745796203613,
	"epoch": 3.588486140724947,
	"grad_norm": 19.54568862915039,
	"kl": 9.418359375,
	"learning_rate": 3.173290438299697e-08,
	"loss": 0.1327,
	"reward": 1.0656250432133674,
	"reward_std": 0.4773729760199785,
	"rewards/accuracy_reward": 0.5245535988360643,
	"rewards/format_reward": 0.5410714514553547,
	"step": 420
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 517.5031486511231,
	"epoch": 3.631130063965885,
	"grad_norm": 22.7406005859375,
	"kl": 8.5650390625,
	"learning_rate": 2.5520136369481194e-08,
	"loss": 0.1112,
	"reward": 1.1593750432133674,
	"reward_std": 0.45310505069792273,
	"rewards/accuracy_reward": 0.5647321693599224,
	"rewards/format_reward": 0.5946428835391998,
	"step": 425
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 513.7027023315429,
	"epoch": 3.673773987206823,
	"grad_norm": 25.179290771484375,
	"kl": 8.64296875,
	"learning_rate": 1.996782295032745e-08,
	"loss": 0.1274,
	"reward": 1.1517857566475869,
	"reward_std": 0.4889927223324776,
	"rewards/accuracy_reward": 0.5678571730852127,
	"rewards/format_reward": 0.583928594738245,
	"step": 430
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 527.8647552490235,
	"epoch": 3.716417910447761,
	"grad_norm": 14.159469604492188,
	"kl": 7.8265625,
	"learning_rate": 1.508369269567783e-08,
	"loss": 0.1046,
	"reward": 1.1281250417232513,
	"reward_std": 0.5101183526217937,
	"rewards/accuracy_reward": 0.546428595483303,
	"rewards/format_reward": 0.5816964566707611,
	"step": 435
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 523.8451080322266,
	"epoch": 3.7590618336886994,
	"grad_norm": 18.611404418945312,
	"kl": 9.108984375,
	"learning_rate": 1.0874544094811422e-08,
	"loss": 0.1173,
	"reward": 1.0482143327593803,
	"reward_std": 0.45587412640452385,
	"rewards/accuracy_reward": 0.5294643141329288,
	"rewards/format_reward": 0.518750024214387,
	"step": 440
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 528.406273651123,
	"epoch": 3.8017057569296373,
	"grad_norm": 9.024343490600586,
	"kl": 8.72421875,
	"learning_rate": 7.346236092954316e-09,
	"loss": 0.103,
	"reward": 1.0665179088711738,
	"reward_std": 0.47449378967285155,
	"rewards/accuracy_reward": 0.5200893059372902,
	"rewards/format_reward": 0.5464285977184773,
	"step": 445
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 522.9732391357422,
	"epoch": 3.8443496801705757,
	"grad_norm": 15.007638931274414,
	"kl": 7.5888671875,
	"learning_rate": 4.50367993589107e-09,
	"loss": 0.1024,
	"reward": 1.1848214849829675,
	"reward_std": 0.4590866263955832,
	"rewards/accuracy_reward": 0.5825893096625805,
	"rewards/format_reward": 0.6022321686148644,
	"step": 450
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 539.4236862182618,
	"epoch": 3.886993603411514,
	"grad_norm": 11.34084701538086,
	"kl": 8.90546875,
	"learning_rate": 2.3508323337321224e-09,
	"loss": 0.1158,
	"reward": 1.0486607655882836,
	"reward_std": 0.4737320654094219,
	"rewards/accuracy_reward": 0.5111607365310192,
	"rewards/format_reward": 0.5375000245869159,
	"step": 455
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 534.0035942077636,
	"epoch": 3.929637526652452,
	"grad_norm": 18.918825149536133,
	"kl": 7.205078125,
	"learning_rate": 8.906899533517864e-10,
	"loss": 0.0902,
	"reward": 1.1607143417000771,
	"reward_std": 0.46907868683338166,
	"rewards/accuracy_reward": 0.5776785992085933,
	"rewards/format_reward": 0.5830357417464256,
	"step": 460
	},
	{
	"epoch": 3.9637526652452024,
	"eval_clip_ratio": 0.0,
	"eval_completion_length": 529.8555946955605,
	"eval_kl": 8.018105158730158,
	"eval_loss": 0.10982762277126312,
	"eval_reward": 1.0456349707785106,
	"eval_reward_std": 0.43395746865915874,
	"eval_rewards/accuracy_reward": 0.48384356072970797,
	"eval_rewards/format_reward": 0.561791407683539,
	"eval_runtime": 659.4598,
	"eval_samples_per_second": 0.758,
	"eval_steps_per_second": 0.014,
	"step": 464
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 526.7964500427246,
	"epoch": 3.9722814498933903,
	"grad_norm": 13.803497314453125,
	"kl": 7.684765625,
	"learning_rate": 1.252852471625987e-10,
	"loss": 0.0773,
	"reward": 1.129464340209961,
	"reward_std": 0.445505191385746,
	"rewards/accuracy_reward": 0.5602678842842579,
	"rewards/format_reward": 0.5691964529454708,
	"step": 465
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 529.8702189127604,
	"epoch": 3.997867803837953,
	"kl": 8.166666666666666,
	"reward": 1.1056548183163006,
	"reward_std": 0.48472560321291286,
	"rewards/accuracy_reward": 0.5610119315485159,
	"rewards/format_reward": 0.5446428805589676,
	"step": 468,
	"total_flos": 0.0,
	"train_loss": 0.07395310898940279,
	"train_runtime": 53156.2352,
	"train_samples_per_second": 0.564,
	"train_steps_per_second": 0.009
	}
	],
	"logging_steps": 5,
	"max_steps": 468,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 4,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}