Training in progress, step 2325, checkpoint

74bf4c4 verified 11 months ago

87.3 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.01851689616998909,
	"eval_steps": 500,
	"global_step": 2325,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"completion_length": 714.1125,
	"epoch": 7.964256417199609e-05,
	"grad_norm": 0.11108597368001938,
	"kl": 0.0005961419927189126,
	"learning_rate": 2.0833333333333333e-07,
	"loss": 0.0,
	"reward": 0.540625,
	"reward_std": 0.29713641852140427,
	"rewards/custom_reward_simplified_v7_dblog": 0.540625,
	"step": 10
	},
	{
	"completion_length": 800.6625,
	"epoch": 0.00015928512834399218,
	"grad_norm": 0.1964382529258728,
	"kl": 0.0007280149788130075,
	"learning_rate": 4.1666666666666667e-07,
	"loss": 0.0,
	"reward": 0.496875,
	"reward_std": 0.25719649270176886,
	"rewards/custom_reward_simplified_v7_dblog": 0.496875,
	"step": 20
	},
	{
	"completion_length": 750.46875,
	"epoch": 0.00023892769251598824,
	"grad_norm": 0.15792745351791382,
	"kl": 0.0007828957575839012,
	"learning_rate": 6.25e-07,
	"loss": 0.0,
	"reward": 0.684375,
	"reward_std": 0.3755971297621727,
	"rewards/custom_reward_simplified_v7_dblog": 0.684375,
	"step": 30
	},
	{
	"completion_length": 813.94375,
	"epoch": 0.00031857025668798435,
	"grad_norm": 0.12503573298454285,
	"kl": 0.0007155703555326909,
	"learning_rate": 8.333333333333333e-07,
	"loss": 0.0,
	"reward": 0.565625,
	"reward_std": 0.2761854581534863,
	"rewards/custom_reward_simplified_v7_dblog": 0.565625,
	"step": 40
	},
	{
	"completion_length": 747.675,
	"epoch": 0.0003982128208599804,
	"grad_norm": 0.10329681634902954,
	"kl": 0.0007686431898036971,
	"learning_rate": 1.0416666666666667e-06,
	"loss": 0.0,
	"reward": 0.621875,
	"reward_std": 0.30715219378471376,
	"rewards/custom_reward_simplified_v7_dblog": 0.621875,
	"step": 50
	},
	{
	"completion_length": 821.60625,
	"epoch": 0.0004778553850319765,
	"grad_norm": 0.1834840029478073,
	"kl": 0.0007538022648077459,
	"learning_rate": 1.25e-06,
	"loss": 0.0,
	"reward": 0.578125,
	"reward_std": 0.39505376294255257,
	"rewards/custom_reward_simplified_v7_dblog": 0.578125,
	"step": 60
	},
	{
	"completion_length": 776.75,
	"epoch": 0.0005574979492039726,
	"grad_norm": 0.11483483016490936,
	"kl": 0.0007510531373554841,
	"learning_rate": 1.4583333333333335e-06,
	"loss": 0.0,
	"reward": 0.584375,
	"reward_std": 0.32483330443501474,
	"rewards/custom_reward_simplified_v7_dblog": 0.584375,
	"step": 70
	},
	{
	"completion_length": 804.675,
	"epoch": 0.0006371405133759687,
	"grad_norm": 0.17995329201221466,
	"kl": 0.0007302156562218442,
	"learning_rate": 1.6666666666666667e-06,
	"loss": 0.0,
	"reward": 0.703125,
	"reward_std": 0.32263160347938535,
	"rewards/custom_reward_simplified_v7_dblog": 0.703125,
	"step": 80
	},
	{
	"completion_length": 793.0875,
	"epoch": 0.0007167830775479647,
	"grad_norm": 0.16513389348983765,
	"kl": 0.0007239854254294187,
	"learning_rate": 1.8750000000000003e-06,
	"loss": 0.0,
	"reward": 0.709375,
	"reward_std": 0.3102527566254139,
	"rewards/custom_reward_simplified_v7_dblog": 0.709375,
	"step": 90
	},
	{
	"completion_length": 812.0,
	"epoch": 0.0007964256417199608,
	"grad_norm": 0.1802467256784439,
	"kl": 0.0007639184041181579,
	"learning_rate": 2.0833333333333334e-06,
	"loss": 0.0,
	"reward": 0.528125,
	"reward_std": 0.21242836564779283,
	"rewards/custom_reward_simplified_v7_dblog": 0.528125,
	"step": 100
	},
	{
	"completion_length": 784.64375,
	"epoch": 0.0008760682058919569,
	"grad_norm": 0.17609436810016632,
	"kl": 0.0007660316972760483,
	"learning_rate": 2.2916666666666666e-06,
	"loss": 0.0,
	"reward": 0.565625,
	"reward_std": 0.3309394560754299,
	"rewards/custom_reward_simplified_v7_dblog": 0.565625,
	"step": 110
	},
	{
	"completion_length": 717.24375,
	"epoch": 0.000955710770063953,
	"grad_norm": 0.14550578594207764,
	"kl": 0.0007782038446748629,
	"learning_rate": 2.5e-06,
	"loss": 0.0,
	"reward": 0.728125,
	"reward_std": 0.2573545627295971,
	"rewards/custom_reward_simplified_v7_dblog": 0.728125,
	"step": 120
	},
	{
	"completion_length": 872.6375,
	"epoch": 0.001035353334235949,
	"grad_norm": 0.11807532608509064,
	"kl": 0.0007370044564595446,
	"learning_rate": 2.7083333333333334e-06,
	"loss": 0.0,
	"reward": 0.45,
	"reward_std": 0.24368184804916382,
	"rewards/custom_reward_simplified_v7_dblog": 0.45,
	"step": 130
	},
	{
	"completion_length": 780.325,
	"epoch": 0.0011149958984079452,
	"grad_norm": 0.21067936718463898,
	"kl": 0.0007969280297402293,
	"learning_rate": 2.916666666666667e-06,
	"loss": 0.0,
	"reward": 0.671875,
	"reward_std": 0.3312204420566559,
	"rewards/custom_reward_simplified_v7_dblog": 0.671875,
	"step": 140
	},
	{
	"completion_length": 796.15625,
	"epoch": 0.0011946384625799412,
	"grad_norm": 0.11178277432918549,
	"kl": 0.0007584215141832829,
	"learning_rate": 3.125e-06,
	"loss": 0.0,
	"reward": 0.675,
	"reward_std": 0.2411833107471466,
	"rewards/custom_reward_simplified_v7_dblog": 0.675,
	"step": 150
	},
	{
	"completion_length": 735.4375,
	"epoch": 0.0012742810267519374,
	"grad_norm": 0.12408847361803055,
	"kl": 0.0008089728711638599,
	"learning_rate": 3.3333333333333333e-06,
	"loss": 0.0,
	"reward": 0.5875,
	"reward_std": 0.2907834567129612,
	"rewards/custom_reward_simplified_v7_dblog": 0.5875,
	"step": 160
	},
	{
	"completion_length": 630.76875,
	"epoch": 0.0013539235909239334,
	"grad_norm": 0.14481835067272186,
	"kl": 0.0008351787488209084,
	"learning_rate": 3.5416666666666673e-06,
	"loss": 0.0,
	"reward": 0.828125,
	"reward_std": 0.3232325129210949,
	"rewards/custom_reward_simplified_v7_dblog": 0.828125,
	"step": 170
	},
	{
	"completion_length": 704.2,
	"epoch": 0.0014335661550959294,
	"grad_norm": 0.22581899166107178,
	"kl": 0.0008706353197339922,
	"learning_rate": 3.7500000000000005e-06,
	"loss": 0.0,
	"reward": 0.621875,
	"reward_std": 0.2438264600932598,
	"rewards/custom_reward_simplified_v7_dblog": 0.621875,
	"step": 180
	},
	{
	"completion_length": 738.2625,
	"epoch": 0.0015132087192679256,
	"grad_norm": 0.20901009440422058,
	"kl": 0.000852665287675336,
	"learning_rate": 3.958333333333333e-06,
	"loss": 0.0,
	"reward": 0.659375,
	"reward_std": 0.2661551833152771,
	"rewards/custom_reward_simplified_v7_dblog": 0.659375,
	"step": 190
	},
	{
	"completion_length": 773.31875,
	"epoch": 0.0015928512834399217,
	"grad_norm": 0.14023999869823456,
	"kl": 0.0008427878346992657,
	"learning_rate": 4.166666666666667e-06,
	"loss": 0.0,
	"reward": 0.575,
	"reward_std": 0.263551290333271,
	"rewards/custom_reward_simplified_v7_dblog": 0.575,
	"step": 200
	},
	{
	"completion_length": 760.4,
	"epoch": 0.0016724938476119177,
	"grad_norm": 0.15415024757385254,
	"kl": 0.0009272771596442908,
	"learning_rate": 4.3750000000000005e-06,
	"loss": 0.0,
	"reward": 0.578125,
	"reward_std": 0.3055797599256039,
	"rewards/custom_reward_simplified_v7_dblog": 0.578125,
	"step": 210
	},
	{
	"completion_length": 824.94375,
	"epoch": 0.0017521364117839139,
	"grad_norm": 0.18523605167865753,
	"kl": 0.0008898543601389974,
	"learning_rate": 4.583333333333333e-06,
	"loss": 0.0,
	"reward": 0.58125,
	"reward_std": 0.2951655209064484,
	"rewards/custom_reward_simplified_v7_dblog": 0.58125,
	"step": 220
	},
	{
	"completion_length": 748.5375,
	"epoch": 0.0018317789759559099,
	"grad_norm": 0.11306847631931305,
	"kl": 0.0009787698683794588,
	"learning_rate": 4.791666666666668e-06,
	"loss": 0.0,
	"reward": 0.590625,
	"reward_std": 0.2887454777956009,
	"rewards/custom_reward_simplified_v7_dblog": 0.590625,
	"step": 230
	},
	{
	"completion_length": 753.39375,
	"epoch": 0.001911421540127906,
	"grad_norm": 0.0014718669699504972,
	"kl": 0.0010118414385942743,
	"learning_rate": 5e-06,
	"loss": 0.0,
	"reward": 0.55625,
	"reward_std": 0.1977315753698349,
	"rewards/custom_reward_simplified_v7_dblog": 0.55625,
	"step": 240
	},
	{
	"completion_length": 812.71875,
	"epoch": 0.001991064104299902,
	"grad_norm": 0.11223085969686508,
	"kl": 0.0010390775743871928,
	"learning_rate": 4.999735579817769e-06,
	"loss": 0.0,
	"reward": 0.6875,
	"reward_std": 0.24264758601784706,
	"rewards/custom_reward_simplified_v7_dblog": 0.6875,
	"step": 250
	},
	{
	"completion_length": 731.66875,
	"epoch": 0.002070706668471898,
	"grad_norm": 0.1944543570280075,
	"kl": 0.001084678602637723,
	"learning_rate": 4.998942375205502e-06,
	"loss": 0.0,
	"reward": 0.796875,
	"reward_std": 0.31279500126838683,
	"rewards/custom_reward_simplified_v7_dblog": 0.796875,
	"step": 260
	},
	{
	"completion_length": 770.69375,
	"epoch": 0.0021503492326438944,
	"grad_norm": 0.10904921591281891,
	"kl": 0.0012701354396995157,
	"learning_rate": 4.997620553954645e-06,
	"loss": 0.0001,
	"reward": 0.653125,
	"reward_std": 0.1583670809864998,
	"rewards/custom_reward_simplified_v7_dblog": 0.653125,
	"step": 270
	},
	{
	"completion_length": 646.63125,
	"epoch": 0.0022299917968158904,
	"grad_norm": 0.11776451766490936,
	"kl": 0.0026803009008290247,
	"learning_rate": 4.995770395678171e-06,
	"loss": 0.0001,
	"reward": 0.78125,
	"reward_std": 0.37105962783098223,
	"rewards/custom_reward_simplified_v7_dblog": 0.78125,
	"step": 280
	},
	{
	"completion_length": 850.5125,
	"epoch": 0.0023096343609878864,
	"grad_norm": 0.17029190063476562,
	"kl": 0.0011812534503405914,
	"learning_rate": 4.993392291751431e-06,
	"loss": 0.0,
	"reward": 0.503125,
	"reward_std": 0.2320079453289509,
	"rewards/custom_reward_simplified_v7_dblog": 0.503125,
	"step": 290
	},
	{
	"completion_length": 774.4125,
	"epoch": 0.0023892769251598824,
	"grad_norm": 0.17417992651462555,
	"kl": 0.001456298804259859,
	"learning_rate": 4.990486745229364e-06,
	"loss": 0.0001,
	"reward": 0.621875,
	"reward_std": 0.24568462520837783,
	"rewards/custom_reward_simplified_v7_dblog": 0.621875,
	"step": 300
	},
	{
	"completion_length": 733.675,
	"epoch": 0.0024689194893318784,
	"grad_norm": 0.13222694396972656,
	"kl": 0.001577114372048527,
	"learning_rate": 4.9870543707400835e-06,
	"loss": 0.0001,
	"reward": 0.653125,
	"reward_std": 0.27914761677384375,
	"rewards/custom_reward_simplified_v7_dblog": 0.653125,
	"step": 310
	},
	{
	"completion_length": 711.91875,
	"epoch": 0.002548562053503875,
	"grad_norm": 0.19241130352020264,
	"kl": 0.0017230566183570773,
	"learning_rate": 4.983095894354858e-06,
	"loss": 0.0001,
	"reward": 0.68125,
	"reward_std": 0.3178554192185402,
	"rewards/custom_reward_simplified_v7_dblog": 0.68125,
	"step": 320
	},
	{
	"completion_length": 780.34375,
	"epoch": 0.002628204617675871,
	"grad_norm": 0.1997414082288742,
	"kl": 0.002029248425969854,
	"learning_rate": 4.978612153434527e-06,
	"loss": 0.0001,
	"reward": 0.696875,
	"reward_std": 0.32896072417497635,
	"rewards/custom_reward_simplified_v7_dblog": 0.696875,
	"step": 330
	},
	{
	"completion_length": 695.63125,
	"epoch": 0.002707847181847867,
	"grad_norm": 0.18966233730316162,
	"kl": 0.002277573832543567,
	"learning_rate": 4.973604096452361e-06,
	"loss": 0.0001,
	"reward": 0.684375,
	"reward_std": 0.2995404839515686,
	"rewards/custom_reward_simplified_v7_dblog": 0.684375,
	"step": 340
	},
	{
	"completion_length": 719.425,
	"epoch": 0.002787489746019863,
	"grad_norm": 0.17769980430603027,
	"kl": 0.002305405435618013,
	"learning_rate": 4.968072782793436e-06,
	"loss": 0.0001,
	"reward": 0.74375,
	"reward_std": 0.3807508498430252,
	"rewards/custom_reward_simplified_v7_dblog": 0.74375,
	"step": 350
	},
	{
	"completion_length": 732.4375,
	"epoch": 0.002867132310191859,
	"grad_norm": 0.21898534893989563,
	"kl": 0.002607938600704074,
	"learning_rate": 4.962019382530521e-06,
	"loss": 0.0001,
	"reward": 0.596875,
	"reward_std": 0.303117785602808,
	"rewards/custom_reward_simplified_v7_dblog": 0.596875,
	"step": 360
	},
	{
	"completion_length": 703.21875,
	"epoch": 0.002946774874363855,
	"grad_norm": 0.20463985204696655,
	"kl": 0.0030091375578194858,
	"learning_rate": 4.955445176176577e-06,
	"loss": 0.0001,
	"reward": 0.746875,
	"reward_std": 0.28880608528852464,
	"rewards/custom_reward_simplified_v7_dblog": 0.746875,
	"step": 370
	},
	{
	"completion_length": 646.95625,
	"epoch": 0.0030264174385358513,
	"grad_norm": 0.17787523567676544,
	"kl": 0.003602780296932906,
	"learning_rate": 4.948351554413879e-06,
	"loss": 0.0001,
	"reward": 0.753125,
	"reward_std": 0.31493050456047056,
	"rewards/custom_reward_simplified_v7_dblog": 0.753125,
	"step": 380
	},
	{
	"completion_length": 656.94375,
	"epoch": 0.0031060600027078473,
	"grad_norm": 0.18550129234790802,
	"kl": 0.003282526368275285,
	"learning_rate": 4.9407400177998335e-06,
	"loss": 0.0001,
	"reward": 0.828125,
	"reward_std": 0.33323406875133516,
	"rewards/custom_reward_simplified_v7_dblog": 0.828125,
	"step": 390
	},
	{
	"completion_length": 740.3125,
	"epoch": 0.0031857025668798433,
	"grad_norm": 0.19987954199314117,
	"kl": 0.003102585405576974,
	"learning_rate": 4.93261217644956e-06,
	"loss": 0.0001,
	"reward": 0.590625,
	"reward_std": 0.26303397938609124,
	"rewards/custom_reward_simplified_v7_dblog": 0.590625,
	"step": 400
	},
	{
	"completion_length": 641.26875,
	"epoch": 0.0032653451310518393,
	"grad_norm": 0.21161562204360962,
	"kl": 0.003351045388262719,
	"learning_rate": 4.9239697496952904e-06,
	"loss": 0.0001,
	"reward": 0.909375,
	"reward_std": 0.3579762116074562,
	"rewards/custom_reward_simplified_v7_dblog": 0.909375,
	"step": 410
	},
	{
	"completion_length": 692.06875,
	"epoch": 0.0033449876952238353,
	"grad_norm": 0.17584940791130066,
	"kl": 0.003339459316339344,
	"learning_rate": 4.914814565722671e-06,
	"loss": 0.0001,
	"reward": 0.765625,
	"reward_std": 0.3109076008200645,
	"rewards/custom_reward_simplified_v7_dblog": 0.765625,
	"step": 420
	},
	{
	"completion_length": 638.51875,
	"epoch": 0.0034246302593958313,
	"grad_norm": 0.17778904736042023,
	"kl": 0.0034626491484232246,
	"learning_rate": 4.905148561184033e-06,
	"loss": 0.0001,
	"reward": 0.671875,
	"reward_std": 0.2665500298142433,
	"rewards/custom_reward_simplified_v7_dblog": 0.671875,
	"step": 430
	},
	{
	"completion_length": 597.475,
	"epoch": 0.0035042728235678278,
	"grad_norm": 0.127123162150383,
	"kl": 0.0039646215736866,
	"learning_rate": 4.894973780788722e-06,
	"loss": 0.0002,
	"reward": 0.88125,
	"reward_std": 0.28942874893546106,
	"rewards/custom_reward_simplified_v7_dblog": 0.88125,
	"step": 440
	},
	{
	"completion_length": 651.6625,
	"epoch": 0.0035839153877398238,
	"grad_norm": 0.21087874472141266,
	"kl": 0.004210945626255125,
	"learning_rate": 4.884292376870567e-06,
	"loss": 0.0002,
	"reward": 0.753125,
	"reward_std": 0.29777742698788645,
	"rewards/custom_reward_simplified_v7_dblog": 0.753125,
	"step": 450
	},
	{
	"completion_length": 727.13125,
	"epoch": 0.0036635579519118198,
	"grad_norm": 0.18630079925060272,
	"kl": 0.003935616160742938,
	"learning_rate": 4.873106608932585e-06,
	"loss": 0.0002,
	"reward": 0.678125,
	"reward_std": 0.31932896226644514,
	"rewards/custom_reward_simplified_v7_dblog": 0.678125,
	"step": 460
	},
	{
	"completion_length": 716.74375,
	"epoch": 0.003743200516083816,
	"grad_norm": 0.1637570858001709,
	"kl": 0.004373999196104705,
	"learning_rate": 4.861418843169012e-06,
	"loss": 0.0002,
	"reward": 0.646875,
	"reward_std": 0.26624983847141265,
	"rewards/custom_reward_simplified_v7_dblog": 0.646875,
	"step": 470
	},
	{
	"completion_length": 581.90625,
	"epoch": 0.003822843080255812,
	"grad_norm": 0.0051241409964859486,
	"kl": 0.004909415659494698,
	"learning_rate": 4.849231551964771e-06,
	"loss": 0.0002,
	"reward": 0.75625,
	"reward_std": 0.19474873542785645,
	"rewards/custom_reward_simplified_v7_dblog": 0.75625,
	"step": 480
	},
	{
	"completion_length": 680.94375,
	"epoch": 0.003902485644427808,
	"grad_norm": 0.15670013427734375,
	"kl": 0.004694941581692547,
	"learning_rate": 4.836547313372472e-06,
	"loss": 0.0002,
	"reward": 0.73125,
	"reward_std": 0.2675834000110626,
	"rewards/custom_reward_simplified_v7_dblog": 0.73125,
	"step": 490
	},
	{
	"completion_length": 699.1,
	"epoch": 0.003982128208599804,
	"grad_norm": 0.1365301012992859,
	"kl": 0.00405421577161178,
	"learning_rate": 4.823368810567056e-06,
	"loss": 0.0002,
	"reward": 0.603125,
	"reward_std": 0.25718758851289747,
	"rewards/custom_reward_simplified_v7_dblog": 0.603125,
	"step": 500
	},
	{
	"completion_length": 646.7,
	"epoch": 0.0040617707727718,
	"grad_norm": 0.14925876259803772,
	"kl": 0.003934591950383037,
	"learning_rate": 4.809698831278217e-06,
	"loss": 0.0002,
	"reward": 0.734375,
	"reward_std": 0.2696119427680969,
	"rewards/custom_reward_simplified_v7_dblog": 0.734375,
	"step": 510
	},
	{
	"completion_length": 726.08125,
	"epoch": 0.004141413336943796,
	"grad_norm": 0.2107785940170288,
	"kl": 0.004233359964564443,
	"learning_rate": 4.7955402672006855e-06,
	"loss": 0.0002,
	"reward": 0.759375,
	"reward_std": 0.2953102938830853,
	"rewards/custom_reward_simplified_v7_dblog": 0.759375,
	"step": 520
	},
	{
	"completion_length": 633.525,
	"epoch": 0.004221055901115793,
	"grad_norm": 0.2159271538257599,
	"kl": 0.004929024970624596,
	"learning_rate": 4.780896113382536e-06,
	"loss": 0.0002,
	"reward": 0.75625,
	"reward_std": 0.2647860750555992,
	"rewards/custom_reward_simplified_v7_dblog": 0.75625,
	"step": 530
	},
	{
	"completion_length": 586.9125,
	"epoch": 0.004300698465287789,
	"grad_norm": 0.2394983470439911,
	"kl": 0.004724201350472868,
	"learning_rate": 4.765769467591626e-06,
	"loss": 0.0002,
	"reward": 0.975,
	"reward_std": 0.36022927314043046,
	"rewards/custom_reward_simplified_v7_dblog": 0.975,
	"step": 540
	},
	{
	"completion_length": 651.88125,
	"epoch": 0.004380341029459785,
	"grad_norm": 0.1552504301071167,
	"kl": 0.004269527771975845,
	"learning_rate": 4.750163529660303e-06,
	"loss": 0.0002,
	"reward": 0.790625,
	"reward_std": 0.2759058982133865,
	"rewards/custom_reward_simplified_v7_dblog": 0.790625,
	"step": 550
	},
	{
	"completion_length": 655.9125,
	"epoch": 0.004459983593631781,
	"grad_norm": 0.13005749881267548,
	"kl": 0.004541868972592056,
	"learning_rate": 4.734081600808531e-06,
	"loss": 0.0002,
	"reward": 0.796875,
	"reward_std": 0.2369130529463291,
	"rewards/custom_reward_simplified_v7_dblog": 0.796875,
	"step": 560
	},
	{
	"completion_length": 630.3375,
	"epoch": 0.004539626157803777,
	"grad_norm": 0.14732114970684052,
	"kl": 0.004577037692070007,
	"learning_rate": 4.717527082945555e-06,
	"loss": 0.0002,
	"reward": 0.925,
	"reward_std": 0.3310479797422886,
	"rewards/custom_reward_simplified_v7_dblog": 0.925,
	"step": 570
	},
	{
	"completion_length": 693.2625,
	"epoch": 0.004619268721975773,
	"grad_norm": 0.11388376355171204,
	"kl": 0.004154781624674797,
	"learning_rate": 4.700503477950278e-06,
	"loss": 0.0002,
	"reward": 0.6875,
	"reward_std": 0.29332098439335824,
	"rewards/custom_reward_simplified_v7_dblog": 0.6875,
	"step": 580
	},
	{
	"completion_length": 662.7625,
	"epoch": 0.004698911286147769,
	"grad_norm": 0.15470421314239502,
	"kl": 0.00541011628229171,
	"learning_rate": 4.6830143869304904e-06,
	"loss": 0.0002,
	"reward": 0.809375,
	"reward_std": 0.32753978818655016,
	"rewards/custom_reward_simplified_v7_dblog": 0.809375,
	"step": 590
	},
	{
	"completion_length": 698.95625,
	"epoch": 0.004778553850319765,
	"grad_norm": 0.004228990990668535,
	"kl": 0.004637495230417699,
	"learning_rate": 4.665063509461098e-06,
	"loss": 0.0002,
	"reward": 0.75,
	"reward_std": 0.23772156983613968,
	"rewards/custom_reward_simplified_v7_dblog": 0.75,
	"step": 600
	},
	{
	"completion_length": 629.7625,
	"epoch": 0.004858196414491761,
	"grad_norm": 0.21860064566135406,
	"kl": 0.0044788535917177795,
	"learning_rate": 4.646654642801533e-06,
	"loss": 0.0002,
	"reward": 0.8125,
	"reward_std": 0.27716630697250366,
	"rewards/custom_reward_simplified_v7_dblog": 0.8125,
	"step": 610
	},
	{
	"completion_length": 727.06875,
	"epoch": 0.004937838978663757,
	"grad_norm": 0.1765265315771103,
	"kl": 0.004957099666353315,
	"learning_rate": 4.627791681092499e-06,
	"loss": 0.0002,
	"reward": 0.6,
	"reward_std": 0.2689620770514011,
	"rewards/custom_reward_simplified_v7_dblog": 0.6,
	"step": 620
	},
	{
	"completion_length": 718.825,
	"epoch": 0.005017481542835753,
	"grad_norm": 0.12771090865135193,
	"kl": 0.005165508517529815,
	"learning_rate": 4.608478614532215e-06,
	"loss": 0.0002,
	"reward": 0.728125,
	"reward_std": 0.3053886480629444,
	"rewards/custom_reward_simplified_v7_dblog": 0.728125,
	"step": 630
	},
	{
	"completion_length": 629.525,
	"epoch": 0.00509712410700775,
	"grad_norm": 0.17840693891048431,
	"kl": 0.005059469246771186,
	"learning_rate": 4.588719528532342e-06,
	"loss": 0.0002,
	"reward": 0.721875,
	"reward_std": 0.298052953928709,
	"rewards/custom_reward_simplified_v7_dblog": 0.721875,
	"step": 640
	},
	{
	"completion_length": 668.68125,
	"epoch": 0.005176766671179746,
	"grad_norm": 0.12746350467205048,
	"kl": 0.004331990797072649,
	"learning_rate": 4.568518602853776e-06,
	"loss": 0.0002,
	"reward": 0.746875,
	"reward_std": 0.22913563549518584,
	"rewards/custom_reward_simplified_v7_dblog": 0.746875,
	"step": 650
	},
	{
	"completion_length": 734.9875,
	"epoch": 0.005256409235351742,
	"grad_norm": 0.19717195630073547,
	"kl": 0.00479215239174664,
	"learning_rate": 4.54788011072248e-06,
	"loss": 0.0002,
	"reward": 0.784375,
	"reward_std": 0.4230809181928635,
	"rewards/custom_reward_simplified_v7_dblog": 0.784375,
	"step": 660
	},
	{
	"completion_length": 658.29375,
	"epoch": 0.005336051799523738,
	"grad_norm": 0.2698514759540558,
	"kl": 0.004821322776842862,
	"learning_rate": 4.526808417925531e-06,
	"loss": 0.0002,
	"reward": 0.81875,
	"reward_std": 0.26030006259679794,
	"rewards/custom_reward_simplified_v7_dblog": 0.81875,
	"step": 670
	},
	{
	"completion_length": 696.30625,
	"epoch": 0.005415694363695734,
	"grad_norm": 0.2144252061843872,
	"kl": 0.005292760988231749,
	"learning_rate": 4.50530798188761e-06,
	"loss": 0.0002,
	"reward": 0.609375,
	"reward_std": 0.2595392823219299,
	"rewards/custom_reward_simplified_v7_dblog": 0.609375,
	"step": 680
	},
	{
	"completion_length": 696.99375,
	"epoch": 0.00549533692786773,
	"grad_norm": 0.006262101698666811,
	"kl": 0.005413674132432789,
	"learning_rate": 4.4833833507280884e-06,
	"loss": 0.0002,
	"reward": 0.684375,
	"reward_std": 0.24843912497162818,
	"rewards/custom_reward_simplified_v7_dblog": 0.684375,
	"step": 690
	},
	{
	"completion_length": 675.50625,
	"epoch": 0.005574979492039726,
	"grad_norm": 0.16301825642585754,
	"kl": 0.005892223375849426,
	"learning_rate": 4.46103916229894e-06,
	"loss": 0.0002,
	"reward": 0.80625,
	"reward_std": 0.34091843143105505,
	"rewards/custom_reward_simplified_v7_dblog": 0.80625,
	"step": 700
	},
	{
	"completion_length": 725.675,
	"epoch": 0.005654622056211722,
	"grad_norm": 0.18473494052886963,
	"kl": 0.005652935197576881,
	"learning_rate": 4.438280143203665e-06,
	"loss": 0.0002,
	"reward": 0.66875,
	"reward_std": 0.216452856361866,
	"rewards/custom_reward_simplified_v7_dblog": 0.66875,
	"step": 710
	},
	{
	"completion_length": 764.26875,
	"epoch": 0.005734264620383718,
	"grad_norm": 0.17735017836093903,
	"kl": 0.005824547982774675,
	"learning_rate": 4.415111107797445e-06,
	"loss": 0.0002,
	"reward": 0.634375,
	"reward_std": 0.25477964654564855,
	"rewards/custom_reward_simplified_v7_dblog": 0.634375,
	"step": 720
	},
	{
	"completion_length": 607.86875,
	"epoch": 0.005813907184555714,
	"grad_norm": 0.20680995285511017,
	"kl": 0.0055589195340871814,
	"learning_rate": 4.391536957168733e-06,
	"loss": 0.0002,
	"reward": 0.8,
	"reward_std": 0.32480863481760025,
	"rewards/custom_reward_simplified_v7_dblog": 0.8,
	"step": 730
	},
	{
	"completion_length": 674.13125,
	"epoch": 0.00589354974872771,
	"grad_norm": 0.005594769027084112,
	"kl": 0.005972519854549318,
	"learning_rate": 4.367562678102491e-06,
	"loss": 0.0002,
	"reward": 0.665625,
	"reward_std": 0.20820673778653145,
	"rewards/custom_reward_simplified_v7_dblog": 0.665625,
	"step": 740
	},
	{
	"completion_length": 639.69375,
	"epoch": 0.005973192312899706,
	"grad_norm": 0.11012833565473557,
	"kl": 0.005814655229914934,
	"learning_rate": 4.34319334202531e-06,
	"loss": 0.0002,
	"reward": 0.796875,
	"reward_std": 0.34761993661522866,
	"rewards/custom_reward_simplified_v7_dblog": 0.796875,
	"step": 750
	},
	{
	"completion_length": 587.6,
	"epoch": 0.006052834877071703,
	"grad_norm": 0.2750849723815918,
	"kl": 0.006217251974157989,
	"learning_rate": 4.318434103932622e-06,
	"loss": 0.0002,
	"reward": 0.75625,
	"reward_std": 0.23903784826397895,
	"rewards/custom_reward_simplified_v7_dblog": 0.75625,
	"step": 760
	},
	{
	"completion_length": 691.45625,
	"epoch": 0.006132477441243699,
	"grad_norm": 0.12792551517486572,
	"kl": 0.005762395297642798,
	"learning_rate": 4.293290201298224e-06,
	"loss": 0.0002,
	"reward": 0.65,
	"reward_std": 0.282283828407526,
	"rewards/custom_reward_simplified_v7_dblog": 0.65,
	"step": 770
	},
	{
	"completion_length": 634.79375,
	"epoch": 0.006212120005415695,
	"grad_norm": 0.11762549728155136,
	"kl": 0.005472023575566709,
	"learning_rate": 4.267766952966369e-06,
	"loss": 0.0002,
	"reward": 0.878125,
	"reward_std": 0.31506996527314185,
	"rewards/custom_reward_simplified_v7_dblog": 0.878125,
	"step": 780
	},
	{
	"completion_length": 719.05625,
	"epoch": 0.006291762569587691,
	"grad_norm": 0.0052847606129944324,
	"kl": 0.006504135020077228,
	"learning_rate": 4.241869758026638e-06,
	"loss": 0.0003,
	"reward": 0.628125,
	"reward_std": 0.2685270056128502,
	"rewards/custom_reward_simplified_v7_dblog": 0.628125,
	"step": 790
	},
	{
	"completion_length": 699.19375,
	"epoch": 0.006371405133759687,
	"grad_norm": 0.2003583461046219,
	"kl": 0.005931918846908957,
	"learning_rate": 4.215604094671835e-06,
	"loss": 0.0002,
	"reward": 0.746875,
	"reward_std": 0.25832219421863556,
	"rewards/custom_reward_simplified_v7_dblog": 0.746875,
	"step": 800
	},
	{
	"completion_length": 652.925,
	"epoch": 0.006451047697931683,
	"grad_norm": 0.0062674470245838165,
	"kl": 0.006221415114123374,
	"learning_rate": 4.188975519039151e-06,
	"loss": 0.0002,
	"reward": 0.73125,
	"reward_std": 0.3172403134405613,
	"rewards/custom_reward_simplified_v7_dblog": 0.73125,
	"step": 810
	},
	{
	"completion_length": 668.63125,
	"epoch": 0.006530690262103679,
	"grad_norm": 0.13624051213264465,
	"kl": 0.0063671735813841225,
	"learning_rate": 4.161989664034844e-06,
	"loss": 0.0003,
	"reward": 0.684375,
	"reward_std": 0.24903304055333136,
	"rewards/custom_reward_simplified_v7_dblog": 0.684375,
	"step": 820
	},
	{
	"completion_length": 658.575,
	"epoch": 0.006610332826275675,
	"grad_norm": 0.2923766076564789,
	"kl": 0.0068331335205584764,
	"learning_rate": 4.134652238142674e-06,
	"loss": 0.0003,
	"reward": 0.73125,
	"reward_std": 0.3243869088590145,
	"rewards/custom_reward_simplified_v7_dblog": 0.73125,
	"step": 830
	},
	{
	"completion_length": 645.31875,
	"epoch": 0.006689975390447671,
	"grad_norm": 0.22414511442184448,
	"kl": 0.006329123536124826,
	"learning_rate": 4.106969024216348e-06,
	"loss": 0.0003,
	"reward": 0.728125,
	"reward_std": 0.2578707054257393,
	"rewards/custom_reward_simplified_v7_dblog": 0.728125,
	"step": 840
	},
	{
	"completion_length": 620.76875,
	"epoch": 0.006769617954619667,
	"grad_norm": 0.2500353455543518,
	"kl": 0.006427089823409915,
	"learning_rate": 4.078945878256244e-06,
	"loss": 0.0003,
	"reward": 0.85625,
	"reward_std": 0.3704014003276825,
	"rewards/custom_reward_simplified_v7_dblog": 0.85625,
	"step": 850
	},
	{
	"completion_length": 545.075,
	"epoch": 0.006849260518791663,
	"grad_norm": 0.18576188385486603,
	"kl": 0.005737546656746417,
	"learning_rate": 4.0505887281706505e-06,
	"loss": 0.0002,
	"reward": 0.9125,
	"reward_std": 0.27787805944681165,
	"rewards/custom_reward_simplified_v7_dblog": 0.9125,
	"step": 860
	},
	{
	"completion_length": 671.1375,
	"epoch": 0.0069289030829636595,
	"grad_norm": 0.27761420607566833,
	"kl": 0.005926149617880583,
	"learning_rate": 4.021903572521802e-06,
	"loss": 0.0002,
	"reward": 0.71875,
	"reward_std": 0.1984293892979622,
	"rewards/custom_reward_simplified_v7_dblog": 0.71875,
	"step": 870
	},
	{
	"completion_length": 591.325,
	"epoch": 0.0070085456471356555,
	"grad_norm": 0.12898898124694824,
	"kl": 0.006013317289762199,
	"learning_rate": 3.992896479256966e-06,
	"loss": 0.0002,
	"reward": 0.875,
	"reward_std": 0.31373453289270403,
	"rewards/custom_reward_simplified_v7_dblog": 0.875,
	"step": 880
	},
	{
	"completion_length": 709.64375,
	"epoch": 0.0070881882113076515,
	"grad_norm": 0.1858564019203186,
	"kl": 0.006654553860425949,
	"learning_rate": 3.963573584424852e-06,
	"loss": 0.0003,
	"reward": 0.875,
	"reward_std": 0.40053595080971716,
	"rewards/custom_reward_simplified_v7_dblog": 0.875,
	"step": 890
	},
	{
	"completion_length": 693.86875,
	"epoch": 0.0071678307754796475,
	"grad_norm": 0.23618744313716888,
	"kl": 0.006588698271661997,
	"learning_rate": 3.933941090877615e-06,
	"loss": 0.0003,
	"reward": 0.6875,
	"reward_std": 0.22922600656747819,
	"rewards/custom_reward_simplified_v7_dblog": 0.6875,
	"step": 900
	},
	{
	"completion_length": 655.1,
	"epoch": 0.0072474733396516436,
	"grad_norm": 0.18607589602470398,
	"kl": 0.006554636568762362,
	"learning_rate": 3.9040052669587325e-06,
	"loss": 0.0003,
	"reward": 0.79375,
	"reward_std": 0.26788339093327523,
	"rewards/custom_reward_simplified_v7_dblog": 0.79375,
	"step": 910
	},
	{
	"completion_length": 678.36875,
	"epoch": 0.0073271159038236396,
	"grad_norm": 0.15605397522449493,
	"kl": 0.006827571708709001,
	"learning_rate": 3.8737724451770155e-06,
	"loss": 0.0003,
	"reward": 0.74375,
	"reward_std": 0.25242582634091376,
	"rewards/custom_reward_simplified_v7_dblog": 0.74375,
	"step": 920
	},
	{
	"completion_length": 640.1875,
	"epoch": 0.0074067584679956356,
	"grad_norm": 0.22241215407848358,
	"kl": 0.006700195767916739,
	"learning_rate": 3.8432490208670605e-06,
	"loss": 0.0003,
	"reward": 0.753125,
	"reward_std": 0.30004683434963225,
	"rewards/custom_reward_simplified_v7_dblog": 0.753125,
	"step": 930
	},
	{
	"completion_length": 671.025,
	"epoch": 0.007486401032167632,
	"grad_norm": 0.2610742747783661,
	"kl": 0.007203501905314625,
	"learning_rate": 3.8124414508364005e-06,
	"loss": 0.0003,
	"reward": 0.696875,
	"reward_std": 0.2809624969959259,
	"rewards/custom_reward_simplified_v7_dblog": 0.696875,
	"step": 940
	},
	{
	"completion_length": 644.56875,
	"epoch": 0.007566043596339628,
	"grad_norm": 0.18431080877780914,
	"kl": 0.006376700336113572,
	"learning_rate": 3.7813562519996633e-06,
	"loss": 0.0003,
	"reward": 0.775,
	"reward_std": 0.2690692335367203,
	"rewards/custom_reward_simplified_v7_dblog": 0.775,
	"step": 950
	},
	{
	"completion_length": 706.7125,
	"epoch": 0.007645686160511624,
	"grad_norm": 0.11362796276807785,
	"kl": 0.0065676989033818245,
	"learning_rate": 3.7500000000000005e-06,
	"loss": 0.0003,
	"reward": 0.753125,
	"reward_std": 0.3238763153553009,
	"rewards/custom_reward_simplified_v7_dblog": 0.753125,
	"step": 960
	},
	{
	"completion_length": 591.60625,
	"epoch": 0.00772532872468362,
	"grad_norm": 0.006601857952773571,
	"kl": 0.0061999865574762225,
	"learning_rate": 3.7183793278181063e-06,
	"loss": 0.0002,
	"reward": 0.978125,
	"reward_std": 0.32862835973501203,
	"rewards/custom_reward_simplified_v7_dblog": 0.978125,
	"step": 970
	},
	{
	"completion_length": 623.40625,
	"epoch": 0.007804971288855616,
	"grad_norm": 0.24265889823436737,
	"kl": 0.006443582929205149,
	"learning_rate": 3.6865009243691015e-06,
	"loss": 0.0003,
	"reward": 0.790625,
	"reward_std": 0.35499989837408064,
	"rewards/custom_reward_simplified_v7_dblog": 0.790625,
	"step": 980
	},
	{
	"completion_length": 677.65625,
	"epoch": 0.007884613853027612,
	"grad_norm": 0.23094038665294647,
	"kl": 0.006802499154582619,
	"learning_rate": 3.654371533087586e-06,
	"loss": 0.0003,
	"reward": 0.80625,
	"reward_std": 0.3126889310777187,
	"rewards/custom_reward_simplified_v7_dblog": 0.80625,
	"step": 990
	},
	{
	"completion_length": 703.0125,
	"epoch": 0.007964256417199608,
	"grad_norm": 0.2269383817911148,
	"kl": 0.006587388808839023,
	"learning_rate": 3.621997950501156e-06,
	"loss": 0.0003,
	"reward": 0.83125,
	"reward_std": 0.3684743233025074,
	"rewards/custom_reward_simplified_v7_dblog": 0.83125,
	"step": 1000
	},
	{
	"completion_length": 702.75,
	"epoch": 0.008043898981371604,
	"grad_norm": 0.25571930408477783,
	"kl": 0.0066094894893467425,
	"learning_rate": 3.5893870247926986e-06,
	"loss": 0.0003,
	"reward": 0.690625,
	"reward_std": 0.27608626931905744,
	"rewards/custom_reward_simplified_v7_dblog": 0.690625,
	"step": 1010
	},
	{
	"completion_length": 634.18125,
	"epoch": 0.0081235415455436,
	"grad_norm": 0.006109423469752073,
	"kl": 0.006831615581177175,
	"learning_rate": 3.556545654351749e-06,
	"loss": 0.0003,
	"reward": 0.85625,
	"reward_std": 0.2714505262672901,
	"rewards/custom_reward_simplified_v7_dblog": 0.85625,
	"step": 1020
	},
	{
	"completion_length": 768.13125,
	"epoch": 0.008203184109715597,
	"grad_norm": 0.20112627744674683,
	"kl": 0.006995444605126977,
	"learning_rate": 3.5234807863152316e-06,
	"loss": 0.0003,
	"reward": 0.609375,
	"reward_std": 0.2496856138110161,
	"rewards/custom_reward_simplified_v7_dblog": 0.609375,
	"step": 1030
	},
	{
	"completion_length": 777.525,
	"epoch": 0.008282826673887592,
	"grad_norm": 0.2836349606513977,
	"kl": 0.007392951846122741,
	"learning_rate": 3.4901994150978926e-06,
	"loss": 0.0003,
	"reward": 0.675,
	"reward_std": 0.26406350955367086,
	"rewards/custom_reward_simplified_v7_dblog": 0.675,
	"step": 1040
	},
	{
	"completion_length": 719.2875,
	"epoch": 0.008362469238059589,
	"grad_norm": 0.1799333542585373,
	"kl": 0.007057315914425999,
	"learning_rate": 3.4567085809127247e-06,
	"loss": 0.0003,
	"reward": 0.790625,
	"reward_std": 0.33950999528169634,
	"rewards/custom_reward_simplified_v7_dblog": 0.790625,
	"step": 1050
	},
	{
	"completion_length": 621.4875,
	"epoch": 0.008442111802231585,
	"grad_norm": 0.25109627842903137,
	"kl": 0.006540448497980833,
	"learning_rate": 3.4230153682817112e-06,
	"loss": 0.0003,
	"reward": 0.85,
	"reward_std": 0.30627945214509966,
	"rewards/custom_reward_simplified_v7_dblog": 0.85,
	"step": 1060
	},
	{
	"completion_length": 671.04375,
	"epoch": 0.00852175436640358,
	"grad_norm": 0.1299162656068802,
	"kl": 0.006574284215457737,
	"learning_rate": 3.389126904537192e-06,
	"loss": 0.0003,
	"reward": 0.865625,
	"reward_std": 0.37070034593343737,
	"rewards/custom_reward_simplified_v7_dblog": 0.865625,
	"step": 1070
	},
	{
	"completion_length": 638.23125,
	"epoch": 0.008601396930575577,
	"grad_norm": 0.23796696960926056,
	"kl": 0.0075248789740726355,
	"learning_rate": 3.3550503583141726e-06,
	"loss": 0.0003,
	"reward": 0.746875,
	"reward_std": 0.25020881071686746,
	"rewards/custom_reward_simplified_v7_dblog": 0.746875,
	"step": 1080
	},
	{
	"completion_length": 634.9375,
	"epoch": 0.008681039494747573,
	"grad_norm": 0.2958204448223114,
	"kl": 0.006533738202415406,
	"learning_rate": 3.3207929380339034e-06,
	"loss": 0.0003,
	"reward": 0.896875,
	"reward_std": 0.38549663573503495,
	"rewards/custom_reward_simplified_v7_dblog": 0.896875,
	"step": 1090
	},
	{
	"completion_length": 661.2625,
	"epoch": 0.00876068205891957,
	"grad_norm": 0.007367302197962999,
	"kl": 0.007355101336725056,
	"learning_rate": 3.2863618903790346e-06,
	"loss": 0.0003,
	"reward": 0.71875,
	"reward_std": 0.25932966247200967,
	"rewards/custom_reward_simplified_v7_dblog": 0.71875,
	"step": 1100
	},
	{
	"completion_length": 700.48125,
	"epoch": 0.008840324623091565,
	"grad_norm": 0.28138336539268494,
	"kl": 0.007267917576245964,
	"learning_rate": 3.2517644987606827e-06,
	"loss": 0.0003,
	"reward": 0.9125,
	"reward_std": 0.33715927675366403,
	"rewards/custom_reward_simplified_v7_dblog": 0.9125,
	"step": 1110
	},
	{
	"completion_length": 662.26875,
	"epoch": 0.008919967187263561,
	"grad_norm": 0.1348627209663391,
	"kl": 0.007481782068498433,
	"learning_rate": 3.217008081777726e-06,
	"loss": 0.0003,
	"reward": 0.728125,
	"reward_std": 0.2547163799405098,
	"rewards/custom_reward_simplified_v7_dblog": 0.728125,
	"step": 1120
	},
	{
	"completion_length": 733.2125,
	"epoch": 0.008999609751435557,
	"grad_norm": 0.2320898026227951,
	"kl": 0.007608366897329688,
	"learning_rate": 3.182099991668653e-06,
	"loss": 0.0003,
	"reward": 0.60625,
	"reward_std": 0.2975068032741547,
	"rewards/custom_reward_simplified_v7_dblog": 0.60625,
	"step": 1130
	},
	{
	"completion_length": 603.5,
	"epoch": 0.009079252315607553,
	"grad_norm": 0.23401154577732086,
	"kl": 0.007222792156971991,
	"learning_rate": 3.147047612756302e-06,
	"loss": 0.0003,
	"reward": 0.875,
	"reward_std": 0.2553515017032623,
	"rewards/custom_reward_simplified_v7_dblog": 0.875,
	"step": 1140
	},
	{
	"completion_length": 704.44375,
	"epoch": 0.009158894879779549,
	"grad_norm": 0.2538968324661255,
	"kl": 0.007968966104090213,
	"learning_rate": 3.1118583598858097e-06,
	"loss": 0.0003,
	"reward": 0.6875,
	"reward_std": 0.29204289317131044,
	"rewards/custom_reward_simplified_v7_dblog": 0.6875,
	"step": 1150
	},
	{
	"completion_length": 641.88125,
	"epoch": 0.009238537443951545,
	"grad_norm": 0.007003675680607557,
	"kl": 0.007272082474082708,
	"learning_rate": 3.0765396768561005e-06,
	"loss": 0.0003,
	"reward": 0.875,
	"reward_std": 0.2666669487953186,
	"rewards/custom_reward_simplified_v7_dblog": 0.875,
	"step": 1160
	},
	{
	"completion_length": 645.55625,
	"epoch": 0.009318180008123542,
	"grad_norm": 0.005993107333779335,
	"kl": 0.00769920782186091,
	"learning_rate": 3.0410990348452572e-06,
	"loss": 0.0003,
	"reward": 0.846875,
	"reward_std": 0.29315834268927576,
	"rewards/custom_reward_simplified_v7_dblog": 0.846875,
	"step": 1170
	},
	{
	"completion_length": 690.65625,
	"epoch": 0.009397822572295537,
	"grad_norm": 0.196693554520607,
	"kl": 0.007807633420452475,
	"learning_rate": 3.0055439308300954e-06,
	"loss": 0.0003,
	"reward": 0.80625,
	"reward_std": 0.34684801325201986,
	"rewards/custom_reward_simplified_v7_dblog": 0.80625,
	"step": 1180
	},
	{
	"completion_length": 652.125,
	"epoch": 0.009477465136467534,
	"grad_norm": 0.009493391960859299,
	"kl": 0.008702660608105362,
	"learning_rate": 2.96988188600028e-06,
	"loss": 0.0003,
	"reward": 0.85625,
	"reward_std": 0.21074047386646272,
	"rewards/custom_reward_simplified_v7_dblog": 0.85625,
	"step": 1190
	},
	{
	"completion_length": 660.8125,
	"epoch": 0.00955710770063953,
	"grad_norm": 0.250519335269928,
	"kl": 0.008729650382883846,
	"learning_rate": 2.9341204441673267e-06,
	"loss": 0.0003,
	"reward": 0.728125,
	"reward_std": 0.33152099549770353,
	"rewards/custom_reward_simplified_v7_dblog": 0.728125,
	"step": 1200
	},
	{
	"completion_length": 660.7375,
	"epoch": 0.009636750264811526,
	"grad_norm": 0.20679971575737,
	"kl": 0.00826664932537824,
	"learning_rate": 2.898267170168807e-06,
	"loss": 0.0003,
	"reward": 0.665625,
	"reward_std": 0.25403511226177217,
	"rewards/custom_reward_simplified_v7_dblog": 0.665625,
	"step": 1210
	},
	{
	"completion_length": 653.59375,
	"epoch": 0.009716392828983521,
	"grad_norm": 0.14609546959400177,
	"kl": 0.007603704649955034,
	"learning_rate": 2.862329648268117e-06,
	"loss": 0.0003,
	"reward": 0.94375,
	"reward_std": 0.26154626756906507,
	"rewards/custom_reward_simplified_v7_dblog": 0.94375,
	"step": 1220
	},
	{
	"completion_length": 635.0125,
	"epoch": 0.009796035393155518,
	"grad_norm": 0.14301441609859467,
	"kl": 0.008189951698295773,
	"learning_rate": 2.82631548055013e-06,
	"loss": 0.0003,
	"reward": 0.9,
	"reward_std": 0.2126667931675911,
	"rewards/custom_reward_simplified_v7_dblog": 0.9,
	"step": 1230
	},
	{
	"completion_length": 816.5375,
	"epoch": 0.009875677957327514,
	"grad_norm": 0.1681988686323166,
	"kl": 0.01006167777813971,
	"learning_rate": 2.7902322853130758e-06,
	"loss": 0.0004,
	"reward": 0.51875,
	"reward_std": 0.27570038065314295,
	"rewards/custom_reward_simplified_v7_dblog": 0.51875,
	"step": 1240
	},
	{
	"completion_length": 710.75,
	"epoch": 0.00995532052149951,
	"grad_norm": 0.09834864735603333,
	"kl": 0.010588118969462813,
	"learning_rate": 2.754087695457005e-06,
	"loss": 0.0004,
	"reward": 0.6625,
	"reward_std": 0.19232839569449425,
	"rewards/custom_reward_simplified_v7_dblog": 0.6625,
	"step": 1250
	},
	{
	"completion_length": 615.5875,
	"epoch": 0.010034963085671506,
	"grad_norm": 0.14006367325782776,
	"kl": 0.008278649020940065,
	"learning_rate": 2.717889356869146e-06,
	"loss": 0.0003,
	"reward": 0.903125,
	"reward_std": 0.3407335430383682,
	"rewards/custom_reward_simplified_v7_dblog": 0.903125,
	"step": 1260
	},
	{
	"completion_length": 727.70625,
	"epoch": 0.010114605649843502,
	"grad_norm": 0.005724642425775528,
	"kl": 0.009203878976404668,
	"learning_rate": 2.681644926806527e-06,
	"loss": 0.0004,
	"reward": 0.60625,
	"reward_std": 0.2156815566122532,
	"rewards/custom_reward_simplified_v7_dblog": 0.60625,
	"step": 1270
	},
	{
	"completion_length": 641.9125,
	"epoch": 0.0101942482140155,
	"grad_norm": 0.21494239568710327,
	"kl": 0.008675340004265309,
	"learning_rate": 2.6453620722761897e-06,
	"loss": 0.0003,
	"reward": 0.81875,
	"reward_std": 0.22831376343965532,
	"rewards/custom_reward_simplified_v7_dblog": 0.81875,
	"step": 1280
	},
	{
	"completion_length": 650.5,
	"epoch": 0.010273890778187494,
	"grad_norm": 0.22972695529460907,
	"kl": 0.008116158202756196,
	"learning_rate": 2.6090484684133406e-06,
	"loss": 0.0003,
	"reward": 0.921875,
	"reward_std": 0.2564812809228897,
	"rewards/custom_reward_simplified_v7_dblog": 0.921875,
	"step": 1290
	},
	{
	"completion_length": 657.94375,
	"epoch": 0.010353533342359491,
	"grad_norm": 0.15338486433029175,
	"kl": 0.009256175020709634,
	"learning_rate": 2.572711796857779e-06,
	"loss": 0.0004,
	"reward": 0.709375,
	"reward_std": 0.21537503451108933,
	"rewards/custom_reward_simplified_v7_dblog": 0.709375,
	"step": 1300
	},
	{
	"completion_length": 650.58125,
	"epoch": 0.010433175906531486,
	"grad_norm": 0.14920295774936676,
	"kl": 0.009564152918756008,
	"learning_rate": 2.5363597441289574e-06,
	"loss": 0.0004,
	"reward": 0.828125,
	"reward_std": 0.2882704295217991,
	"rewards/custom_reward_simplified_v7_dblog": 0.828125,
	"step": 1310
	},
	{
	"completion_length": 723.89375,
	"epoch": 0.010512818470703483,
	"grad_norm": 0.20945711433887482,
	"kl": 0.010788540355861187,
	"learning_rate": 2.5e-06,
	"loss": 0.0004,
	"reward": 0.7125,
	"reward_std": 0.26380954012274743,
	"rewards/custom_reward_simplified_v7_dblog": 0.7125,
	"step": 1320
	},
	{
	"completion_length": 715.7,
	"epoch": 0.010592461034875478,
	"grad_norm": 0.16817767918109894,
	"kl": 0.013910629483871163,
	"learning_rate": 2.4636402558710434e-06,
	"loss": 0.0006,
	"reward": 0.759375,
	"reward_std": 0.2193169414997101,
	"rewards/custom_reward_simplified_v7_dblog": 0.759375,
	"step": 1330
	},
	{
	"completion_length": 655.90625,
	"epoch": 0.010672103599047475,
	"grad_norm": 0.2265154868364334,
	"kl": 0.00848452327772975,
	"learning_rate": 2.4272882031422216e-06,
	"loss": 0.0003,
	"reward": 0.78125,
	"reward_std": 0.3443989932537079,
	"rewards/custom_reward_simplified_v7_dblog": 0.78125,
	"step": 1340
	},
	{
	"completion_length": 660.075,
	"epoch": 0.01075174616321947,
	"grad_norm": 0.24644052982330322,
	"kl": 0.009867909434251487,
	"learning_rate": 2.3909515315866606e-06,
	"loss": 0.0004,
	"reward": 0.79375,
	"reward_std": 0.29604131579399107,
	"rewards/custom_reward_simplified_v7_dblog": 0.79375,
	"step": 1350
	},
	{
	"completion_length": 633.9125,
	"epoch": 0.010831388727391467,
	"grad_norm": 0.1637645810842514,
	"kl": 0.00936238830909133,
	"learning_rate": 2.3546379277238107e-06,
	"loss": 0.0004,
	"reward": 0.90625,
	"reward_std": 0.324691192060709,
	"rewards/custom_reward_simplified_v7_dblog": 0.90625,
	"step": 1360
	},
	{
	"completion_length": 674.03125,
	"epoch": 0.010911031291563462,
	"grad_norm": 0.2471015304327011,
	"kl": 0.010726678185164928,
	"learning_rate": 2.318355073193474e-06,
	"loss": 0.0004,
	"reward": 0.65625,
	"reward_std": 0.21728940233588218,
	"rewards/custom_reward_simplified_v7_dblog": 0.65625,
	"step": 1370
	},
	{
	"completion_length": 682.31875,
	"epoch": 0.01099067385573546,
	"grad_norm": 0.10079372674226761,
	"kl": 0.009952771244570613,
	"learning_rate": 2.2821106431308546e-06,
	"loss": 0.0004,
	"reward": 0.89375,
	"reward_std": 0.33092204555869104,
	"rewards/custom_reward_simplified_v7_dblog": 0.89375,
	"step": 1380
	},
	{
	"completion_length": 669.09375,
	"epoch": 0.011070316419907454,
	"grad_norm": 0.19604210555553436,
	"kl": 0.011396997445262968,
	"learning_rate": 2.2459123045429953e-06,
	"loss": 0.0005,
	"reward": 0.784375,
	"reward_std": 0.29770964160561564,
	"rewards/custom_reward_simplified_v7_dblog": 0.784375,
	"step": 1390
	},
	{
	"completion_length": 651.80625,
	"epoch": 0.011149958984079451,
	"grad_norm": 0.27397212386131287,
	"kl": 0.01038803206756711,
	"learning_rate": 2.2097677146869242e-06,
	"loss": 0.0004,
	"reward": 0.878125,
	"reward_std": 0.27883157432079314,
	"rewards/custom_reward_simplified_v7_dblog": 0.878125,
	"step": 1400
	},
	{
	"completion_length": 687.5125,
	"epoch": 0.011229601548251448,
	"grad_norm": 0.22397036850452423,
	"kl": 0.012094876240007579,
	"learning_rate": 2.173684519449872e-06,
	"loss": 0.0005,
	"reward": 0.834375,
	"reward_std": 0.28866922557353974,
	"rewards/custom_reward_simplified_v7_dblog": 0.834375,
	"step": 1410
	},
	{
	"completion_length": 661.26875,
	"epoch": 0.011309244112423443,
	"grad_norm": 0.2519758939743042,
	"kl": 0.011373027227818966,
	"learning_rate": 2.1376703517318835e-06,
	"loss": 0.0005,
	"reward": 0.853125,
	"reward_std": 0.32343359887599943,
	"rewards/custom_reward_simplified_v7_dblog": 0.853125,
	"step": 1420
	},
	{
	"completion_length": 677.73125,
	"epoch": 0.01138888667659544,
	"grad_norm": 0.2689824104309082,
	"kl": 0.011312256497330964,
	"learning_rate": 2.101732829831194e-06,
	"loss": 0.0005,
	"reward": 0.765625,
	"reward_std": 0.27808423787355424,
	"rewards/custom_reward_simplified_v7_dblog": 0.765625,
	"step": 1430
	},
	{
	"completion_length": 619.71875,
	"epoch": 0.011468529240767435,
	"grad_norm": 0.32441073656082153,
	"kl": 0.010685316193848849,
	"learning_rate": 2.0658795558326745e-06,
	"loss": 0.0004,
	"reward": 0.871875,
	"reward_std": 0.2622031569480896,
	"rewards/custom_reward_simplified_v7_dblog": 0.871875,
	"step": 1440
	},
	{
	"completion_length": 613.3875,
	"epoch": 0.011548171804939432,
	"grad_norm": 0.15561087429523468,
	"kl": 0.012302201450802385,
	"learning_rate": 2.0301181139997206e-06,
	"loss": 0.0005,
	"reward": 0.8125,
	"reward_std": 0.26520399302244185,
	"rewards/custom_reward_simplified_v7_dblog": 0.8125,
	"step": 1450
	},
	{
	"completion_length": 677.23125,
	"epoch": 0.011627814369111427,
	"grad_norm": 0.2590673267841339,
	"kl": 0.011339499452151357,
	"learning_rate": 1.994456069169906e-06,
	"loss": 0.0005,
	"reward": 0.64375,
	"reward_std": 0.23993425220251083,
	"rewards/custom_reward_simplified_v7_dblog": 0.64375,
	"step": 1460
	},
	{
	"completion_length": 702.1625,
	"epoch": 0.011707456933283424,
	"grad_norm": 0.012393876910209656,
	"kl": 0.012036008480936288,
	"learning_rate": 1.958900965154743e-06,
	"loss": 0.0005,
	"reward": 0.64375,
	"reward_std": 0.21832374781370162,
	"rewards/custom_reward_simplified_v7_dblog": 0.64375,
	"step": 1470
	},
	{
	"completion_length": 722.06875,
	"epoch": 0.01178709949745542,
	"grad_norm": 0.13200955092906952,
	"kl": 0.013854384049773216,
	"learning_rate": 1.9234603231439e-06,
	"loss": 0.0006,
	"reward": 0.790625,
	"reward_std": 0.2784456007182598,
	"rewards/custom_reward_simplified_v7_dblog": 0.790625,
	"step": 1480
	},
	{
	"completion_length": 664.46875,
	"epoch": 0.011866742061627416,
	"grad_norm": 0.14230677485466003,
	"kl": 0.012553655169904232,
	"learning_rate": 1.8881416401141905e-06,
	"loss": 0.0005,
	"reward": 0.9,
	"reward_std": 0.23252918049693108,
	"rewards/custom_reward_simplified_v7_dblog": 0.9,
	"step": 1490
	},
	{
	"completion_length": 653.79375,
	"epoch": 0.011946384625799411,
	"grad_norm": 0.17014774680137634,
	"kl": 0.01346926314290613,
	"learning_rate": 1.852952387243698e-06,
	"loss": 0.0005,
	"reward": 0.740625,
	"reward_std": 0.22115055918693544,
	"rewards/custom_reward_simplified_v7_dblog": 0.740625,
	"step": 1500
	},
	{
	"completion_length": 640.39375,
	"epoch": 0.012026027189971408,
	"grad_norm": 0.17104946076869965,
	"kl": 0.013007838977500796,
	"learning_rate": 1.8179000083313483e-06,
	"loss": 0.0005,
	"reward": 0.9,
	"reward_std": 0.28725912123918534,
	"rewards/custom_reward_simplified_v7_dblog": 0.9,
	"step": 1510
	},
	{
	"completion_length": 650.7125,
	"epoch": 0.012105669754143405,
	"grad_norm": 0.1524449735879898,
	"kl": 0.012339419685304165,
	"learning_rate": 1.7829919182222752e-06,
	"loss": 0.0005,
	"reward": 0.790625,
	"reward_std": 0.3324665643274784,
	"rewards/custom_reward_simplified_v7_dblog": 0.790625,
	"step": 1520
	},
	{
	"completion_length": 674.3625,
	"epoch": 0.0121853123183154,
	"grad_norm": 0.2344941943883896,
	"kl": 0.012514100456610323,
	"learning_rate": 1.7482355012393177e-06,
	"loss": 0.0005,
	"reward": 0.859375,
	"reward_std": 0.3387090668082237,
	"rewards/custom_reward_simplified_v7_dblog": 0.859375,
	"step": 1530
	},
	{
	"completion_length": 718.6,
	"epoch": 0.012264954882487397,
	"grad_norm": 0.2631664276123047,
	"kl": 0.014576551388017833,
	"learning_rate": 1.7136381096209665e-06,
	"loss": 0.0006,
	"reward": 0.653125,
	"reward_std": 0.24619419425725936,
	"rewards/custom_reward_simplified_v7_dblog": 0.653125,
	"step": 1540
	},
	{
	"completion_length": 706.28125,
	"epoch": 0.012344597446659392,
	"grad_norm": 0.20134921371936798,
	"kl": 0.012202254333533346,
	"learning_rate": 1.6792070619660977e-06,
	"loss": 0.0005,
	"reward": 0.84375,
	"reward_std": 0.3321776181459427,
	"rewards/custom_reward_simplified_v7_dblog": 0.84375,
	"step": 1550
	},
	{
	"completion_length": 645.28125,
	"epoch": 0.01242424001083139,
	"grad_norm": 0.1851159930229187,
	"kl": 0.014482964109629393,
	"learning_rate": 1.6449496416858285e-06,
	"loss": 0.0006,
	"reward": 0.85625,
	"reward_std": 0.20507382601499557,
	"rewards/custom_reward_simplified_v7_dblog": 0.85625,
	"step": 1560
	},
	{
	"completion_length": 614.08125,
	"epoch": 0.012503882575003384,
	"grad_norm": 0.27418458461761475,
	"kl": 0.013118641986511647,
	"learning_rate": 1.6108730954628093e-06,
	"loss": 0.0005,
	"reward": 0.79375,
	"reward_std": 0.2820776253938675,
	"rewards/custom_reward_simplified_v7_dblog": 0.79375,
	"step": 1570
	},
	{
	"completion_length": 695.91875,
	"epoch": 0.012583525139175381,
	"grad_norm": 0.2425900250673294,
	"kl": 0.013333506928756834,
	"learning_rate": 1.5769846317182894e-06,
	"loss": 0.0005,
	"reward": 0.7625,
	"reward_std": 0.2879462748765945,
	"rewards/custom_reward_simplified_v7_dblog": 0.7625,
	"step": 1580
	},
	{
	"completion_length": 673.99375,
	"epoch": 0.012663167703347376,
	"grad_norm": 0.2331763356924057,
	"kl": 0.013234515953809024,
	"learning_rate": 1.5432914190872757e-06,
	"loss": 0.0005,
	"reward": 0.775,
	"reward_std": 0.2913659870624542,
	"rewards/custom_reward_simplified_v7_dblog": 0.775,
	"step": 1590
	},
	{
	"completion_length": 678.54375,
	"epoch": 0.012742810267519373,
	"grad_norm": 0.16657988727092743,
	"kl": 0.012798944069072605,
	"learning_rate": 1.509800584902108e-06,
	"loss": 0.0005,
	"reward": 0.759375,
	"reward_std": 0.2901748239994049,
	"rewards/custom_reward_simplified_v7_dblog": 0.759375,
	"step": 1600
	},
	{
	"completion_length": 652.49375,
	"epoch": 0.012822452831691368,
	"grad_norm": 0.12168209999799728,
	"kl": 0.012750855972990393,
	"learning_rate": 1.4765192136847686e-06,
	"loss": 0.0005,
	"reward": 0.728125,
	"reward_std": 0.26915703564882276,
	"rewards/custom_reward_simplified_v7_dblog": 0.728125,
	"step": 1610
	},
	{
	"completion_length": 660.95625,
	"epoch": 0.012902095395863365,
	"grad_norm": 0.13546766340732574,
	"kl": 0.013546877074986696,
	"learning_rate": 1.443454345648252e-06,
	"loss": 0.0005,
	"reward": 0.790625,
	"reward_std": 0.1937400370836258,
	"rewards/custom_reward_simplified_v7_dblog": 0.790625,
	"step": 1620
	},
	{
	"completion_length": 638.00625,
	"epoch": 0.012981737960035362,
	"grad_norm": 0.17955924570560455,
	"kl": 0.012779112858697771,
	"learning_rate": 1.4106129752073023e-06,
	"loss": 0.0005,
	"reward": 0.790625,
	"reward_std": 0.2674853280186653,
	"rewards/custom_reward_simplified_v7_dblog": 0.790625,
	"step": 1630
	},
	{
	"completion_length": 678.1125,
	"epoch": 0.013061380524207357,
	"grad_norm": 0.2616170644760132,
	"kl": 0.01720189054030925,
	"learning_rate": 1.3780020494988447e-06,
	"loss": 0.0007,
	"reward": 0.771875,
	"reward_std": 0.27255760729312895,
	"rewards/custom_reward_simplified_v7_dblog": 0.771875,
	"step": 1640
	},
	{
	"completion_length": 639.43125,
	"epoch": 0.013141023088379354,
	"grad_norm": 0.1487816423177719,
	"kl": 0.014415727299638092,
	"learning_rate": 1.3456284669124159e-06,
	"loss": 0.0006,
	"reward": 0.73125,
	"reward_std": 0.24298151433467866,
	"rewards/custom_reward_simplified_v7_dblog": 0.73125,
	"step": 1650
	},
	{
	"completion_length": 727.9625,
	"epoch": 0.01322066565255135,
	"grad_norm": 0.14750860631465912,
	"kl": 0.018067248188890515,
	"learning_rate": 1.313499075630899e-06,
	"loss": 0.0007,
	"reward": 0.721875,
	"reward_std": 0.30838647186756135,
	"rewards/custom_reward_simplified_v7_dblog": 0.721875,
	"step": 1660
	},
	{
	"completion_length": 780.08125,
	"epoch": 0.013300308216723346,
	"grad_norm": 0.2386309951543808,
	"kl": 0.017110610962845385,
	"learning_rate": 1.2816206721818944e-06,
	"loss": 0.0007,
	"reward": 0.6375,
	"reward_std": 0.26727318242192266,
	"rewards/custom_reward_simplified_v7_dblog": 0.6375,
	"step": 1670
	},
	{
	"completion_length": 655.70625,
	"epoch": 0.013379950780895341,
	"grad_norm": 0.2751936614513397,
	"kl": 0.01622524333652109,
	"learning_rate": 1.2500000000000007e-06,
	"loss": 0.0006,
	"reward": 0.878125,
	"reward_std": 0.284642493724823,
	"rewards/custom_reward_simplified_v7_dblog": 0.878125,
	"step": 1680
	},
	{
	"completion_length": 684.98125,
	"epoch": 0.013459593345067338,
	"grad_norm": 0.23118546605110168,
	"kl": 0.01642036633566022,
	"learning_rate": 1.218643748000337e-06,
	"loss": 0.0007,
	"reward": 0.85625,
	"reward_std": 0.339317075163126,
	"rewards/custom_reward_simplified_v7_dblog": 0.85625,
	"step": 1690
	},
	{
	"completion_length": 743.51875,
	"epoch": 0.013539235909239333,
	"grad_norm": 0.22867274284362793,
	"kl": 0.01721250016707927,
	"learning_rate": 1.1875585491636e-06,
	"loss": 0.0007,
	"reward": 0.653125,
	"reward_std": 0.277196903526783,
	"rewards/custom_reward_simplified_v7_dblog": 0.653125,
	"step": 1700
	},
	{
	"completion_length": 637.9625,
	"epoch": 0.01361887847341133,
	"grad_norm": 0.2428259700536728,
	"kl": 0.014563425956293941,
	"learning_rate": 1.1567509791329402e-06,
	"loss": 0.0006,
	"reward": 0.865625,
	"reward_std": 0.23967689424753189,
	"rewards/custom_reward_simplified_v7_dblog": 0.865625,
	"step": 1710
	},
	{
	"completion_length": 722.925,
	"epoch": 0.013698521037583325,
	"grad_norm": 0.21737752854824066,
	"kl": 0.014987437543459237,
	"learning_rate": 1.1262275548229852e-06,
	"loss": 0.0006,
	"reward": 0.725,
	"reward_std": 0.26179009675979614,
	"rewards/custom_reward_simplified_v7_dblog": 0.725,
	"step": 1720
	},
	{
	"completion_length": 633.31875,
	"epoch": 0.013778163601755322,
	"grad_norm": 0.22654354572296143,
	"kl": 0.013244283269159496,
	"learning_rate": 1.0959947330412681e-06,
	"loss": 0.0005,
	"reward": 0.921875,
	"reward_std": 0.2066536843776703,
	"rewards/custom_reward_simplified_v7_dblog": 0.921875,
	"step": 1730
	},
	{
	"completion_length": 615.29375,
	"epoch": 0.013857806165927319,
	"grad_norm": 0.22673261165618896,
	"kl": 0.014753601653501392,
	"learning_rate": 1.0660589091223854e-06,
	"loss": 0.0006,
	"reward": 0.815625,
	"reward_std": 0.30853241235017775,
	"rewards/custom_reward_simplified_v7_dblog": 0.815625,
	"step": 1740
	},
	{
	"completion_length": 630.3625,
	"epoch": 0.013937448730099314,
	"grad_norm": 0.012196751311421394,
	"kl": 0.01440229129511863,
	"learning_rate": 1.0364264155751489e-06,
	"loss": 0.0006,
	"reward": 0.915625,
	"reward_std": 0.23927971720695496,
	"rewards/custom_reward_simplified_v7_dblog": 0.915625,
	"step": 1750
	},
	{
	"completion_length": 715.2125,
	"epoch": 0.014017091294271311,
	"grad_norm": 0.2587921619415283,
	"kl": 0.017100332980044188,
	"learning_rate": 1.0071035207430352e-06,
	"loss": 0.0007,
	"reward": 0.74375,
	"reward_std": 0.2990465022623539,
	"rewards/custom_reward_simplified_v7_dblog": 0.74375,
	"step": 1760
	},
	{
	"completion_length": 682.74375,
	"epoch": 0.014096733858443306,
	"grad_norm": 0.24313370883464813,
	"kl": 0.01778110705781728,
	"learning_rate": 9.780964274781984e-07,
	"loss": 0.0007,
	"reward": 0.68125,
	"reward_std": 0.2005969136953354,
	"rewards/custom_reward_simplified_v7_dblog": 0.68125,
	"step": 1770
	},
	{
	"completion_length": 718.31875,
	"epoch": 0.014176376422615303,
	"grad_norm": 0.18841393291950226,
	"kl": 0.015946343122050167,
	"learning_rate": 9.494112718293503e-07,
	"loss": 0.0006,
	"reward": 0.771875,
	"reward_std": 0.27307887077331544,
	"rewards/custom_reward_simplified_v7_dblog": 0.771875,
	"step": 1780
	},
	{
	"completion_length": 707.1875,
	"epoch": 0.014256018986787298,
	"grad_norm": 0.2333621084690094,
	"kl": 0.01652351173106581,
	"learning_rate": 9.210541217437566e-07,
	"loss": 0.0007,
	"reward": 0.8125,
	"reward_std": 0.2497081995010376,
	"rewards/custom_reward_simplified_v7_dblog": 0.8125,
	"step": 1790
	},
	{
	"completion_length": 728.5375,
	"epoch": 0.014335661550959295,
	"grad_norm": 0.26783886551856995,
	"kl": 0.018553019547834993,
	"learning_rate": 8.930309757836517e-07,
	"loss": 0.0007,
	"reward": 0.75,
	"reward_std": 0.28967257887125014,
	"rewards/custom_reward_simplified_v7_dblog": 0.75,
	"step": 1800
	},
	{
	"completion_length": 689.26875,
	"epoch": 0.01441530411513129,
	"grad_norm": 0.17589329183101654,
	"kl": 0.016255489736795425,
	"learning_rate": 8.653477618573261e-07,
	"loss": 0.0007,
	"reward": 0.765625,
	"reward_std": 0.3363394603133202,
	"rewards/custom_reward_simplified_v7_dblog": 0.765625,
	"step": 1810
	},
	{
	"completion_length": 640.91875,
	"epoch": 0.014494946679303287,
	"grad_norm": 0.21075929701328278,
	"kl": 0.015922663966193795,
	"learning_rate": 8.380103359651554e-07,
	"loss": 0.0006,
	"reward": 0.925,
	"reward_std": 0.3459245666861534,
	"rewards/custom_reward_simplified_v7_dblog": 0.925,
	"step": 1820
	},
	{
	"completion_length": 708.60625,
	"epoch": 0.014574589243475282,
	"grad_norm": 0.00766308419406414,
	"kl": 0.01772608202882111,
	"learning_rate": 8.110244809608494e-07,
	"loss": 0.0007,
	"reward": 0.73125,
	"reward_std": 0.2913930006325245,
	"rewards/custom_reward_simplified_v7_dblog": 0.73125,
	"step": 1830
	},
	{
	"completion_length": 660.0375,
	"epoch": 0.014654231807647279,
	"grad_norm": 0.20974037051200867,
	"kl": 0.014227323909290135,
	"learning_rate": 7.843959053281663e-07,
	"loss": 0.0006,
	"reward": 0.809375,
	"reward_std": 0.24926668480038644,
	"rewards/custom_reward_simplified_v7_dblog": 0.809375,
	"step": 1840
	},
	{
	"completion_length": 729.71875,
	"epoch": 0.014733874371819274,
	"grad_norm": 0.24099427461624146,
	"kl": 0.018935651518404484,
	"learning_rate": 7.581302419733633e-07,
	"loss": 0.0008,
	"reward": 0.690625,
	"reward_std": 0.32810748890042307,
	"rewards/custom_reward_simplified_v7_dblog": 0.690625,
	"step": 1850
	},
	{
	"completion_length": 649.98125,
	"epoch": 0.014813516935991271,
	"grad_norm": 0.013280795887112617,
	"kl": 0.01633880774024874,
	"learning_rate": 7.322330470336314e-07,
	"loss": 0.0007,
	"reward": 0.91875,
	"reward_std": 0.24432293996214866,
	"rewards/custom_reward_simplified_v7_dblog": 0.91875,
	"step": 1860
	},
	{
	"completion_length": 669.09375,
	"epoch": 0.014893159500163268,
	"grad_norm": 0.2837064266204834,
	"kl": 0.014348302804864942,
	"learning_rate": 7.067097987017762e-07,
	"loss": 0.0006,
	"reward": 0.690625,
	"reward_std": 0.2307182878255844,
	"rewards/custom_reward_simplified_v7_dblog": 0.690625,
	"step": 1870
	},
	{
	"completion_length": 662.9625,
	"epoch": 0.014972802064335263,
	"grad_norm": 0.25689443945884705,
	"kl": 0.01656266492791474,
	"learning_rate": 6.815658960673782e-07,
	"loss": 0.0007,
	"reward": 0.85625,
	"reward_std": 0.22758262380957603,
	"rewards/custom_reward_simplified_v7_dblog": 0.85625,
	"step": 1880
	},
	{
	"completion_length": 719.24375,
	"epoch": 0.01505244462850726,
	"grad_norm": 0.22542421519756317,
	"kl": 0.01744127394631505,
	"learning_rate": 6.568066579746901e-07,
	"loss": 0.0007,
	"reward": 0.76875,
	"reward_std": 0.2790658660233021,
	"rewards/custom_reward_simplified_v7_dblog": 0.76875,
	"step": 1890
	},
	{
	"completion_length": 633.64375,
	"epoch": 0.015132087192679255,
	"grad_norm": 0.00903425831347704,
	"kl": 0.014375879801809788,
	"learning_rate": 6.324373218975105e-07,
	"loss": 0.0006,
	"reward": 0.725,
	"reward_std": 0.2382744610309601,
	"rewards/custom_reward_simplified_v7_dblog": 0.725,
	"step": 1900
	},
	{
	"completion_length": 767.7375,
	"epoch": 0.015211729756851252,
	"grad_norm": 0.1330222189426422,
	"kl": 0.02190765142440796,
	"learning_rate": 6.084630428312679e-07,
	"loss": 0.0009,
	"reward": 0.66875,
	"reward_std": 0.27546602860093117,
	"rewards/custom_reward_simplified_v7_dblog": 0.66875,
	"step": 1910
	},
	{
	"completion_length": 726.63125,
	"epoch": 0.015291372321023247,
	"grad_norm": 0.21655875444412231,
	"kl": 0.02581467442214489,
	"learning_rate": 5.848888922025553e-07,
	"loss": 0.001,
	"reward": 0.834375,
	"reward_std": 0.38373097851872445,
	"rewards/custom_reward_simplified_v7_dblog": 0.834375,
	"step": 1920
	},
	{
	"completion_length": 688.56875,
	"epoch": 0.015371014885195244,
	"grad_norm": 0.22155120968818665,
	"kl": 0.025313653564080597,
	"learning_rate": 5.617198567963353e-07,
	"loss": 0.001,
	"reward": 0.64375,
	"reward_std": 0.2539114162325859,
	"rewards/custom_reward_simplified_v7_dblog": 0.64375,
	"step": 1930
	},
	{
	"completion_length": 676.9125,
	"epoch": 0.01545065744936724,
	"grad_norm": 0.2373446673154831,
	"kl": 0.018907574540935456,
	"learning_rate": 5.389608377010608e-07,
	"loss": 0.0008,
	"reward": 0.821875,
	"reward_std": 0.1906539335846901,
	"rewards/custom_reward_simplified_v7_dblog": 0.821875,
	"step": 1940
	},
	{
	"completion_length": 640.675,
	"epoch": 0.015530300013539236,
	"grad_norm": 0.1865774542093277,
	"kl": 0.014899229886941612,
	"learning_rate": 5.166166492719124e-07,
	"loss": 0.0006,
	"reward": 0.725,
	"reward_std": 0.2747412838041782,
	"rewards/custom_reward_simplified_v7_dblog": 0.725,
	"step": 1950
	},
	{
	"completion_length": 651.70625,
	"epoch": 0.015609942577711231,
	"grad_norm": 0.2434624284505844,
	"kl": 0.01636054664850235,
	"learning_rate": 4.946920181123904e-07,
	"loss": 0.0007,
	"reward": 0.7625,
	"reward_std": 0.2852359592914581,
	"rewards/custom_reward_simplified_v7_dblog": 0.7625,
	"step": 1960
	},
	{
	"completion_length": 654.6625,
	"epoch": 0.015689585141883226,
	"grad_norm": 0.20749981701374054,
	"kl": 0.018196922447532415,
	"learning_rate": 4.7319158207446953e-07,
	"loss": 0.0007,
	"reward": 0.715625,
	"reward_std": 0.2198973834514618,
	"rewards/custom_reward_simplified_v7_dblog": 0.715625,
	"step": 1970
	},
	{
	"completion_length": 641.45,
	"epoch": 0.015769227706055225,
	"grad_norm": 0.23187489807605743,
	"kl": 0.017989515024237335,
	"learning_rate": 4.5211988927752026e-07,
	"loss": 0.0007,
	"reward": 0.7875,
	"reward_std": 0.24450960606336594,
	"rewards/custom_reward_simplified_v7_dblog": 0.7875,
	"step": 1980
	},
	{
	"completion_length": 643.6375,
	"epoch": 0.01584887027022722,
	"grad_norm": 0.235895574092865,
	"kl": 0.015841626143082977,
	"learning_rate": 4.3148139714622365e-07,
	"loss": 0.0006,
	"reward": 0.896875,
	"reward_std": 0.26189937368035315,
	"rewards/custom_reward_simplified_v7_dblog": 0.896875,
	"step": 1990
	},
	{
	"completion_length": 629.60625,
	"epoch": 0.015928512834399215,
	"grad_norm": 0.2776155471801758,
	"kl": 0.015184593386948109,
	"learning_rate": 4.1128047146765936e-07,
	"loss": 0.0006,
	"reward": 0.921875,
	"reward_std": 0.23378355875611306,
	"rewards/custom_reward_simplified_v7_dblog": 0.921875,
	"step": 2000
	},
	{
	"completion_length": 710.65,
	"epoch": 0.016008155398571214,
	"grad_norm": 0.13598495721817017,
	"kl": 0.01561300114262849,
	"learning_rate": 3.915213854677863e-07,
	"loss": 0.0006,
	"reward": 0.859375,
	"reward_std": 0.22324086129665374,
	"rewards/custom_reward_simplified_v7_dblog": 0.859375,
	"step": 2010
	},
	{
	"completion_length": 600.3625,
	"epoch": 0.01608779796274321,
	"grad_norm": 0.33102965354919434,
	"kl": 0.01562973433174193,
	"learning_rate": 3.722083189075007e-07,
	"loss": 0.0006,
	"reward": 1.0125,
	"reward_std": 0.37898894101381303,
	"rewards/custom_reward_simplified_v7_dblog": 1.0125,
	"step": 2020
	},
	{
	"completion_length": 633.40625,
	"epoch": 0.016167440526915204,
	"grad_norm": 0.009714637883007526,
	"kl": 0.01524353977292776,
	"learning_rate": 3.5334535719846767e-07,
	"loss": 0.0006,
	"reward": 0.775,
	"reward_std": 0.1905590772628784,
	"rewards/custom_reward_simplified_v7_dblog": 0.775,
	"step": 2030
	},
	{
	"completion_length": 674.3625,
	"epoch": 0.0162470830910872,
	"grad_norm": 0.2587895095348358,
	"kl": 0.015684280125424267,
	"learning_rate": 3.3493649053890325e-07,
	"loss": 0.0006,
	"reward": 0.978125,
	"reward_std": 0.33772673830389977,
	"rewards/custom_reward_simplified_v7_dblog": 0.978125,
	"step": 2040
	},
	{
	"completion_length": 623.1375,
	"epoch": 0.016326725655259198,
	"grad_norm": 0.24910244345664978,
	"kl": 0.014677197439596057,
	"learning_rate": 3.1698561306951065e-07,
	"loss": 0.0006,
	"reward": 0.925,
	"reward_std": 0.3512172996997833,
	"rewards/custom_reward_simplified_v7_dblog": 0.925,
	"step": 2050
	},
	{
	"completion_length": 678.0375,
	"epoch": 0.016406368219431193,
	"grad_norm": 0.20536966621875763,
	"kl": 0.017746813944540918,
	"learning_rate": 2.9949652204972257e-07,
	"loss": 0.0007,
	"reward": 0.828125,
	"reward_std": 0.34475562572479246,
	"rewards/custom_reward_simplified_v7_dblog": 0.828125,
	"step": 2060
	},
	{
	"completion_length": 634.36875,
	"epoch": 0.016486010783603188,
	"grad_norm": 0.26798176765441895,
	"kl": 0.017110086302272974,
	"learning_rate": 2.8247291705444575e-07,
	"loss": 0.0007,
	"reward": 0.89375,
	"reward_std": 0.24814453721046448,
	"rewards/custom_reward_simplified_v7_dblog": 0.89375,
	"step": 2070
	},
	{
	"completion_length": 710.6875,
	"epoch": 0.016565653347775183,
	"grad_norm": 0.20649504661560059,
	"kl": 0.018557686172425748,
	"learning_rate": 2.6591839919146963e-07,
	"loss": 0.0007,
	"reward": 0.828125,
	"reward_std": 0.34967463091015816,
	"rewards/custom_reward_simplified_v7_dblog": 0.828125,
	"step": 2080
	},
	{
	"completion_length": 642.375,
	"epoch": 0.016645295911947182,
	"grad_norm": 0.016043314710259438,
	"kl": 0.018814650364220142,
	"learning_rate": 2.4983647033969714e-07,
	"loss": 0.0008,
	"reward": 0.859375,
	"reward_std": 0.3110216066241264,
	"rewards/custom_reward_simplified_v7_dblog": 0.859375,
	"step": 2090
	},
	{
	"completion_length": 686.65625,
	"epoch": 0.016724938476119177,
	"grad_norm": 0.26343393325805664,
	"kl": 0.019906887435354292,
	"learning_rate": 2.3423053240837518e-07,
	"loss": 0.0008,
	"reward": 0.715625,
	"reward_std": 0.17099330350756645,
	"rewards/custom_reward_simplified_v7_dblog": 0.715625,
	"step": 2100
	},
	{
	"completion_length": 656.8,
	"epoch": 0.016804581040291172,
	"grad_norm": 0.01307599525898695,
	"kl": 0.020065448177047075,
	"learning_rate": 2.1910388661746495e-07,
	"loss": 0.0008,
	"reward": 0.8,
	"reward_std": 0.20212240219116212,
	"rewards/custom_reward_simplified_v7_dblog": 0.8,
	"step": 2110
	},
	{
	"completion_length": 714.25625,
	"epoch": 0.01688422360446317,
	"grad_norm": 0.2202935814857483,
	"kl": 0.02329984272364527,
	"learning_rate": 2.044597327993153e-07,
	"loss": 0.0009,
	"reward": 0.7875,
	"reward_std": 0.307485481351614,
	"rewards/custom_reward_simplified_v7_dblog": 0.7875,
	"step": 2120
	},
	{
	"completion_length": 685.39375,
	"epoch": 0.016963866168635166,
	"grad_norm": 0.30204537510871887,
	"kl": 0.018967814440838993,
	"learning_rate": 1.9030116872178317e-07,
	"loss": 0.0008,
	"reward": 0.803125,
	"reward_std": 0.3279333204030991,
	"rewards/custom_reward_simplified_v7_dblog": 0.803125,
	"step": 2130
	},
	{
	"completion_length": 674.49375,
	"epoch": 0.01704350873280716,
	"grad_norm": 0.012012571096420288,
	"kl": 0.02170075795147568,
	"learning_rate": 1.7663118943294367e-07,
	"loss": 0.0009,
	"reward": 0.703125,
	"reward_std": 0.2257047951221466,
	"rewards/custom_reward_simplified_v7_dblog": 0.703125,
	"step": 2140
	},
	{
	"completion_length": 694.63125,
	"epoch": 0.017123151296979156,
	"grad_norm": 0.01635037176311016,
	"kl": 0.02094450539443642,
	"learning_rate": 1.6345268662752904e-07,
	"loss": 0.0008,
	"reward": 0.7125,
	"reward_std": 0.2917635254561901,
	"rewards/custom_reward_simplified_v7_dblog": 0.7125,
	"step": 2150
	},
	{
	"completion_length": 702.025,
	"epoch": 0.017202793861151155,
	"grad_norm": 0.008707295171916485,
	"kl": 0.01914967515040189,
	"learning_rate": 1.507684480352292e-07,
	"loss": 0.0008,
	"reward": 0.821875,
	"reward_std": 0.2691307656466961,
	"rewards/custom_reward_simplified_v7_dblog": 0.821875,
	"step": 2160
	},
	{
	"completion_length": 704.90625,
	"epoch": 0.01728243642532315,
	"grad_norm": 0.1347748190164566,
	"kl": 0.017809830722399056,
	"learning_rate": 1.3858115683098832e-07,
	"loss": 0.0007,
	"reward": 0.9,
	"reward_std": 0.30937733352184293,
	"rewards/custom_reward_simplified_v7_dblog": 0.9,
	"step": 2170
	},
	{
	"completion_length": 650.13125,
	"epoch": 0.017362078989495145,
	"grad_norm": 0.013826651498675346,
	"kl": 0.017964964429847897,
	"learning_rate": 1.2689339106741529e-07,
	"loss": 0.0007,
	"reward": 0.821875,
	"reward_std": 0.2382724992930889,
	"rewards/custom_reward_simplified_v7_dblog": 0.821875,
	"step": 2180
	},
	{
	"completion_length": 574.075,
	"epoch": 0.01744172155366714,
	"grad_norm": 0.21891085803508759,
	"kl": 0.013470867811702193,
	"learning_rate": 1.1570762312943295e-07,
	"loss": 0.0005,
	"reward": 0.9875,
	"reward_std": 0.2131643146276474,
	"rewards/custom_reward_simplified_v7_dblog": 0.9875,
	"step": 2190
	},
	{
	"completion_length": 645.95,
	"epoch": 0.01752136411783914,
	"grad_norm": 0.28153711557388306,
	"kl": 0.01899058516137302,
	"learning_rate": 1.0502621921127776e-07,
	"loss": 0.0008,
	"reward": 0.834375,
	"reward_std": 0.29732906967401507,
	"rewards/custom_reward_simplified_v7_dblog": 0.834375,
	"step": 2200
	},
	{
	"completion_length": 618.19375,
	"epoch": 0.017601006682011134,
	"grad_norm": 0.25354552268981934,
	"kl": 0.016854454204440115,
	"learning_rate": 9.485143881596715e-08,
	"loss": 0.0007,
	"reward": 0.85625,
	"reward_std": 0.25810291022062304,
	"rewards/custom_reward_simplified_v7_dblog": 0.85625,
	"step": 2210
	},
	{
	"completion_length": 638.425,
	"epoch": 0.01768064924618313,
	"grad_norm": 0.2272520810365677,
	"kl": 0.018312370544299482,
	"learning_rate": 8.518543427732951e-08,
	"loss": 0.0007,
	"reward": 0.753125,
	"reward_std": 0.2212974861264229,
	"rewards/custom_reward_simplified_v7_dblog": 0.753125,
	"step": 2220
	},
	{
	"completion_length": 695.54375,
	"epoch": 0.017760291810355128,
	"grad_norm": 0.27871131896972656,
	"kl": 0.02111934470012784,
	"learning_rate": 7.603025030471001e-08,
	"loss": 0.0008,
	"reward": 0.75,
	"reward_std": 0.2767858363687992,
	"rewards/custom_reward_simplified_v7_dblog": 0.75,
	"step": 2230
	},
	{
	"completion_length": 632.99375,
	"epoch": 0.017839934374527123,
	"grad_norm": 0.008834543637931347,
	"kl": 0.016428270121105017,
	"learning_rate": 6.738782355044048e-08,
	"loss": 0.0007,
	"reward": 0.80625,
	"reward_std": 0.21589626967906952,
	"rewards/custom_reward_simplified_v7_dblog": 0.80625,
	"step": 2240
	},
	{
	"completion_length": 634.0625,
	"epoch": 0.017919576938699118,
	"grad_norm": 0.286683052778244,
	"kl": 0.016679517249576746,
	"learning_rate": 5.92599822001666e-08,
	"loss": 0.0007,
	"reward": 0.853125,
	"reward_std": 0.2905955038964748,
	"rewards/custom_reward_simplified_v7_dblog": 0.853125,
	"step": 2250
	},
	{
	"completion_length": 610.85,
	"epoch": 0.017999219502871113,
	"grad_norm": 0.28028422594070435,
	"kl": 0.017966749798506498,
	"learning_rate": 5.164844558612131e-08,
	"loss": 0.0007,
	"reward": 0.971875,
	"reward_std": 0.3067967638373375,
	"rewards/custom_reward_simplified_v7_dblog": 0.971875,
	"step": 2260
	},
	{
	"completion_length": 566.9625,
	"epoch": 0.018078862067043112,
	"grad_norm": 0.3413483202457428,
	"kl": 0.01525729293935001,
	"learning_rate": 4.455482382342336e-08,
	"loss": 0.0006,
	"reward": 0.959375,
	"reward_std": 0.3084723956882954,
	"rewards/custom_reward_simplified_v7_dblog": 0.959375,
	"step": 2270
	},
	{
	"completion_length": 662.05625,
	"epoch": 0.018158504631215107,
	"grad_norm": 0.153013676404953,
	"kl": 0.017893880722112954,
	"learning_rate": 3.798061746947995e-08,
	"loss": 0.0007,
	"reward": 0.753125,
	"reward_std": 0.2308400221168995,
	"rewards/custom_reward_simplified_v7_dblog": 0.753125,
	"step": 2280
	},
	{
	"completion_length": 615.55,
	"epoch": 0.018238147195387102,
	"grad_norm": 0.2853679060935974,
	"kl": 0.0166370629100129,
	"learning_rate": 3.1927217206564884e-08,
	"loss": 0.0007,
	"reward": 0.74375,
	"reward_std": 0.25018117427825926,
	"rewards/custom_reward_simplified_v7_dblog": 0.74375,
	"step": 2290
	},
	{
	"completion_length": 710.45,
	"epoch": 0.018317789759559097,
	"grad_norm": 0.011245607398450375,
	"kl": 0.01835272475145757,
	"learning_rate": 2.6395903547638825e-08,
	"loss": 0.0007,
	"reward": 0.78125,
	"reward_std": 0.2881218962371349,
	"rewards/custom_reward_simplified_v7_dblog": 0.78125,
	"step": 2300
	},
	{
	"completion_length": 565.125,
	"epoch": 0.018397432323731096,
	"grad_norm": 0.25337040424346924,
	"kl": 0.01471406095661223,
	"learning_rate": 2.1387846565474047e-08,
	"loss": 0.0006,
	"reward": 1.078125,
	"reward_std": 0.4393742740154266,
	"rewards/custom_reward_simplified_v7_dblog": 1.078125,
	"step": 2310
	},
	{
	"completion_length": 692.70625,
	"epoch": 0.01847707488790309,
	"grad_norm": 0.20416221022605896,
	"kl": 0.02145941834896803,
	"learning_rate": 1.6904105645142443e-08,
	"loss": 0.0009,
	"reward": 0.5625,
	"reward_std": 0.1467035911977291,
	"rewards/custom_reward_simplified_v7_dblog": 0.5625,
	"step": 2320
	}
	],
	"logging_steps": 10,
	"max_steps": 2400,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 25,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}