Upload task output 1

9dce2c8 verified 2 months ago

70.5 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.006,
	"eval_steps": 500,
	"global_step": 75,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.84375,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 173.0,
	"completions/mean_length": 230.65625,
	"completions/mean_terminated_length": 93.80000305175781,
	"completions/min_length": 32.0,
	"completions/min_terminated_length": 32.0,
	"entropy": 2.7413549423217773,
	"epoch": 8e-05,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 0.0,
	"loss": 0.0,
	"num_tokens": 7605.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 1,
	"step_time": 20.038708471984137
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.75,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 207.0,
	"completions/mean_length": 220.71875,
	"completions/mean_terminated_length": 114.875,
	"completions/min_length": 18.0,
	"completions/min_terminated_length": 18.0,
	"entropy": 2.8548775017261505,
	"epoch": 0.00016,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 1.2438299999999998e-06,
	"loss": 0.0,
	"num_tokens": 14888.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 2,
	"step_time": 22.31387728100526
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.6875,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 248.0,
	"completions/mean_length": 216.3125,
	"completions/mean_terminated_length": 129.0,
	"completions/min_length": 26.0,
	"completions/min_terminated_length": 26.0,
	"entropy": 2.8777474462985992,
	"epoch": 0.00024,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 2.4876599999999997e-06,
	"loss": 0.0,
	"num_tokens": 22034.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 3,
	"step_time": 19.508486614991853
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.8125,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 203.0,
	"completions/mean_length": 225.40625,
	"completions/mean_terminated_length": 92.83333587646484,
	"completions/min_length": 12.0,
	"completions/min_terminated_length": 12.0,
	"entropy": 2.708147943019867,
	"epoch": 0.00032,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 3.73149e-06,
	"loss": 0.0,
	"num_tokens": 29471.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 4,
	"step_time": 20.417726718005724
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.71875,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 246.0,
	"completions/mean_length": 210.0,
	"completions/mean_terminated_length": 92.44444274902344,
	"completions/min_length": 7.0,
	"completions/min_terminated_length": 7.0,
	"entropy": 2.7702046930789948,
	"epoch": 0.0004,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.975319999999999e-06,
	"loss": 0.0,
	"num_tokens": 36415.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 5,
	"step_time": 19.458035143004963
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.59375,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 144.0,
	"completions/mean_length": 180.46875,
	"completions/mean_terminated_length": 70.0769271850586,
	"completions/min_length": 14.0,
	"completions/min_terminated_length": 14.0,
	"entropy": 2.7136347889900208,
	"epoch": 0.00048,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 6.2191499999999996e-06,
	"loss": 0.0,
	"num_tokens": 42410.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 6,
	"step_time": 22.11808781498985
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.71875,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 237.0,
	"completions/mean_length": 215.84375,
	"completions/mean_terminated_length": 113.22222137451172,
	"completions/min_length": 34.0,
	"completions/min_terminated_length": 34.0,
	"entropy": 2.875216066837311,
	"epoch": 0.00056,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 7.46298e-06,
	"loss": 0.0,
	"num_tokens": 49537.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 7,
	"step_time": 21.699966289990698
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.75,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 245.0,
	"completions/mean_length": 219.625,
	"completions/mean_terminated_length": 110.5,
	"completions/min_length": 10.0,
	"completions/min_terminated_length": 10.0,
	"entropy": 2.737216532230377,
	"epoch": 0.00064,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 8.70681e-06,
	"loss": 0.0,
	"num_tokens": 56789.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 8,
	"step_time": 19.435475739024696
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.71875,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 239.0,
	"completions/mean_length": 210.9375,
	"completions/mean_terminated_length": 95.77777862548828,
	"completions/min_length": 44.0,
	"completions/min_terminated_length": 44.0,
	"entropy": 2.9164214432239532,
	"epoch": 0.00072,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 9.950639999999999e-06,
	"loss": 0.0,
	"num_tokens": 63759.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 9,
	"step_time": 23.149850735993823
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.9375,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 182.0,
	"completions/mean_length": 245.96875,
	"completions/mean_terminated_length": 95.5,
	"completions/min_length": 9.0,
	"completions/min_terminated_length": 9.0,
	"entropy": 2.7655889093875885,
	"epoch": 0.0008,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 1.1194469999999999e-05,
	"loss": 0.0,
	"num_tokens": 71850.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 10,
	"step_time": 21.312995460008096
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.75,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 239.0,
	"completions/mean_length": 221.75,
	"completions/mean_terminated_length": 119.0,
	"completions/min_length": 7.0,
	"completions/min_terminated_length": 7.0,
	"entropy": 2.4570625126361847,
	"epoch": 0.00088,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 1.2438299999999999e-05,
	"loss": 0.0,
	"num_tokens": 79170.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 11,
	"step_time": 18.84161558598862
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.78125,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 255.0,
	"completions/mean_length": 221.59375,
	"completions/mean_terminated_length": 98.71428680419922,
	"completions/min_length": 16.0,
	"completions/min_terminated_length": 16.0,
	"entropy": 2.7960894107818604,
	"epoch": 0.00096,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 1.368213e-05,
	"loss": 0.0,
	"num_tokens": 86481.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 12,
	"step_time": 21.481500715010043
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.5625,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 194.0,
	"completions/mean_length": 175.84375,
	"completions/mean_terminated_length": 72.78572082519531,
	"completions/min_length": 14.0,
	"completions/min_terminated_length": 14.0,
	"entropy": 2.777267038822174,
	"epoch": 0.00104,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 1.492596e-05,
	"loss": 0.0,
	"num_tokens": 92316.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 13,
	"step_time": 22.648648835995118
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.75,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 247.0,
	"completions/mean_length": 222.03125,
	"completions/mean_terminated_length": 120.125,
	"completions/min_length": 47.0,
	"completions/min_terminated_length": 47.0,
	"entropy": 2.7303763031959534,
	"epoch": 0.00112,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 1.6169789999999998e-05,
	"loss": 0.0,
	"num_tokens": 99645.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 14,
	"step_time": 19.483697141011362
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.6875,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 248.0,
	"completions/mean_length": 210.625,
	"completions/mean_terminated_length": 110.80000305175781,
	"completions/min_length": 32.0,
	"completions/min_terminated_length": 32.0,
	"entropy": 2.6232912838459015,
	"epoch": 0.0012,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 1.741362e-05,
	"loss": 0.0,
	"num_tokens": 106597.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 15,
	"step_time": 22.048389301991847
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.875,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 96.0,
	"completions/mean_length": 232.78125,
	"completions/mean_terminated_length": 70.25,
	"completions/min_length": 21.0,
	"completions/min_terminated_length": 21.0,
	"entropy": 2.666172578930855,
	"epoch": 0.00128,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 1.865745e-05,
	"loss": 0.0,
	"num_tokens": 114266.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 16,
	"step_time": 21.76690764699015
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.71875,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 229.0,
	"completions/mean_length": 215.90625,
	"completions/mean_terminated_length": 113.44444274902344,
	"completions/min_length": 6.0,
	"completions/min_terminated_length": 6.0,
	"entropy": 2.6928308606147766,
	"epoch": 0.00136,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 1.9901279999999997e-05,
	"loss": 0.0,
	"num_tokens": 121399.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 17,
	"step_time": 19.46455569099635
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.59375,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 167.0,
	"completions/mean_length": 183.09375,
	"completions/mean_terminated_length": 76.53846740722656,
	"completions/min_length": 7.0,
	"completions/min_terminated_length": 7.0,
	"entropy": 2.5316834151744843,
	"epoch": 0.00144,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 2.114511e-05,
	"loss": 0.0,
	"num_tokens": 127478.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 18,
	"step_time": 22.669331256991427
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.9375,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 234.0,
	"completions/mean_length": 251.125,
	"completions/mean_terminated_length": 178.0,
	"completions/min_length": 122.0,
	"completions/min_terminated_length": 122.0,
	"entropy": 2.7606712579727173,
	"epoch": 0.00152,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 2.2388939999999998e-05,
	"loss": 0.0,
	"num_tokens": 135734.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 19,
	"step_time": 22.320524194008613
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.78125,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 235.0,
	"completions/mean_length": 221.90625,
	"completions/mean_terminated_length": 100.14286041259766,
	"completions/min_length": 8.0,
	"completions/min_terminated_length": 8.0,
	"entropy": 2.6717658638954163,
	"epoch": 0.0016,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 2.3632769999999996e-05,
	"loss": 0.0,
	"num_tokens": 143047.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 20,
	"step_time": 22.302162043000862
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.75,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 256.0,
	"completions/mean_length": 217.96875,
	"completions/mean_terminated_length": 103.875,
	"completions/min_length": 8.0,
	"completions/min_terminated_length": 8.0,
	"entropy": 2.536282777786255,
	"epoch": 0.00168,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 2.4876599999999998e-05,
	"loss": 0.0,
	"num_tokens": 150246.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 21,
	"step_time": 19.36471923001227
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.6875,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 225.0,
	"completions/mean_length": 206.90625,
	"completions/mean_terminated_length": 98.9000015258789,
	"completions/min_length": 13.0,
	"completions/min_terminated_length": 13.0,
	"entropy": 2.541882336139679,
	"epoch": 0.00176,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 2.6120429999999997e-05,
	"loss": 0.0,
	"num_tokens": 157083.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 22,
	"step_time": 22.757351590000326
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.8125,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 172.0,
	"completions/mean_length": 223.78125,
	"completions/mean_terminated_length": 84.16667175292969,
	"completions/min_length": 27.0,
	"completions/min_terminated_length": 27.0,
	"entropy": 2.657119005918503,
	"epoch": 0.00184,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 2.736426e-05,
	"loss": 0.0,
	"num_tokens": 164464.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 23,
	"step_time": 22.50556095898355
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.75,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 196.0,
	"completions/mean_length": 219.0625,
	"completions/mean_terminated_length": 108.25,
	"completions/min_length": 15.0,
	"completions/min_terminated_length": 15.0,
	"entropy": 2.8032337725162506,
	"epoch": 0.00192,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 2.8608089999999997e-05,
	"loss": 0.0,
	"num_tokens": 171698.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 24,
	"step_time": 19.709908160984924
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.6875,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 170.0,
	"completions/mean_length": 195.96875,
	"completions/mean_terminated_length": 63.900001525878906,
	"completions/min_length": 7.0,
	"completions/min_terminated_length": 7.0,
	"entropy": 2.8214994370937347,
	"epoch": 0.002,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 2.985192e-05,
	"loss": 0.0,
	"num_tokens": 178181.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 25,
	"step_time": 22.27659140600008
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.78125,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 217.0,
	"completions/mean_length": 228.3125,
	"completions/mean_terminated_length": 129.42857360839844,
	"completions/min_length": 31.0,
	"completions/min_terminated_length": 31.0,
	"entropy": 2.782959371805191,
	"epoch": 0.00208,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 3.109575e-05,
	"loss": 0.0,
	"num_tokens": 185703.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 26,
	"step_time": 21.666986704993178
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.75,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 253.0,
	"completions/mean_length": 229.625,
	"completions/mean_terminated_length": 150.5,
	"completions/min_length": 28.0,
	"completions/min_terminated_length": 28.0,
	"entropy": 2.837796986103058,
	"epoch": 0.00216,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 3.2339579999999996e-05,
	"loss": 0.0,
	"num_tokens": 193275.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 27,
	"step_time": 19.754789013990376
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.84375,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 132.0,
	"completions/mean_length": 228.0,
	"completions/mean_terminated_length": 76.80000305175781,
	"completions/min_length": 12.0,
	"completions/min_terminated_length": 12.0,
	"entropy": 2.697370797395706,
	"epoch": 0.00224,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 3.358341e-05,
	"loss": 0.0,
	"num_tokens": 200791.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 28,
	"step_time": 22.38940100500622
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.6875,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 180.0,
	"completions/mean_length": 201.375,
	"completions/mean_terminated_length": 81.20000457763672,
	"completions/min_length": 18.0,
	"completions/min_terminated_length": 18.0,
	"entropy": 2.6589381992816925,
	"epoch": 0.00232,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 3.482724e-05,
	"loss": 0.0,
	"num_tokens": 207459.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 29,
	"step_time": 19.54482721599925
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.625,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 246.0,
	"completions/mean_length": 195.15625,
	"completions/mean_terminated_length": 93.75,
	"completions/min_length": 13.0,
	"completions/min_terminated_length": 13.0,
	"entropy": 2.9770112335681915,
	"epoch": 0.0024,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 3.607107e-05,
	"loss": 0.0,
	"num_tokens": 213928.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 30,
	"step_time": 19.39816167599929
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.625,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 247.0,
	"completions/mean_length": 217.6875,
	"completions/mean_terminated_length": 153.83334350585938,
	"completions/min_length": 36.0,
	"completions/min_terminated_length": 36.0,
	"entropy": 2.709945023059845,
	"epoch": 0.00248,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 3.73149e-05,
	"loss": 0.0,
	"num_tokens": 221118.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 31,
	"step_time": 19.455606768009602
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.6875,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 221.0,
	"completions/mean_length": 213.4375,
	"completions/mean_terminated_length": 119.80000305175781,
	"completions/min_length": 28.0,
	"completions/min_terminated_length": 28.0,
	"entropy": 2.7361134737730026,
	"epoch": 0.00256,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 3.8558729999999996e-05,
	"loss": 0.0,
	"num_tokens": 228168.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 32,
	"step_time": 22.964359290992434
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.75,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 252.0,
	"completions/mean_length": 216.0,
	"completions/mean_terminated_length": 96.0,
	"completions/min_length": 6.0,
	"completions/min_terminated_length": 6.0,
	"entropy": 2.909568816423416,
	"epoch": 0.00264,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 3.9802559999999995e-05,
	"loss": 0.0,
	"num_tokens": 235304.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 33,
	"step_time": 19.29167694800708
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.71875,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 180.0,
	"completions/mean_length": 209.1875,
	"completions/mean_terminated_length": 89.55555725097656,
	"completions/min_length": 11.0,
	"completions/min_terminated_length": 11.0,
	"entropy": 2.879765272140503,
	"epoch": 0.00272,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.104638999999999e-05,
	"loss": 0.0,
	"num_tokens": 242218.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 34,
	"step_time": 21.556990506993316
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.90625,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 185.0,
	"completions/mean_length": 243.1875,
	"completions/mean_terminated_length": 119.33333587646484,
	"completions/min_length": 75.0,
	"completions/min_terminated_length": 75.0,
	"entropy": 2.5094977021217346,
	"epoch": 0.0028,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.229022e-05,
	"loss": 0.0,
	"num_tokens": 250216.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 35,
	"step_time": 21.540133035996405
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.71875,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 195.0,
	"completions/mean_length": 211.125,
	"completions/mean_terminated_length": 96.44444274902344,
	"completions/min_length": 19.0,
	"completions/min_terminated_length": 19.0,
	"entropy": 2.7391299456357956,
	"epoch": 0.00288,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.353405e-05,
	"loss": 0.0,
	"num_tokens": 257196.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 36,
	"step_time": 20.61158860699652
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.59375,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 184.0,
	"completions/mean_length": 188.9375,
	"completions/mean_terminated_length": 90.92308044433594,
	"completions/min_length": 5.0,
	"completions/min_terminated_length": 5.0,
	"entropy": 2.5645452737808228,
	"epoch": 0.00296,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.3534049870739164e-05,
	"loss": 0.0,
	"num_tokens": 263466.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 37,
	"step_time": 19.463059345995134
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.90625,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 228.0,
	"completions/mean_length": 243.15625,
	"completions/mean_terminated_length": 119.0,
	"completions/min_length": 16.0,
	"completions/min_terminated_length": 16.0,
	"entropy": 2.6515900790691376,
	"epoch": 0.00304,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.3534049482956666e-05,
	"loss": 0.0,
	"num_tokens": 271471.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 38,
	"step_time": 19.32687450600497
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.78125,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 246.0,
	"completions/mean_length": 233.4375,
	"completions/mean_terminated_length": 152.85714721679688,
	"completions/min_length": 71.0,
	"completions/min_terminated_length": 71.0,
	"entropy": 2.815293073654175,
	"epoch": 0.00312,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.353404883665252e-05,
	"loss": 0.0,
	"num_tokens": 279165.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 39,
	"step_time": 19.368901928013656
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.8125,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 187.0,
	"completions/mean_length": 227.8125,
	"completions/mean_terminated_length": 105.66667175292969,
	"completions/min_length": 21.0,
	"completions/min_terminated_length": 21.0,
	"entropy": 2.8266728222370148,
	"epoch": 0.0032,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.353404793182672e-05,
	"loss": 0.0,
	"num_tokens": 286679.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 40,
	"step_time": 19.347783612996864
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.75,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 193.0,
	"completions/mean_length": 211.5,
	"completions/mean_terminated_length": 78.0,
	"completions/min_length": 9.0,
	"completions/min_terminated_length": 9.0,
	"entropy": 2.8580541610717773,
	"epoch": 0.00328,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.3534046768479294e-05,
	"loss": 0.0,
	"num_tokens": 293667.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 41,
	"step_time": 22.78021706399886
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.8125,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 155.0,
	"completions/mean_length": 219.9375,
	"completions/mean_terminated_length": 63.66666793823242,
	"completions/min_length": 9.0,
	"completions/min_terminated_length": 9.0,
	"entropy": 2.999121993780136,
	"epoch": 0.00336,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.353404534661025e-05,
	"loss": 0.0,
	"num_tokens": 300929.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 42,
	"step_time": 19.530366815997695
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.75,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 222.0,
	"completions/mean_length": 222.59375,
	"completions/mean_terminated_length": 122.375,
	"completions/min_length": 27.0,
	"completions/min_terminated_length": 27.0,
	"entropy": 2.805495321750641,
	"epoch": 0.00344,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.353404366621962e-05,
	"loss": 0.0,
	"num_tokens": 308276.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 43,
	"step_time": 19.35092342599819
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.8125,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 248.0,
	"completions/mean_length": 233.1875,
	"completions/mean_terminated_length": 134.33334350585938,
	"completions/min_length": 26.0,
	"completions/min_terminated_length": 26.0,
	"entropy": 2.8153499960899353,
	"epoch": 0.00352,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.3534041727307414e-05,
	"loss": 0.0,
	"num_tokens": 315962.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 44,
	"step_time": 19.47554490200855
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.59375,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 249.0,
	"completions/mean_length": 182.71875,
	"completions/mean_terminated_length": 75.61538696289062,
	"completions/min_length": 3.0,
	"completions/min_terminated_length": 3.0,
	"entropy": 2.6707731187343597,
	"epoch": 0.0036,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.3534039529873685e-05,
	"loss": 0.0,
	"num_tokens": 322029.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 45,
	"step_time": 22.798208642001555
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.84375,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 211.0,
	"completions/mean_length": 236.9375,
	"completions/mean_terminated_length": 134.0,
	"completions/min_length": 55.0,
	"completions/min_terminated_length": 55.0,
	"entropy": 2.5431984215974808,
	"epoch": 0.00368,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.3534037073918466e-05,
	"loss": 0.0,
	"num_tokens": 329835.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 46,
	"step_time": 19.88411584899586
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.6875,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 247.0,
	"completions/mean_length": 222.0,
	"completions/mean_terminated_length": 147.1999969482422,
	"completions/min_length": 26.0,
	"completions/min_terminated_length": 26.0,
	"entropy": 2.9005468487739563,
	"epoch": 0.00376,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.353403435944177e-05,
	"loss": 0.0,
	"num_tokens": 337163.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 47,
	"step_time": 19.48703931599448
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.625,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 239.0,
	"completions/mean_length": 198.15625,
	"completions/mean_terminated_length": 101.75,
	"completions/min_length": 26.0,
	"completions/min_terminated_length": 26.0,
	"entropy": 2.7508918046951294,
	"epoch": 0.00384,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.353403138644366e-05,
	"loss": 0.0,
	"num_tokens": 343724.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 48,
	"step_time": 22.090118679989246
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.8125,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 218.0,
	"completions/mean_length": 226.65625,
	"completions/mean_terminated_length": 99.5,
	"completions/min_length": 35.0,
	"completions/min_terminated_length": 35.0,
	"entropy": 2.669710338115692,
	"epoch": 0.00392,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.3534028154924186e-05,
	"loss": 0.0,
	"num_tokens": 351201.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 49,
	"step_time": 19.470153064998158
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.8125,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 172.0,
	"completions/mean_length": 219.40625,
	"completions/mean_terminated_length": 60.833335876464844,
	"completions/min_length": 9.0,
	"completions/min_terminated_length": 9.0,
	"entropy": 2.4048453122377396,
	"epoch": 0.004,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.35340246648834e-05,
	"loss": 0.0,
	"num_tokens": 358438.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 50,
	"step_time": 22.60661829500168
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.75,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 250.0,
	"completions/mean_length": 222.65625,
	"completions/mean_terminated_length": 122.625,
	"completions/min_length": 14.0,
	"completions/min_terminated_length": 14.0,
	"entropy": 2.9614007472991943,
	"epoch": 0.00408,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.3534020916321335e-05,
	"loss": 0.0,
	"num_tokens": 365783.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 51,
	"step_time": 22.327632517990423
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.8125,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 243.0,
	"completions/mean_length": 231.625,
	"completions/mean_terminated_length": 126.0,
	"completions/min_length": 25.0,
	"completions/min_terminated_length": 25.0,
	"entropy": 2.654112696647644,
	"epoch": 0.00416,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.3534016909238075e-05,
	"loss": 0.0,
	"num_tokens": 373419.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 52,
	"step_time": 19.20923549200961
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.75,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 211.0,
	"completions/mean_length": 215.09375,
	"completions/mean_terminated_length": 92.375,
	"completions/min_length": 17.0,
	"completions/min_terminated_length": 17.0,
	"entropy": 2.7122311294078827,
	"epoch": 0.00424,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.353401264363367e-05,
	"loss": 0.0,
	"num_tokens": 380526.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 53,
	"step_time": 19.398160734999692
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.90625,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 223.0,
	"completions/mean_length": 246.46875,
	"completions/mean_terminated_length": 154.33334350585938,
	"completions/min_length": 116.0,
	"completions/min_terminated_length": 116.0,
	"entropy": 2.6178116649389267,
	"epoch": 0.00432,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.35340081195082e-05,
	"loss": 0.0,
	"num_tokens": 388637.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 54,
	"step_time": 19.338012945008813
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.875,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 81.0,
	"completions/mean_length": 230.5625,
	"completions/mean_terminated_length": 52.5,
	"completions/min_length": 23.0,
	"completions/min_terminated_length": 23.0,
	"entropy": 2.716535747051239,
	"epoch": 0.0044,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.353400333686172e-05,
	"loss": 0.0,
	"num_tokens": 396239.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 55,
	"step_time": 20.151991571001417
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.6875,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 218.0,
	"completions/mean_length": 218.3125,
	"completions/mean_terminated_length": 135.40000915527344,
	"completions/min_length": 39.0,
	"completions/min_terminated_length": 39.0,
	"entropy": 2.8078980445861816,
	"epoch": 0.00448,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.353399829569432e-05,
	"loss": 0.0,
	"num_tokens": 403433.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 56,
	"step_time": 22.507306526997127
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.71875,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 252.0,
	"completions/mean_length": 217.375,
	"completions/mean_terminated_length": 118.66666412353516,
	"completions/min_length": 45.0,
	"completions/min_terminated_length": 45.0,
	"entropy": 2.833368271589279,
	"epoch": 0.00456,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.353399299600607e-05,
	"loss": 0.0,
	"num_tokens": 410613.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 57,
	"step_time": 19.39536341799976
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.75,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 137.0,
	"completions/mean_length": 214.375,
	"completions/mean_terminated_length": 89.5,
	"completions/min_length": 20.0,
	"completions/min_terminated_length": 20.0,
	"entropy": 2.6436397433280945,
	"epoch": 0.00464,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.353398743779707e-05,
	"loss": 0.0,
	"num_tokens": 417697.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 58,
	"step_time": 19.44620426499023
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.75,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 232.0,
	"completions/mean_length": 216.5625,
	"completions/mean_terminated_length": 98.25,
	"completions/min_length": 35.0,
	"completions/min_terminated_length": 35.0,
	"entropy": 2.812237471342087,
	"epoch": 0.00472,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.353398162106738e-05,
	"loss": 0.0,
	"num_tokens": 424847.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 59,
	"step_time": 22.402232911990723
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.6875,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 163.0,
	"completions/mean_length": 198.5625,
	"completions/mean_terminated_length": 72.20000457763672,
	"completions/min_length": 15.0,
	"completions/min_terminated_length": 15.0,
	"entropy": 2.834031730890274,
	"epoch": 0.0048,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.353397554581712e-05,
	"loss": 0.0,
	"num_tokens": 431425.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 60,
	"step_time": 19.969688828998187
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.625,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 245.0,
	"completions/mean_length": 202.3125,
	"completions/mean_terminated_length": 112.83333587646484,
	"completions/min_length": 14.0,
	"completions/min_terminated_length": 14.0,
	"entropy": 2.8446905314922333,
	"epoch": 0.00488,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.3533969212046366e-05,
	"loss": 0.0,
	"num_tokens": 438123.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 61,
	"step_time": 19.51650980200793
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.78125,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 212.0,
	"completions/mean_length": 218.71875,
	"completions/mean_terminated_length": 85.5714340209961,
	"completions/min_length": 17.0,
	"completions/min_terminated_length": 17.0,
	"entropy": 2.6947758495807648,
	"epoch": 0.00496,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.3533962619755234e-05,
	"loss": 0.0,
	"num_tokens": 445342.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 62,
	"step_time": 21.935334763016726
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.625,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 212.0,
	"completions/mean_length": 187.90625,
	"completions/mean_terminated_length": 74.41667175292969,
	"completions/min_length": 22.0,
	"completions/min_terminated_length": 22.0,
	"entropy": 2.6052669137716293,
	"epoch": 0.00504,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.353395576894381e-05,
	"loss": 0.0,
	"num_tokens": 451571.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 63,
	"step_time": 22.139962298009777
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.8125,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 141.0,
	"completions/mean_length": 219.90625,
	"completions/mean_terminated_length": 63.5,
	"completions/min_length": 15.0,
	"completions/min_terminated_length": 15.0,
	"entropy": 2.774052321910858,
	"epoch": 0.00512,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.353394865961223e-05,
	"loss": 0.0,
	"num_tokens": 458828.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 64,
	"step_time": 21.979154282984382
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.6875,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 165.0,
	"completions/mean_length": 206.4375,
	"completions/mean_terminated_length": 97.4000015258789,
	"completions/min_length": 14.0,
	"completions/min_terminated_length": 14.0,
	"entropy": 2.6954946517944336,
	"epoch": 0.0052,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.353394129176058e-05,
	"loss": 0.0,
	"num_tokens": 465654.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 65,
	"step_time": 22.214402237004833
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.8125,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 239.0,
	"completions/mean_length": 232.625,
	"completions/mean_terminated_length": 131.33334350585938,
	"completions/min_length": 23.0,
	"completions/min_terminated_length": 23.0,
	"entropy": 2.571521297097206,
	"epoch": 0.00528,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.353393366538898e-05,
	"loss": 0.0,
	"num_tokens": 473322.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 66,
	"step_time": 19.304359686997486
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.5625,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 250.0,
	"completions/mean_length": 197.125,
	"completions/mean_terminated_length": 121.42857360839844,
	"completions/min_length": 20.0,
	"completions/min_terminated_length": 20.0,
	"entropy": 2.909770429134369,
	"epoch": 0.00536,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.353392578049757e-05,
	"loss": 0.0,
	"num_tokens": 479854.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 67,
	"step_time": 19.36013725100929
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.75,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 239.0,
	"completions/mean_length": 227.125,
	"completions/mean_terminated_length": 140.5,
	"completions/min_length": 49.0,
	"completions/min_terminated_length": 49.0,
	"entropy": 2.744248181581497,
	"epoch": 0.00544,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.353391763708646e-05,
	"loss": 0.0,
	"num_tokens": 487338.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 68,
	"step_time": 21.965071903985518
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.8125,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 188.0,
	"completions/mean_length": 223.9375,
	"completions/mean_terminated_length": 85.0,
	"completions/min_length": 8.0,
	"completions/min_terminated_length": 8.0,
	"entropy": 2.6102449893951416,
	"epoch": 0.00552,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.353390923515578e-05,
	"loss": 0.0,
	"num_tokens": 494716.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 69,
	"step_time": 23.3430329200055
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.6875,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 254.0,
	"completions/mean_length": 210.8125,
	"completions/mean_terminated_length": 111.4000015258789,
	"completions/min_length": 28.0,
	"completions/min_terminated_length": 28.0,
	"entropy": 2.576720654964447,
	"epoch": 0.0056,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.353390057470567e-05,
	"loss": 0.0,
	"num_tokens": 501686.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 70,
	"step_time": 19.697308761002205
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.84375,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 224.0,
	"completions/mean_length": 233.6875,
	"completions/mean_terminated_length": 113.20000457763672,
	"completions/min_length": 55.0,
	"completions/min_terminated_length": 55.0,
	"entropy": 2.9254136979579926,
	"epoch": 0.00568,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.353389165573626e-05,
	"loss": 0.0,
	"num_tokens": 509388.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 71,
	"step_time": 19.443207848002203
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.8125,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 221.0,
	"completions/mean_length": 227.15625,
	"completions/mean_terminated_length": 102.16667175292969,
	"completions/min_length": 6.0,
	"completions/min_terminated_length": 6.0,
	"entropy": 2.8628475964069366,
	"epoch": 0.00576,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.353388247824768e-05,
	"loss": 0.0,
	"num_tokens": 516881.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 72,
	"step_time": 20.01639660699584
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.8125,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 227.0,
	"completions/mean_length": 231.375,
	"completions/mean_terminated_length": 124.66667175292969,
	"completions/min_length": 18.0,
	"completions/min_terminated_length": 18.0,
	"entropy": 2.296522408723831,
	"epoch": 0.00584,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.3533873042240096e-05,
	"loss": 0.0,
	"num_tokens": 524501.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 73,
	"step_time": 23.112452601002587
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.71875,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 246.0,
	"completions/mean_length": 236.3125,
	"completions/mean_terminated_length": 186.0,
	"completions/min_length": 91.0,
	"completions/min_terminated_length": 91.0,
	"entropy": 2.8620297014713287,
	"epoch": 0.00592,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.353386334771366e-05,
	"loss": 0.0,
	"num_tokens": 532283.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 74,
	"step_time": 23.19768616399233
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.84375,
	"completions/max_length": 256.0,
	"completions/max_terminated_length": 250.0,
	"completions/mean_length": 236.0,
	"completions/mean_terminated_length": 128.0,
	"completions/min_length": 5.0,
	"completions/min_terminated_length": 5.0,
	"entropy": 2.5197259187698364,
	"epoch": 0.006,
	"frac_reward_zero_std": 1.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 4.353385339466851e-05,
	"loss": 0.0,
	"num_tokens": 540059.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"rewards/rollout_reward_func/mean": 0.0,
	"rewards/rollout_reward_func/std": 0.0,
	"step": 75,
	"step_time": 19.854602511004487
	}
	],
	"logging_steps": 1.0,
	"max_steps": 25000,
	"num_input_tokens_seen": 540059,
	"num_train_epochs": 2,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}