lcb_test_generator_3b_140steps / trainer_state.json

Upload folder using huggingface_hub

b7bdaaa verified 2 months ago

116 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.28,
	"eval_steps": 500,
	"global_step": 140,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 1005.0,
	"completions/max_terminated_length": 1005.0,
	"completions/mean_length": 442.6666666666667,
	"completions/mean_terminated_length": 482.90909090909093,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 212.0,
	"epoch": 0.002,
	"format_failures": 0.0,
	"grad_norm": 0.3274489641189575,
	"kl": 0.0,
	"learning_rate": 0.0,
	"loss": 0.048,
	"num_tokens": 21804.0,
	"reward": 0.26185137033462524,
	"reward_std": 0.28920137882232666,
	"step": 1
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 264.0,
	"completions/max_terminated_length": 264.0,
	"completions/mean_length": 136.5,
	"completions/mean_terminated_length": 148.9090909090909,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 60.0,
	"epoch": 0.004,
	"format_failures": 0.0,
	"grad_norm": 1.2693145275115967,
	"kl": 0.0,
	"learning_rate": 1e-06,
	"loss": 0.0962,
	"num_tokens": 42324.0,
	"reward": 0.38461539149284363,
	"reward_std": 0.3770364224910736,
	"step": 2
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 362.0,
	"completions/max_terminated_length": 362.0,
	"completions/mean_length": 217.83333333333334,
	"completions/mean_terminated_length": 237.63636363636363,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 124.0,
	"epoch": 0.006,
	"format_failures": 0.0,
	"grad_norm": 0.3044165074825287,
	"kl": 0.19029825925827026,
	"learning_rate": 1e-06,
	"loss": 0.0009,
	"num_tokens": 58980.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 3
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 896.0,
	"completions/max_terminated_length": 896.0,
	"completions/mean_length": 321.0833333333333,
	"completions/mean_terminated_length": 350.27272727272725,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 103.0,
	"epoch": 0.008,
	"format_failures": 1.0,
	"grad_norm": 0.3372040390968323,
	"kl": 0.029289670288562775,
	"learning_rate": 1e-06,
	"loss": 0.1107,
	"num_tokens": 81756.0,
	"reward": 0.23689448833465576,
	"reward_std": 0.2267814427614212,
	"step": 4
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 193.0,
	"completions/max_terminated_length": 193.0,
	"completions/mean_length": 119.08333333333333,
	"completions/mean_terminated_length": 129.9090909090909,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 66.0,
	"epoch": 0.01,
	"format_failures": 0.0,
	"grad_norm": 10.779764175415039,
	"kl": 3.1303787231445312,
	"learning_rate": 1e-06,
	"loss": 0.0311,
	"num_tokens": 96360.0,
	"reward": 0.1666666716337204,
	"reward_std": 0.30772873759269714,
	"step": 5
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 745.0,
	"completions/max_terminated_length": 745.0,
	"completions/mean_length": 420.6666666666667,
	"completions/mean_terminated_length": 458.90909090909093,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 329.0,
	"epoch": 0.012,
	"format_failures": 1.0,
	"grad_norm": 0.2519327402114868,
	"kl": 0.016291129169985652,
	"learning_rate": 1e-06,
	"loss": 0.0559,
	"num_tokens": 119712.0,
	"reward": 0.34878918528556824,
	"reward_std": 0.2739146649837494,
	"step": 6
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 164.0,
	"completions/max_terminated_length": 164.0,
	"completions/mean_length": 67.33333333333333,
	"completions/mean_terminated_length": 73.45454545454545,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 36.0,
	"epoch": 0.014,
	"format_failures": 0.0,
	"grad_norm": 2531.101806640625,
	"kl": 562.2636108398438,
	"learning_rate": 1e-06,
	"loss": 5.4405,
	"num_tokens": 128772.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 7
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 421.0,
	"completions/max_terminated_length": 421.0,
	"completions/mean_length": 186.41666666666666,
	"completions/mean_terminated_length": 203.36363636363637,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 85.0,
	"epoch": 0.016,
	"format_failures": 0.0,
	"grad_norm": 0.7023671865463257,
	"kl": 0.0004708967899205163,
	"learning_rate": 1e-06,
	"loss": -0.1143,
	"num_tokens": 164100.0,
	"reward": 0.06388889253139496,
	"reward_std": 0.1274919956922531,
	"step": 8
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 484.0,
	"completions/max_terminated_length": 484.0,
	"completions/mean_length": 253.41666666666666,
	"completions/mean_terminated_length": 276.45454545454544,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 165.0,
	"epoch": 0.018,
	"format_failures": 0.0,
	"grad_norm": 1.1911135911941528,
	"kl": 0.0012580148177221417,
	"learning_rate": 1e-06,
	"loss": -0.3277,
	"num_tokens": 197808.0,
	"reward": 0.1118159219622612,
	"reward_std": 0.2614404261112213,
	"step": 9
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 170.0,
	"completions/max_terminated_length": 170.0,
	"completions/mean_length": 64.83333333333333,
	"completions/mean_terminated_length": 70.72727272727273,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 35.0,
	"epoch": 0.02,
	"format_failures": 0.0,
	"grad_norm": 1.324984073638916,
	"kl": 0.2648707218468189,
	"learning_rate": 1e-06,
	"loss": -0.0221,
	"num_tokens": 207000.0,
	"reward": 0.01666666753590107,
	"reward_std": 0.057735029608011246,
	"step": 10
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 183.0,
	"completions/max_terminated_length": 183.0,
	"completions/mean_length": 126.33333333333333,
	"completions/mean_terminated_length": 137.8181818181818,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 62.0,
	"epoch": 0.022,
	"format_failures": 0.0,
	"grad_norm": 0.5873882174491882,
	"kl": 0.017587594222277403,
	"learning_rate": 1e-06,
	"loss": 0.0197,
	"num_tokens": 221808.0,
	"reward": 0.1805555671453476,
	"reward_std": 0.3134874999523163,
	"step": 11
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.16666666666666663,
	"completions/max_length": 2049.0,
	"completions/max_terminated_length": 2049.0,
	"completions/mean_length": 541.25,
	"completions/mean_terminated_length": 649.5,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 137.0,
	"epoch": 0.024,
	"format_failures": 0.0,
	"grad_norm": 0.48546102643013,
	"kl": 0.002345994464121759,
	"learning_rate": 1e-06,
	"loss": 0.0336,
	"num_tokens": 255132.0,
	"reward": 0.4682539701461792,
	"reward_std": 0.4320843815803528,
	"step": 12
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 53.0,
	"completions/max_terminated_length": 53.0,
	"completions/mean_length": 29.666666666666668,
	"completions/mean_terminated_length": 32.36363636363637,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 22.0,
	"epoch": 0.026,
	"format_failures": 0.0,
	"grad_norm": 0.186175137758255,
	"kl": 0.041642000898718834,
	"learning_rate": 1e-06,
	"loss": 0.0008,
	"num_tokens": 265092.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 13
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 708.0,
	"completions/max_terminated_length": 708.0,
	"completions/mean_length": 381.6666666666667,
	"completions/mean_terminated_length": 416.3636363636364,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 188.0,
	"epoch": 0.028,
	"format_failures": 0.0,
	"grad_norm": 0.20345070958137512,
	"kl": 0.009796573780477047,
	"learning_rate": 1e-06,
	"loss": 0.0257,
	"num_tokens": 294096.0,
	"reward": 0.29761505126953125,
	"reward_std": 0.16453009843826294,
	"step": 14
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 1034.0,
	"completions/max_terminated_length": 1034.0,
	"completions/mean_length": 332.25,
	"completions/mean_terminated_length": 362.45454545454544,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 125.0,
	"epoch": 0.03,
	"format_failures": 1.0,
	"grad_norm": 0.5157941579818726,
	"kl": 0.004433898604474962,
	"learning_rate": 1e-06,
	"loss": -0.0103,
	"num_tokens": 325368.0,
	"reward": 0.2917824387550354,
	"reward_std": 0.3325340151786804,
	"step": 15
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 268.0,
	"completions/max_terminated_length": 268.0,
	"completions/mean_length": 150.16666666666666,
	"completions/mean_terminated_length": 163.8181818181818,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 30.0,
	"epoch": 0.032,
	"format_failures": 0.0,
	"grad_norm": 0.05657627806067467,
	"kl": 0.0326845021918416,
	"learning_rate": 1e-06,
	"loss": 0.0002,
	"num_tokens": 341196.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 16
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 296.0,
	"completions/max_terminated_length": 296.0,
	"completions/mean_length": 228.41666666666666,
	"completions/mean_terminated_length": 249.1818181818182,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 26.0,
	"epoch": 0.034,
	"format_failures": 0.0,
	"grad_norm": 1.8653935194015503,
	"kl": 0.8598212422803044,
	"learning_rate": 1e-06,
	"loss": 0.014,
	"num_tokens": 354228.0,
	"reward": 0.01666666753590107,
	"reward_std": 0.05773502588272095,
	"step": 17
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 71.0,
	"completions/max_terminated_length": 71.0,
	"completions/mean_length": 48.333333333333336,
	"completions/mean_terminated_length": 52.72727272727273,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 25.0,
	"epoch": 0.036,
	"format_failures": 1.0,
	"grad_norm": 0.018069056794047356,
	"kl": 0.023271435871720314,
	"learning_rate": 1e-06,
	"loss": 0.0002,
	"num_tokens": 381468.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 18
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 719.0,
	"completions/max_terminated_length": 719.0,
	"completions/mean_length": 228.91666666666666,
	"completions/mean_terminated_length": 249.72727272727272,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 16.0,
	"epoch": 0.038,
	"format_failures": 0.0,
	"grad_norm": 1.073132872581482,
	"kl": 0.003063492476940155,
	"learning_rate": 1e-06,
	"loss": 0.0334,
	"num_tokens": 415356.0,
	"reward": 0.1666666716337204,
	"reward_std": 0.38924944400787354,
	"step": 19
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 153.0,
	"completions/max_terminated_length": 153.0,
	"completions/mean_length": 84.58333333333333,
	"completions/mean_terminated_length": 92.27272727272727,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 66.0,
	"epoch": 0.04,
	"format_failures": 0.0,
	"grad_norm": 1.1736811399459839,
	"kl": 0.018741012550890446,
	"learning_rate": 1e-06,
	"loss": 0.0962,
	"num_tokens": 442596.0,
	"reward": 0.1041666716337204,
	"reward_std": 0.22508415579795837,
	"step": 20
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 118.0,
	"completions/max_terminated_length": 118.0,
	"completions/mean_length": 89.58333333333333,
	"completions/mean_terminated_length": 97.72727272727273,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 69.0,
	"epoch": 0.042,
	"format_failures": 0.0,
	"grad_norm": 0.960914671421051,
	"kl": 0.03209133446216583,
	"learning_rate": 1e-06,
	"loss": -0.0169,
	"num_tokens": 453252.0,
	"reward": 0.2708333432674408,
	"reward_std": 0.4454101026058197,
	"step": 21
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 249.0,
	"completions/max_terminated_length": 249.0,
	"completions/mean_length": 124.33333333333333,
	"completions/mean_terminated_length": 135.63636363636363,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 74.0,
	"epoch": 0.044,
	"format_failures": 0.0,
	"grad_norm": 1.0618880987167358,
	"kl": 0.03219995368272066,
	"learning_rate": 1e-06,
	"loss": -0.3593,
	"num_tokens": 481656.0,
	"reward": 0.09444444626569748,
	"reward_std": 0.17164288461208344,
	"step": 22
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 673.0,
	"completions/max_terminated_length": 673.0,
	"completions/mean_length": 299.5,
	"completions/mean_terminated_length": 326.72727272727275,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 148.0,
	"epoch": 0.046,
	"format_failures": 0.0,
	"grad_norm": 0.3598278760910034,
	"kl": 0.031054741702973843,
	"learning_rate": 1e-06,
	"loss": 0.0131,
	"num_tokens": 505704.0,
	"reward": 0.4847402572631836,
	"reward_std": 0.25003767013549805,
	"step": 23
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 497.0,
	"completions/max_terminated_length": 497.0,
	"completions/mean_length": 297.5,
	"completions/mean_terminated_length": 324.54545454545456,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 211.0,
	"epoch": 0.048,
	"format_failures": 0.0,
	"grad_norm": 0.27960336208343506,
	"kl": 0.04240706283599138,
	"learning_rate": 1e-06,
	"loss": -0.0398,
	"num_tokens": 523500.0,
	"reward": 0.2615740895271301,
	"reward_std": 0.219794362783432,
	"step": 24
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 383.0,
	"completions/max_terminated_length": 383.0,
	"completions/mean_length": 179.16666666666666,
	"completions/mean_terminated_length": 195.45454545454547,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 114.0,
	"epoch": 0.05,
	"format_failures": 0.0,
	"grad_norm": 1.2980320453643799,
	"kl": 0.0048073166981339455,
	"learning_rate": 1e-06,
	"loss": -0.3887,
	"num_tokens": 555300.0,
	"reward": 0.5003399848937988,
	"reward_std": 0.39150455594062805,
	"step": 25
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 699.0,
	"completions/max_terminated_length": 699.0,
	"completions/mean_length": 315.9166666666667,
	"completions/mean_terminated_length": 344.6363636363636,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 239.0,
	"epoch": 0.052,
	"format_failures": 0.0,
	"grad_norm": 0.2552706003189087,
	"kl": 0.027493927627801895,
	"learning_rate": 1e-06,
	"loss": 0.0567,
	"num_tokens": 576000.0,
	"reward": 0.43729767203330994,
	"reward_std": 0.18975813686847687,
	"step": 26
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 140.0,
	"completions/max_terminated_length": 140.0,
	"completions/mean_length": 72.91666666666667,
	"completions/mean_terminated_length": 79.54545454545455,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 65.0,
	"epoch": 0.054,
	"format_failures": 0.0,
	"grad_norm": 1.1299240589141846,
	"kl": 0.0332061443477869,
	"learning_rate": 1e-06,
	"loss": -0.057,
	"num_tokens": 584712.0,
	"reward": 0.33095240592956543,
	"reward_std": 0.444376677274704,
	"step": 27
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 181.0,
	"completions/max_terminated_length": 181.0,
	"completions/mean_length": 91.16666666666667,
	"completions/mean_terminated_length": 99.45454545454545,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 56.0,
	"epoch": 0.056,
	"format_failures": 0.0,
	"grad_norm": 0.044371046125888824,
	"kl": 0.03765446413308382,
	"learning_rate": 1e-06,
	"loss": 0.0004,
	"num_tokens": 598032.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 28
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 522.0,
	"completions/max_terminated_length": 522.0,
	"completions/mean_length": 304.5,
	"completions/mean_terminated_length": 332.1818181818182,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 212.0,
	"epoch": 0.058,
	"format_failures": 0.0,
	"grad_norm": 0.5104940533638,
	"kl": 0.03451683558523655,
	"learning_rate": 1e-06,
	"loss": -0.0274,
	"num_tokens": 615204.0,
	"reward": 0.4068452715873718,
	"reward_std": 0.37161099910736084,
	"step": 29
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 296.0,
	"completions/max_terminated_length": 296.0,
	"completions/mean_length": 162.91666666666666,
	"completions/mean_terminated_length": 177.72727272727272,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 59.0,
	"epoch": 0.06,
	"format_failures": 0.0,
	"grad_norm": 1.2335582971572876,
	"kl": 0.007039119256660342,
	"learning_rate": 1e-06,
	"loss": 0.2673,
	"num_tokens": 647892.0,
	"reward": 0.3291666805744171,
	"reward_std": 0.4266456663608551,
	"step": 30
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 812.0,
	"completions/max_terminated_length": 812.0,
	"completions/mean_length": 332.5,
	"completions/mean_terminated_length": 362.72727272727275,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 222.0,
	"epoch": 0.062,
	"format_failures": 2.0,
	"grad_norm": 0.3000166416168213,
	"kl": 0.03664882015436888,
	"learning_rate": 1e-06,
	"loss": 0.0306,
	"num_tokens": 670860.0,
	"reward": 0.6458902955055237,
	"reward_std": 0.26038500666618347,
	"step": 31
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 335.0,
	"completions/max_terminated_length": 335.0,
	"completions/mean_length": 218.66666666666666,
	"completions/mean_terminated_length": 238.54545454545453,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 180.0,
	"epoch": 0.064,
	"format_failures": 0.0,
	"grad_norm": 0.37272748351097107,
	"kl": 0.07015270553529263,
	"learning_rate": 1e-06,
	"loss": 0.0169,
	"num_tokens": 682212.0,
	"reward": 0.43658646941185,
	"reward_std": 0.24143192172050476,
	"step": 32
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 73.0,
	"completions/max_terminated_length": 73.0,
	"completions/mean_length": 53.25,
	"completions/mean_terminated_length": 58.09090909090909,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 47.0,
	"epoch": 0.066,
	"format_failures": 0.0,
	"grad_norm": 1.1589769124984741,
	"kl": 0.03555137664079666,
	"learning_rate": 1e-06,
	"loss": -0.0651,
	"num_tokens": 692040.0,
	"reward": 0.11666666716337204,
	"reward_std": 0.301008403301239,
	"step": 33
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 465.0,
	"completions/max_terminated_length": 465.0,
	"completions/mean_length": 336.0,
	"completions/mean_terminated_length": 366.54545454545456,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 292.0,
	"epoch": 0.068,
	"format_failures": 0.0,
	"grad_norm": 0.42152470350265503,
	"kl": 0.19683832861483097,
	"learning_rate": 1e-06,
	"loss": -0.0173,
	"num_tokens": 704484.0,
	"reward": 0.5136784911155701,
	"reward_std": 0.38917282223701477,
	"step": 34
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 93.0,
	"completions/max_terminated_length": 93.0,
	"completions/mean_length": 59.166666666666664,
	"completions/mean_terminated_length": 64.54545454545455,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 40.0,
	"epoch": 0.07,
	"format_failures": 0.0,
	"grad_norm": 1.729435682296753,
	"kl": 0.055947478860616684,
	"learning_rate": 1e-06,
	"loss": 0.0028,
	"num_tokens": 710520.0,
	"reward": 0.5611110925674438,
	"reward_std": 0.45256468653678894,
	"step": 35
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 192.0,
	"completions/max_terminated_length": 192.0,
	"completions/mean_length": 91.91666666666667,
	"completions/mean_terminated_length": 100.27272727272727,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 59.0,
	"epoch": 0.072,
	"format_failures": 0.0,
	"grad_norm": 0.7297618389129639,
	"kl": 0.28226011246442795,
	"learning_rate": 1e-06,
	"loss": 0.0022,
	"num_tokens": 720588.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 36
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 255.0,
	"completions/max_terminated_length": 255.0,
	"completions/mean_length": 184.66666666666666,
	"completions/mean_terminated_length": 201.45454545454547,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 152.0,
	"epoch": 0.074,
	"format_failures": 0.0,
	"grad_norm": 0.1786535382270813,
	"kl": 0.05143214017152786,
	"learning_rate": 1e-06,
	"loss": 0.001,
	"num_tokens": 731112.0,
	"reward": 0.5931217074394226,
	"reward_std": 0.15197694301605225,
	"step": 37
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 127.0,
	"completions/max_terminated_length": 127.0,
	"completions/mean_length": 61.416666666666664,
	"completions/mean_terminated_length": 67.0,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 36.0,
	"epoch": 0.076,
	"format_failures": 1.0,
	"grad_norm": 2.560441732406616,
	"kl": 0.061069367453455925,
	"learning_rate": 1e-06,
	"loss": 0.1107,
	"num_tokens": 758340.0,
	"reward": 0.0833333358168602,
	"reward_std": 0.28867512941360474,
	"step": 38
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 2050.0,
	"completions/max_terminated_length": 2050.0,
	"completions/mean_length": 715.0,
	"completions/mean_terminated_length": 780.0,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 357.0,
	"epoch": 0.078,
	"format_failures": 0.0,
	"grad_norm": 0.41932860016822815,
	"kl": 0.01548363408073783,
	"learning_rate": 1e-06,
	"loss": 0.0106,
	"num_tokens": 790968.0,
	"reward": 0.25740742683410645,
	"reward_std": 0.32573264837265015,
	"step": 39
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 1162.0,
	"completions/max_terminated_length": 1162.0,
	"completions/mean_length": 471.75,
	"completions/mean_terminated_length": 514.6363636363636,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 113.0,
	"epoch": 0.08,
	"format_failures": 0.0,
	"grad_norm": 0.8145480155944824,
	"kl": 0.016389482654631138,
	"learning_rate": 1e-06,
	"loss": 0.154,
	"num_tokens": 829104.0,
	"reward": 0.43334314227104187,
	"reward_std": 0.3763042986392975,
	"step": 40
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 254.0,
	"completions/max_terminated_length": 254.0,
	"completions/mean_length": 99.91666666666667,
	"completions/mean_terminated_length": 109.0,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 47.0,
	"epoch": 0.082,
	"format_failures": 0.0,
	"grad_norm": 18.232030868530273,
	"kl": 1.717683531343937,
	"learning_rate": 1e-06,
	"loss": 0.197,
	"num_tokens": 850716.0,
	"reward": 0.2430555671453476,
	"reward_std": 0.4042987823486328,
	"step": 41
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 156.0,
	"completions/max_terminated_length": 156.0,
	"completions/mean_length": 77.33333333333333,
	"completions/mean_terminated_length": 84.36363636363636,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 63.0,
	"epoch": 0.084,
	"format_failures": 0.0,
	"grad_norm": 0.5794758796691895,
	"kl": 0.21323725581169128,
	"learning_rate": 1e-06,
	"loss": -0.0344,
	"num_tokens": 859644.0,
	"reward": 0.0476190522313118,
	"reward_std": 0.1649572253227234,
	"step": 42
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 186.0,
	"completions/max_terminated_length": 186.0,
	"completions/mean_length": 136.66666666666666,
	"completions/mean_terminated_length": 149.0909090909091,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 57.0,
	"epoch": 0.086,
	"format_failures": 0.0,
	"grad_norm": 2.507535934448242,
	"kl": 0.2139158956706524,
	"learning_rate": 1e-06,
	"loss": -0.0282,
	"num_tokens": 871596.0,
	"reward": 0.3333333432674408,
	"reward_std": 0.4923659861087799,
	"step": 43
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.33333333333333337,
	"completions/max_length": 53.0,
	"completions/max_terminated_length": 53.0,
	"completions/mean_length": 28.25,
	"completions/mean_terminated_length": 42.375,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 21.0,
	"epoch": 0.088,
	"format_failures": 0.0,
	"grad_norm": 0.33207282423973083,
	"kl": 0.035286733880639076,
	"learning_rate": 1e-06,
	"loss": 0.0008,
	"num_tokens": 879828.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 44
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 359.0,
	"completions/max_terminated_length": 359.0,
	"completions/mean_length": 117.83333333333333,
	"completions/mean_terminated_length": 128.54545454545453,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 68.0,
	"epoch": 0.09,
	"format_failures": 0.0,
	"grad_norm": 0.2761678099632263,
	"kl": 0.15724625438451767,
	"learning_rate": 1e-06,
	"loss": 0.0015,
	"num_tokens": 899448.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 45
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 179.0,
	"completions/max_terminated_length": 179.0,
	"completions/mean_length": 105.16666666666667,
	"completions/mean_terminated_length": 114.72727272727273,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 26.0,
	"epoch": 0.092,
	"format_failures": 0.0,
	"grad_norm": 1.1471128463745117,
	"kl": 0.12899010255932808,
	"learning_rate": 1e-06,
	"loss": 0.0117,
	"num_tokens": 914760.0,
	"reward": 0.1666666716337204,
	"reward_std": 0.30151134729385376,
	"step": 46
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 345.0,
	"completions/max_terminated_length": 345.0,
	"completions/mean_length": 233.66666666666666,
	"completions/mean_terminated_length": 254.9090909090909,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 153.0,
	"epoch": 0.094,
	"format_failures": 0.0,
	"grad_norm": 0.5467153191566467,
	"kl": 0.2796362675726414,
	"learning_rate": 1e-06,
	"loss": -0.0318,
	"num_tokens": 925212.0,
	"reward": 0.549458920955658,
	"reward_std": 0.3676450848579407,
	"step": 47
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 264.0,
	"completions/max_terminated_length": 264.0,
	"completions/mean_length": 166.25,
	"completions/mean_terminated_length": 181.36363636363637,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 142.0,
	"epoch": 0.096,
	"format_failures": 0.0,
	"grad_norm": 0.78724205493927,
	"kl": 0.49516983330249786,
	"learning_rate": 1e-06,
	"loss": -0.0104,
	"num_tokens": 938424.0,
	"reward": 0.02083333395421505,
	"reward_std": 0.07216878235340118,
	"step": 48
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 203.0,
	"completions/max_terminated_length": 203.0,
	"completions/mean_length": 106.08333333333333,
	"completions/mean_terminated_length": 115.72727272727273,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 29.0,
	"epoch": 0.098,
	"format_failures": 1.0,
	"grad_norm": 1.7356528043746948,
	"kl": 0.389555960893631,
	"learning_rate": 1e-06,
	"loss": -0.0599,
	"num_tokens": 950172.0,
	"reward": 0.1944444626569748,
	"reward_std": 0.38816672563552856,
	"step": 49
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.16666666666666663,
	"completions/max_length": 1127.0,
	"completions/max_terminated_length": 1127.0,
	"completions/mean_length": 186.58333333333334,
	"completions/mean_terminated_length": 223.9,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 49.0,
	"epoch": 0.1,
	"format_failures": 0.0,
	"grad_norm": 1.3811311721801758,
	"kl": 0.0656690001487732,
	"learning_rate": 1e-06,
	"loss": 0.949,
	"num_tokens": 981816.0,
	"reward": 0.5007641911506653,
	"reward_std": 0.4272591173648834,
	"step": 50
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 121.0,
	"completions/max_terminated_length": 121.0,
	"completions/mean_length": 74.75,
	"completions/mean_terminated_length": 81.54545454545455,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 67.0,
	"epoch": 0.102,
	"format_failures": 0.0,
	"grad_norm": 3.630605697631836,
	"kl": 0.11415744014084339,
	"learning_rate": 1e-06,
	"loss": 0.1083,
	"num_tokens": 994800.0,
	"reward": 0.4722222685813904,
	"reward_std": 0.4596514403820038,
	"step": 51
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 447.0,
	"completions/max_terminated_length": 447.0,
	"completions/mean_length": 292.9166666666667,
	"completions/mean_terminated_length": 319.54545454545456,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 230.0,
	"epoch": 0.104,
	"format_failures": 0.0,
	"grad_norm": 0.664616048336029,
	"kl": 0.024851050227880478,
	"learning_rate": 1e-06,
	"loss": -0.0988,
	"num_tokens": 1028352.0,
	"reward": 0.5121031999588013,
	"reward_std": 0.26174625754356384,
	"step": 52
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 478.0,
	"completions/max_terminated_length": 478.0,
	"completions/mean_length": 267.4166666666667,
	"completions/mean_terminated_length": 291.72727272727275,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 158.0,
	"epoch": 0.106,
	"format_failures": 0.0,
	"grad_norm": 0.3362949788570404,
	"kl": 0.09099859930574894,
	"learning_rate": 1e-06,
	"loss": 0.0303,
	"num_tokens": 1053264.0,
	"reward": 0.0625,
	"reward_std": 0.21650634706020355,
	"step": 53
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 571.0,
	"completions/max_terminated_length": 571.0,
	"completions/mean_length": 292.0833333333333,
	"completions/mean_terminated_length": 318.6363636363636,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 190.0,
	"epoch": 0.108,
	"format_failures": 0.0,
	"grad_norm": 0.17621153593063354,
	"kl": 0.03119577933102846,
	"learning_rate": 1e-06,
	"loss": 0.0012,
	"num_tokens": 1068108.0,
	"reward": 0.4200083613395691,
	"reward_std": 0.194437637925148,
	"step": 54
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 168.0,
	"completions/max_terminated_length": 168.0,
	"completions/mean_length": 88.75,
	"completions/mean_terminated_length": 96.81818181818181,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 69.0,
	"epoch": 0.11,
	"format_failures": 0.0,
	"grad_norm": 0.6367191672325134,
	"kl": 0.03671593498438597,
	"learning_rate": 1e-06,
	"loss": 0.0088,
	"num_tokens": 1079820.0,
	"reward": 0.19027778506278992,
	"reward_std": 0.15930061042308807,
	"step": 55
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 189.0,
	"completions/max_terminated_length": 189.0,
	"completions/mean_length": 163.58333333333334,
	"completions/mean_terminated_length": 178.45454545454547,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 113.0,
	"epoch": 0.112,
	"format_failures": 0.0,
	"grad_norm": 2.1606733798980713,
	"kl": 0.20935122203081846,
	"learning_rate": 1e-06,
	"loss": -0.0277,
	"num_tokens": 1091832.0,
	"reward": 0.5777778029441833,
	"reward_std": 0.4515592157840729,
	"step": 56
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 456.0,
	"completions/max_terminated_length": 456.0,
	"completions/mean_length": 288.4166666666667,
	"completions/mean_terminated_length": 314.6363636363636,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 169.0,
	"epoch": 0.114,
	"format_failures": 0.0,
	"grad_norm": 0.32393601536750793,
	"kl": 0.031358057633042336,
	"learning_rate": 1e-06,
	"loss": -0.044,
	"num_tokens": 1105608.0,
	"reward": 0.1666666716337204,
	"reward_std": 0.24984844028949738,
	"step": 57
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 96.0,
	"completions/max_terminated_length": 96.0,
	"completions/mean_length": 65.5,
	"completions/mean_terminated_length": 71.45454545454545,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 55.0,
	"epoch": 0.116,
	"format_failures": 0.0,
	"grad_norm": 0.021954922005534172,
	"kl": 0.018348069861531258,
	"learning_rate": 1e-06,
	"loss": 0.0002,
	"num_tokens": 1113168.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 58
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 533.0,
	"completions/max_terminated_length": 533.0,
	"completions/mean_length": 224.41666666666666,
	"completions/mean_terminated_length": 244.8181818181818,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 92.0,
	"epoch": 0.118,
	"format_failures": 0.0,
	"grad_norm": 1.1990734338760376,
	"kl": 0.3062889650464058,
	"learning_rate": 1e-06,
	"loss": 0.0431,
	"num_tokens": 1136832.0,
	"reward": 0.2395833432674408,
	"reward_std": 0.25259074568748474,
	"step": 59
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 374.0,
	"completions/max_terminated_length": 374.0,
	"completions/mean_length": 238.0,
	"completions/mean_terminated_length": 259.6363636363636,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 80.0,
	"epoch": 0.12,
	"format_failures": 0.0,
	"grad_norm": 0.5170612931251526,
	"kl": 0.03292474150657654,
	"learning_rate": 1e-06,
	"loss": 0.0251,
	"num_tokens": 1150536.0,
	"reward": 0.39345240592956543,
	"reward_std": 0.3553503155708313,
	"step": 60
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 158.0,
	"completions/max_terminated_length": 158.0,
	"completions/mean_length": 82.16666666666667,
	"completions/mean_terminated_length": 89.63636363636364,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 65.0,
	"epoch": 0.122,
	"format_failures": 0.0,
	"grad_norm": 1.1562092304229736,
	"kl": 0.023061166517436504,
	"learning_rate": 1e-06,
	"loss": 0.1452,
	"num_tokens": 1158984.0,
	"reward": 0.7333333492279053,
	"reward_std": 0.3639269173145294,
	"step": 61
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 553.0,
	"completions/max_terminated_length": 553.0,
	"completions/mean_length": 296.1666666666667,
	"completions/mean_terminated_length": 323.09090909090907,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 201.0,
	"epoch": 0.124,
	"format_failures": 0.0,
	"grad_norm": 0.32044336199760437,
	"kl": 0.06375124305486679,
	"learning_rate": 1e-06,
	"loss": 0.0015,
	"num_tokens": 1173504.0,
	"reward": 0.43736547231674194,
	"reward_std": 0.25956276059150696,
	"step": 62
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 2051.0,
	"completions/max_terminated_length": 2051.0,
	"completions/mean_length": 586.4166666666666,
	"completions/mean_terminated_length": 639.7272727272727,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 38.0,
	"epoch": 0.126,
	"format_failures": 0.0,
	"grad_norm": 0.6462875008583069,
	"kl": 0.023477558977901936,
	"learning_rate": 1e-06,
	"loss": 0.0492,
	"num_tokens": 1206840.0,
	"reward": 0.501884937286377,
	"reward_std": 0.5706992149353027,
	"step": 63
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 270.0,
	"completions/max_terminated_length": 270.0,
	"completions/mean_length": 150.66666666666666,
	"completions/mean_terminated_length": 164.36363636363637,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 97.0,
	"epoch": 0.128,
	"format_failures": 0.0,
	"grad_norm": 0.4827415347099304,
	"kl": 0.11513948068022728,
	"learning_rate": 1e-06,
	"loss": 0.2183,
	"num_tokens": 1230888.0,
	"reward": 0.3715476393699646,
	"reward_std": 0.17215265333652496,
	"step": 64
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 1340.0,
	"completions/max_terminated_length": 1340.0,
	"completions/mean_length": 277.5833333333333,
	"completions/mean_terminated_length": 302.8181818181818,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 20.0,
	"epoch": 0.13,
	"format_failures": 0.0,
	"grad_norm": 0.46889665722846985,
	"kl": 0.9275694619864225,
	"learning_rate": 1e-06,
	"loss": 0.2754,
	"num_tokens": 1262100.0,
	"reward": 0.3917522430419922,
	"reward_std": 0.2266404628753662,
	"step": 65
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 599.0,
	"completions/max_terminated_length": 599.0,
	"completions/mean_length": 366.25,
	"completions/mean_terminated_length": 399.54545454545456,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 212.0,
	"epoch": 0.132,
	"format_failures": 1.0,
	"grad_norm": 0.30657899379730225,
	"kl": 0.16883518174290657,
	"learning_rate": 1e-06,
	"loss": 0.0155,
	"num_tokens": 1278012.0,
	"reward": 0.34761905670166016,
	"reward_std": 0.2757572531700134,
	"step": 66
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.16666666666666663,
	"completions/max_length": 559.0,
	"completions/max_terminated_length": 559.0,
	"completions/mean_length": 300.9166666666667,
	"completions/mean_terminated_length": 361.1,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 224.0,
	"epoch": 0.134,
	"format_failures": 0.0,
	"grad_norm": 0.6152874231338501,
	"kl": 0.10999106336385012,
	"learning_rate": 1e-06,
	"loss": 0.3303,
	"num_tokens": 1308996.0,
	"reward": 0.32609128952026367,
	"reward_std": 0.23752012848854065,
	"step": 67
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 227.0,
	"completions/max_terminated_length": 227.0,
	"completions/mean_length": 137.5,
	"completions/mean_terminated_length": 150.0,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 59.0,
	"epoch": 0.136,
	"format_failures": 0.0,
	"grad_norm": 1.7395364046096802,
	"kl": 0.7087040841579437,
	"learning_rate": 1e-06,
	"loss": -0.0121,
	"num_tokens": 1321020.0,
	"reward": 0.20873016119003296,
	"reward_std": 0.34043052792549133,
	"step": 68
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 297.0,
	"completions/max_terminated_length": 297.0,
	"completions/mean_length": 129.83333333333334,
	"completions/mean_terminated_length": 141.63636363636363,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 28.0,
	"epoch": 0.138,
	"format_failures": 0.0,
	"grad_norm": 0.902642548084259,
	"kl": 0.7902000248432159,
	"learning_rate": 1e-06,
	"loss": 0.0035,
	"num_tokens": 1332492.0,
	"reward": 0.0877976268529892,
	"reward_std": 0.20928393304347992,
	"step": 69
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.25,
	"completions/max_length": 1172.0,
	"completions/max_terminated_length": 1172.0,
	"completions/mean_length": 333.1666666666667,
	"completions/mean_terminated_length": 444.22222222222223,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 133.0,
	"epoch": 0.14,
	"format_failures": 0.0,
	"grad_norm": 0.22367094457149506,
	"kl": 0.03544241935014725,
	"learning_rate": 1e-06,
	"loss": 0.0442,
	"num_tokens": 1363812.0,
	"reward": 0.22601282596588135,
	"reward_std": 0.1535530686378479,
	"step": 70
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 547.0,
	"completions/max_terminated_length": 547.0,
	"completions/mean_length": 368.5833333333333,
	"completions/mean_terminated_length": 402.09090909090907,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 205.0,
	"epoch": 0.142,
	"format_failures": 0.0,
	"grad_norm": 0.25884878635406494,
	"kl": 0.0446395231410861,
	"learning_rate": 1e-06,
	"loss": 0.0091,
	"num_tokens": 1396788.0,
	"reward": 0.6545634865760803,
	"reward_std": 0.2292691022157669,
	"step": 71
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 228.0,
	"completions/max_terminated_length": 228.0,
	"completions/mean_length": 127.75,
	"completions/mean_terminated_length": 139.36363636363637,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 62.0,
	"epoch": 0.144,
	"format_failures": 0.0,
	"grad_norm": 2.139310121536255,
	"kl": 0.2615228593349457,
	"learning_rate": 1e-06,
	"loss": 0.0935,
	"num_tokens": 1411512.0,
	"reward": 0.625,
	"reward_std": 0.4826536476612091,
	"step": 72
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 644.0,
	"completions/max_terminated_length": 644.0,
	"completions/mean_length": 321.1666666666667,
	"completions/mean_terminated_length": 350.3636363636364,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 194.0,
	"epoch": 0.146,
	"format_failures": 0.0,
	"grad_norm": 0.7009347081184387,
	"kl": 0.13678913563489914,
	"learning_rate": 1e-06,
	"loss": 0.0771,
	"num_tokens": 1436532.0,
	"reward": 0.3439815044403076,
	"reward_std": 0.27971503138542175,
	"step": 73
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 280.0,
	"completions/max_terminated_length": 280.0,
	"completions/mean_length": 253.08333333333334,
	"completions/mean_terminated_length": 276.09090909090907,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 271.0,
	"epoch": 0.148,
	"format_failures": 0.0,
	"grad_norm": 1.2899372577667236,
	"kl": 0.10085960477590561,
	"learning_rate": 1e-06,
	"loss": 0.3862,
	"num_tokens": 1471704.0,
	"reward": 0.7222222685813904,
	"reward_std": 0.4457052946090698,
	"step": 74
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 308.0,
	"completions/max_terminated_length": 308.0,
	"completions/mean_length": 196.5,
	"completions/mean_terminated_length": 214.36363636363637,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 54.0,
	"epoch": 0.15,
	"format_failures": 0.0,
	"grad_norm": 0.4177331328392029,
	"kl": 0.026733385398983955,
	"learning_rate": 1e-06,
	"loss": 0.0579,
	"num_tokens": 1485468.0,
	"reward": 0.2735119163990021,
	"reward_std": 0.30911651253700256,
	"step": 75
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 368.0,
	"completions/max_terminated_length": 368.0,
	"completions/mean_length": 200.41666666666666,
	"completions/mean_terminated_length": 218.63636363636363,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 62.0,
	"epoch": 0.152,
	"format_failures": 0.0,
	"grad_norm": 0.8074631094932556,
	"kl": 0.45791861414909363,
	"learning_rate": 1e-06,
	"loss": -0.0476,
	"num_tokens": 1500636.0,
	"reward": 0.17129629850387573,
	"reward_std": 0.19502559304237366,
	"step": 76
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 220.0,
	"completions/max_terminated_length": 220.0,
	"completions/mean_length": 144.08333333333334,
	"completions/mean_terminated_length": 157.1818181818182,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 21.0,
	"epoch": 0.154,
	"format_failures": 0.0,
	"grad_norm": 1.8004605770111084,
	"kl": 0.32159996032714844,
	"learning_rate": 1e-06,
	"loss": -0.0603,
	"num_tokens": 1512264.0,
	"reward": 0.5055555701255798,
	"reward_std": 0.29963788390159607,
	"step": 77
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 564.0,
	"completions/max_terminated_length": 564.0,
	"completions/mean_length": 312.1666666666667,
	"completions/mean_terminated_length": 340.54545454545456,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 170.0,
	"epoch": 0.156,
	"format_failures": 0.0,
	"grad_norm": 0.3055727481842041,
	"kl": 0.03414521459490061,
	"learning_rate": 1e-06,
	"loss": -0.0067,
	"num_tokens": 1526292.0,
	"reward": 0.5897321701049805,
	"reward_std": 0.2986750900745392,
	"step": 78
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 192.0,
	"completions/max_terminated_length": 192.0,
	"completions/mean_length": 167.5,
	"completions/mean_terminated_length": 182.72727272727272,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 165.0,
	"epoch": 0.158,
	"format_failures": 0.0,
	"grad_norm": 2.3401753902435303,
	"kl": 0.03888106718659401,
	"learning_rate": 1e-06,
	"loss": -0.0218,
	"num_tokens": 1540416.0,
	"reward": 0.6666666865348816,
	"reward_std": 0.4923659861087799,
	"step": 79
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.16666666666666663,
	"completions/max_length": 291.0,
	"completions/max_terminated_length": 291.0,
	"completions/mean_length": 210.91666666666666,
	"completions/mean_terminated_length": 253.1,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 137.0,
	"epoch": 0.16,
	"format_failures": 0.0,
	"grad_norm": 28.73111343383789,
	"kl": 15.663371562957764,
	"learning_rate": 1e-06,
	"loss": 0.0445,
	"num_tokens": 1553580.0,
	"reward": 0.4305555820465088,
	"reward_std": 0.4738534092903137,
	"step": 80
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 60.0,
	"completions/max_terminated_length": 60.0,
	"completions/mean_length": 43.166666666666664,
	"completions/mean_terminated_length": 47.09090909090909,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 32.0,
	"epoch": 0.162,
	"format_failures": 0.0,
	"grad_norm": 13.234149932861328,
	"kl": 2.6492202281951904,
	"learning_rate": 1e-06,
	"loss": -0.0385,
	"num_tokens": 1560816.0,
	"reward": 0.27916666865348816,
	"reward_std": 0.42504456639289856,
	"step": 81
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 331.0,
	"completions/max_terminated_length": 331.0,
	"completions/mean_length": 189.66666666666666,
	"completions/mean_terminated_length": 206.9090909090909,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 142.0,
	"epoch": 0.164,
	"format_failures": 0.0,
	"grad_norm": 1.0555896759033203,
	"kl": 0.060676803812384605,
	"learning_rate": 1e-06,
	"loss": -0.0432,
	"num_tokens": 1573524.0,
	"reward": 0.39722225069999695,
	"reward_std": 0.2684729993343353,
	"step": 82
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 684.0,
	"completions/max_terminated_length": 684.0,
	"completions/mean_length": 482.1666666666667,
	"completions/mean_terminated_length": 526.0,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 479.0,
	"epoch": 0.166,
	"format_failures": 0.0,
	"grad_norm": 0.27017322182655334,
	"kl": 0.013310576789081097,
	"learning_rate": 1e-06,
	"loss": -0.0023,
	"num_tokens": 1595796.0,
	"reward": 0.8000000715255737,
	"reward_std": 0.39080336689949036,
	"step": 83
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 257.0,
	"completions/max_terminated_length": 257.0,
	"completions/mean_length": 144.91666666666666,
	"completions/mean_terminated_length": 158.0909090909091,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 83.0,
	"epoch": 0.168,
	"format_failures": 0.0,
	"grad_norm": 1.0021555423736572,
	"kl": 0.2212899848818779,
	"learning_rate": 1e-06,
	"loss": 0.0304,
	"num_tokens": 1606284.0,
	"reward": 0.2957010865211487,
	"reward_std": 0.2737172842025757,
	"step": 84
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 2050.0,
	"completions/max_terminated_length": 2050.0,
	"completions/mean_length": 510.0833333333333,
	"completions/mean_terminated_length": 556.4545454545455,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 216.0,
	"epoch": 0.17,
	"format_failures": 0.0,
	"grad_norm": 0.3675689399242401,
	"kl": 0.2206931747496128,
	"learning_rate": 1e-06,
	"loss": 0.1278,
	"num_tokens": 1639152.0,
	"reward": 0.43888890743255615,
	"reward_std": 0.2596941888332367,
	"step": 85
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 280.0,
	"completions/max_terminated_length": 280.0,
	"completions/mean_length": 152.25,
	"completions/mean_terminated_length": 166.0909090909091,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 117.0,
	"epoch": 0.172,
	"format_failures": 0.0,
	"grad_norm": 2.8949317932128906,
	"kl": 1.413679599761963,
	"learning_rate": 1e-06,
	"loss": 0.0356,
	"num_tokens": 1652364.0,
	"reward": 0.4761905074119568,
	"reward_std": 0.5035434365272522,
	"step": 86
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 245.0,
	"completions/max_terminated_length": 245.0,
	"completions/mean_length": 152.91666666666666,
	"completions/mean_terminated_length": 166.8181818181818,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 58.0,
	"epoch": 0.174,
	"format_failures": 0.0,
	"grad_norm": 1.7609695196151733,
	"kl": 0.07055489160120487,
	"learning_rate": 1e-06,
	"loss": 0.3366,
	"num_tokens": 1685136.0,
	"reward": 0.33750003576278687,
	"reward_std": 0.43647608160972595,
	"step": 87
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 180.0,
	"completions/max_terminated_length": 180.0,
	"completions/mean_length": 135.25,
	"completions/mean_terminated_length": 147.54545454545453,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 77.0,
	"epoch": 0.176,
	"format_failures": 0.0,
	"grad_norm": 0.6215497255325317,
	"kl": 0.08650689758360386,
	"learning_rate": 1e-06,
	"loss": 0.0112,
	"num_tokens": 1693764.0,
	"reward": 0.5745911598205566,
	"reward_std": 0.1768045872449875,
	"step": 88
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 140.0,
	"completions/max_terminated_length": 140.0,
	"completions/mean_length": 73.25,
	"completions/mean_terminated_length": 79.9090909090909,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 61.0,
	"epoch": 0.178,
	"format_failures": 1.0,
	"grad_norm": 0.8421996235847473,
	"kl": 0.016213122755289078,
	"learning_rate": 1e-06,
	"loss": 0.0149,
	"num_tokens": 1707588.0,
	"reward": 0.06666667014360428,
	"reward_std": 0.1775250881910324,
	"step": 89
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 277.0,
	"completions/max_terminated_length": 277.0,
	"completions/mean_length": 178.16666666666666,
	"completions/mean_terminated_length": 194.36363636363637,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 101.0,
	"epoch": 0.18,
	"format_failures": 0.0,
	"grad_norm": 0.4202212691307068,
	"kl": 0.3119240030646324,
	"learning_rate": 1e-06,
	"loss": 0.0093,
	"num_tokens": 1716792.0,
	"reward": 0.6381944417953491,
	"reward_std": 0.22775352001190186,
	"step": 90
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 220.0,
	"completions/max_terminated_length": 220.0,
	"completions/mean_length": 165.58333333333334,
	"completions/mean_terminated_length": 180.63636363636363,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 56.0,
	"epoch": 0.182,
	"format_failures": 0.0,
	"grad_norm": 3.5526509284973145,
	"kl": 0.04295740742236376,
	"learning_rate": 1e-06,
	"loss": -0.007,
	"num_tokens": 1735188.0,
	"reward": 0.6666666865348816,
	"reward_std": 0.4923659861087799,
	"step": 91
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 554.0,
	"completions/max_terminated_length": 554.0,
	"completions/mean_length": 296.3333333333333,
	"completions/mean_terminated_length": 323.27272727272725,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 142.0,
	"epoch": 0.184,
	"format_failures": 0.0,
	"grad_norm": 0.7098760008811951,
	"kl": 0.14585042744874954,
	"learning_rate": 1e-06,
	"loss": -0.052,
	"num_tokens": 1748808.0,
	"reward": 0.4570105969905853,
	"reward_std": 0.29787296056747437,
	"step": 92
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 442.0,
	"completions/max_terminated_length": 442.0,
	"completions/mean_length": 325.1666666666667,
	"completions/mean_terminated_length": 354.72727272727275,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 233.0,
	"epoch": 0.186,
	"format_failures": 0.0,
	"grad_norm": 4.00807523727417,
	"kl": 2.2327868938446045,
	"learning_rate": 1e-06,
	"loss": 0.0328,
	"num_tokens": 1763196.0,
	"reward": 0.37762749195098877,
	"reward_std": 0.2510078251361847,
	"step": 93
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 146.0,
	"completions/max_terminated_length": 146.0,
	"completions/mean_length": 78.66666666666667,
	"completions/mean_terminated_length": 85.81818181818181,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 60.0,
	"epoch": 0.188,
	"format_failures": 0.0,
	"grad_norm": 4.166850566864014,
	"kl": 0.4828091114759445,
	"learning_rate": 1e-06,
	"loss": -0.0043,
	"num_tokens": 1775700.0,
	"reward": 0.41428571939468384,
	"reward_std": 0.20157082378864288,
	"step": 94
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 288.0,
	"completions/max_terminated_length": 288.0,
	"completions/mean_length": 163.0,
	"completions/mean_terminated_length": 177.8181818181818,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 86.0,
	"epoch": 0.19,
	"format_failures": 0.0,
	"grad_norm": 2.0013251304626465,
	"kl": 0.3356290655210614,
	"learning_rate": 1e-06,
	"loss": -0.0532,
	"num_tokens": 1790064.0,
	"reward": 0.4275793731212616,
	"reward_std": 0.3848039209842682,
	"step": 95
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 144.0,
	"completions/max_terminated_length": 144.0,
	"completions/mean_length": 128.33333333333334,
	"completions/mean_terminated_length": 140.0,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 134.0,
	"epoch": 0.192,
	"format_failures": 0.0,
	"grad_norm": 6.922305107116699,
	"kl": 3.5449295742437243,
	"learning_rate": 1e-06,
	"loss": 0.0385,
	"num_tokens": 1803036.0,
	"reward": 0.6979166865348816,
	"reward_std": 0.31738603115081787,
	"step": 96
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 221.0,
	"completions/max_terminated_length": 221.0,
	"completions/mean_length": 94.33333333333333,
	"completions/mean_terminated_length": 102.9090909090909,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 72.0,
	"epoch": 0.194,
	"format_failures": 0.0,
	"grad_norm": 1.4514728784561157,
	"kl": 0.1412234902381897,
	"learning_rate": 1e-06,
	"loss": 0.3157,
	"num_tokens": 1816092.0,
	"reward": 0.8380953073501587,
	"reward_std": 0.30834609270095825,
	"step": 97
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 82.0,
	"completions/max_terminated_length": 82.0,
	"completions/mean_length": 43.5,
	"completions/mean_terminated_length": 47.45454545454545,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 31.0,
	"epoch": 0.196,
	"format_failures": 0.0,
	"grad_norm": 2.004136085510254,
	"kl": 0.6110408902168274,
	"learning_rate": 1e-06,
	"loss": 0.0095,
	"num_tokens": 1827024.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 98
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 373.0,
	"completions/max_terminated_length": 373.0,
	"completions/mean_length": 212.08333333333334,
	"completions/mean_terminated_length": 231.36363636363637,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 102.0,
	"epoch": 0.198,
	"format_failures": 0.0,
	"grad_norm": 0.8370314240455627,
	"kl": 0.09233395755290985,
	"learning_rate": 1e-06,
	"loss": 0.1438,
	"num_tokens": 1860576.0,
	"reward": 0.2782828211784363,
	"reward_std": 0.2644941210746765,
	"step": 99
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 225.0,
	"completions/max_terminated_length": 225.0,
	"completions/mean_length": 163.25,
	"completions/mean_terminated_length": 178.0909090909091,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 101.0,
	"epoch": 0.2,
	"format_failures": 0.0,
	"grad_norm": 1.565374732017517,
	"kl": 0.391565203666687,
	"learning_rate": 1e-06,
	"loss": -0.0497,
	"num_tokens": 1872996.0,
	"reward": 0.5944445133209229,
	"reward_std": 0.47775429487228394,
	"step": 100
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 411.0,
	"completions/max_terminated_length": 411.0,
	"completions/mean_length": 150.16666666666666,
	"completions/mean_terminated_length": 163.8181818181818,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 94.0,
	"epoch": 0.202,
	"format_failures": 0.0,
	"grad_norm": 1.6569881439208984,
	"kl": 0.24375841114670038,
	"learning_rate": 1e-06,
	"loss": 0.0387,
	"num_tokens": 1892856.0,
	"reward": 0.3499999940395355,
	"reward_std": 0.36666667461395264,
	"step": 101
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 150.0,
	"completions/max_terminated_length": 150.0,
	"completions/mean_length": 107.66666666666667,
	"completions/mean_terminated_length": 117.45454545454545,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 93.0,
	"epoch": 0.204,
	"format_failures": 0.0,
	"grad_norm": 0.9490823745727539,
	"kl": 0.010788497282192111,
	"learning_rate": 1e-06,
	"loss": 0.0193,
	"num_tokens": 1903992.0,
	"reward": 0.7714947462081909,
	"reward_std": 0.2890874743461609,
	"step": 102
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 110.0,
	"completions/max_terminated_length": 110.0,
	"completions/mean_length": 66.0,
	"completions/mean_terminated_length": 72.0,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 24.0,
	"epoch": 0.206,
	"format_failures": 0.0,
	"grad_norm": 1.482935905456543,
	"kl": 0.03114949818700552,
	"learning_rate": 1e-06,
	"loss": -0.0754,
	"num_tokens": 1913640.0,
	"reward": 0.3333333432674408,
	"reward_std": 0.32566946744918823,
	"step": 103
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 379.0,
	"completions/max_terminated_length": 379.0,
	"completions/mean_length": 260.5833333333333,
	"completions/mean_terminated_length": 284.27272727272725,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 197.0,
	"epoch": 0.208,
	"format_failures": 0.0,
	"grad_norm": 0.4501963257789612,
	"kl": 0.011977697955444455,
	"learning_rate": 1e-06,
	"loss": -0.0496,
	"num_tokens": 1932468.0,
	"reward": 0.37487921118736267,
	"reward_std": 0.29262858629226685,
	"step": 104
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.16666666666666663,
	"completions/max_length": 143.0,
	"completions/max_terminated_length": 143.0,
	"completions/mean_length": 113.91666666666667,
	"completions/mean_terminated_length": 136.7,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 120.0,
	"epoch": 0.21,
	"format_failures": 0.0,
	"grad_norm": 3.2958946228027344,
	"kl": 0.024902154691517353,
	"learning_rate": 1e-06,
	"loss": 0.0181,
	"num_tokens": 1942992.0,
	"reward": 0.5,
	"reward_std": 0.5222329497337341,
	"step": 105
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 714.0,
	"completions/max_terminated_length": 714.0,
	"completions/mean_length": 166.0,
	"completions/mean_terminated_length": 181.0909090909091,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 57.0,
	"epoch": 0.212,
	"format_failures": 0.0,
	"grad_norm": 1.3716078996658325,
	"kl": 1.098541870713234,
	"learning_rate": 1e-06,
	"loss": 0.0299,
	"num_tokens": 1964208.0,
	"reward": 0.07500000298023224,
	"reward_std": 0.17645499110221863,
	"step": 106
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 321.0,
	"completions/max_terminated_length": 321.0,
	"completions/mean_length": 171.58333333333334,
	"completions/mean_terminated_length": 187.1818181818182,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 100.0,
	"epoch": 0.214,
	"format_failures": 2.0,
	"grad_norm": 0.27850034832954407,
	"kl": 0.020487794652581215,
	"learning_rate": 1e-06,
	"loss": 0.0329,
	"num_tokens": 1974972.0,
	"reward": 0.4126984477043152,
	"reward_std": 0.18834668397903442,
	"step": 107
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 54.0,
	"completions/max_terminated_length": 54.0,
	"completions/mean_length": 45.416666666666664,
	"completions/mean_terminated_length": 49.54545454545455,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 34.0,
	"epoch": 0.216,
	"format_failures": 0.0,
	"grad_norm": 2.118313789367676,
	"kl": 0.03025034721940756,
	"learning_rate": 1e-06,
	"loss": 0.0001,
	"num_tokens": 1981716.0,
	"reward": 0.8333333730697632,
	"reward_std": 0.38924944400787354,
	"step": 108
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 233.0,
	"completions/max_terminated_length": 233.0,
	"completions/mean_length": 117.5,
	"completions/mean_terminated_length": 128.1818181818182,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 88.0,
	"epoch": 0.218,
	"format_failures": 0.0,
	"grad_norm": 1.9193243980407715,
	"kl": 0.04295819811522961,
	"learning_rate": 1e-06,
	"loss": 0.009,
	"num_tokens": 1992420.0,
	"reward": 0.701388955116272,
	"reward_std": 0.38302528858184814,
	"step": 109
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 131.0,
	"completions/max_terminated_length": 131.0,
	"completions/mean_length": 108.66666666666667,
	"completions/mean_terminated_length": 118.54545454545455,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 92.0,
	"epoch": 0.22,
	"format_failures": 0.0,
	"grad_norm": 4.0581183433532715,
	"kl": 0.34252697695046663,
	"learning_rate": 1e-06,
	"loss": -0.014,
	"num_tokens": 2004288.0,
	"reward": 0.479166716337204,
	"reward_std": 0.30592837929725647,
	"step": 110
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 192.0,
	"completions/max_terminated_length": 192.0,
	"completions/mean_length": 129.0,
	"completions/mean_terminated_length": 140.72727272727272,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 112.0,
	"epoch": 0.222,
	"format_failures": 0.0,
	"grad_norm": 2.901212692260742,
	"kl": 0.451558455824852,
	"learning_rate": 1e-06,
	"loss": 0.0047,
	"num_tokens": 2021400.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 111
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 174.0,
	"completions/max_terminated_length": 174.0,
	"completions/mean_length": 147.08333333333334,
	"completions/mean_terminated_length": 160.45454545454547,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 65.0,
	"epoch": 0.224,
	"format_failures": 0.0,
	"grad_norm": 3.0557456016540527,
	"kl": 0.1749698342755437,
	"learning_rate": 1e-06,
	"loss": 0.0461,
	"num_tokens": 2033580.0,
	"reward": 0.7708333730697632,
	"reward_std": 0.32784304022789,
	"step": 112
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 274.0,
	"completions/max_terminated_length": 274.0,
	"completions/mean_length": 81.75,
	"completions/mean_terminated_length": 89.18181818181819,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 41.0,
	"epoch": 0.226,
	"format_failures": 0.0,
	"grad_norm": 2.929105281829834,
	"kl": 1.0704956352710724,
	"learning_rate": 1e-06,
	"loss": -0.1432,
	"num_tokens": 2065740.0,
	"reward": 0.6625000238418579,
	"reward_std": 0.3711928129196167,
	"step": 113
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 796.0,
	"completions/max_terminated_length": 796.0,
	"completions/mean_length": 420.5,
	"completions/mean_terminated_length": 458.72727272727275,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 171.0,
	"epoch": 0.228,
	"format_failures": 0.0,
	"grad_norm": 0.966941237449646,
	"kl": 0.012734876945614815,
	"learning_rate": 1e-06,
	"loss": -0.0432,
	"num_tokens": 2101236.0,
	"reward": 0.6500000357627869,
	"reward_std": 0.40886637568473816,
	"step": 114
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 302.0,
	"completions/max_terminated_length": 302.0,
	"completions/mean_length": 263.75,
	"completions/mean_terminated_length": 287.72727272727275,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 280.0,
	"epoch": 0.23,
	"format_failures": 0.0,
	"grad_norm": 7.276376247406006,
	"kl": 2.2721076011657715,
	"learning_rate": 1e-06,
	"loss": 0.0151,
	"num_tokens": 2114484.0,
	"reward": 0.7777778506278992,
	"reward_std": 0.3576955795288086,
	"step": 115
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 188.0,
	"completions/max_terminated_length": 188.0,
	"completions/mean_length": 167.41666666666666,
	"completions/mean_terminated_length": 182.63636363636363,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 147.0,
	"epoch": 0.232,
	"format_failures": 0.0,
	"grad_norm": 0.6819717884063721,
	"kl": 0.020047412253916264,
	"learning_rate": 1e-06,
	"loss": 0.0179,
	"num_tokens": 2125992.0,
	"reward": 0.8819445371627808,
	"reward_std": 0.2524084150791168,
	"step": 116
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 394.0,
	"completions/max_terminated_length": 394.0,
	"completions/mean_length": 211.33333333333334,
	"completions/mean_terminated_length": 230.54545454545453,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 147.0,
	"epoch": 0.234,
	"format_failures": 0.0,
	"grad_norm": 0.19310350716114044,
	"kl": 0.019224281422793865,
	"learning_rate": 1e-06,
	"loss": 0.012,
	"num_tokens": 2137692.0,
	"reward": 0.585936427116394,
	"reward_std": 0.09784586727619171,
	"step": 117
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 205.0,
	"completions/max_terminated_length": 205.0,
	"completions/mean_length": 142.16666666666666,
	"completions/mean_terminated_length": 155.0909090909091,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 110.0,
	"epoch": 0.236,
	"format_failures": 0.0,
	"grad_norm": 2.085691213607788,
	"kl": 0.09273007325828075,
	"learning_rate": 1e-06,
	"loss": 0.0139,
	"num_tokens": 2148816.0,
	"reward": 0.319444477558136,
	"reward_std": 0.2289450317621231,
	"step": 118
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 583.0,
	"completions/max_terminated_length": 583.0,
	"completions/mean_length": 317.0833333333333,
	"completions/mean_terminated_length": 345.90909090909093,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 140.0,
	"epoch": 0.238,
	"format_failures": 0.0,
	"grad_norm": 0.37083595991134644,
	"kl": 0.0630851686000824,
	"learning_rate": 1e-06,
	"loss": 0.0918,
	"num_tokens": 2168256.0,
	"reward": 0.37870368361473083,
	"reward_std": 0.2895275950431824,
	"step": 119
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 306.0,
	"completions/max_terminated_length": 306.0,
	"completions/mean_length": 126.66666666666667,
	"completions/mean_terminated_length": 138.1818181818182,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 58.0,
	"epoch": 0.24,
	"format_failures": 0.0,
	"grad_norm": 6.606923580169678,
	"kl": 3.8295647501945496,
	"learning_rate": 1e-06,
	"loss": 0.1365,
	"num_tokens": 2183124.0,
	"reward": 0.4027777910232544,
	"reward_std": 0.3723955750465393,
	"step": 120
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.5833333333333333,
	"completions/max_length": 77.0,
	"completions/max_terminated_length": 77.0,
	"completions/mean_length": 32.083333333333336,
	"completions/mean_terminated_length": 77.0,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 77.0,
	"epoch": 0.242,
	"format_failures": 0.0,
	"grad_norm": 0.08047831058502197,
	"kl": 0.013985397294163704,
	"learning_rate": 1e-06,
	"loss": 0.0003,
	"num_tokens": 2190396.0,
	"reward": 1.0,
	"reward_std": 0.0,
	"step": 121
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 595.0,
	"completions/max_terminated_length": 595.0,
	"completions/mean_length": 431.0833333333333,
	"completions/mean_terminated_length": 470.27272727272725,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 109.0,
	"epoch": 0.244,
	"format_failures": 0.0,
	"grad_norm": 0.019394446164369583,
	"kl": 0.01961024198681116,
	"learning_rate": 1e-06,
	"loss": 0.0001,
	"num_tokens": 2218320.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 122
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 454.0,
	"completions/max_terminated_length": 454.0,
	"completions/mean_length": 284.9166666666667,
	"completions/mean_terminated_length": 310.8181818181818,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 118.0,
	"epoch": 0.246,
	"format_failures": 0.0,
	"grad_norm": 1.5184653997421265,
	"kl": 1.0404187738895416,
	"learning_rate": 1e-06,
	"loss": -0.0335,
	"num_tokens": 2231256.0,
	"reward": 0.4014219641685486,
	"reward_std": 0.31073111295700073,
	"step": 123
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 141.0,
	"completions/max_terminated_length": 141.0,
	"completions/mean_length": 64.75,
	"completions/mean_terminated_length": 70.63636363636364,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 34.0,
	"epoch": 0.248,
	"format_failures": 0.0,
	"grad_norm": 1.6326740980148315,
	"kl": 0.3745545968413353,
	"learning_rate": 1e-06,
	"loss": 0.0517,
	"num_tokens": 2240424.0,
	"reward": 0.8037037253379822,
	"reward_std": 0.3365945816040039,
	"step": 124
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.6666666666666667,
	"completions/max_length": 117.0,
	"completions/max_terminated_length": 117.0,
	"completions/mean_length": 37.75,
	"completions/mean_terminated_length": 113.25,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 102.0,
	"epoch": 0.25,
	"format_failures": 0.0,
	"grad_norm": 10.052517890930176,
	"kl": 1.53599963337183,
	"learning_rate": 1e-06,
	"loss": -0.0049,
	"num_tokens": 2249424.0,
	"reward": 0.9166666865348816,
	"reward_std": 0.28867512941360474,
	"step": 125
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 235.0,
	"completions/max_terminated_length": 235.0,
	"completions/mean_length": 199.5,
	"completions/mean_terminated_length": 217.63636363636363,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 160.0,
	"epoch": 0.252,
	"format_failures": 0.0,
	"grad_norm": 1.1388990879058838,
	"kl": 0.24531831266358495,
	"learning_rate": 1e-06,
	"loss": 0.0013,
	"num_tokens": 2263584.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 126
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 142.0,
	"completions/max_terminated_length": 142.0,
	"completions/mean_length": 125.0,
	"completions/mean_terminated_length": 136.36363636363637,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 123.0,
	"epoch": 0.254,
	"format_failures": 0.0,
	"grad_norm": 2.392914056777954,
	"kl": 0.9988721050322056,
	"learning_rate": 1e-06,
	"loss": -0.0025,
	"num_tokens": 2276520.0,
	"reward": 0.7291666865348816,
	"reward_std": 0.3608439266681671,
	"step": 127
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 199.0,
	"completions/max_terminated_length": 199.0,
	"completions/mean_length": 134.08333333333334,
	"completions/mean_terminated_length": 146.27272727272728,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 106.0,
	"epoch": 0.256,
	"format_failures": 0.0,
	"grad_norm": 0.5191885828971863,
	"kl": 0.20999768376350403,
	"learning_rate": 1e-06,
	"loss": 0.0146,
	"num_tokens": 2286408.0,
	"reward": 0.717815101146698,
	"reward_std": 0.14373189210891724,
	"step": 128
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 229.0,
	"completions/max_terminated_length": 229.0,
	"completions/mean_length": 137.75,
	"completions/mean_terminated_length": 150.27272727272728,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 98.0,
	"epoch": 0.258,
	"format_failures": 0.0,
	"grad_norm": 1.204528570175171,
	"kl": 0.08800000417977571,
	"learning_rate": 1e-06,
	"loss": 0.0511,
	"num_tokens": 2296044.0,
	"reward": 0.5675595998764038,
	"reward_std": 0.2289842963218689,
	"step": 129
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 198.0,
	"completions/max_terminated_length": 198.0,
	"completions/mean_length": 124.58333333333333,
	"completions/mean_terminated_length": 135.9090909090909,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 54.0,
	"epoch": 0.26,
	"format_failures": 0.0,
	"grad_norm": 0.44312867522239685,
	"kl": 0.07202759943902493,
	"learning_rate": 1e-06,
	"loss": 0.0475,
	"num_tokens": 2305644.0,
	"reward": 0.5101972222328186,
	"reward_std": 0.19489067792892456,
	"step": 130
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 328.0,
	"completions/max_terminated_length": 328.0,
	"completions/mean_length": 281.1666666666667,
	"completions/mean_terminated_length": 306.72727272727275,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 253.0,
	"epoch": 0.262,
	"format_failures": 1.0,
	"grad_norm": 1.5526983737945557,
	"kl": 0.06795010529458523,
	"learning_rate": 1e-06,
	"loss": -0.0019,
	"num_tokens": 2319192.0,
	"reward": 0.75,
	"reward_std": 0.3217690885066986,
	"step": 131
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 183.0,
	"completions/max_terminated_length": 183.0,
	"completions/mean_length": 162.83333333333334,
	"completions/mean_terminated_length": 177.63636363636363,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 175.0,
	"epoch": 0.264,
	"format_failures": 0.0,
	"grad_norm": 2.740288257598877,
	"kl": 0.7462278339080513,
	"learning_rate": 1e-06,
	"loss": 0.0045,
	"num_tokens": 2329488.0,
	"reward": 0.9791666865348816,
	"reward_std": 0.07216878235340118,
	"step": 132
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 532.0,
	"completions/max_terminated_length": 532.0,
	"completions/mean_length": 315.5,
	"completions/mean_terminated_length": 344.1818181818182,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 233.0,
	"epoch": 0.266,
	"format_failures": 0.0,
	"grad_norm": 0.11069951951503754,
	"kl": 0.01982728624716401,
	"learning_rate": 1e-06,
	"loss": -0.034,
	"num_tokens": 2358276.0,
	"reward": 0.5852844715118408,
	"reward_std": 0.12080158293247223,
	"step": 133
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 269.0,
	"completions/max_terminated_length": 269.0,
	"completions/mean_length": 161.16666666666666,
	"completions/mean_terminated_length": 175.8181818181818,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 104.0,
	"epoch": 0.268,
	"format_failures": 0.0,
	"grad_norm": 0.8276861906051636,
	"kl": 0.09472572058439255,
	"learning_rate": 1e-06,
	"loss": 0.0149,
	"num_tokens": 2368980.0,
	"reward": 0.6518849730491638,
	"reward_std": 0.2886110842227936,
	"step": 134
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 325.0,
	"completions/max_terminated_length": 325.0,
	"completions/mean_length": 227.08333333333334,
	"completions/mean_terminated_length": 247.72727272727272,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 136.0,
	"epoch": 0.27,
	"format_failures": 0.0,
	"grad_norm": 0.5550012588500977,
	"kl": 0.02074157353490591,
	"learning_rate": 1e-06,
	"loss": -0.0841,
	"num_tokens": 2379828.0,
	"reward": 0.6243386268615723,
	"reward_std": 0.3905191719532013,
	"step": 135
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 232.0,
	"completions/max_terminated_length": 232.0,
	"completions/mean_length": 210.0,
	"completions/mean_terminated_length": 229.0909090909091,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 228.0,
	"epoch": 0.272,
	"format_failures": 0.0,
	"grad_norm": 1.019722580909729,
	"kl": 0.13905800506472588,
	"learning_rate": 1e-06,
	"loss": 0.0123,
	"num_tokens": 2394360.0,
	"reward": 0.949999988079071,
	"reward_std": 0.17320507764816284,
	"step": 136
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 348.0,
	"completions/max_terminated_length": 348.0,
	"completions/mean_length": 215.0,
	"completions/mean_terminated_length": 234.54545454545453,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 145.0,
	"epoch": 0.274,
	"format_failures": 0.0,
	"grad_norm": 0.32402342557907104,
	"kl": 0.014864406548440456,
	"learning_rate": 1e-06,
	"loss": -0.0012,
	"num_tokens": 2406096.0,
	"reward": 0.6149470806121826,
	"reward_std": 0.19829140603542328,
	"step": 137
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 323.0,
	"completions/max_terminated_length": 323.0,
	"completions/mean_length": 136.58333333333334,
	"completions/mean_terminated_length": 149.0,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 58.0,
	"epoch": 0.276,
	"format_failures": 0.0,
	"grad_norm": 1.005679965019226,
	"kl": 0.023909798823297024,
	"learning_rate": 1e-06,
	"loss": -0.0608,
	"num_tokens": 2423568.0,
	"reward": 0.5231481790542603,
	"reward_std": 0.3425479829311371,
	"step": 138
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 241.0,
	"completions/max_terminated_length": 241.0,
	"completions/mean_length": 165.58333333333334,
	"completions/mean_terminated_length": 180.63636363636363,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 75.0,
	"epoch": 0.278,
	"format_failures": 0.0,
	"grad_norm": 3.9986395835876465,
	"kl": 2.975656658411026,
	"learning_rate": 1e-06,
	"loss": -0.0003,
	"num_tokens": 2437320.0,
	"reward": 0.7277778387069702,
	"reward_std": 0.4172621965408325,
	"step": 139
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.33333333333333337,
	"completions/max_length": 55.0,
	"completions/max_terminated_length": 55.0,
	"completions/mean_length": 36.5,
	"completions/mean_terminated_length": 54.75,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 53.0,
	"epoch": 0.28,
	"format_failures": 0.0,
	"grad_norm": 0.04945458099246025,
	"kl": 0.008955058641731739,
	"learning_rate": 1e-06,
	"loss": 0.0002,
	"num_tokens": 2449116.0,
	"reward": 1.0,
	"reward_std": 0.0,
	"step": 140
	}
	],
	"logging_steps": 1,
	"max_steps": 1000,
	"num_input_tokens_seen": 2449116,
	"num_train_epochs": 2,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": false,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}