Upload folder using huggingface_hub

3f2216f verified 3 months ago

81.2 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.4,
	"eval_steps": 500,
	"global_step": 100,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 391.0,
	"completions/max_terminated_length": 391.0,
	"completions/mean_length": 202.91666666666666,
	"completions/mean_terminated_length": 221.36363636363637,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 11.0,
	"epoch": 0.004,
	"format_failures": 0.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 0.0,
	"loss": 0.0,
	"num_tokens": 18672.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 1
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 161.0,
	"completions/max_terminated_length": 161.0,
	"completions/mean_length": 92.83333333333333,
	"completions/mean_terminated_length": 101.27272727272727,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 13.0,
	"epoch": 0.008,
	"format_failures": 0.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 1e-06,
	"loss": 0.0,
	"num_tokens": 29988.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 2
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 151.0,
	"completions/max_terminated_length": 151.0,
	"completions/mean_length": 52.333333333333336,
	"completions/mean_terminated_length": 57.09090909090909,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 13.0,
	"epoch": 0.012,
	"format_failures": 0.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 1e-06,
	"loss": 0.0,
	"num_tokens": 39576.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 3
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 326.0,
	"completions/max_terminated_length": 326.0,
	"completions/mean_length": 161.75,
	"completions/mean_terminated_length": 176.45454545454547,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 18.0,
	"epoch": 0.016,
	"format_failures": 0.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 1e-06,
	"loss": 0.0,
	"num_tokens": 53340.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 4
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 120.0,
	"completions/max_terminated_length": 120.0,
	"completions/mean_length": 75.08333333333333,
	"completions/mean_terminated_length": 81.9090909090909,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 11.0,
	"epoch": 0.02,
	"format_failures": 0.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 1e-06,
	"loss": 0.0,
	"num_tokens": 60420.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 5
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 374.0,
	"completions/max_terminated_length": 374.0,
	"completions/mean_length": 178.0,
	"completions/mean_terminated_length": 194.1818181818182,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 11.0,
	"epoch": 0.024,
	"format_failures": 0.0,
	"grad_norm": 0.0,
	"kl": 0.0,
	"learning_rate": 1e-06,
	"loss": 0.0,
	"num_tokens": 75348.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 6
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 146.0,
	"completions/max_terminated_length": 146.0,
	"completions/mean_length": 99.08333333333333,
	"completions/mean_terminated_length": 108.0909090909091,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 94.0,
	"epoch": 0.028,
	"format_failures": 0.0,
	"grad_norm": 1.6362388134002686,
	"kl": 0.0,
	"learning_rate": 1e-06,
	"loss": 0.0806,
	"num_tokens": 83868.0,
	"reward": 0.5833333730697632,
	"reward_std": 0.5149286389350891,
	"step": 7
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 358.0,
	"completions/max_terminated_length": 358.0,
	"completions/mean_length": 190.0,
	"completions/mean_terminated_length": 207.27272727272728,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 124.0,
	"epoch": 0.032,
	"format_failures": 0.0,
	"grad_norm": 0.0022762538865208626,
	"kl": 0.0005378490750445053,
	"learning_rate": 1e-06,
	"loss": 0.0,
	"num_tokens": 97464.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 8
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 245.0,
	"completions/max_terminated_length": 245.0,
	"completions/mean_length": 141.16666666666666,
	"completions/mean_terminated_length": 154.0,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 13.0,
	"epoch": 0.036,
	"format_failures": 0.0,
	"grad_norm": 0.007215190213173628,
	"kl": 0.0019240143010392785,
	"learning_rate": 1e-06,
	"loss": 0.0,
	"num_tokens": 108636.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 9
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 266.0,
	"completions/max_terminated_length": 266.0,
	"completions/mean_length": 178.41666666666666,
	"completions/mean_terminated_length": 194.63636363636363,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 142.0,
	"epoch": 0.04,
	"format_failures": 0.0,
	"grad_norm": 0.7695807218551636,
	"kl": 0.014113324228674173,
	"learning_rate": 1e-06,
	"loss": -0.002,
	"num_tokens": 116256.0,
	"reward": 0.1666666716337204,
	"reward_std": 0.38924944400787354,
	"step": 10
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 135.0,
	"completions/max_terminated_length": 135.0,
	"completions/mean_length": 84.25,
	"completions/mean_terminated_length": 91.9090909090909,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 10.0,
	"epoch": 0.044,
	"format_failures": 0.0,
	"grad_norm": 1.026847243309021,
	"kl": 0.013075211551040411,
	"learning_rate": 1e-06,
	"loss": -0.0413,
	"num_tokens": 124440.0,
	"reward": 0.1666666716337204,
	"reward_std": 0.38924944400787354,
	"step": 11
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 199.0,
	"completions/max_terminated_length": 199.0,
	"completions/mean_length": 99.25,
	"completions/mean_terminated_length": 108.27272727272727,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 10.0,
	"epoch": 0.048,
	"format_failures": 1.0,
	"grad_norm": 0.011818243190646172,
	"kl": 0.003624255710747093,
	"learning_rate": 1e-06,
	"loss": 0.0,
	"num_tokens": 132732.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 12
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 577.0,
	"completions/max_terminated_length": 577.0,
	"completions/mean_length": 246.08333333333334,
	"completions/mean_terminated_length": 268.45454545454544,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 10.0,
	"epoch": 0.052,
	"format_failures": 0.0,
	"grad_norm": 0.022241737693548203,
	"kl": 0.00960063119418919,
	"learning_rate": 1e-06,
	"loss": 0.0,
	"num_tokens": 152424.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 13
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 344.0,
	"completions/max_terminated_length": 344.0,
	"completions/mean_length": 173.0,
	"completions/mean_terminated_length": 188.72727272727272,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 117.0,
	"epoch": 0.056,
	"format_failures": 0.0,
	"grad_norm": 0.036054644733667374,
	"kl": 0.01761903613805771,
	"learning_rate": 1e-06,
	"loss": 0.0001,
	"num_tokens": 162636.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 14
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 402.0,
	"completions/max_terminated_length": 402.0,
	"completions/mean_length": 268.1666666666667,
	"completions/mean_terminated_length": 292.54545454545456,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 102.0,
	"epoch": 0.06,
	"format_failures": 0.0,
	"grad_norm": 0.00860360637307167,
	"kl": 0.005409976467490196,
	"learning_rate": 1e-06,
	"loss": 0.0,
	"num_tokens": 176904.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 15
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 127.0,
	"completions/max_terminated_length": 127.0,
	"completions/mean_length": 72.16666666666667,
	"completions/mean_terminated_length": 78.72727272727273,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 10.0,
	"epoch": 0.064,
	"format_failures": 0.0,
	"grad_norm": 0.8470466136932373,
	"kl": 0.09470756724476814,
	"learning_rate": 1e-06,
	"loss": 0.0173,
	"num_tokens": 186564.0,
	"reward": 0.0833333358168602,
	"reward_std": 0.28867512941360474,
	"step": 16
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 245.0,
	"completions/max_terminated_length": 245.0,
	"completions/mean_length": 118.5,
	"completions/mean_terminated_length": 129.27272727272728,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 34.0,
	"epoch": 0.068,
	"format_failures": 0.0,
	"grad_norm": 0.10086339712142944,
	"kl": 0.04859759844839573,
	"learning_rate": 1e-06,
	"loss": 0.0003,
	"num_tokens": 197484.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 17
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 88.0,
	"completions/max_terminated_length": 88.0,
	"completions/mean_length": 57.833333333333336,
	"completions/mean_terminated_length": 63.09090909090909,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 12.0,
	"epoch": 0.072,
	"format_failures": 0.0,
	"grad_norm": 1.4592796564102173,
	"kl": 0.010172125417739153,
	"learning_rate": 1e-06,
	"loss": 0.0087,
	"num_tokens": 207252.0,
	"reward": 0.0833333358168602,
	"reward_std": 0.28867512941360474,
	"step": 18
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 57.0,
	"completions/max_terminated_length": 57.0,
	"completions/mean_length": 32.583333333333336,
	"completions/mean_terminated_length": 35.54545454545455,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 10.0,
	"epoch": 0.076,
	"format_failures": 0.0,
	"grad_norm": 2.4069900512695312,
	"kl": 0.025834742933511734,
	"learning_rate": 1e-06,
	"loss": -0.0695,
	"num_tokens": 214320.0,
	"reward": 0.6666666865348816,
	"reward_std": 0.4923659861087799,
	"step": 19
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 386.0,
	"completions/max_terminated_length": 386.0,
	"completions/mean_length": 192.41666666666666,
	"completions/mean_terminated_length": 209.9090909090909,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 32.0,
	"epoch": 0.08,
	"format_failures": 0.0,
	"grad_norm": 0.10245665162801743,
	"kl": 0.043199990526773036,
	"learning_rate": 1e-06,
	"loss": 0.0002,
	"num_tokens": 228996.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 20
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.16666666666666663,
	"completions/max_length": 88.0,
	"completions/max_terminated_length": 88.0,
	"completions/mean_length": 67.91666666666667,
	"completions/mean_terminated_length": 81.5,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 74.0,
	"epoch": 0.084,
	"format_failures": 1.0,
	"grad_norm": 1.388899326324463,
	"kl": 0.07192051783204079,
	"learning_rate": 1e-06,
	"loss": -0.0112,
	"num_tokens": 238104.0,
	"reward": 0.75,
	"reward_std": 0.45226702094078064,
	"step": 21
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 73.0,
	"completions/max_terminated_length": 73.0,
	"completions/mean_length": 43.583333333333336,
	"completions/mean_terminated_length": 47.54545454545455,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 10.0,
	"epoch": 0.088,
	"format_failures": 0.0,
	"grad_norm": 3.2448337078094482,
	"kl": 0.0771165993064642,
	"learning_rate": 1e-06,
	"loss": 0.0077,
	"num_tokens": 245280.0,
	"reward": 0.5,
	"reward_std": 0.5222329497337341,
	"step": 22
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 335.0,
	"completions/max_terminated_length": 335.0,
	"completions/mean_length": 167.83333333333334,
	"completions/mean_terminated_length": 183.0909090909091,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 13.0,
	"epoch": 0.092,
	"format_failures": 0.0,
	"grad_norm": 1.0195705890655518,
	"kl": 0.211347796022892,
	"learning_rate": 1e-06,
	"loss": 0.0009,
	"num_tokens": 257148.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 23
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 350.0,
	"completions/max_terminated_length": 350.0,
	"completions/mean_length": 201.41666666666666,
	"completions/mean_terminated_length": 219.72727272727272,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 101.0,
	"epoch": 0.096,
	"format_failures": 0.0,
	"grad_norm": 0.20492610335350037,
	"kl": 0.08658944815397263,
	"learning_rate": 1e-06,
	"loss": 0.0003,
	"num_tokens": 266304.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 24
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 312.0,
	"completions/max_terminated_length": 312.0,
	"completions/mean_length": 170.0,
	"completions/mean_terminated_length": 185.45454545454547,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 10.0,
	"epoch": 0.1,
	"format_failures": 0.0,
	"grad_norm": 0.0755978599190712,
	"kl": 0.040397679433226585,
	"learning_rate": 1e-06,
	"loss": 0.0002,
	"num_tokens": 278760.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 25
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 411.0,
	"completions/max_terminated_length": 411.0,
	"completions/mean_length": 173.83333333333334,
	"completions/mean_terminated_length": 189.63636363636363,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 10.0,
	"epoch": 0.104,
	"format_failures": 0.0,
	"grad_norm": 0.04659981280565262,
	"kl": 0.023209942039102316,
	"learning_rate": 1e-06,
	"loss": 0.0001,
	"num_tokens": 293628.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 26
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 92.0,
	"completions/max_terminated_length": 92.0,
	"completions/mean_length": 55.25,
	"completions/mean_terminated_length": 60.27272727272727,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 43.0,
	"epoch": 0.108,
	"format_failures": 0.0,
	"grad_norm": 21.968534469604492,
	"kl": 5.299874305725098,
	"learning_rate": 1e-06,
	"loss": 0.1192,
	"num_tokens": 301488.0,
	"reward": 0.5833333730697632,
	"reward_std": 0.5149286389350891,
	"step": 27
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 358.0,
	"completions/max_terminated_length": 358.0,
	"completions/mean_length": 165.41666666666666,
	"completions/mean_terminated_length": 180.45454545454547,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 11.0,
	"epoch": 0.112,
	"format_failures": 0.0,
	"grad_norm": 0.014507513493299484,
	"kl": 0.01523882569745183,
	"learning_rate": 1e-06,
	"loss": 0.0001,
	"num_tokens": 314748.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 28
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 289.0,
	"completions/max_terminated_length": 289.0,
	"completions/mean_length": 193.33333333333334,
	"completions/mean_terminated_length": 210.9090909090909,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 119.0,
	"epoch": 0.116,
	"format_failures": 0.0,
	"grad_norm": 0.010872351005673409,
	"kl": 0.010655859019607306,
	"learning_rate": 1e-06,
	"loss": 0.0001,
	"num_tokens": 328692.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 29
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 271.0,
	"completions/max_terminated_length": 271.0,
	"completions/mean_length": 167.16666666666666,
	"completions/mean_terminated_length": 182.36363636363637,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 8.0,
	"epoch": 0.12,
	"format_failures": 0.0,
	"grad_norm": 1.0025266408920288,
	"kl": 0.025600655004382133,
	"learning_rate": 1e-06,
	"loss": -0.0472,
	"num_tokens": 340752.0,
	"reward": 0.3333333432674408,
	"reward_std": 0.4923659861087799,
	"step": 30
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 162.0,
	"completions/max_terminated_length": 162.0,
	"completions/mean_length": 79.33333333333333,
	"completions/mean_terminated_length": 86.54545454545455,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 17.0,
	"epoch": 0.124,
	"format_failures": 0.0,
	"grad_norm": 0.01500674244016409,
	"kl": 0.006932976422831416,
	"learning_rate": 1e-06,
	"loss": 0.0,
	"num_tokens": 366936.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 31
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 153.0,
	"completions/max_terminated_length": 153.0,
	"completions/mean_length": 100.25,
	"completions/mean_terminated_length": 109.36363636363636,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 13.0,
	"epoch": 0.128,
	"format_failures": 0.0,
	"grad_norm": 0.572136640548706,
	"kl": 0.016836593858897686,
	"learning_rate": 1e-06,
	"loss": -0.0253,
	"num_tokens": 375948.0,
	"reward": 0.0833333358168602,
	"reward_std": 0.28867512941360474,
	"step": 32
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 91.0,
	"completions/max_terminated_length": 91.0,
	"completions/mean_length": 52.75,
	"completions/mean_terminated_length": 57.54545454545455,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 11.0,
	"epoch": 0.132,
	"format_failures": 0.0,
	"grad_norm": 2.6049137115478516,
	"kl": 0.08474422618746758,
	"learning_rate": 1e-06,
	"loss": -0.0534,
	"num_tokens": 382608.0,
	"reward": 0.3333333432674408,
	"reward_std": 0.4923659861087799,
	"step": 33
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 98.0,
	"completions/max_terminated_length": 98.0,
	"completions/mean_length": 61.416666666666664,
	"completions/mean_terminated_length": 67.0,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 13.0,
	"epoch": 0.136,
	"format_failures": 0.0,
	"grad_norm": 1.9431159496307373,
	"kl": 0.04839755780994892,
	"learning_rate": 1e-06,
	"loss": -0.1095,
	"num_tokens": 389208.0,
	"reward": 0.1666666716337204,
	"reward_std": 0.38924944400787354,
	"step": 34
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 151.0,
	"completions/max_terminated_length": 151.0,
	"completions/mean_length": 118.91666666666667,
	"completions/mean_terminated_length": 129.72727272727272,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 105.0,
	"epoch": 0.14,
	"format_failures": 0.0,
	"grad_norm": 0.03593799099326134,
	"kl": 0.03462314326316118,
	"learning_rate": 1e-06,
	"loss": 0.0002,
	"num_tokens": 396696.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 35
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 371.0,
	"completions/max_terminated_length": 371.0,
	"completions/mean_length": 245.58333333333334,
	"completions/mean_terminated_length": 267.90909090909093,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 183.0,
	"epoch": 0.144,
	"format_failures": 0.0,
	"grad_norm": 0.025885488837957382,
	"kl": 0.02637413516640663,
	"learning_rate": 1e-06,
	"loss": 0.0001,
	"num_tokens": 411372.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 36
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 296.0,
	"completions/max_terminated_length": 296.0,
	"completions/mean_length": 179.41666666666666,
	"completions/mean_terminated_length": 195.72727272727272,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 129.0,
	"epoch": 0.148,
	"format_failures": 0.0,
	"grad_norm": 0.11734314262866974,
	"kl": 0.0526489345356822,
	"learning_rate": 1e-06,
	"loss": 0.0003,
	"num_tokens": 424404.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 37
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 630.0,
	"completions/max_terminated_length": 630.0,
	"completions/mean_length": 332.0833333333333,
	"completions/mean_terminated_length": 362.27272727272725,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 11.0,
	"epoch": 0.152,
	"format_failures": 1.0,
	"grad_norm": 0.5079672932624817,
	"kl": 0.052276700269430876,
	"learning_rate": 1e-06,
	"loss": 0.0148,
	"num_tokens": 444576.0,
	"reward": 0.0833333358168602,
	"reward_std": 0.28867512941360474,
	"step": 38
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 148.0,
	"completions/max_terminated_length": 148.0,
	"completions/mean_length": 67.25,
	"completions/mean_terminated_length": 73.36363636363636,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 8.0,
	"epoch": 0.156,
	"format_failures": 0.0,
	"grad_norm": 2.6541359424591064,
	"kl": 0.5338308056816459,
	"learning_rate": 1e-06,
	"loss": -0.1217,
	"num_tokens": 453192.0,
	"reward": 0.25,
	"reward_std": 0.45226702094078064,
	"step": 39
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 245.0,
	"completions/max_terminated_length": 245.0,
	"completions/mean_length": 139.91666666666666,
	"completions/mean_terminated_length": 152.63636363636363,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 10.0,
	"epoch": 0.16,
	"format_failures": 0.0,
	"grad_norm": 0.3757868707180023,
	"kl": 0.13857688568532467,
	"learning_rate": 1e-06,
	"loss": 0.0009,
	"num_tokens": 467928.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 40
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 84.0,
	"completions/max_terminated_length": 84.0,
	"completions/mean_length": 48.0,
	"completions/mean_terminated_length": 52.36363636363637,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 10.0,
	"epoch": 0.164,
	"format_failures": 1.0,
	"grad_norm": 4.323275566101074,
	"kl": 0.21433213353157043,
	"learning_rate": 1e-06,
	"loss": -0.0993,
	"num_tokens": 473472.0,
	"reward": 0.25,
	"reward_std": 0.45226702094078064,
	"step": 41
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 311.0,
	"completions/max_terminated_length": 311.0,
	"completions/mean_length": 109.58333333333333,
	"completions/mean_terminated_length": 119.54545454545455,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 10.0,
	"epoch": 0.168,
	"format_failures": 0.0,
	"grad_norm": 0.22781899571418762,
	"kl": 0.07318945415318012,
	"learning_rate": 1e-06,
	"loss": 0.0006,
	"num_tokens": 488148.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 42
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 49.0,
	"completions/max_terminated_length": 49.0,
	"completions/mean_length": 31.166666666666668,
	"completions/mean_terminated_length": 34.0,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 10.0,
	"epoch": 0.172,
	"format_failures": 0.0,
	"grad_norm": 2.492840051651001,
	"kl": 0.224076546728611,
	"learning_rate": 1e-06,
	"loss": -0.0283,
	"num_tokens": 492624.0,
	"reward": 0.25,
	"reward_std": 0.45226702094078064,
	"step": 43
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 66.0,
	"completions/max_terminated_length": 66.0,
	"completions/mean_length": 52.25,
	"completions/mean_terminated_length": 57.0,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 32.0,
	"epoch": 0.176,
	"format_failures": 0.0,
	"grad_norm": 3.037781000137329,
	"kl": 0.2150058075785637,
	"learning_rate": 1e-06,
	"loss": -0.013,
	"num_tokens": 499752.0,
	"reward": 0.6666666865348816,
	"reward_std": 0.4923659861087799,
	"step": 44
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 144.0,
	"completions/max_terminated_length": 144.0,
	"completions/mean_length": 83.0,
	"completions/mean_terminated_length": 90.54545454545455,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 11.0,
	"epoch": 0.18,
	"format_failures": 0.0,
	"grad_norm": 2.3224222660064697,
	"kl": 0.36255764216184616,
	"learning_rate": 1e-06,
	"loss": -0.0749,
	"num_tokens": 508428.0,
	"reward": 0.0833333358168602,
	"reward_std": 0.28867512941360474,
	"step": 45
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 160.0,
	"completions/max_terminated_length": 160.0,
	"completions/mean_length": 119.0,
	"completions/mean_terminated_length": 129.8181818181818,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 106.0,
	"epoch": 0.184,
	"format_failures": 0.0,
	"grad_norm": 1.5437301397323608,
	"kl": 0.06716796010732651,
	"learning_rate": 1e-06,
	"loss": 0.0526,
	"num_tokens": 517416.0,
	"reward": 0.75,
	"reward_std": 0.45226702094078064,
	"step": 46
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 162.0,
	"completions/max_terminated_length": 162.0,
	"completions/mean_length": 86.66666666666667,
	"completions/mean_terminated_length": 94.54545454545455,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 11.0,
	"epoch": 0.188,
	"format_failures": 0.0,
	"grad_norm": 1.92403244972229,
	"kl": 0.04993921332061291,
	"learning_rate": 1e-06,
	"loss": -0.0667,
	"num_tokens": 525384.0,
	"reward": 0.25,
	"reward_std": 0.45226702094078064,
	"step": 47
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 607.0,
	"completions/max_terminated_length": 607.0,
	"completions/mean_length": 263.0833333333333,
	"completions/mean_terminated_length": 287.0,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 10.0,
	"epoch": 0.192,
	"format_failures": 0.0,
	"grad_norm": 0.002583070658147335,
	"kl": 0.0069114591460675,
	"learning_rate": 1e-06,
	"loss": 0.0,
	"num_tokens": 560328.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 48
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 337.0,
	"completions/max_terminated_length": 337.0,
	"completions/mean_length": 178.16666666666666,
	"completions/mean_terminated_length": 194.36363636363637,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 9.0,
	"epoch": 0.196,
	"format_failures": 0.0,
	"grad_norm": 0.055018555372953415,
	"kl": 0.04814303293824196,
	"learning_rate": 1e-06,
	"loss": 0.0002,
	"num_tokens": 573552.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 49
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 205.0,
	"completions/max_terminated_length": 205.0,
	"completions/mean_length": 104.25,
	"completions/mean_terminated_length": 113.72727272727273,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 12.0,
	"epoch": 0.2,
	"format_failures": 0.0,
	"grad_norm": 0.10304596275091171,
	"kl": 0.0782565288245678,
	"learning_rate": 1e-06,
	"loss": 0.0005,
	"num_tokens": 583980.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 50
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 529.0,
	"completions/max_terminated_length": 529.0,
	"completions/mean_length": 171.25,
	"completions/mean_terminated_length": 186.8181818181818,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 8.0,
	"epoch": 0.204,
	"format_failures": 0.0,
	"grad_norm": 0.10456845909357071,
	"kl": 0.05266672745347023,
	"learning_rate": 1e-06,
	"loss": 0.0004,
	"num_tokens": 606264.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 51
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 142.0,
	"completions/max_terminated_length": 142.0,
	"completions/mean_length": 86.0,
	"completions/mean_terminated_length": 93.81818181818181,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 11.0,
	"epoch": 0.208,
	"format_failures": 0.0,
	"grad_norm": 2.117820978164673,
	"kl": 0.12709446623921394,
	"learning_rate": 1e-06,
	"loss": -0.0977,
	"num_tokens": 616176.0,
	"reward": 0.25,
	"reward_std": 0.45226702094078064,
	"step": 52
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 169.0,
	"completions/max_terminated_length": 169.0,
	"completions/mean_length": 67.66666666666667,
	"completions/mean_terminated_length": 73.81818181818181,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 26.0,
	"epoch": 0.212,
	"format_failures": 0.0,
	"grad_norm": 0.36178988218307495,
	"kl": 0.06635316368192434,
	"learning_rate": 1e-06,
	"loss": 0.0007,
	"num_tokens": 625992.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 53
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 292.0,
	"completions/max_terminated_length": 292.0,
	"completions/mean_length": 180.5,
	"completions/mean_terminated_length": 196.9090909090909,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 88.0,
	"epoch": 0.216,
	"format_failures": 0.0,
	"grad_norm": 5.520895957946777,
	"kl": 0.6420021317899227,
	"learning_rate": 1e-06,
	"loss": 0.0043,
	"num_tokens": 640824.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 54
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 81.0,
	"completions/max_terminated_length": 81.0,
	"completions/mean_length": 59.5,
	"completions/mean_terminated_length": 64.9090909090909,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 13.0,
	"epoch": 0.22,
	"format_failures": 0.0,
	"grad_norm": 9.40858268737793,
	"kl": 1.514443002641201,
	"learning_rate": 1e-06,
	"loss": -0.0487,
	"num_tokens": 649008.0,
	"reward": 0.5833333730697632,
	"reward_std": 0.5149286389350891,
	"step": 55
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 647.0,
	"completions/max_terminated_length": 647.0,
	"completions/mean_length": 265.25,
	"completions/mean_terminated_length": 289.3636363636364,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 13.0,
	"epoch": 0.224,
	"format_failures": 0.0,
	"grad_norm": 0.12246920168399811,
	"kl": 0.04888852685689926,
	"learning_rate": 1e-06,
	"loss": 0.0002,
	"num_tokens": 665112.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 56
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.16666666666666663,
	"completions/max_length": 90.0,
	"completions/max_terminated_length": 90.0,
	"completions/mean_length": 54.416666666666664,
	"completions/mean_terminated_length": 65.3,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 10.0,
	"epoch": 0.228,
	"format_failures": 0.0,
	"grad_norm": 0.4643149971961975,
	"kl": 0.2062125913798809,
	"learning_rate": 1e-06,
	"loss": 0.0018,
	"num_tokens": 671268.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 57
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 285.0,
	"completions/max_terminated_length": 285.0,
	"completions/mean_length": 138.83333333333334,
	"completions/mean_terminated_length": 151.45454545454547,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 11.0,
	"epoch": 0.232,
	"format_failures": 0.0,
	"grad_norm": 0.028489232063293457,
	"kl": 0.028692953288555145,
	"learning_rate": 1e-06,
	"loss": 0.0001,
	"num_tokens": 681648.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 58
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 189.0,
	"completions/max_terminated_length": 189.0,
	"completions/mean_length": 119.33333333333333,
	"completions/mean_terminated_length": 130.1818181818182,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 13.0,
	"epoch": 0.236,
	"format_failures": 1.0,
	"grad_norm": 0.2943709194660187,
	"kl": 0.021217118948698044,
	"learning_rate": 1e-06,
	"loss": 0.0001,
	"num_tokens": 692148.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 59
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 123.0,
	"completions/max_terminated_length": 123.0,
	"completions/mean_length": 65.25,
	"completions/mean_terminated_length": 71.18181818181819,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 12.0,
	"epoch": 0.24,
	"format_failures": 1.0,
	"grad_norm": 0.4704815149307251,
	"kl": 0.1355944722890854,
	"learning_rate": 1e-06,
	"loss": 0.0016,
	"num_tokens": 705504.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 60
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 209.0,
	"completions/max_terminated_length": 209.0,
	"completions/mean_length": 106.75,
	"completions/mean_terminated_length": 116.45454545454545,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 61.0,
	"epoch": 0.244,
	"format_failures": 0.0,
	"grad_norm": 0.8021370768547058,
	"kl": 0.06047418341040611,
	"learning_rate": 1e-06,
	"loss": 0.0229,
	"num_tokens": 712920.0,
	"reward": 0.0833333358168602,
	"reward_std": 0.28867512941360474,
	"step": 61
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 356.0,
	"completions/max_terminated_length": 356.0,
	"completions/mean_length": 201.83333333333334,
	"completions/mean_terminated_length": 220.1818181818182,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 10.0,
	"epoch": 0.248,
	"format_failures": 0.0,
	"grad_norm": 0.0354565754532814,
	"kl": 0.051246967166662216,
	"learning_rate": 1e-06,
	"loss": 0.0002,
	"num_tokens": 725280.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 62
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 260.0,
	"completions/max_terminated_length": 260.0,
	"completions/mean_length": 129.0,
	"completions/mean_terminated_length": 140.72727272727272,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 11.0,
	"epoch": 0.252,
	"format_failures": 0.0,
	"grad_norm": 0.838399350643158,
	"kl": 0.03389432094991207,
	"learning_rate": 1e-06,
	"loss": 0.0256,
	"num_tokens": 733980.0,
	"reward": 0.0833333358168602,
	"reward_std": 0.28867512941360474,
	"step": 63
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 227.0,
	"completions/max_terminated_length": 227.0,
	"completions/mean_length": 121.08333333333333,
	"completions/mean_terminated_length": 132.0909090909091,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 11.0,
	"epoch": 0.256,
	"format_failures": 0.0,
	"grad_norm": 0.008542679250240326,
	"kl": 0.02384038269519806,
	"learning_rate": 1e-06,
	"loss": 0.0,
	"num_tokens": 763224.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 64
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 302.0,
	"completions/max_terminated_length": 302.0,
	"completions/mean_length": 180.33333333333334,
	"completions/mean_terminated_length": 196.72727272727272,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 36.0,
	"epoch": 0.26,
	"format_failures": 0.0,
	"grad_norm": 0.01127433218061924,
	"kl": 0.013883833773434162,
	"learning_rate": 1e-06,
	"loss": 0.0001,
	"num_tokens": 777984.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 65
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 141.0,
	"completions/max_terminated_length": 141.0,
	"completions/mean_length": 75.83333333333333,
	"completions/mean_terminated_length": 82.72727272727273,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 21.0,
	"epoch": 0.264,
	"format_failures": 0.0,
	"grad_norm": 0.09972423315048218,
	"kl": 0.06396586634218693,
	"learning_rate": 1e-06,
	"loss": 0.0005,
	"num_tokens": 785844.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 66
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 222.0,
	"completions/max_terminated_length": 222.0,
	"completions/mean_length": 140.41666666666666,
	"completions/mean_terminated_length": 153.1818181818182,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 13.0,
	"epoch": 0.268,
	"format_failures": 0.0,
	"grad_norm": 0.03430556878447533,
	"kl": 0.03857766184955835,
	"learning_rate": 1e-06,
	"loss": 0.0002,
	"num_tokens": 796632.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 67
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 209.0,
	"completions/max_terminated_length": 209.0,
	"completions/mean_length": 115.08333333333333,
	"completions/mean_terminated_length": 125.54545454545455,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 14.0,
	"epoch": 0.272,
	"format_failures": 0.0,
	"grad_norm": 1.6054855585098267,
	"kl": 0.020691730547696352,
	"learning_rate": 1e-06,
	"loss": 0.0511,
	"num_tokens": 807576.0,
	"reward": 0.4166666865348816,
	"reward_std": 0.5149286389350891,
	"step": 68
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 106.0,
	"completions/max_terminated_length": 106.0,
	"completions/mean_length": 80.5,
	"completions/mean_terminated_length": 87.81818181818181,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 64.0,
	"epoch": 0.276,
	"format_failures": 0.0,
	"grad_norm": 1.1459321975708008,
	"kl": 0.017325148917734623,
	"learning_rate": 1e-06,
	"loss": 0.0067,
	"num_tokens": 814644.0,
	"reward": 0.0833333358168602,
	"reward_std": 0.28867512941360474,
	"step": 69
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 304.0,
	"completions/max_terminated_length": 304.0,
	"completions/mean_length": 175.58333333333334,
	"completions/mean_terminated_length": 191.54545454545453,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 17.0,
	"epoch": 0.28,
	"format_failures": 0.0,
	"grad_norm": 0.008818876929581165,
	"kl": 0.012372600380331278,
	"learning_rate": 1e-06,
	"loss": 0.0001,
	"num_tokens": 826932.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 70
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 292.0,
	"completions/max_terminated_length": 292.0,
	"completions/mean_length": 195.0,
	"completions/mean_terminated_length": 212.72727272727272,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 115.0,
	"epoch": 0.284,
	"format_failures": 0.0,
	"grad_norm": 0.014721119776368141,
	"kl": 0.012880454771220684,
	"learning_rate": 1e-06,
	"loss": 0.0001,
	"num_tokens": 842268.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 71
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 145.0,
	"completions/max_terminated_length": 145.0,
	"completions/mean_length": 94.83333333333333,
	"completions/mean_terminated_length": 103.45454545454545,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 75.0,
	"epoch": 0.288,
	"format_failures": 0.0,
	"grad_norm": 0.9220354557037354,
	"kl": 0.046924193389713764,
	"learning_rate": 1e-06,
	"loss": 0.0118,
	"num_tokens": 849612.0,
	"reward": 0.0833333358168602,
	"reward_std": 0.28867512941360474,
	"step": 72
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 262.0,
	"completions/max_terminated_length": 262.0,
	"completions/mean_length": 149.5,
	"completions/mean_terminated_length": 163.0909090909091,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 12.0,
	"epoch": 0.292,
	"format_failures": 0.0,
	"grad_norm": 0.0295345988124609,
	"kl": 0.03905524965375662,
	"learning_rate": 1e-06,
	"loss": 0.0002,
	"num_tokens": 859632.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 73
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 220.0,
	"completions/max_terminated_length": 220.0,
	"completions/mean_length": 158.41666666666666,
	"completions/mean_terminated_length": 172.8181818181818,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 24.0,
	"epoch": 0.296,
	"format_failures": 0.0,
	"grad_norm": 0.11439846456050873,
	"kl": 0.07962214201688766,
	"learning_rate": 1e-06,
	"loss": 0.0004,
	"num_tokens": 870756.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 74
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 223.0,
	"completions/max_terminated_length": 223.0,
	"completions/mean_length": 110.08333333333333,
	"completions/mean_terminated_length": 120.0909090909091,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 11.0,
	"epoch": 0.3,
	"format_failures": 0.0,
	"grad_norm": 0.04706709831953049,
	"kl": 0.03136777225881815,
	"learning_rate": 1e-06,
	"loss": 0.0003,
	"num_tokens": 887700.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 75
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 544.0,
	"completions/max_terminated_length": 544.0,
	"completions/mean_length": 219.58333333333334,
	"completions/mean_terminated_length": 239.54545454545453,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 8.0,
	"epoch": 0.304,
	"format_failures": 0.0,
	"grad_norm": 0.106910839676857,
	"kl": 0.16153255105018616,
	"learning_rate": 1e-06,
	"loss": 0.0004,
	"num_tokens": 899544.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 76
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 175.0,
	"completions/max_terminated_length": 175.0,
	"completions/mean_length": 118.66666666666667,
	"completions/mean_terminated_length": 129.45454545454547,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 48.0,
	"epoch": 0.308,
	"format_failures": 0.0,
	"grad_norm": 0.9582226276397705,
	"kl": 0.1435188725590706,
	"learning_rate": 1e-06,
	"loss": 0.0297,
	"num_tokens": 909816.0,
	"reward": 0.1666666716337204,
	"reward_std": 0.38924944400787354,
	"step": 77
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 200.0,
	"completions/max_terminated_length": 200.0,
	"completions/mean_length": 151.83333333333334,
	"completions/mean_terminated_length": 165.63636363636363,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 85.0,
	"epoch": 0.312,
	"format_failures": 0.0,
	"grad_norm": 0.6430385112762451,
	"kl": 0.021885435096919537,
	"learning_rate": 1e-06,
	"loss": -0.0413,
	"num_tokens": 919620.0,
	"reward": 0.0833333358168602,
	"reward_std": 0.28867512941360474,
	"step": 78
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 127.0,
	"completions/max_terminated_length": 127.0,
	"completions/mean_length": 87.66666666666667,
	"completions/mean_terminated_length": 95.63636363636364,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 72.0,
	"epoch": 0.316,
	"format_failures": 0.0,
	"grad_norm": 0.1316368579864502,
	"kl": 0.052431097254157066,
	"learning_rate": 1e-06,
	"loss": 0.0005,
	"num_tokens": 930468.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 79
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 357.0,
	"completions/max_terminated_length": 357.0,
	"completions/mean_length": 188.66666666666666,
	"completions/mean_terminated_length": 205.8181818181818,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 10.0,
	"epoch": 0.32,
	"format_failures": 0.0,
	"grad_norm": 0.24080750346183777,
	"kl": 0.25305451452732086,
	"learning_rate": 1e-06,
	"loss": 0.0008,
	"num_tokens": 947112.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 80
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 171.0,
	"completions/max_terminated_length": 171.0,
	"completions/mean_length": 130.75,
	"completions/mean_terminated_length": 142.63636363636363,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 77.0,
	"epoch": 0.324,
	"format_failures": 0.0,
	"grad_norm": 0.9585680961608887,
	"kl": 0.02085646940395236,
	"learning_rate": 1e-06,
	"loss": -0.0725,
	"num_tokens": 956448.0,
	"reward": 0.5,
	"reward_std": 0.5222329497337341,
	"step": 81
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 220.0,
	"completions/max_terminated_length": 220.0,
	"completions/mean_length": 119.25,
	"completions/mean_terminated_length": 130.0909090909091,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 11.0,
	"epoch": 0.328,
	"format_failures": 0.0,
	"grad_norm": 0.02760450914502144,
	"kl": 0.020923216827213764,
	"learning_rate": 1e-06,
	"loss": 0.0001,
	"num_tokens": 966324.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 82
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 476.0,
	"completions/max_terminated_length": 476.0,
	"completions/mean_length": 252.33333333333334,
	"completions/mean_terminated_length": 275.27272727272725,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 10.0,
	"epoch": 0.332,
	"format_failures": 1.0,
	"grad_norm": 0.011845018714666367,
	"kl": 0.017354148440063,
	"learning_rate": 1e-06,
	"loss": 0.0001,
	"num_tokens": 985296.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 83
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 234.0,
	"completions/max_terminated_length": 234.0,
	"completions/mean_length": 101.16666666666667,
	"completions/mean_terminated_length": 110.36363636363636,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 10.0,
	"epoch": 0.336,
	"format_failures": 1.0,
	"grad_norm": 0.02075113356113434,
	"kl": 0.013977942056953907,
	"learning_rate": 1e-06,
	"loss": 0.0001,
	"num_tokens": 998856.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 84
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 217.0,
	"completions/max_terminated_length": 217.0,
	"completions/mean_length": 156.0,
	"completions/mean_terminated_length": 170.1818181818182,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 44.0,
	"epoch": 0.34,
	"format_failures": 0.0,
	"grad_norm": 0.018603280186653137,
	"kl": 0.020112676545977592,
	"learning_rate": 1e-06,
	"loss": 0.0001,
	"num_tokens": 1008864.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 85
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 364.0,
	"completions/max_terminated_length": 364.0,
	"completions/mean_length": 223.66666666666666,
	"completions/mean_terminated_length": 244.0,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 20.0,
	"epoch": 0.344,
	"format_failures": 0.0,
	"grad_norm": 0.011895284056663513,
	"kl": 0.021254747174680233,
	"learning_rate": 1e-06,
	"loss": 0.0001,
	"num_tokens": 1022556.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 86
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 159.0,
	"completions/max_terminated_length": 159.0,
	"completions/mean_length": 117.66666666666667,
	"completions/mean_terminated_length": 128.36363636363637,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 112.0,
	"epoch": 0.348,
	"format_failures": 0.0,
	"grad_norm": 1.1451243162155151,
	"kl": 0.026615198701620102,
	"learning_rate": 1e-06,
	"loss": 0.0587,
	"num_tokens": 1032684.0,
	"reward": 0.4166666865348816,
	"reward_std": 0.5149286389350891,
	"step": 87
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 304.0,
	"completions/max_terminated_length": 304.0,
	"completions/mean_length": 142.25,
	"completions/mean_terminated_length": 155.1818181818182,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 12.0,
	"epoch": 0.352,
	"format_failures": 2.0,
	"grad_norm": 0.8502682447433472,
	"kl": 0.012907921802252531,
	"learning_rate": 1e-06,
	"loss": 0.079,
	"num_tokens": 1067328.0,
	"reward": 0.1666666716337204,
	"reward_std": 0.3892494738101959,
	"step": 88
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 177.0,
	"completions/max_terminated_length": 177.0,
	"completions/mean_length": 114.5,
	"completions/mean_terminated_length": 124.9090909090909,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 78.0,
	"epoch": 0.356,
	"format_failures": 0.0,
	"grad_norm": 0.7634170651435852,
	"kl": 0.08245750516653061,
	"learning_rate": 1e-06,
	"loss": 0.0177,
	"num_tokens": 1074756.0,
	"reward": 0.0833333358168602,
	"reward_std": 0.28867512941360474,
	"step": 89
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 141.0,
	"completions/max_terminated_length": 141.0,
	"completions/mean_length": 73.0,
	"completions/mean_terminated_length": 79.63636363636364,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 16.0,
	"epoch": 0.36,
	"format_failures": 0.0,
	"grad_norm": 0.750490665435791,
	"kl": 0.032081443816423416,
	"learning_rate": 1e-06,
	"loss": 0.0503,
	"num_tokens": 1083096.0,
	"reward": 0.0833333358168602,
	"reward_std": 0.28867512941360474,
	"step": 90
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 138.0,
	"completions/max_terminated_length": 138.0,
	"completions/mean_length": 53.666666666666664,
	"completions/mean_terminated_length": 58.54545454545455,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 11.0,
	"epoch": 0.364,
	"format_failures": 0.0,
	"grad_norm": 0.12016791850328445,
	"kl": 0.04432140104472637,
	"learning_rate": 1e-06,
	"loss": 0.0004,
	"num_tokens": 1090380.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 91
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 800.0,
	"completions/max_terminated_length": 800.0,
	"completions/mean_length": 397.5,
	"completions/mean_terminated_length": 433.6363636363636,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 14.0,
	"epoch": 0.368,
	"format_failures": 0.0,
	"grad_norm": 0.012203319929540157,
	"kl": 0.009247956797480583,
	"learning_rate": 1e-06,
	"loss": 0.0,
	"num_tokens": 1113504.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 92
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 261.0,
	"completions/max_terminated_length": 261.0,
	"completions/mean_length": 138.75,
	"completions/mean_terminated_length": 151.36363636363637,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 23.0,
	"epoch": 0.372,
	"format_failures": 0.0,
	"grad_norm": 0.03371990844607353,
	"kl": 0.029644143767654896,
	"learning_rate": 1e-06,
	"loss": 0.0002,
	"num_tokens": 1125492.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 93
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 89.0,
	"completions/max_terminated_length": 89.0,
	"completions/mean_length": 51.833333333333336,
	"completions/mean_terminated_length": 56.54545454545455,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 10.0,
	"epoch": 0.376,
	"format_failures": 0.0,
	"grad_norm": 2.027597427368164,
	"kl": 0.19823284726589918,
	"learning_rate": 1e-06,
	"loss": -0.0712,
	"num_tokens": 1130748.0,
	"reward": 0.75,
	"reward_std": 0.45226702094078064,
	"step": 94
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 118.0,
	"completions/max_terminated_length": 118.0,
	"completions/mean_length": 74.33333333333333,
	"completions/mean_terminated_length": 81.0909090909091,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 62.0,
	"epoch": 0.38,
	"format_failures": 0.0,
	"grad_norm": 1.4458988904953003,
	"kl": 0.07499337941408157,
	"learning_rate": 1e-06,
	"loss": -0.0187,
	"num_tokens": 1138584.0,
	"reward": 0.0833333358168602,
	"reward_std": 0.28867512941360474,
	"step": 95
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 285.0,
	"completions/max_terminated_length": 285.0,
	"completions/mean_length": 137.66666666666666,
	"completions/mean_terminated_length": 150.1818181818182,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 15.0,
	"epoch": 0.384,
	"format_failures": 0.0,
	"grad_norm": 0.03813532739877701,
	"kl": 0.023914064280688763,
	"learning_rate": 1e-06,
	"loss": 0.0002,
	"num_tokens": 1154124.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 96
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 206.0,
	"completions/max_terminated_length": 206.0,
	"completions/mean_length": 125.66666666666667,
	"completions/mean_terminated_length": 137.0909090909091,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 10.0,
	"epoch": 0.388,
	"format_failures": 1.0,
	"grad_norm": 0.016639724373817444,
	"kl": 0.019042176194489002,
	"learning_rate": 1e-06,
	"loss": 0.0001,
	"num_tokens": 1165560.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 97
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 209.0,
	"completions/max_terminated_length": 209.0,
	"completions/mean_length": 136.0,
	"completions/mean_terminated_length": 148.36363636363637,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 11.0,
	"epoch": 0.392,
	"format_failures": 0.0,
	"grad_norm": 0.041289571672677994,
	"kl": 0.025019565597176552,
	"learning_rate": 1e-06,
	"loss": 0.0002,
	"num_tokens": 1176936.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 98
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 539.0,
	"completions/max_terminated_length": 539.0,
	"completions/mean_length": 236.75,
	"completions/mean_terminated_length": 258.27272727272725,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 10.0,
	"epoch": 0.396,
	"format_failures": 0.0,
	"grad_norm": 0.029155507683753967,
	"kl": 0.03094907756894827,
	"learning_rate": 1e-06,
	"loss": 0.0001,
	"num_tokens": 1194108.0,
	"reward": 0.0,
	"reward_std": 0.0,
	"step": 99
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08333333333333337,
	"completions/max_length": 31.0,
	"completions/max_terminated_length": 31.0,
	"completions/mean_length": 21.0,
	"completions/mean_terminated_length": 22.90909090909091,
	"completions/min_length": 0.0,
	"completions/min_terminated_length": 13.0,
	"epoch": 0.4,
	"format_failures": 0.0,
	"grad_norm": 5.876866340637207,
	"kl": 0.1100139394402504,
	"learning_rate": 1e-06,
	"loss": 0.0323,
	"num_tokens": 1202412.0,
	"reward": 0.75,
	"reward_std": 0.45226702094078064,
	"step": 100
	}
	],
	"logging_steps": 1,
	"max_steps": 1000,
	"num_input_tokens_seen": 1202412,
	"num_train_epochs": 4,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": false,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}