FT-GRPO / checkpoint-50 /trainer_state.json

Training in progress, step 50, checkpoint

195f196 verified about 1 year ago

47.3 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.05714285714285714,
	"eval_steps": 500,
	"global_step": 50,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.671875,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1734.0,
	"completions/mean_length": 1702.03125,
	"completions/mean_terminated_length": 993.6190795898438,
	"completions/min_length": 483.0,
	"completions/min_terminated_length": 483.0,
	"epoch": 0.001142857142857143,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.2837817668914795,
	"learning_rate": 0.0,
	"loss": -0.0,
	"num_tokens": 118418.0,
	"reward": -0.09800112247467041,
	"reward_std": 0.3028089702129364,
	"rewards/cosine_scaled_reward/mean": -0.09800112992525101,
	"rewards/cosine_scaled_reward/std": 0.37953105568885803,
	"step": 1
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.71875,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1894.0,
	"completions/mean_length": 1738.90625,
	"completions/mean_terminated_length": 949.0,
	"completions/min_length": 435.0,
	"completions/min_terminated_length": 435.0,
	"epoch": 0.002285714285714286,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.2421981245279312,
	"learning_rate": 2e-08,
	"loss": -0.0,
	"num_tokens": 239748.0,
	"reward": 0.020556632429361343,
	"reward_std": 0.3545936942100525,
	"rewards/cosine_scaled_reward/mean": 0.020556632429361343,
	"rewards/cosine_scaled_reward/std": 0.4492928683757782,
	"step": 2
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.921875,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 953.0,
	"completions/mean_length": 1952.234375,
	"completions/mean_terminated_length": 822.2000122070312,
	"completions/min_length": 703.0,
	"completions/min_terminated_length": 703.0,
	"epoch": 0.0034285714285714284,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.24851329624652863,
	"learning_rate": 4e-08,
	"loss": -0.0,
	"num_tokens": 375163.0,
	"reward": -0.22721199691295624,
	"reward_std": 0.14563649892807007,
	"rewards/cosine_scaled_reward/mean": -0.22721199691295624,
	"rewards/cosine_scaled_reward/std": 0.1709199845790863,
	"step": 3
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.546875,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1685.0,
	"completions/mean_length": 1554.109375,
	"completions/mean_terminated_length": 958.0344848632812,
	"completions/min_length": 504.0,
	"completions/min_terminated_length": 504.0,
	"epoch": 0.004571428571428572,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.29272863268852234,
	"learning_rate": 6e-08,
	"loss": -0.0,
	"num_tokens": 484434.0,
	"reward": -0.17542189359664917,
	"reward_std": 0.18219107389450073,
	"rewards/cosine_scaled_reward/mean": -0.17542189359664917,
	"rewards/cosine_scaled_reward/std": 0.27975013852119446,
	"step": 4
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.890625,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1930.0,
	"completions/mean_length": 1943.0625,
	"completions/mean_terminated_length": 1088.571533203125,
	"completions/min_length": 344.0,
	"completions/min_terminated_length": 344.0,
	"epoch": 0.005714285714285714,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.2773251533508301,
	"learning_rate": 8e-08,
	"loss": 0.0,
	"num_tokens": 619606.0,
	"reward": -0.2648562788963318,
	"reward_std": 0.21638144552707672,
	"rewards/cosine_scaled_reward/mean": -0.2648562788963318,
	"rewards/cosine_scaled_reward/std": 0.23959198594093323,
	"step": 5
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.828125,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1824.0,
	"completions/mean_length": 1854.21875,
	"completions/mean_terminated_length": 920.5454711914062,
	"completions/min_length": 548.0,
	"completions/min_terminated_length": 548.0,
	"epoch": 0.006857142857142857,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.27399909496307373,
	"learning_rate": 1e-07,
	"loss": -0.0,
	"num_tokens": 749924.0,
	"reward": -0.19292885065078735,
	"reward_std": 0.2666770815849304,
	"rewards/cosine_scaled_reward/mean": -0.19292885065078735,
	"rewards/cosine_scaled_reward/std": 0.295730322599411,
	"step": 6
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.890625,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1589.0,
	"completions/mean_length": 1940.5625,
	"completions/mean_terminated_length": 1065.71435546875,
	"completions/min_length": 773.0,
	"completions/min_terminated_length": 773.0,
	"epoch": 0.008,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.23362359404563904,
	"learning_rate": 1.2e-07,
	"loss": 0.0,
	"num_tokens": 884528.0,
	"reward": -0.18198424577713013,
	"reward_std": 0.18540163338184357,
	"rewards/cosine_scaled_reward/mean": -0.18198424577713013,
	"rewards/cosine_scaled_reward/std": 0.32407456636428833,
	"step": 7
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.671875,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 2048.0,
	"completions/mean_length": 1708.5625,
	"completions/mean_terminated_length": 1013.5238037109375,
	"completions/min_length": 317.0,
	"completions/min_terminated_length": 317.0,
	"epoch": 0.009142857142857144,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.24677562713623047,
	"learning_rate": 1.4e-07,
	"loss": -0.0,
	"num_tokens": 1004292.0,
	"reward": -0.09573853015899658,
	"reward_std": 0.22485454380512238,
	"rewards/cosine_scaled_reward/mean": -0.09573852270841599,
	"rewards/cosine_scaled_reward/std": 0.449250191450119,
	"step": 8
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.9375,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1221.0,
	"completions/mean_length": 1979.359375,
	"completions/mean_terminated_length": 949.75,
	"completions/min_length": 569.0,
	"completions/min_terminated_length": 569.0,
	"epoch": 0.010285714285714285,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.26966309547424316,
	"learning_rate": 1.6e-07,
	"loss": 0.0,
	"num_tokens": 1142427.0,
	"reward": -0.19992578029632568,
	"reward_std": 0.20190927386283875,
	"rewards/cosine_scaled_reward/mean": -0.19992581009864807,
	"rewards/cosine_scaled_reward/std": 0.23785534501075745,
	"step": 9
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.65625,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1918.0,
	"completions/mean_length": 1652.59375,
	"completions/mean_terminated_length": 897.727294921875,
	"completions/min_length": 286.0,
	"completions/min_terminated_length": 286.0,
	"epoch": 0.011428571428571429,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.3011312484741211,
	"learning_rate": 1.8e-07,
	"loss": 0.0,
	"num_tokens": 1259025.0,
	"reward": -0.11706389486789703,
	"reward_std": 0.2934548258781433,
	"rewards/cosine_scaled_reward/mean": -0.11706390231847763,
	"rewards/cosine_scaled_reward/std": 0.3601698577404022,
	"step": 10
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.90625,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1333.0,
	"completions/mean_length": 1946.6875,
	"completions/mean_terminated_length": 967.3333740234375,
	"completions/min_length": 599.0,
	"completions/min_terminated_length": 599.0,
	"epoch": 0.012571428571428572,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.2451399564743042,
	"learning_rate": 2e-07,
	"loss": -0.0,
	"num_tokens": 1395285.0,
	"reward": -0.2866281270980835,
	"reward_std": 0.12184012681245804,
	"rewards/cosine_scaled_reward/mean": -0.2866281270980835,
	"rewards/cosine_scaled_reward/std": 0.15141677856445312,
	"step": 11
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.546875,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 2032.0,
	"completions/mean_length": 1659.28125,
	"completions/mean_terminated_length": 1190.137939453125,
	"completions/min_length": 535.0,
	"completions/min_terminated_length": 535.0,
	"epoch": 0.013714285714285714,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.2733561396598816,
	"learning_rate": 2.1999999999999998e-07,
	"loss": 0.0,
	"num_tokens": 1512423.0,
	"reward": -0.13816070556640625,
	"reward_std": 0.2968980073928833,
	"rewards/cosine_scaled_reward/mean": -0.13816070556640625,
	"rewards/cosine_scaled_reward/std": 0.3597467839717865,
	"step": 12
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.765625,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1770.0,
	"completions/mean_length": 1807.796875,
	"completions/mean_terminated_length": 1023.1333618164062,
	"completions/min_length": 697.0,
	"completions/min_terminated_length": 697.0,
	"epoch": 0.014857142857142857,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.25238803029060364,
	"learning_rate": 2.4e-07,
	"loss": 0.0,
	"num_tokens": 1639162.0,
	"reward": -0.13488636910915375,
	"reward_std": 0.2661236524581909,
	"rewards/cosine_scaled_reward/mean": -0.13488635420799255,
	"rewards/cosine_scaled_reward/std": 0.3444243371486664,
	"step": 13
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.75,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1866.0,
	"completions/mean_length": 1846.921875,
	"completions/mean_terminated_length": 1243.6875,
	"completions/min_length": 698.0,
	"completions/min_terminated_length": 698.0,
	"epoch": 0.016,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.2201598882675171,
	"learning_rate": 2.6e-07,
	"loss": -0.0,
	"num_tokens": 1767973.0,
	"reward": -0.20591925084590912,
	"reward_std": 0.21505361795425415,
	"rewards/cosine_scaled_reward/mean": -0.20591923594474792,
	"rewards/cosine_scaled_reward/std": 0.323749840259552,
	"step": 14
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.71875,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1713.0,
	"completions/mean_length": 1710.421875,
	"completions/mean_terminated_length": 847.7222290039062,
	"completions/min_length": 450.0,
	"completions/min_terminated_length": 450.0,
	"epoch": 0.017142857142857144,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.2665213644504547,
	"learning_rate": 2.8e-07,
	"loss": 0.0,
	"num_tokens": 1888360.0,
	"reward": -0.0778750479221344,
	"reward_std": 0.17502948641777039,
	"rewards/cosine_scaled_reward/mean": -0.0778750628232956,
	"rewards/cosine_scaled_reward/std": 0.47343766689300537,
	"step": 15
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.984375,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 962.0,
	"completions/mean_length": 2031.03125,
	"completions/mean_terminated_length": 962.0,
	"completions/min_length": 962.0,
	"completions/min_terminated_length": 962.0,
	"epoch": 0.018285714285714287,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.23009927570819855,
	"learning_rate": 3e-07,
	"loss": -0.0,
	"num_tokens": 2028786.0,
	"reward": -0.2619968056678772,
	"reward_std": 0.16954168677330017,
	"rewards/cosine_scaled_reward/mean": -0.2619968056678772,
	"rewards/cosine_scaled_reward/std": 0.18357795476913452,
	"step": 16
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.59375,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1918.0,
	"completions/mean_length": 1533.15625,
	"completions/mean_terminated_length": 780.6923217773438,
	"completions/min_length": 380.0,
	"completions/min_terminated_length": 380.0,
	"epoch": 0.019428571428571427,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.3392995297908783,
	"learning_rate": 3.2e-07,
	"loss": -0.0,
	"num_tokens": 2137428.0,
	"reward": -0.11706461012363434,
	"reward_std": 0.3096129894256592,
	"rewards/cosine_scaled_reward/mean": -0.11706460267305374,
	"rewards/cosine_scaled_reward/std": 0.3810974657535553,
	"step": 17
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.734375,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1626.0,
	"completions/mean_length": 1774.46875,
	"completions/mean_terminated_length": 1018.2352905273438,
	"completions/min_length": 516.0,
	"completions/min_terminated_length": 516.0,
	"epoch": 0.02057142857142857,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.23254038393497467,
	"learning_rate": 3.4000000000000003e-07,
	"loss": 0.0,
	"num_tokens": 2261370.0,
	"reward": -0.18709540367126465,
	"reward_std": 0.2795025110244751,
	"rewards/cosine_scaled_reward/mean": -0.18709540367126465,
	"rewards/cosine_scaled_reward/std": 0.3359416127204895,
	"step": 18
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.6875,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1859.0,
	"completions/mean_length": 1719.0,
	"completions/mean_terminated_length": 995.2000122070312,
	"completions/min_length": 577.0,
	"completions/min_terminated_length": 577.0,
	"epoch": 0.021714285714285714,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.262045681476593,
	"learning_rate": 3.6e-07,
	"loss": -0.0,
	"num_tokens": 2382642.0,
	"reward": -0.02329203486442566,
	"reward_std": 0.34684932231903076,
	"rewards/cosine_scaled_reward/mean": -0.02329203486442566,
	"rewards/cosine_scaled_reward/std": 0.47637447714805603,
	"step": 19
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.625,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1988.0,
	"completions/mean_length": 1630.90625,
	"completions/mean_terminated_length": 935.75,
	"completions/min_length": 425.0,
	"completions/min_terminated_length": 425.0,
	"epoch": 0.022857142857142857,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.250532329082489,
	"learning_rate": 3.7999999999999996e-07,
	"loss": 0.0,
	"num_tokens": 2498372.0,
	"reward": -0.06319350004196167,
	"reward_std": 0.2394939512014389,
	"rewards/cosine_scaled_reward/mean": -0.06319350004196167,
	"rewards/cosine_scaled_reward/std": 0.3889789879322052,
	"step": 20
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.65625,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1818.0,
	"completions/mean_length": 1735.96875,
	"completions/mean_terminated_length": 1140.272705078125,
	"completions/min_length": 428.0,
	"completions/min_terminated_length": 428.0,
	"epoch": 0.024,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.2773231565952301,
	"learning_rate": 4e-07,
	"loss": 0.0,
	"num_tokens": 2620282.0,
	"reward": -0.20884393155574799,
	"reward_std": 0.20233216881752014,
	"rewards/cosine_scaled_reward/mean": -0.20884393155574799,
	"rewards/cosine_scaled_reward/std": 0.28432920575141907,
	"step": 21
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.375,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1790.0,
	"completions/mean_length": 1342.953125,
	"completions/mean_terminated_length": 919.9249877929688,
	"completions/min_length": 286.0,
	"completions/min_terminated_length": 286.0,
	"epoch": 0.025142857142857144,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.34627005457878113,
	"learning_rate": 4.1999999999999995e-07,
	"loss": 0.0,
	"num_tokens": 2715247.0,
	"reward": -0.09092864394187927,
	"reward_std": 0.21042926609516144,
	"rewards/cosine_scaled_reward/mean": -0.09092865139245987,
	"rewards/cosine_scaled_reward/std": 0.43559205532073975,
	"step": 22
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.578125,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 2038.0,
	"completions/mean_length": 1661.9375,
	"completions/mean_terminated_length": 1132.888916015625,
	"completions/min_length": 455.0,
	"completions/min_terminated_length": 455.0,
	"epoch": 0.026285714285714287,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.2705242335796356,
	"learning_rate": 4.3999999999999997e-07,
	"loss": 0.0,
	"num_tokens": 2832403.0,
	"reward": -0.13339249789714813,
	"reward_std": 0.2433384656906128,
	"rewards/cosine_scaled_reward/mean": -0.13339248299598694,
	"rewards/cosine_scaled_reward/std": 0.3815627098083496,
	"step": 23
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.75,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 2020.0,
	"completions/mean_length": 1802.296875,
	"completions/mean_terminated_length": 1065.1875,
	"completions/min_length": 572.0,
	"completions/min_terminated_length": 572.0,
	"epoch": 0.027428571428571427,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.24961258471012115,
	"learning_rate": 4.6e-07,
	"loss": 0.0,
	"num_tokens": 2958678.0,
	"reward": -0.18733163177967072,
	"reward_std": 0.2773033380508423,
	"rewards/cosine_scaled_reward/mean": -0.1873316466808319,
	"rewards/cosine_scaled_reward/std": 0.37051624059677124,
	"step": 24
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.703125,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1848.0,
	"completions/mean_length": 1731.53125,
	"completions/mean_terminated_length": 982.0,
	"completions/min_length": 406.0,
	"completions/min_terminated_length": 406.0,
	"epoch": 0.02857142857142857,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.2662124037742615,
	"learning_rate": 4.8e-07,
	"loss": 0.0,
	"num_tokens": 3079792.0,
	"reward": -0.12407588213682175,
	"reward_std": 0.25581949949264526,
	"rewards/cosine_scaled_reward/mean": -0.12407589703798294,
	"rewards/cosine_scaled_reward/std": 0.39043793082237244,
	"step": 25
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.828125,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 2017.0,
	"completions/mean_length": 1965.46875,
	"completions/mean_terminated_length": 1567.8182373046875,
	"completions/min_length": 1006.0,
	"completions/min_terminated_length": 1006.0,
	"epoch": 0.029714285714285714,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.23202598094940186,
	"learning_rate": 5e-07,
	"loss": 0.0,
	"num_tokens": 3216214.0,
	"reward": -0.0963105633854866,
	"reward_std": 0.30887559056282043,
	"rewards/cosine_scaled_reward/mean": -0.0963105633854866,
	"rewards/cosine_scaled_reward/std": 0.39396020770072937,
	"step": 26
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.828125,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 2023.0,
	"completions/mean_length": 1886.96875,
	"completions/mean_terminated_length": 1111.0909423828125,
	"completions/min_length": 498.0,
	"completions/min_terminated_length": 498.0,
	"epoch": 0.030857142857142857,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.2878379225730896,
	"learning_rate": 5.2e-07,
	"loss": -0.0,
	"num_tokens": 3347268.0,
	"reward": -0.1645491123199463,
	"reward_std": 0.28629785776138306,
	"rewards/cosine_scaled_reward/mean": -0.1645491123199463,
	"rewards/cosine_scaled_reward/std": 0.35050687193870544,
	"step": 27
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.75,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1995.0,
	"completions/mean_length": 1843.640625,
	"completions/mean_terminated_length": 1230.5625,
	"completions/min_length": 444.0,
	"completions/min_terminated_length": 444.0,
	"epoch": 0.032,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.24996496737003326,
	"learning_rate": 5.4e-07,
	"loss": 0.0,
	"num_tokens": 3475597.0,
	"reward": -0.06605555862188339,
	"reward_std": 0.2643629312515259,
	"rewards/cosine_scaled_reward/mean": -0.06605555862188339,
	"rewards/cosine_scaled_reward/std": 0.438128799200058,
	"step": 28
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.9375,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 2005.0,
	"completions/mean_length": 2020.5,
	"completions/mean_terminated_length": 1608.0,
	"completions/min_length": 516.0,
	"completions/min_terminated_length": 516.0,
	"epoch": 0.03314285714285714,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.23316837847232819,
	"learning_rate": 5.6e-07,
	"loss": -0.0,
	"num_tokens": 3615381.0,
	"reward": -0.2015206664800644,
	"reward_std": 0.15312039852142334,
	"rewards/cosine_scaled_reward/mean": -0.2015206664800644,
	"rewards/cosine_scaled_reward/std": 0.1648881882429123,
	"step": 29
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.796875,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1839.0,
	"completions/mean_length": 1826.046875,
	"completions/mean_terminated_length": 955.3077392578125,
	"completions/min_length": 364.0,
	"completions/min_terminated_length": 364.0,
	"epoch": 0.03428571428571429,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.2410832792520523,
	"learning_rate": 5.8e-07,
	"loss": -0.0,
	"num_tokens": 3742784.0,
	"reward": -0.17509159445762634,
	"reward_std": 0.18994277715682983,
	"rewards/cosine_scaled_reward/mean": -0.17509159445762634,
	"rewards/cosine_scaled_reward/std": 0.22516494989395142,
	"step": 30
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.765625,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1678.0,
	"completions/mean_length": 1781.4375,
	"completions/mean_terminated_length": 910.6666870117188,
	"completions/min_length": 313.0,
	"completions/min_terminated_length": 313.0,
	"epoch": 0.03542857142857143,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.2693414092063904,
	"learning_rate": 6e-07,
	"loss": 0.0,
	"num_tokens": 3867292.0,
	"reward": -0.24513831734657288,
	"reward_std": 0.28315529227256775,
	"rewards/cosine_scaled_reward/mean": -0.24513831734657288,
	"rewards/cosine_scaled_reward/std": 0.3480584919452667,
	"step": 31
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.859375,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1975.0,
	"completions/mean_length": 1969.28125,
	"completions/mean_terminated_length": 1488.2222900390625,
	"completions/min_length": 1088.0,
	"completions/min_terminated_length": 1088.0,
	"epoch": 0.036571428571428574,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.24202018976211548,
	"learning_rate": 6.2e-07,
	"loss": 0.0,
	"num_tokens": 4003678.0,
	"reward": -0.18968716263771057,
	"reward_std": 0.28299200534820557,
	"rewards/cosine_scaled_reward/mean": -0.18968716263771057,
	"rewards/cosine_scaled_reward/std": 0.3119950294494629,
	"step": 32
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 1.0,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 0.0,
	"completions/mean_length": 2048.0,
	"completions/mean_terminated_length": 0.0,
	"completions/min_length": 2048.0,
	"completions/min_terminated_length": 0.0,
	"epoch": 0.037714285714285714,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.22288212180137634,
	"learning_rate": 6.4e-07,
	"loss": 0.0,
	"num_tokens": 4145966.0,
	"reward": -0.2955162525177002,
	"reward_std": 0.17793573439121246,
	"rewards/cosine_scaled_reward/mean": -0.2955162525177002,
	"rewards/cosine_scaled_reward/std": 0.22786569595336914,
	"step": 33
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.546875,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1809.0,
	"completions/mean_length": 1589.640625,
	"completions/mean_terminated_length": 1036.4482421875,
	"completions/min_length": 515.0,
	"completions/min_terminated_length": 515.0,
	"epoch": 0.038857142857142854,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.31030499935150146,
	"learning_rate": 6.6e-07,
	"loss": 0.0,
	"num_tokens": 4257255.0,
	"reward": 0.008002171292901039,
	"reward_std": 0.3413254916667938,
	"rewards/cosine_scaled_reward/mean": 0.008002176880836487,
	"rewards/cosine_scaled_reward/std": 0.4431404769420624,
	"step": 34
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.796875,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1987.0,
	"completions/mean_length": 1785.921875,
	"completions/mean_terminated_length": 757.769287109375,
	"completions/min_length": 385.0,
	"completions/min_terminated_length": 385.0,
	"epoch": 0.04,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.3145958483219147,
	"learning_rate": 6.800000000000001e-07,
	"loss": -0.0,
	"num_tokens": 4383050.0,
	"reward": -0.16386553645133972,
	"reward_std": 0.2818174958229065,
	"rewards/cosine_scaled_reward/mean": -0.16386555135250092,
	"rewards/cosine_scaled_reward/std": 0.3242056965827942,
	"step": 35
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.953125,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1195.0,
	"completions/mean_length": 2000.421875,
	"completions/mean_terminated_length": 1033.0,
	"completions/min_length": 863.0,
	"completions/min_terminated_length": 863.0,
	"epoch": 0.04114285714285714,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.25796815752983093,
	"learning_rate": 7e-07,
	"loss": 0.0,
	"num_tokens": 4522189.0,
	"reward": -0.2470606118440628,
	"reward_std": 0.15509279072284698,
	"rewards/cosine_scaled_reward/mean": -0.2470606118440628,
	"rewards/cosine_scaled_reward/std": 0.16412879526615143,
	"step": 36
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.890625,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 2043.0,
	"completions/mean_length": 1964.46875,
	"completions/mean_terminated_length": 1284.2857666015625,
	"completions/min_length": 931.0,
	"completions/min_terminated_length": 931.0,
	"epoch": 0.04228571428571429,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.22452199459075928,
	"learning_rate": 7.2e-07,
	"loss": 0.0,
	"num_tokens": 4658939.0,
	"reward": -0.24706938862800598,
	"reward_std": 0.18499845266342163,
	"rewards/cosine_scaled_reward/mean": -0.24706941843032837,
	"rewards/cosine_scaled_reward/std": 0.21092188358306885,
	"step": 37
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.859375,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1840.0,
	"completions/mean_length": 1925.234375,
	"completions/mean_terminated_length": 1175.0,
	"completions/min_length": 916.0,
	"completions/min_terminated_length": 916.0,
	"epoch": 0.04342857142857143,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.23703666031360626,
	"learning_rate": 7.4e-07,
	"loss": -0.0,
	"num_tokens": 4793866.0,
	"reward": -0.11504355818033218,
	"reward_std": 0.20660358667373657,
	"rewards/cosine_scaled_reward/mean": -0.11504356563091278,
	"rewards/cosine_scaled_reward/std": 0.3190351724624634,
	"step": 38
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.78125,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1412.0,
	"completions/mean_length": 1740.546875,
	"completions/mean_terminated_length": 642.5,
	"completions/min_length": 339.0,
	"completions/min_terminated_length": 339.0,
	"epoch": 0.044571428571428574,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.23829001188278198,
	"learning_rate": 7.599999999999999e-07,
	"loss": 0.0,
	"num_tokens": 4916045.0,
	"reward": -0.12095541507005692,
	"reward_std": 0.1958026885986328,
	"rewards/cosine_scaled_reward/mean": -0.12095542997121811,
	"rewards/cosine_scaled_reward/std": 0.340241402387619,
	"step": 39
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.703125,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1918.0,
	"completions/mean_length": 1713.203125,
	"completions/mean_terminated_length": 920.26318359375,
	"completions/min_length": 451.0,
	"completions/min_terminated_length": 451.0,
	"epoch": 0.045714285714285714,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.24145744740962982,
	"learning_rate": 7.799999999999999e-07,
	"loss": -0.0,
	"num_tokens": 5035762.0,
	"reward": -0.10936243832111359,
	"reward_std": 0.14468500018119812,
	"rewards/cosine_scaled_reward/mean": -0.10936242341995239,
	"rewards/cosine_scaled_reward/std": 0.4288744330406189,
	"step": 40
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.796875,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1801.0,
	"completions/mean_length": 1909.71875,
	"completions/mean_terminated_length": 1367.2308349609375,
	"completions/min_length": 1138.0,
	"completions/min_terminated_length": 1138.0,
	"epoch": 0.046857142857142854,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.22317881882190704,
	"learning_rate": 8e-07,
	"loss": 0.0,
	"num_tokens": 5169136.0,
	"reward": -0.2058967649936676,
	"reward_std": 0.2325170338153839,
	"rewards/cosine_scaled_reward/mean": -0.20589673519134521,
	"rewards/cosine_scaled_reward/std": 0.28897321224212646,
	"step": 41
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.78125,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1752.0,
	"completions/mean_length": 1727.71875,
	"completions/mean_terminated_length": 583.857177734375,
	"completions/min_length": 159.0,
	"completions/min_terminated_length": 159.0,
	"epoch": 0.048,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.44688937067985535,
	"learning_rate": 8.199999999999999e-07,
	"loss": 0.0,
	"num_tokens": 5290070.0,
	"reward": -0.2254919707775116,
	"reward_std": 0.1687203049659729,
	"rewards/cosine_scaled_reward/mean": -0.2254919707775116,
	"rewards/cosine_scaled_reward/std": 0.18203677237033844,
	"step": 42
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.84375,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1082.0,
	"completions/mean_length": 1855.328125,
	"completions/mean_terminated_length": 814.9000244140625,
	"completions/min_length": 588.0,
	"completions/min_terminated_length": 588.0,
	"epoch": 0.04914285714285714,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.2430828958749771,
	"learning_rate": 8.399999999999999e-07,
	"loss": 0.0,
	"num_tokens": 5420427.0,
	"reward": -0.09104865789413452,
	"reward_std": 0.18217626214027405,
	"rewards/cosine_scaled_reward/mean": -0.09104865789413452,
	"rewards/cosine_scaled_reward/std": 0.3521345257759094,
	"step": 43
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.75,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1675.0,
	"completions/mean_length": 1727.9375,
	"completions/mean_terminated_length": 767.75,
	"completions/min_length": 407.0,
	"completions/min_terminated_length": 407.0,
	"epoch": 0.05028571428571429,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.32065215706825256,
	"learning_rate": 8.599999999999999e-07,
	"loss": 0.0,
	"num_tokens": 5541711.0,
	"reward": -0.17701950669288635,
	"reward_std": 0.2957555055618286,
	"rewards/cosine_scaled_reward/mean": -0.17701953649520874,
	"rewards/cosine_scaled_reward/std": 0.38460060954093933,
	"step": 44
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.953125,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 2032.0,
	"completions/mean_length": 2013.9375,
	"completions/mean_terminated_length": 1321.3333740234375,
	"completions/min_length": 740.0,
	"completions/min_terminated_length": 740.0,
	"epoch": 0.05142857142857143,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.22363637387752533,
	"learning_rate": 8.799999999999999e-07,
	"loss": 0.0,
	"num_tokens": 5682259.0,
	"reward": -0.20341511070728302,
	"reward_std": 0.23104795813560486,
	"rewards/cosine_scaled_reward/mean": -0.20341511070728302,
	"rewards/cosine_scaled_reward/std": 0.3092363774776459,
	"step": 45
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.875,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1224.0,
	"completions/mean_length": 1909.0,
	"completions/mean_terminated_length": 936.0,
	"completions/min_length": 525.0,
	"completions/min_terminated_length": 525.0,
	"epoch": 0.052571428571428575,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.26306217908859253,
	"learning_rate": 9e-07,
	"loss": 0.0,
	"num_tokens": 5815603.0,
	"reward": -0.26145532727241516,
	"reward_std": 0.17108051478862762,
	"rewards/cosine_scaled_reward/mean": -0.2614552974700928,
	"rewards/cosine_scaled_reward/std": 0.18312901258468628,
	"step": 46
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.75,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1668.0,
	"completions/mean_length": 1757.1875,
	"completions/mean_terminated_length": 884.75,
	"completions/min_length": 477.0,
	"completions/min_terminated_length": 477.0,
	"epoch": 0.053714285714285714,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.2856813371181488,
	"learning_rate": 9.2e-07,
	"loss": 0.0,
	"num_tokens": 5938463.0,
	"reward": -0.20879247784614563,
	"reward_std": 0.23861759901046753,
	"rewards/cosine_scaled_reward/mean": -0.20879246294498444,
	"rewards/cosine_scaled_reward/std": 0.39607998728752136,
	"step": 47
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.71875,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1708.0,
	"completions/mean_length": 1756.5,
	"completions/mean_terminated_length": 1011.5555419921875,
	"completions/min_length": 487.0,
	"completions/min_terminated_length": 487.0,
	"epoch": 0.054857142857142854,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.27563413977622986,
	"learning_rate": 9.399999999999999e-07,
	"loss": -0.0,
	"num_tokens": 6061423.0,
	"reward": -0.16147920489311218,
	"reward_std": 0.24055320024490356,
	"rewards/cosine_scaled_reward/mean": -0.16147920489311218,
	"rewards/cosine_scaled_reward/std": 0.3948959410190582,
	"step": 48
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.578125,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1458.0,
	"completions/mean_length": 1538.078125,
	"completions/mean_terminated_length": 839.2963256835938,
	"completions/min_length": 284.0,
	"completions/min_terminated_length": 284.0,
	"epoch": 0.056,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.27617642283439636,
	"learning_rate": 9.6e-07,
	"loss": -0.0,
	"num_tokens": 6169924.0,
	"reward": -0.18436825275421143,
	"reward_std": 0.27141550183296204,
	"rewards/cosine_scaled_reward/mean": -0.18436823785305023,
	"rewards/cosine_scaled_reward/std": 0.3920196294784546,
	"step": 49
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.765625,
	"completions/max_length": 2048.0,
	"completions/max_terminated_length": 1938.0,
	"completions/mean_length": 1749.0625,
	"completions/mean_terminated_length": 772.5333862304688,
	"completions/min_length": 235.0,
	"completions/min_terminated_length": 235.0,
	"epoch": 0.05714285714285714,
	"frac_reward_zero_std": 0.0,
	"grad_norm": 0.23394836485385895,
	"learning_rate": 9.8e-07,
	"loss": 0.0,
	"num_tokens": 6292680.0,
	"reward": -0.10770958662033081,
	"reward_std": 0.22513547539710999,
	"rewards/cosine_scaled_reward/mean": -0.10770957916975021,
	"rewards/cosine_scaled_reward/std": 0.421062707901001,
	"step": 50
	}
	],
	"logging_steps": 1,
	"max_steps": 500,
	"num_input_tokens_seen": 6292680,
	"num_train_epochs": 1,
	"save_steps": 50,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}