diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,16534 @@
+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 58.0,
+      "completions/max_terminated_length": 58.0,
+      "completions/mean_length": 49.5,
+      "completions/mean_terminated_length": 49.5,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.35832011699676514,
+      "epoch": 0.002,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.23671293258667,
+      "kl": 0.0,
+      "learning_rate": 0.0,
+      "loss": 0.2758,
+      "num_tokens": 5417.0,
+      "reward": 0.4775000214576721,
+      "reward_std": 0.5056283473968506,
+      "rewards/reward_func/mean": 0.4775000214576721,
+      "rewards/reward_func/std": 0.5403900742530823,
+      "sampling/importance_sampling_ratio/max": 2.4071154594421387,
+      "sampling/importance_sampling_ratio/mean": 1.1429595947265625,
+      "sampling/importance_sampling_ratio/min": 0.5015585422515869,
+      "sampling/sampling_logp_difference/max": 0.5305562019348145,
+      "sampling/sampling_logp_difference/mean": 0.024324804544448853,
+      "step": 1,
+      "step_time": 29.307177749986295
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 68.0,
+      "completions/max_terminated_length": 68.0,
+      "completions/mean_length": 47.5,
+      "completions/mean_terminated_length": 47.5,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.3473261594772339,
+      "epoch": 0.004,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 3.3394556045532227,
+      "kl": 0.0,
+      "learning_rate": 1.6666666666666668e-07,
+      "loss": 0.2918,
+      "num_tokens": 11253.0,
+      "reward": 0.581250011920929,
+      "reward_std": 0.5712425708770752,
+      "rewards/reward_func/mean": 0.581250011920929,
+      "rewards/reward_func/std": 0.5513473749160767,
+      "sampling/importance_sampling_ratio/max": 2.3380353450775146,
+      "sampling/importance_sampling_ratio/mean": 1.2109484672546387,
+      "sampling/importance_sampling_ratio/min": 0.4137703776359558,
+      "sampling/sampling_logp_difference/max": 0.6683757305145264,
+      "sampling/sampling_logp_difference/mean": 0.024658963084220886,
+      "step": 2,
+      "step_time": 40.91707400101586
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.0,
+      "completions/max_terminated_length": 61.0,
+      "completions/mean_length": 51.75,
+      "completions/mean_terminated_length": 51.75,
+      "completions/min_length": 44.0,
+      "completions/min_terminated_length": 44.0,
+      "entropy": 0.36352208256721497,
+      "epoch": 0.006,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.7528427839279175,
+      "kl": 0.0018581235781311989,
+      "learning_rate": 3.3333333333333335e-07,
+      "loss": 0.0856,
+      "num_tokens": 16645.0,
+      "reward": 0.22500000894069672,
+      "reward_std": 0.3063344955444336,
+      "rewards/reward_func/mean": 0.22500000894069672,
+      "rewards/reward_func/std": 0.4666905105113983,
+      "sampling/importance_sampling_ratio/max": 1.6700822114944458,
+      "sampling/importance_sampling_ratio/mean": 1.325523018836975,
+      "sampling/importance_sampling_ratio/min": 0.6139910221099854,
+      "sampling/sampling_logp_difference/max": 0.3466939926147461,
+      "sampling/sampling_logp_difference/mean": 0.0239357128739357,
+      "step": 3,
+      "step_time": 33.77775888898759
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 62.0,
+      "completions/max_terminated_length": 62.0,
+      "completions/mean_length": 50.0,
+      "completions/mean_terminated_length": 50.0,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.335945725440979,
+      "epoch": 0.008,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.072298526763916,
+      "kl": 0.0018037607660517097,
+      "learning_rate": 5.000000000000001e-07,
+      "loss": 0.1746,
+      "num_tokens": 22430.0,
+      "reward": 0.21375000476837158,
+      "reward_std": 0.5115964412689209,
+      "rewards/reward_func/mean": 0.21375000476837158,
+      "rewards/reward_func/std": 0.47388777136802673,
+      "sampling/importance_sampling_ratio/max": 2.130910873413086,
+      "sampling/importance_sampling_ratio/mean": 0.9638596773147583,
+      "sampling/importance_sampling_ratio/min": 0.3092893362045288,
+      "sampling/sampling_logp_difference/max": 0.9354848861694336,
+      "sampling/sampling_logp_difference/mean": 0.022302545607089996,
+      "step": 4,
+      "step_time": 34.65735469799256
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 56.0,
+      "completions/max_terminated_length": 56.0,
+      "completions/mean_length": 45.625,
+      "completions/mean_terminated_length": 45.625,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.3547826111316681,
+      "epoch": 0.01,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.7712143659591675,
+      "kl": 0.0015525126364082098,
+      "learning_rate": 6.666666666666667e-07,
+      "loss": 0.1898,
+      "num_tokens": 28484.0,
+      "reward": 0.20000000298023224,
+      "reward_std": 0.49363037943840027,
+      "rewards/reward_func/mean": 0.20000000298023224,
+      "rewards/reward_func/std": 0.4572901427745819,
+      "sampling/importance_sampling_ratio/max": 2.8111071586608887,
+      "sampling/importance_sampling_ratio/mean": 1.2563235759735107,
+      "sampling/importance_sampling_ratio/min": 0.7284324169158936,
+      "sampling/sampling_logp_difference/max": 0.39002323150634766,
+      "sampling/sampling_logp_difference/mean": 0.02487805485725403,
+      "step": 5,
+      "step_time": 39.42609074199572
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 70.0,
+      "completions/max_terminated_length": 70.0,
+      "completions/mean_length": 52.625,
+      "completions/mean_terminated_length": 52.625,
+      "completions/min_length": 41.0,
+      "completions/min_terminated_length": 41.0,
+      "entropy": 0.4256824254989624,
+      "epoch": 0.012,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2577799558639526,
+      "kl": 0.002119219396263361,
+      "learning_rate": 8.333333333333333e-07,
+      "loss": -0.1565,
+      "num_tokens": 33246.0,
+      "reward": 0.48250001668930054,
+      "reward_std": 0.5949929356575012,
+      "rewards/reward_func/mean": 0.48250001668930054,
+      "rewards/reward_func/std": 0.5508629679679871,
+      "sampling/importance_sampling_ratio/max": 1.764662742614746,
+      "sampling/importance_sampling_ratio/mean": 1.1115164756774902,
+      "sampling/importance_sampling_ratio/min": 0.4326048195362091,
+      "sampling/sampling_logp_difference/max": 0.35713624954223633,
+      "sampling/sampling_logp_difference/mean": 0.023226505145430565,
+      "step": 6,
+      "step_time": 25.11293228599243
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 75.0,
+      "completions/max_terminated_length": 75.0,
+      "completions/mean_length": 54.5,
+      "completions/mean_terminated_length": 54.5,
+      "completions/min_length": 42.0,
+      "completions/min_terminated_length": 42.0,
+      "entropy": 0.3634033203125,
+      "epoch": 0.014,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.7828105688095093,
+      "kl": 0.0015323495026677847,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.0796,
+      "num_tokens": 39042.0,
+      "reward": 0.3125,
+      "reward_std": 0.5887748003005981,
+      "rewards/reward_func/mean": 0.3125,
+      "rewards/reward_func/std": 0.5680983662605286,
+      "sampling/importance_sampling_ratio/max": 1.3392544984817505,
+      "sampling/importance_sampling_ratio/mean": 0.7953487634658813,
+      "sampling/importance_sampling_ratio/min": 0.4173814654350281,
+      "sampling/sampling_logp_difference/max": 0.29545068740844727,
+      "sampling/sampling_logp_difference/mean": 0.025280017405748367,
+      "step": 7,
+      "step_time": 47.24140843501664
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 53.0,
+      "completions/max_terminated_length": 53.0,
+      "completions/mean_length": 43.375,
+      "completions/mean_terminated_length": 43.375,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.3641508221626282,
+      "epoch": 0.016,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1968954801559448,
+      "kl": 0.0013946478720754385,
+      "learning_rate": 1.1666666666666668e-06,
+      "loss": -0.1307,
+      "num_tokens": 44922.0,
+      "reward": 0.22875000536441803,
+      "reward_std": 0.2921527922153473,
+      "rewards/reward_func/mean": 0.22875000536441803,
+      "rewards/reward_func/std": 0.4607583284378052,
+      "sampling/importance_sampling_ratio/max": 1.5681222677230835,
+      "sampling/importance_sampling_ratio/mean": 1.014966368675232,
+      "sampling/importance_sampling_ratio/min": 0.7567934393882751,
+      "sampling/sampling_logp_difference/max": 0.34651947021484375,
+      "sampling/sampling_logp_difference/mean": 0.01997371017932892,
+      "step": 8,
+      "step_time": 34.33773313398706
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 63.0,
+      "completions/max_terminated_length": 63.0,
+      "completions/mean_length": 55.625,
+      "completions/mean_terminated_length": 55.625,
+      "completions/min_length": 47.0,
+      "completions/min_terminated_length": 47.0,
+      "entropy": 0.35281139612197876,
+      "epoch": 0.018,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8254293203353882,
+      "kl": 0.002236333442851901,
+      "learning_rate": 1.3333333333333334e-06,
+      "loss": 0.0283,
+      "num_tokens": 50617.0,
+      "reward": 0.46875,
+      "reward_std": 0.5300248861312866,
+      "rewards/reward_func/mean": 0.46875,
+      "rewards/reward_func/std": 0.5659489631652832,
+      "sampling/importance_sampling_ratio/max": 1.2048767805099487,
+      "sampling/importance_sampling_ratio/mean": 0.7666900157928467,
+      "sampling/importance_sampling_ratio/min": 0.39571237564086914,
+      "sampling/sampling_logp_difference/max": 0.35016971826553345,
+      "sampling/sampling_logp_difference/mean": 0.025727007538080215,
+      "step": 9,
+      "step_time": 34.18884765400435
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 64.0,
+      "completions/max_terminated_length": 64.0,
+      "completions/mean_length": 50.875,
+      "completions/mean_terminated_length": 50.875,
+      "completions/min_length": 43.0,
+      "completions/min_terminated_length": 43.0,
+      "entropy": 0.3982703983783722,
+      "epoch": 0.02,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.185789942741394,
+      "kl": 0.001458184327930212,
+      "learning_rate": 1.5e-06,
+      "loss": 0.0761,
+      "num_tokens": 56268.0,
+      "reward": 0.07750000059604645,
+      "reward_std": 0.28465136885643005,
+      "rewards/reward_func/mean": 0.07750000059604645,
+      "rewards/reward_func/std": 0.3708580732345581,
+      "sampling/importance_sampling_ratio/max": 2.0030765533447266,
+      "sampling/importance_sampling_ratio/mean": 0.9082742929458618,
+      "sampling/importance_sampling_ratio/min": 0.42338261008262634,
+      "sampling/sampling_logp_difference/max": 0.4783933162689209,
+      "sampling/sampling_logp_difference/mean": 0.023844268172979355,
+      "step": 10,
+      "step_time": 39.159437736991094
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 74.0,
+      "completions/max_terminated_length": 74.0,
+      "completions/mean_length": 54.875,
+      "completions/mean_terminated_length": 54.875,
+      "completions/min_length": 45.0,
+      "completions/min_terminated_length": 45.0,
+      "entropy": 0.3613673448562622,
+      "epoch": 0.022,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8812184929847717,
+      "kl": 0.0014497374650090933,
+      "learning_rate": 1.6666666666666667e-06,
+      "loss": -0.0696,
+      "num_tokens": 62534.0,
+      "reward": 0.3400000035762787,
+      "reward_std": 0.27956950664520264,
+      "rewards/reward_func/mean": 0.3400000035762787,
+      "rewards/reward_func/std": 0.543007493019104,
+      "sampling/importance_sampling_ratio/max": 1.5621131658554077,
+      "sampling/importance_sampling_ratio/mean": 0.8559645414352417,
+      "sampling/importance_sampling_ratio/min": 0.45671403408050537,
+      "sampling/sampling_logp_difference/max": 0.3955717086791992,
+      "sampling/sampling_logp_difference/mean": 0.02080589532852173,
+      "step": 11,
+      "step_time": 39.89227997799753
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.0,
+      "completions/max_terminated_length": 65.0,
+      "completions/mean_length": 52.5,
+      "completions/mean_terminated_length": 52.5,
+      "completions/min_length": 45.0,
+      "completions/min_terminated_length": 45.0,
+      "entropy": 0.39176082611083984,
+      "epoch": 0.024,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1600431203842163,
+      "kl": 0.0020833718590438366,
+      "learning_rate": 1.8333333333333333e-06,
+      "loss": -0.0961,
+      "num_tokens": 68151.0,
+      "reward": 0.32374998927116394,
+      "reward_std": 0.5406870245933533,
+      "rewards/reward_func/mean": 0.32374998927116394,
+      "rewards/reward_func/std": 0.5189808011054993,
+      "sampling/importance_sampling_ratio/max": 2.046029806137085,
+      "sampling/importance_sampling_ratio/mean": 1.0404480695724487,
+      "sampling/importance_sampling_ratio/min": 0.48177048563957214,
+      "sampling/sampling_logp_difference/max": 0.2973281145095825,
+      "sampling/sampling_logp_difference/mean": 0.024639006704092026,
+      "step": 12,
+      "step_time": 48.536910057999194
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 49.0,
+      "completions/max_terminated_length": 49.0,
+      "completions/mean_length": 43.375,
+      "completions/mean_terminated_length": 43.375,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.3269670605659485,
+      "epoch": 0.026,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8620632886886597,
+      "kl": 0.001273418078199029,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": -0.081,
+      "num_tokens": 73963.0,
+      "reward": 0.3425000011920929,
+      "reward_std": 0.5563790202140808,
+      "rewards/reward_func/mean": 0.3425000011920929,
+      "rewards/reward_func/std": 0.5344623923301697,
+      "sampling/importance_sampling_ratio/max": 1.4767922163009644,
+      "sampling/importance_sampling_ratio/mean": 0.8396698236465454,
+      "sampling/importance_sampling_ratio/min": 0.5644444823265076,
+      "sampling/sampling_logp_difference/max": 0.2883424758911133,
+      "sampling/sampling_logp_difference/mean": 0.024868279695510864,
+      "step": 13,
+      "step_time": 33.96547721300158
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 70.0,
+      "completions/max_terminated_length": 70.0,
+      "completions/mean_length": 54.0,
+      "completions/mean_terminated_length": 54.0,
+      "completions/min_length": 41.0,
+      "completions/min_terminated_length": 41.0,
+      "entropy": 0.31234925985336304,
+      "epoch": 0.028,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1137773990631104,
+      "kl": 0.0012005593162029982,
+      "learning_rate": 2.166666666666667e-06,
+      "loss": 0.3334,
+      "num_tokens": 78838.0,
+      "reward": 0.29625001549720764,
+      "reward_std": 0.6014425754547119,
+      "rewards/reward_func/mean": 0.29625001549720764,
+      "rewards/reward_func/std": 0.5761184692382812,
+      "sampling/importance_sampling_ratio/max": 2.09089994430542,
+      "sampling/importance_sampling_ratio/mean": 1.2477295398712158,
+      "sampling/importance_sampling_ratio/min": 0.702942430973053,
+      "sampling/sampling_logp_difference/max": 0.46815013885498047,
+      "sampling/sampling_logp_difference/mean": 0.019913293421268463,
+      "step": 14,
+      "step_time": 33.421214936010074
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 63.0,
+      "completions/max_terminated_length": 63.0,
+      "completions/mean_length": 50.625,
+      "completions/mean_terminated_length": 50.625,
+      "completions/min_length": 40.0,
+      "completions/min_terminated_length": 40.0,
+      "entropy": 0.3603006601333618,
+      "epoch": 0.03,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.8420554399490356,
+      "kl": 0.001688068499788642,
+      "learning_rate": 2.3333333333333336e-06,
+      "loss": 0.3399,
+      "num_tokens": 84243.0,
+      "reward": 0.07874999940395355,
+      "reward_std": 0.2735734283924103,
+      "rewards/reward_func/mean": 0.07874999940395355,
+      "rewards/reward_func/std": 0.3578681945800781,
+      "sampling/importance_sampling_ratio/max": 2.986236095428467,
+      "sampling/importance_sampling_ratio/mean": 1.2305893898010254,
+      "sampling/importance_sampling_ratio/min": 0.7438207864761353,
+      "sampling/sampling_logp_difference/max": 0.5467426776885986,
+      "sampling/sampling_logp_difference/mean": 0.024384144693613052,
+      "step": 15,
+      "step_time": 35.22606979601551
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 52.0,
+      "completions/max_terminated_length": 52.0,
+      "completions/mean_length": 45.0,
+      "completions/mean_terminated_length": 45.0,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.3401448726654053,
+      "epoch": 0.032,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2467572689056396,
+      "kl": 0.0013698764378204942,
+      "learning_rate": 2.5e-06,
+      "loss": 0.0465,
+      "num_tokens": 89603.0,
+      "reward": 0.1887499988079071,
+      "reward_std": 0.33193475008010864,
+      "rewards/reward_func/mean": 0.1887499988079071,
+      "rewards/reward_func/std": 0.48774808645248413,
+      "sampling/importance_sampling_ratio/max": 1.0488877296447754,
+      "sampling/importance_sampling_ratio/mean": 0.8098611831665039,
+      "sampling/importance_sampling_ratio/min": 0.5529040694236755,
+      "sampling/sampling_logp_difference/max": 0.4784054756164551,
+      "sampling/sampling_logp_difference/mean": 0.021436292678117752,
+      "step": 16,
+      "step_time": 40.98757715098327
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.0,
+      "completions/max_terminated_length": 61.0,
+      "completions/mean_length": 46.875,
+      "completions/mean_terminated_length": 46.875,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.3725942373275757,
+      "epoch": 0.034,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.417001724243164,
+      "kl": 0.0016124111134558916,
+      "learning_rate": 2.666666666666667e-06,
+      "loss": 0.0637,
+      "num_tokens": 94945.0,
+      "reward": 0.05000000447034836,
+      "reward_std": 0.2862437069416046,
+      "rewards/reward_func/mean": 0.05000000447034836,
+      "rewards/reward_func/std": 0.38652294874191284,
+      "sampling/importance_sampling_ratio/max": 1.8293613195419312,
+      "sampling/importance_sampling_ratio/mean": 1.3590400218963623,
+      "sampling/importance_sampling_ratio/min": 0.8256513476371765,
+      "sampling/sampling_logp_difference/max": 0.3571474552154541,
+      "sampling/sampling_logp_difference/mean": 0.020312845706939697,
+      "step": 17,
+      "step_time": 37.4742742870003
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 69.0,
+      "completions/max_terminated_length": 69.0,
+      "completions/mean_length": 51.125,
+      "completions/mean_terminated_length": 51.125,
+      "completions/min_length": 42.0,
+      "completions/min_terminated_length": 42.0,
+      "entropy": 0.3666185140609741,
+      "epoch": 0.036,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.168238639831543,
+      "kl": 0.001655534841120243,
+      "learning_rate": 2.8333333333333335e-06,
+      "loss": -0.1929,
+      "num_tokens": 100888.0,
+      "reward": 0.20124998688697815,
+      "reward_std": 0.5236045122146606,
+      "rewards/reward_func/mean": 0.20124998688697815,
+      "rewards/reward_func/std": 0.48489874601364136,
+      "sampling/importance_sampling_ratio/max": 1.673153281211853,
+      "sampling/importance_sampling_ratio/mean": 1.0230400562286377,
+      "sampling/importance_sampling_ratio/min": 0.5740097165107727,
+      "sampling/sampling_logp_difference/max": 0.27298808097839355,
+      "sampling/sampling_logp_difference/mean": 0.02411050722002983,
+      "step": 18,
+      "step_time": 36.143502769002225
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 63.0,
+      "completions/max_terminated_length": 63.0,
+      "completions/mean_length": 54.125,
+      "completions/mean_terminated_length": 54.125,
+      "completions/min_length": 41.0,
+      "completions/min_terminated_length": 41.0,
+      "entropy": 0.37803328037261963,
+      "epoch": 0.038,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9871008396148682,
+      "kl": 0.002036505378782749,
+      "learning_rate": 3e-06,
+      "loss": -0.0558,
+      "num_tokens": 106144.0,
+      "reward": 0.35625001788139343,
+      "reward_std": 0.5298318266868591,
+      "rewards/reward_func/mean": 0.35625001788139343,
+      "rewards/reward_func/std": 0.5088625550270081,
+      "sampling/importance_sampling_ratio/max": 1.4062168598175049,
+      "sampling/importance_sampling_ratio/mean": 0.9718549251556396,
+      "sampling/importance_sampling_ratio/min": 0.3938085734844208,
+      "sampling/sampling_logp_difference/max": 0.3405449390411377,
+      "sampling/sampling_logp_difference/mean": 0.02122277393937111,
+      "step": 19,
+      "step_time": 39.01482636100263
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 79.0,
+      "completions/max_terminated_length": 79.0,
+      "completions/mean_length": 52.25,
+      "completions/mean_terminated_length": 52.25,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.4097254276275635,
+      "epoch": 0.04,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3784204721450806,
+      "kl": 0.0016567106358706951,
+      "learning_rate": 3.1666666666666667e-06,
+      "loss": 0.0886,
+      "num_tokens": 112107.0,
+      "reward": -0.057499997317790985,
+      "reward_std": 0.044269345700740814,
+      "rewards/reward_func/mean": -0.057499997317790985,
+      "rewards/reward_func/std": 0.04166190326213837,
+      "sampling/importance_sampling_ratio/max": 2.0899689197540283,
+      "sampling/importance_sampling_ratio/mean": 1.132345199584961,
+      "sampling/importance_sampling_ratio/min": 0.4411206543445587,
+      "sampling/sampling_logp_difference/max": 0.5205492973327637,
+      "sampling/sampling_logp_difference/mean": 0.027103282511234283,
+      "step": 20,
+      "step_time": 45.0223436219967
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 56.0,
+      "completions/max_terminated_length": 56.0,
+      "completions/mean_length": 47.875,
+      "completions/mean_terminated_length": 47.875,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.36454537510871887,
+      "epoch": 0.042,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.7992667555809021,
+      "kl": 0.0020659861620515585,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.1669,
+      "num_tokens": 117999.0,
+      "reward": 0.32624998688697815,
+      "reward_std": 0.5471616387367249,
+      "rewards/reward_func/mean": 0.32624998688697815,
+      "rewards/reward_func/std": 0.5324857831001282,
+      "sampling/importance_sampling_ratio/max": 1.8343143463134766,
+      "sampling/importance_sampling_ratio/mean": 0.8793189525604248,
+      "sampling/importance_sampling_ratio/min": 0.3384288549423218,
+      "sampling/sampling_logp_difference/max": 0.4840106964111328,
+      "sampling/sampling_logp_difference/mean": 0.02400803565979004,
+      "step": 21,
+      "step_time": 40.175860888994066
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 90.0,
+      "completions/max_terminated_length": 90.0,
+      "completions/mean_length": 52.125,
+      "completions/mean_terminated_length": 52.125,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.40864837169647217,
+      "epoch": 0.044,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.843110978603363,
+      "kl": 0.001421776250936091,
+      "learning_rate": 3.5e-06,
+      "loss": -0.0948,
+      "num_tokens": 123708.0,
+      "reward": 0.4725000262260437,
+      "reward_std": 0.5133668184280396,
+      "rewards/reward_func/mean": 0.4725000262260437,
+      "rewards/reward_func/std": 0.549278736114502,
+      "sampling/importance_sampling_ratio/max": 1.4361987113952637,
+      "sampling/importance_sampling_ratio/mean": 0.8868111371994019,
+      "sampling/importance_sampling_ratio/min": 0.42872440814971924,
+      "sampling/sampling_logp_difference/max": 0.33927369117736816,
+      "sampling/sampling_logp_difference/mean": 0.02582230418920517,
+      "step": 22,
+      "step_time": 168.2754703540122
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 59.0,
+      "completions/max_terminated_length": 59.0,
+      "completions/mean_length": 50.75,
+      "completions/mean_terminated_length": 50.75,
+      "completions/min_length": 44.0,
+      "completions/min_terminated_length": 44.0,
+      "entropy": 0.32568132877349854,
+      "epoch": 0.046,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.166347861289978,
+      "kl": 0.0016544836107641459,
+      "learning_rate": 3.6666666666666666e-06,
+      "loss": -0.0458,
+      "num_tokens": 129149.0,
+      "reward": 0.19249999523162842,
+      "reward_std": 0.5302917957305908,
+      "rewards/reward_func/mean": 0.19249999523162842,
+      "rewards/reward_func/std": 0.4909684658050537,
+      "sampling/importance_sampling_ratio/max": 1.6518144607543945,
+      "sampling/importance_sampling_ratio/mean": 0.894943118095398,
+      "sampling/importance_sampling_ratio/min": 0.5825864672660828,
+      "sampling/sampling_logp_difference/max": 0.48093175888061523,
+      "sampling/sampling_logp_difference/mean": 0.02260264754295349,
+      "step": 23,
+      "step_time": 125.51062903201091
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 63.0,
+      "completions/max_terminated_length": 63.0,
+      "completions/mean_length": 49.75,
+      "completions/mean_terminated_length": 49.75,
+      "completions/min_length": 42.0,
+      "completions/min_terminated_length": 42.0,
+      "entropy": 0.3474411070346832,
+      "epoch": 0.048,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0562515258789062,
+      "kl": 0.001693481463007629,
+      "learning_rate": 3.833333333333334e-06,
+      "loss": 0.2041,
+      "num_tokens": 134846.0,
+      "reward": 0.08125000447034836,
+      "reward_std": 0.2956419289112091,
+      "rewards/reward_func/mean": 0.08125000447034836,
+      "rewards/reward_func/std": 0.3755924105644226,
+      "sampling/importance_sampling_ratio/max": 2.1531643867492676,
+      "sampling/importance_sampling_ratio/mean": 1.043798565864563,
+      "sampling/importance_sampling_ratio/min": 0.529705822467804,
+      "sampling/sampling_logp_difference/max": 0.34720849990844727,
+      "sampling/sampling_logp_difference/mean": 0.01930052787065506,
+      "step": 24,
+      "step_time": 167.04036519900546
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 66.0,
+      "completions/max_terminated_length": 66.0,
+      "completions/mean_length": 54.375,
+      "completions/mean_terminated_length": 54.375,
+      "completions/min_length": 46.0,
+      "completions/min_terminated_length": 46.0,
+      "entropy": 0.3871381878852844,
+      "epoch": 0.05,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3111368417739868,
+      "kl": 0.0014404752291738987,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": -0.0471,
+      "num_tokens": 140378.0,
+      "reward": 0.36124998331069946,
+      "reward_std": 0.5499054193496704,
+      "rewards/reward_func/mean": 0.36124998331069946,
+      "rewards/reward_func/std": 0.5263469219207764,
+      "sampling/importance_sampling_ratio/max": 1.4156557321548462,
+      "sampling/importance_sampling_ratio/mean": 1.1120198965072632,
+      "sampling/importance_sampling_ratio/min": 0.7486764788627625,
+      "sampling/sampling_logp_difference/max": 0.48737621307373047,
+      "sampling/sampling_logp_difference/mean": 0.023105096071958542,
+      "step": 25,
+      "step_time": 120.95955076700193
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 71.0,
+      "completions/max_terminated_length": 71.0,
+      "completions/mean_length": 51.625,
+      "completions/mean_terminated_length": 51.625,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.39792579412460327,
+      "epoch": 0.052,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.396022915840149,
+      "kl": 0.0015975476708263159,
+      "learning_rate": 4.166666666666667e-06,
+      "loss": -0.0444,
+      "num_tokens": 146478.0,
+      "reward": 0.2224999964237213,
+      "reward_std": 0.31392672657966614,
+      "rewards/reward_func/mean": 0.2224999964237213,
+      "rewards/reward_func/std": 0.4807955026626587,
+      "sampling/importance_sampling_ratio/max": 1.508078932762146,
+      "sampling/importance_sampling_ratio/mean": 1.0499423742294312,
+      "sampling/importance_sampling_ratio/min": 0.5942177772521973,
+      "sampling/sampling_logp_difference/max": 0.3570747375488281,
+      "sampling/sampling_logp_difference/mean": 0.024486597627401352,
+      "step": 26,
+      "step_time": 104.28418873299961
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 68.0,
+      "completions/max_terminated_length": 68.0,
+      "completions/mean_length": 49.625,
+      "completions/mean_terminated_length": 49.625,
+      "completions/min_length": 40.0,
+      "completions/min_terminated_length": 40.0,
+      "entropy": 0.3486085534095764,
+      "epoch": 0.054,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1279908418655396,
+      "kl": 0.0019664729479700327,
+      "learning_rate": 4.333333333333334e-06,
+      "loss": -0.1021,
+      "num_tokens": 151586.0,
+      "reward": 0.3425000011920929,
+      "reward_std": 0.2686923146247864,
+      "rewards/reward_func/mean": 0.3425000011920929,
+      "rewards/reward_func/std": 0.5363301634788513,
+      "sampling/importance_sampling_ratio/max": 1.8593271970748901,
+      "sampling/importance_sampling_ratio/mean": 1.1785297393798828,
+      "sampling/importance_sampling_ratio/min": 0.5566311478614807,
+      "sampling/sampling_logp_difference/max": 0.4686328172683716,
+      "sampling/sampling_logp_difference/mean": 0.022173412144184113,
+      "step": 27,
+      "step_time": 85.11922752400278
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 66.0,
+      "completions/max_terminated_length": 66.0,
+      "completions/mean_length": 51.375,
+      "completions/mean_terminated_length": 51.375,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.37405920028686523,
+      "epoch": 0.056,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8106129765510559,
+      "kl": 0.0015516983112320304,
+      "learning_rate": 4.5e-06,
+      "loss": 0.0532,
+      "num_tokens": 157108.0,
+      "reward": 0.32375001907348633,
+      "reward_std": 0.5761679410934448,
+      "rewards/reward_func/mean": 0.32375001907348633,
+      "rewards/reward_func/std": 0.5525767803192139,
+      "sampling/importance_sampling_ratio/max": 1.2767354249954224,
+      "sampling/importance_sampling_ratio/mean": 0.8917201161384583,
+      "sampling/importance_sampling_ratio/min": 0.5755601525306702,
+      "sampling/sampling_logp_difference/max": 0.4100228548049927,
+      "sampling/sampling_logp_difference/mean": 0.021200813353061676,
+      "step": 28,
+      "step_time": 109.97910062700976
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 69.0,
+      "completions/max_terminated_length": 69.0,
+      "completions/mean_length": 46.25,
+      "completions/mean_terminated_length": 46.25,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.3767409026622772,
+      "epoch": 0.058,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2156670093536377,
+      "kl": 0.0015971511602401733,
+      "learning_rate": 4.666666666666667e-06,
+      "loss": 0.0163,
+      "num_tokens": 163323.0,
+      "reward": 0.08124999701976776,
+      "reward_std": 0.2750605642795563,
+      "rewards/reward_func/mean": 0.08124999701976776,
+      "rewards/reward_func/std": 0.35746878385543823,
+      "sampling/importance_sampling_ratio/max": 1.3450591564178467,
+      "sampling/importance_sampling_ratio/mean": 1.031332015991211,
+      "sampling/importance_sampling_ratio/min": 0.5739972591400146,
+      "sampling/sampling_logp_difference/max": 0.20969057083129883,
+      "sampling/sampling_logp_difference/mean": 0.018845085054636,
+      "step": 29,
+      "step_time": 125.90746463602409
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 62.0,
+      "completions/max_terminated_length": 62.0,
+      "completions/mean_length": 48.75,
+      "completions/mean_terminated_length": 48.75,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.3361830711364746,
+      "epoch": 0.06,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.085590362548828,
+      "kl": 0.002051064744591713,
+      "learning_rate": 4.833333333333333e-06,
+      "loss": -0.1044,
+      "num_tokens": 169007.0,
+      "reward": 0.11124999821186066,
+      "reward_std": 0.2608071267604828,
+      "rewards/reward_func/mean": 0.11124999821186066,
+      "rewards/reward_func/std": 0.3598586320877075,
+      "sampling/importance_sampling_ratio/max": 1.6862311363220215,
+      "sampling/importance_sampling_ratio/mean": 0.9613958597183228,
+      "sampling/importance_sampling_ratio/min": 0.4625941514968872,
+      "sampling/sampling_logp_difference/max": 0.6341955661773682,
+      "sampling/sampling_logp_difference/mean": 0.023160353302955627,
+      "step": 30,
+      "step_time": 116.55447733099572
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 55.0,
+      "completions/max_terminated_length": 55.0,
+      "completions/mean_length": 49.0,
+      "completions/mean_terminated_length": 49.0,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.34975507855415344,
+      "epoch": 0.062,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.7752349376678467,
+      "kl": 0.0018625394441187382,
+      "learning_rate": 5e-06,
+      "loss": -0.0863,
+      "num_tokens": 175255.0,
+      "reward": 0.05000000447034836,
+      "reward_std": 0.28021717071533203,
+      "rewards/reward_func/mean": 0.05000000447034836,
+      "rewards/reward_func/std": 0.3846333920955658,
+      "sampling/importance_sampling_ratio/max": 1.1800814867019653,
+      "sampling/importance_sampling_ratio/mean": 0.7340657711029053,
+      "sampling/importance_sampling_ratio/min": 0.3828251361846924,
+      "sampling/sampling_logp_difference/max": 0.574752688407898,
+      "sampling/sampling_logp_difference/mean": 0.022265031933784485,
+      "step": 31,
+      "step_time": 125.58116400899598
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 62.0,
+      "completions/max_terminated_length": 62.0,
+      "completions/mean_length": 47.125,
+      "completions/mean_terminated_length": 47.125,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.33510199189186096,
+      "epoch": 0.064,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3970941305160522,
+      "kl": 0.002852437552064657,
+      "learning_rate": 4.99998688809149e-06,
+      "loss": 0.0298,
+      "num_tokens": 180203.0,
+      "reward": 0.21125000715255737,
+      "reward_std": 0.5205552577972412,
+      "rewards/reward_func/mean": 0.21125000715255737,
+      "rewards/reward_func/std": 0.48203253746032715,
+      "sampling/importance_sampling_ratio/max": 1.4200493097305298,
+      "sampling/importance_sampling_ratio/mean": 0.8962746858596802,
+      "sampling/importance_sampling_ratio/min": 0.506354570388794,
+      "sampling/sampling_logp_difference/max": 0.3653395175933838,
+      "sampling/sampling_logp_difference/mean": 0.018153443932533264,
+      "step": 32,
+      "step_time": 99.66716593201272
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 59.0,
+      "completions/max_terminated_length": 59.0,
+      "completions/mean_length": 51.25,
+      "completions/mean_terminated_length": 51.25,
+      "completions/min_length": 44.0,
+      "completions/min_terminated_length": 44.0,
+      "entropy": 0.359342485666275,
+      "epoch": 0.066,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8919492363929749,
+      "kl": 0.0016850470565259457,
+      "learning_rate": 4.9999475525034974e-06,
+      "loss": -0.0118,
+      "num_tokens": 185921.0,
+      "reward": 0.1887499988079071,
+      "reward_std": 0.5218685865402222,
+      "rewards/reward_func/mean": 0.1887499988079071,
+      "rewards/reward_func/std": 0.4834529757499695,
+      "sampling/importance_sampling_ratio/max": 1.193926453590393,
+      "sampling/importance_sampling_ratio/mean": 0.886371374130249,
+      "sampling/importance_sampling_ratio/min": 0.6291231513023376,
+      "sampling/sampling_logp_difference/max": 0.6103978157043457,
+      "sampling/sampling_logp_difference/mean": 0.022488413378596306,
+      "step": 33,
+      "step_time": 107.37048736499855
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.0,
+      "completions/max_terminated_length": 65.0,
+      "completions/mean_length": 52.875,
+      "completions/mean_terminated_length": 52.875,
+      "completions/min_length": 47.0,
+      "completions/min_terminated_length": 47.0,
+      "entropy": 0.3850080370903015,
+      "epoch": 0.068,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.457120180130005,
+      "kl": 0.002752592321485281,
+      "learning_rate": 4.999881993648633e-06,
+      "loss": -0.1605,
+      "num_tokens": 191340.0,
+      "reward": 0.33250001072883606,
+      "reward_std": 0.5519619584083557,
+      "rewards/reward_func/mean": 0.33250001072883606,
+      "rewards/reward_func/std": 0.5346227288246155,
+      "sampling/importance_sampling_ratio/max": 2.824227809906006,
+      "sampling/importance_sampling_ratio/mean": 1.2650679349899292,
+      "sampling/importance_sampling_ratio/min": 0.5782744288444519,
+      "sampling/sampling_logp_difference/max": 0.5304313898086548,
+      "sampling/sampling_logp_difference/mean": 0.026629671454429626,
+      "step": 34,
+      "step_time": 124.5775852559891
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 70.0,
+      "completions/max_terminated_length": 70.0,
+      "completions/mean_length": 51.125,
+      "completions/mean_terminated_length": 51.125,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.3793644905090332,
+      "epoch": 0.07,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1844000816345215,
+      "kl": 0.0018589177634567022,
+      "learning_rate": 4.99979021221458e-06,
+      "loss": 0.1138,
+      "num_tokens": 197242.0,
+      "reward": 0.20374999940395355,
+      "reward_std": 0.3106112480163574,
+      "rewards/reward_func/mean": 0.20374999940395355,
+      "rewards/reward_func/std": 0.48269888758659363,
+      "sampling/importance_sampling_ratio/max": 1.8714232444763184,
+      "sampling/importance_sampling_ratio/mean": 0.8821603059768677,
+      "sampling/importance_sampling_ratio/min": 0.0,
+      "sampling/sampling_logp_difference/max": 0.7558255195617676,
+      "sampling/sampling_logp_difference/mean": 0.02827462926506996,
+      "step": 35,
+      "step_time": 124.59522388697951
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 53.0,
+      "completions/max_terminated_length": 53.0,
+      "completions/mean_length": 47.375,
+      "completions/mean_terminated_length": 47.375,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.3386607766151428,
+      "epoch": 0.072,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0467987060546875,
+      "kl": 0.002486670855432749,
+      "learning_rate": 4.9996722091640805e-06,
+      "loss": -0.0844,
+      "num_tokens": 202103.0,
+      "reward": 0.7137500047683716,
+      "reward_std": 0.31673291325569153,
+      "rewards/reward_func/mean": 0.7137500047683716,
+      "rewards/reward_func/std": 0.4965578019618988,
+      "sampling/importance_sampling_ratio/max": 1.1834334135055542,
+      "sampling/importance_sampling_ratio/mean": 0.8062876462936401,
+      "sampling/importance_sampling_ratio/min": 0.3481108844280243,
+      "sampling/sampling_logp_difference/max": 0.5823209285736084,
+      "sampling/sampling_logp_difference/mean": 0.027472082525491714,
+      "step": 36,
+      "step_time": 95.7645532739989
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 68.0,
+      "completions/max_terminated_length": 68.0,
+      "completions/mean_length": 55.75,
+      "completions/mean_terminated_length": 55.75,
+      "completions/min_length": 47.0,
+      "completions/min_terminated_length": 47.0,
+      "entropy": 0.35707682371139526,
+      "epoch": 0.074,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8499080538749695,
+      "kl": 0.00230376492254436,
+      "learning_rate": 4.999527985734932e-06,
+      "loss": 0.0658,
+      "num_tokens": 207849.0,
+      "reward": 0.3112500011920929,
+      "reward_std": 0.5869807004928589,
+      "rewards/reward_func/mean": 0.3112500011920929,
+      "rewards/reward_func/std": 0.5547313094139099,
+      "sampling/importance_sampling_ratio/max": 1.3937541246414185,
+      "sampling/importance_sampling_ratio/mean": 0.9204949140548706,
+      "sampling/importance_sampling_ratio/min": 0.5516513586044312,
+      "sampling/sampling_logp_difference/max": 0.340686559677124,
+      "sampling/sampling_logp_difference/mean": 0.02302435413002968,
+      "step": 37,
+      "step_time": 84.15662719498505
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.0,
+      "completions/max_terminated_length": 61.0,
+      "completions/mean_length": 47.625,
+      "completions/mean_terminated_length": 47.625,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.3510167896747589,
+      "epoch": 0.076,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4321602582931519,
+      "kl": 0.002203675452619791,
+      "learning_rate": 4.999357543439969e-06,
+      "loss": -0.251,
+      "num_tokens": 213602.0,
+      "reward": 0.3187499940395355,
+      "reward_std": 0.5740761756896973,
+      "rewards/reward_func/mean": 0.3187499940395355,
+      "rewards/reward_func/std": 0.5478904247283936,
+      "sampling/importance_sampling_ratio/max": 1.6841275691986084,
+      "sampling/importance_sampling_ratio/mean": 0.862945556640625,
+      "sampling/importance_sampling_ratio/min": 0.3341965675354004,
+      "sampling/sampling_logp_difference/max": 0.4191019535064697,
+      "sampling/sampling_logp_difference/mean": 0.023331163451075554,
+      "step": 38,
+      "step_time": 96.54629640298663
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 55.0,
+      "completions/max_terminated_length": 55.0,
+      "completions/mean_length": 48.5,
+      "completions/mean_terminated_length": 48.5,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.3528852164745331,
+      "epoch": 0.078,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0844610929489136,
+      "kl": 0.0035500035155564547,
+      "learning_rate": 4.999160884067051e-06,
+      "loss": 0.0473,
+      "num_tokens": 219224.0,
+      "reward": 0.08124999701976776,
+      "reward_std": 0.27454516291618347,
+      "rewards/reward_func/mean": 0.08124999701976776,
+      "rewards/reward_func/std": 0.3577883243560791,
+      "sampling/importance_sampling_ratio/max": 1.6339404582977295,
+      "sampling/importance_sampling_ratio/mean": 0.916239857673645,
+      "sampling/importance_sampling_ratio/min": 0.5048863291740417,
+      "sampling/sampling_logp_difference/max": 0.4355291724205017,
+      "sampling/sampling_logp_difference/mean": 0.02792040817439556,
+      "step": 39,
+      "step_time": 90.11714809801197
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 54.0,
+      "completions/max_terminated_length": 54.0,
+      "completions/mean_length": 46.75,
+      "completions/mean_terminated_length": 46.75,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.35738155245780945,
+      "epoch": 0.08,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9739111065864563,
+      "kl": 0.010244293138384819,
+      "learning_rate": 4.9989380096790416e-06,
+      "loss": 0.0651,
+      "num_tokens": 225224.0,
+      "reward": 0.057500001043081284,
+      "reward_std": 0.262703001499176,
+      "rewards/reward_func/mean": 0.057500001043081284,
+      "rewards/reward_func/std": 0.32779568433761597,
+      "sampling/importance_sampling_ratio/max": 0.9581937193870544,
+      "sampling/importance_sampling_ratio/mean": 0.7411354184150696,
+      "sampling/importance_sampling_ratio/min": 0.6077343821525574,
+      "sampling/sampling_logp_difference/max": 0.4662892818450928,
+      "sampling/sampling_logp_difference/mean": 0.027016079053282738,
+      "step": 40,
+      "step_time": 115.12962955801049
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 57.0,
+      "completions/max_terminated_length": 57.0,
+      "completions/mean_length": 46.25,
+      "completions/mean_terminated_length": 46.25,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.358026921749115,
+      "epoch": 0.082,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9497724175453186,
+      "kl": 0.0010761432349681854,
+      "learning_rate": 4.998688922613788e-06,
+      "loss": -0.1294,
+      "num_tokens": 230706.0,
+      "reward": 0.09750000387430191,
+      "reward_std": 0.268343985080719,
+      "rewards/reward_func/mean": 0.09750000387430191,
+      "rewards/reward_func/std": 0.36311155557632446,
+      "sampling/importance_sampling_ratio/max": 1.3778512477874756,
+      "sampling/importance_sampling_ratio/mean": 0.8394644260406494,
+      "sampling/importance_sampling_ratio/min": 0.5254734754562378,
+      "sampling/sampling_logp_difference/max": 0.34768080711364746,
+      "sampling/sampling_logp_difference/mean": 0.02200084924697876,
+      "step": 41,
+      "step_time": 105.99199089498143
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 57.0,
+      "completions/max_terminated_length": 57.0,
+      "completions/mean_length": 48.875,
+      "completions/mean_terminated_length": 48.875,
+      "completions/min_length": 40.0,
+      "completions/min_terminated_length": 40.0,
+      "entropy": 0.3547409176826477,
+      "epoch": 0.084,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8008268475532532,
+      "kl": 0.002836492843925953,
+      "learning_rate": 4.998413625484095e-06,
+      "loss": 0.0157,
+      "num_tokens": 235797.0,
+      "reward": 0.1837500035762787,
+      "reward_std": 0.49929410219192505,
+      "rewards/reward_func/mean": 0.1837500035762787,
+      "rewards/reward_func/std": 0.46315494179725647,
+      "sampling/importance_sampling_ratio/max": 1.5412955284118652,
+      "sampling/importance_sampling_ratio/mean": 0.9024899005889893,
+      "sampling/importance_sampling_ratio/min": 0.4405742287635803,
+      "sampling/sampling_logp_difference/max": 0.32985711097717285,
+      "sampling/sampling_logp_difference/mean": 0.022187065333127975,
+      "step": 42,
+      "step_time": 94.88906268199207
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 70.0,
+      "completions/max_terminated_length": 70.0,
+      "completions/mean_length": 51.25,
+      "completions/mean_terminated_length": 51.25,
+      "completions/min_length": 40.0,
+      "completions/min_terminated_length": 40.0,
+      "entropy": 0.34511110186576843,
+      "epoch": 0.086,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.284348964691162,
+      "kl": 0.006113796960562468,
+      "learning_rate": 4.9981121211777e-06,
+      "loss": 0.2878,
+      "num_tokens": 242012.0,
+      "reward": 0.33125001192092896,
+      "reward_std": 0.27656540274620056,
+      "rewards/reward_func/mean": 0.33125001192092896,
+      "rewards/reward_func/std": 0.5243346095085144,
+      "sampling/importance_sampling_ratio/max": 2.3226945400238037,
+      "sampling/importance_sampling_ratio/mean": 0.8612687587738037,
+      "sampling/importance_sampling_ratio/min": 0.3401707410812378,
+      "sampling/sampling_logp_difference/max": 0.6737399101257324,
+      "sampling/sampling_logp_difference/mean": 0.02680300548672676,
+      "step": 43,
+      "step_time": 83.10613166898838
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 56.0,
+      "completions/max_terminated_length": 56.0,
+      "completions/mean_length": 47.625,
+      "completions/mean_terminated_length": 47.625,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.35635292530059814,
+      "epoch": 0.088,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8651462197303772,
+      "kl": 0.0018102331086993217,
+      "learning_rate": 4.997784412857239e-06,
+      "loss": 0.1933,
+      "num_tokens": 248290.0,
+      "reward": 0.08749999105930328,
+      "reward_std": 0.26158273220062256,
+      "rewards/reward_func/mean": 0.08749999105930328,
+      "rewards/reward_func/std": 0.3502958118915558,
+      "sampling/importance_sampling_ratio/max": 1.2505582571029663,
+      "sampling/importance_sampling_ratio/mean": 0.8515357971191406,
+      "sampling/importance_sampling_ratio/min": 0.3733709156513214,
+      "sampling/sampling_logp_difference/max": 0.3616971969604492,
+      "sampling/sampling_logp_difference/mean": 0.023276425898075104,
+      "step": 44,
+      "step_time": 96.6780000999861
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 78.0,
+      "completions/max_terminated_length": 78.0,
+      "completions/mean_length": 57.875,
+      "completions/mean_terminated_length": 57.875,
+      "completions/min_length": 42.0,
+      "completions/min_terminated_length": 42.0,
+      "entropy": 0.4258785843849182,
+      "epoch": 0.09,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.7754176259040833,
+      "kl": 0.005309364292770624,
+      "learning_rate": 4.99743050396022e-06,
+      "loss": 0.0623,
+      "num_tokens": 253843.0,
+      "reward": 0.3537500202655792,
+      "reward_std": 0.5509142875671387,
+      "rewards/reward_func/mean": 0.3537500202655792,
+      "rewards/reward_func/std": 0.5298500657081604,
+      "sampling/importance_sampling_ratio/max": 1.3845423460006714,
+      "sampling/importance_sampling_ratio/mean": 0.8699455261230469,
+      "sampling/importance_sampling_ratio/min": 0.30967551469802856,
+      "sampling/sampling_logp_difference/max": 0.4125208854675293,
+      "sampling/sampling_logp_difference/mean": 0.02934259921312332,
+      "step": 45,
+      "step_time": 78.66523612500168
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 71.0,
+      "completions/max_terminated_length": 71.0,
+      "completions/mean_length": 48.5,
+      "completions/mean_terminated_length": 48.5,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.37021562457084656,
+      "epoch": 0.092,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3564432859420776,
+      "kl": 0.002915932796895504,
+      "learning_rate": 4.997050398198977e-06,
+      "loss": 0.0626,
+      "num_tokens": 258896.0,
+      "reward": 0.33000001311302185,
+      "reward_std": 0.5612866878509521,
+      "rewards/reward_func/mean": 0.33000001311302185,
+      "rewards/reward_func/std": 0.5336666107177734,
+      "sampling/importance_sampling_ratio/max": 1.5622109174728394,
+      "sampling/importance_sampling_ratio/mean": 1.0067038536071777,
+      "sampling/importance_sampling_ratio/min": 0.41681596636772156,
+      "sampling/sampling_logp_difference/max": 0.5778782367706299,
+      "sampling/sampling_logp_difference/mean": 0.024849699810147285,
+      "step": 46,
+      "step_time": 91.13322191301268
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 57.0,
+      "completions/max_terminated_length": 57.0,
+      "completions/mean_length": 48.125,
+      "completions/mean_terminated_length": 48.125,
+      "completions/min_length": 41.0,
+      "completions/min_terminated_length": 41.0,
+      "entropy": 0.3771839439868927,
+      "epoch": 0.094,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.5632238388061523,
+      "kl": 0.0020723105408251286,
+      "learning_rate": 4.9966440995606415e-06,
+      "loss": -0.192,
+      "num_tokens": 264298.0,
+      "reward": 0.20499999821186066,
+      "reward_std": 0.32124459743499756,
+      "rewards/reward_func/mean": 0.20499999821186066,
+      "rewards/reward_func/std": 0.4859159588813782,
+      "sampling/importance_sampling_ratio/max": 2.447948694229126,
+      "sampling/importance_sampling_ratio/mean": 1.2227914333343506,
+      "sampling/importance_sampling_ratio/min": 0.46755385398864746,
+      "sampling/sampling_logp_difference/max": 0.3898049592971802,
+      "sampling/sampling_logp_difference/mean": 0.023719076067209244,
+      "step": 47,
+      "step_time": 77.2298025219934
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 54.0,
+      "completions/max_terminated_length": 54.0,
+      "completions/mean_length": 41.375,
+      "completions/mean_terminated_length": 41.375,
+      "completions/min_length": 31.0,
+      "completions/min_terminated_length": 31.0,
+      "entropy": 0.3675180673599243,
+      "epoch": 0.096,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.202669620513916,
+      "kl": 0.003329810919240117,
+      "learning_rate": 4.9962116123070925e-06,
+      "loss": 0.1727,
+      "num_tokens": 269970.0,
+      "reward": 0.3412500023841858,
+      "reward_std": 0.5402647256851196,
+      "rewards/reward_func/mean": 0.3412500023841858,
+      "rewards/reward_func/std": 0.5210549235343933,
+      "sampling/importance_sampling_ratio/max": 2.6151790618896484,
+      "sampling/importance_sampling_ratio/mean": 0.9013060331344604,
+      "sampling/importance_sampling_ratio/min": 0.20561860501766205,
+      "sampling/sampling_logp_difference/max": 0.5823161602020264,
+      "sampling/sampling_logp_difference/mean": 0.03182598948478699,
+      "step": 48,
+      "step_time": 103.054377449007
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 70.0,
+      "completions/max_terminated_length": 70.0,
+      "completions/mean_length": 48.375,
+      "completions/mean_terminated_length": 48.375,
+      "completions/min_length": 40.0,
+      "completions/min_terminated_length": 40.0,
+      "entropy": 0.3362388014793396,
+      "epoch": 0.098,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9811183214187622,
+      "kl": 0.001854179659858346,
+      "learning_rate": 4.9957529409749185e-06,
+      "loss": -0.0427,
+      "num_tokens": 275532.0,
+      "reward": 0.2212499976158142,
+      "reward_std": 0.5194467306137085,
+      "rewards/reward_func/mean": 0.2212499976158142,
+      "rewards/reward_func/std": 0.48111292719841003,
+      "sampling/importance_sampling_ratio/max": 1.1795125007629395,
+      "sampling/importance_sampling_ratio/mean": 0.8117722868919373,
+      "sampling/importance_sampling_ratio/min": 0.32398006319999695,
+      "sampling/sampling_logp_difference/max": 0.3128964900970459,
+      "sampling/sampling_logp_difference/mean": 0.020228173583745956,
+      "step": 49,
+      "step_time": 92.03725726599805
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 63.0,
+      "completions/max_terminated_length": 63.0,
+      "completions/mean_length": 52.125,
+      "completions/mean_terminated_length": 52.125,
+      "completions/min_length": 42.0,
+      "completions/min_terminated_length": 42.0,
+      "entropy": 0.33680054545402527,
+      "epoch": 0.1,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8777604699134827,
+      "kl": 0.0024415755178779364,
+      "learning_rate": 4.995268090375362e-06,
+      "loss": 0.05,
+      "num_tokens": 281466.0,
+      "reward": 0.0637500062584877,
+      "reward_std": 0.27558743953704834,
+      "rewards/reward_func/mean": 0.0637500062584877,
+      "rewards/reward_func/std": 0.3678484857082367,
+      "sampling/importance_sampling_ratio/max": 1.50518000125885,
+      "sampling/importance_sampling_ratio/mean": 0.9082848429679871,
+      "sampling/importance_sampling_ratio/min": 0.41154056787490845,
+      "sampling/sampling_logp_difference/max": 0.5747478008270264,
+      "sampling/sampling_logp_difference/mean": 0.024731453508138657,
+      "step": 50,
+      "step_time": 101.29344615599257
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 69.0,
+      "completions/max_terminated_length": 69.0,
+      "completions/mean_length": 47.875,
+      "completions/mean_terminated_length": 47.875,
+      "completions/min_length": 32.0,
+      "completions/min_terminated_length": 32.0,
+      "entropy": 0.41207462549209595,
+      "epoch": 0.102,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1961466073989868,
+      "kl": 0.0038733931723982096,
+      "learning_rate": 4.99475706559428e-06,
+      "loss": 0.0661,
+      "num_tokens": 286937.0,
+      "reward": 0.45500001311302185,
+      "reward_std": 0.5954470634460449,
+      "rewards/reward_func/mean": 0.45500001311302185,
+      "rewards/reward_func/std": 0.5518540143966675,
+      "sampling/importance_sampling_ratio/max": 1.4747618436813354,
+      "sampling/importance_sampling_ratio/mean": 0.934749960899353,
+      "sampling/importance_sampling_ratio/min": 0.4552203118801117,
+      "sampling/sampling_logp_difference/max": 0.3542771339416504,
+      "sampling/sampling_logp_difference/mean": 0.023817723616957664,
+      "step": 51,
+      "step_time": 98.44445793100749
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 57.0,
+      "completions/max_terminated_length": 57.0,
+      "completions/mean_length": 50.25,
+      "completions/mean_terminated_length": 50.25,
+      "completions/min_length": 41.0,
+      "completions/min_terminated_length": 41.0,
+      "entropy": 0.31511616706848145,
+      "epoch": 0.104,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.32075035572052,
+      "kl": 0.0016216668300330639,
+      "learning_rate": 4.994219871992077e-06,
+      "loss": -0.0975,
+      "num_tokens": 292284.0,
+      "reward": 0.6025000214576721,
+      "reward_std": 0.2593764066696167,
+      "rewards/reward_func/mean": 0.6025000214576721,
+      "rewards/reward_func/std": 0.5323197245597839,
+      "sampling/importance_sampling_ratio/max": 2.0314249992370605,
+      "sampling/importance_sampling_ratio/mean": 1.274023413658142,
+      "sampling/importance_sampling_ratio/min": 0.5603557229042053,
+      "sampling/sampling_logp_difference/max": 0.7182197570800781,
+      "sampling/sampling_logp_difference/mean": 0.021842751652002335,
+      "step": 52,
+      "step_time": 74.32618405998801
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 71.0,
+      "completions/max_terminated_length": 71.0,
+      "completions/mean_length": 57.875,
+      "completions/mean_terminated_length": 57.875,
+      "completions/min_length": 40.0,
+      "completions/min_terminated_length": 40.0,
+      "entropy": 0.37222176790237427,
+      "epoch": 0.106,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8657234311103821,
+      "kl": 0.004503990523517132,
+      "learning_rate": 4.993656515203662e-06,
+      "loss": -0.0014,
+      "num_tokens": 298374.0,
+      "reward": 0.17249998450279236,
+      "reward_std": 0.3328244686126709,
+      "rewards/reward_func/mean": 0.17249998450279236,
+      "rewards/reward_func/std": 0.4848784804344177,
+      "sampling/importance_sampling_ratio/max": 1.6778643131256104,
+      "sampling/importance_sampling_ratio/mean": 0.9224530458450317,
+      "sampling/importance_sampling_ratio/min": 0.3226885199546814,
+      "sampling/sampling_logp_difference/max": 1.1129628419876099,
+      "sampling/sampling_logp_difference/mean": 0.023930778726935387,
+      "step": 53,
+      "step_time": 105.75805833100458
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 74.0,
+      "completions/max_terminated_length": 74.0,
+      "completions/mean_length": 51.625,
+      "completions/mean_terminated_length": 51.625,
+      "completions/min_length": 41.0,
+      "completions/min_terminated_length": 41.0,
+      "entropy": 0.38617652654647827,
+      "epoch": 0.108,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9701952934265137,
+      "kl": 0.002225311938673258,
+      "learning_rate": 4.99306700113838e-06,
+      "loss": -0.0465,
+      "num_tokens": 303786.0,
+      "reward": 0.33000001311302185,
+      "reward_std": 0.5561413764953613,
+      "rewards/reward_func/mean": 0.33000001311302185,
+      "rewards/reward_func/std": 0.5339342355728149,
+      "sampling/importance_sampling_ratio/max": 1.0194271802902222,
+      "sampling/importance_sampling_ratio/mean": 0.7991744875907898,
+      "sampling/importance_sampling_ratio/min": 0.33269256353378296,
+      "sampling/sampling_logp_difference/max": 0.33765721321105957,
+      "sampling/sampling_logp_difference/mean": 0.026410941034555435,
+      "step": 54,
+      "step_time": 83.15403410801082
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 67.0,
+      "completions/max_terminated_length": 67.0,
+      "completions/mean_length": 53.625,
+      "completions/mean_terminated_length": 53.625,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.3604234457015991,
+      "epoch": 0.11,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8578059077262878,
+      "kl": 0.0011407495476305485,
+      "learning_rate": 4.9924513359799555e-06,
+      "loss": 0.0794,
+      "num_tokens": 309275.0,
+      "reward": 0.33250001072883606,
+      "reward_std": 0.5635805130004883,
+      "rewards/reward_func/mean": 0.33250001072883606,
+      "rewards/reward_func/std": 0.5450229048728943,
+      "sampling/importance_sampling_ratio/max": 1.3248019218444824,
+      "sampling/importance_sampling_ratio/mean": 0.8565744161605835,
+      "sampling/importance_sampling_ratio/min": 0.42319124937057495,
+      "sampling/sampling_logp_difference/max": 0.5236988067626953,
+      "sampling/sampling_logp_difference/mean": 0.022501163184642792,
+      "step": 55,
+      "step_time": 73.6418833520147
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 66.0,
+      "completions/max_terminated_length": 66.0,
+      "completions/mean_length": 49.5,
+      "completions/mean_terminated_length": 49.5,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.3908393681049347,
+      "epoch": 0.112,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.7073943614959717,
+      "kl": 0.003342224285006523,
+      "learning_rate": 4.991809526186424e-06,
+      "loss": -0.2814,
+      "num_tokens": 314307.0,
+      "reward": 0.32375001907348633,
+      "reward_std": 0.5598282814025879,
+      "rewards/reward_func/mean": 0.32375001907348633,
+      "rewards/reward_func/std": 0.5455518364906311,
+      "sampling/importance_sampling_ratio/max": 2.344586133956909,
+      "sampling/importance_sampling_ratio/mean": 1.196304440498352,
+      "sampling/importance_sampling_ratio/min": 0.5245997309684753,
+      "sampling/sampling_logp_difference/max": 1.1410305500030518,
+      "sampling/sampling_logp_difference/mean": 0.02790486253798008,
+      "step": 56,
+      "step_time": 90.67011975299101
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 73.0,
+      "completions/max_terminated_length": 73.0,
+      "completions/mean_length": 55.5,
+      "completions/mean_terminated_length": 55.5,
+      "completions/min_length": 45.0,
+      "completions/min_terminated_length": 45.0,
+      "entropy": 0.34012845158576965,
+      "epoch": 0.114,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8670101761817932,
+      "kl": 0.0026079914532601833,
+      "learning_rate": 4.991141578490066e-06,
+      "loss": -0.1396,
+      "num_tokens": 320264.0,
+      "reward": 0.07624999433755875,
+      "reward_std": 0.29174044728279114,
+      "rewards/reward_func/mean": 0.07624999433755875,
+      "rewards/reward_func/std": 0.37625741958618164,
+      "sampling/importance_sampling_ratio/max": 1.4562015533447266,
+      "sampling/importance_sampling_ratio/mean": 0.7509514689445496,
+      "sampling/importance_sampling_ratio/min": 0.0,
+      "sampling/sampling_logp_difference/max": 0.34556615352630615,
+      "sampling/sampling_logp_difference/mean": 0.02316705882549286,
+      "step": 57,
+      "step_time": 96.33522103502764
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 72.0,
+      "completions/max_terminated_length": 72.0,
+      "completions/mean_length": 53.125,
+      "completions/mean_terminated_length": 53.125,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.3367074131965637,
+      "epoch": 0.116,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0496222972869873,
+      "kl": 0.0054735890589654446,
+      "learning_rate": 4.990447499897339e-06,
+      "loss": 0.1168,
+      "num_tokens": 325728.0,
+      "reward": 0.17374999821186066,
+      "reward_std": 0.538986086845398,
+      "rewards/reward_func/mean": 0.17374999821186066,
+      "rewards/reward_func/std": 0.49951228499412537,
+      "sampling/importance_sampling_ratio/max": 1.447581171989441,
+      "sampling/importance_sampling_ratio/mean": 0.9637683629989624,
+      "sampling/importance_sampling_ratio/min": 0.6208034157752991,
+      "sampling/sampling_logp_difference/max": 0.4196118116378784,
+      "sampling/sampling_logp_difference/mean": 0.023549657315015793,
+      "step": 58,
+      "step_time": 97.37826122099068
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.0,
+      "completions/max_terminated_length": 61.0,
+      "completions/mean_length": 49.875,
+      "completions/mean_terminated_length": 49.875,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.36870628595352173,
+      "epoch": 0.118,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3209524154663086,
+      "kl": 0.002333354204893112,
+      "learning_rate": 4.989727297688797e-06,
+      "loss": 0.1813,
+      "num_tokens": 331317.0,
+      "reward": 0.3449999988079071,
+      "reward_std": 0.5488909482955933,
+      "rewards/reward_func/mean": 0.3449999988079071,
+      "rewards/reward_func/std": 0.5325947403907776,
+      "sampling/importance_sampling_ratio/max": 1.9513617753982544,
+      "sampling/importance_sampling_ratio/mean": 0.996979296207428,
+      "sampling/importance_sampling_ratio/min": 0.6756687760353088,
+      "sampling/sampling_logp_difference/max": 0.4977457523345947,
+      "sampling/sampling_logp_difference/mean": 0.02654324471950531,
+      "step": 59,
+      "step_time": 92.74966769100865
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 56.0,
+      "completions/max_terminated_length": 56.0,
+      "completions/mean_length": 46.5,
+      "completions/mean_terminated_length": 46.5,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.3398672938346863,
+      "epoch": 0.12,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9856535792350769,
+      "kl": 0.0027454416267573833,
+      "learning_rate": 4.98898097941902e-06,
+      "loss": 0.0051,
+      "num_tokens": 336444.0,
+      "reward": -0.06875000149011612,
+      "reward_std": 0.06034637242555618,
+      "rewards/reward_func/mean": -0.06875000149011612,
+      "rewards/reward_func/std": 0.05667892098426819,
+      "sampling/importance_sampling_ratio/max": 1.05806303024292,
+      "sampling/importance_sampling_ratio/mean": 0.7077381014823914,
+      "sampling/importance_sampling_ratio/min": 0.29610589146614075,
+      "sampling/sampling_logp_difference/max": 0.538194477558136,
+      "sampling/sampling_logp_difference/mean": 0.026932962238788605,
+      "step": 60,
+      "step_time": 85.23989409799105
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 56.0,
+      "completions/max_terminated_length": 56.0,
+      "completions/mean_length": 47.375,
+      "completions/mean_terminated_length": 47.375,
+      "completions/min_length": 41.0,
+      "completions/min_terminated_length": 41.0,
+      "entropy": 0.3458422124385834,
+      "epoch": 0.122,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.7404291033744812,
+      "kl": 0.0024542706087231636,
+      "learning_rate": 4.988208552916535e-06,
+      "loss": 0.0047,
+      "num_tokens": 341913.0,
+      "reward": 0.06750001013278961,
+      "reward_std": 0.2946765422821045,
+      "rewards/reward_func/mean": 0.06750001013278961,
+      "rewards/reward_func/std": 0.38231438398361206,
+      "sampling/importance_sampling_ratio/max": 1.2514207363128662,
+      "sampling/importance_sampling_ratio/mean": 0.8571313619613647,
+      "sampling/importance_sampling_ratio/min": 0.37189623713493347,
+      "sampling/sampling_logp_difference/max": 0.32369494438171387,
+      "sampling/sampling_logp_difference/mean": 0.01881476677954197,
+      "step": 61,
+      "step_time": 81.40806046701618
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 69.0,
+      "completions/max_terminated_length": 69.0,
+      "completions/mean_length": 53.625,
+      "completions/mean_terminated_length": 53.625,
+      "completions/min_length": 42.0,
+      "completions/min_terminated_length": 42.0,
+      "entropy": 0.3777502477169037,
+      "epoch": 0.124,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.5111892223358154,
+      "kl": 0.0038244668394327164,
+      "learning_rate": 4.98741002628373e-06,
+      "loss": -0.0188,
+      "num_tokens": 347236.0,
+      "reward": 0.6025000214576721,
+      "reward_std": 0.5539374351501465,
+      "rewards/reward_func/mean": 0.6025000214576721,
+      "rewards/reward_func/std": 0.5297641158103943,
+      "sampling/importance_sampling_ratio/max": 2.0949490070343018,
+      "sampling/importance_sampling_ratio/mean": 1.2000421285629272,
+      "sampling/importance_sampling_ratio/min": 0.6139946579933167,
+      "sampling/sampling_logp_difference/max": 0.6703405380249023,
+      "sampling/sampling_logp_difference/mean": 0.02322327345609665,
+      "step": 62,
+      "step_time": 69.72723935198155
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 64.0,
+      "completions/max_terminated_length": 64.0,
+      "completions/mean_length": 50.25,
+      "completions/mean_terminated_length": 50.25,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.3558458089828491,
+      "epoch": 0.126,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.667698085308075,
+      "kl": 0.0018400326371192932,
+      "learning_rate": 4.9865854078967715e-06,
+      "loss": 0.0829,
+      "num_tokens": 352685.0,
+      "reward": 0.5875000357627869,
+      "reward_std": 0.5716196298599243,
+      "rewards/reward_func/mean": 0.5875000357627869,
+      "rewards/reward_func/std": 0.5452063679695129,
+      "sampling/importance_sampling_ratio/max": 0.9193384647369385,
+      "sampling/importance_sampling_ratio/mean": 0.632682740688324,
+      "sampling/importance_sampling_ratio/min": 0.3342023193836212,
+      "sampling/sampling_logp_difference/max": 0.8547244071960449,
+      "sampling/sampling_logp_difference/mean": 0.022451236844062805,
+      "step": 63,
+      "step_time": 64.33397425999283
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 58.0,
+      "completions/max_terminated_length": 58.0,
+      "completions/mean_length": 46.625,
+      "completions/mean_terminated_length": 46.625,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.36075106263160706,
+      "epoch": 0.128,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.6670936346054077,
+      "kl": 0.0064406488090753555,
+      "learning_rate": 4.985734706405516e-06,
+      "loss": -0.1783,
+      "num_tokens": 358643.0,
+      "reward": 0.08750000596046448,
+      "reward_std": 0.2707710862159729,
+      "rewards/reward_func/mean": 0.08750000596046448,
+      "rewards/reward_func/std": 0.3586781620979309,
+      "sampling/importance_sampling_ratio/max": 2.078122615814209,
+      "sampling/importance_sampling_ratio/mean": 1.245069980621338,
+      "sampling/importance_sampling_ratio/min": 0.5846289992332458,
+      "sampling/sampling_logp_difference/max": 0.3692970275878906,
+      "sampling/sampling_logp_difference/mean": 0.022641174495220184,
+      "step": 64,
+      "step_time": 90.54826116497861
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 70.0,
+      "completions/max_terminated_length": 70.0,
+      "completions/mean_length": 48.25,
+      "completions/mean_terminated_length": 48.25,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.34251487255096436,
+      "epoch": 0.13,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.6975246071815491,
+      "kl": 0.0017276068683713675,
+      "learning_rate": 4.9848579307334195e-06,
+      "loss": 0.0456,
+      "num_tokens": 365099.0,
+      "reward": 0.2199999988079071,
+      "reward_std": 0.4802777171134949,
+      "rewards/reward_func/mean": 0.2199999988079071,
+      "rewards/reward_func/std": 0.44468289613723755,
+      "sampling/importance_sampling_ratio/max": 1.202215313911438,
+      "sampling/importance_sampling_ratio/mean": 0.8249953985214233,
+      "sampling/importance_sampling_ratio/min": 0.5363028645515442,
+      "sampling/sampling_logp_difference/max": 0.45500755310058594,
+      "sampling/sampling_logp_difference/mean": 0.01933646947145462,
+      "step": 65,
+      "step_time": 85.8507220740139
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 62.0,
+      "completions/max_terminated_length": 62.0,
+      "completions/mean_length": 53.375,
+      "completions/mean_terminated_length": 53.375,
+      "completions/min_length": 42.0,
+      "completions/min_terminated_length": 42.0,
+      "entropy": 0.35193923115730286,
+      "epoch": 0.132,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0195058584213257,
+      "kl": 0.0025058817118406296,
+      "learning_rate": 4.983955090077445e-06,
+      "loss": -0.0506,
+      "num_tokens": 369968.0,
+      "reward": 0.20749999582767487,
+      "reward_std": 0.5109157562255859,
+      "rewards/reward_func/mean": 0.20749999582767487,
+      "rewards/reward_func/std": 0.4736107587814331,
+      "sampling/importance_sampling_ratio/max": 1.2251256704330444,
+      "sampling/importance_sampling_ratio/mean": 0.9472914934158325,
+      "sampling/importance_sampling_ratio/min": 0.8227061629295349,
+      "sampling/sampling_logp_difference/max": 0.31458473205566406,
+      "sampling/sampling_logp_difference/mean": 0.017272518947720528,
+      "step": 66,
+      "step_time": 76.18023397601792
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 77.0,
+      "completions/max_terminated_length": 77.0,
+      "completions/mean_length": 52.375,
+      "completions/mean_terminated_length": 52.375,
+      "completions/min_length": 40.0,
+      "completions/min_terminated_length": 40.0,
+      "entropy": 0.36691945791244507,
+      "epoch": 0.134,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0082647800445557,
+      "kl": 0.0018996293656527996,
+      "learning_rate": 4.983026193907962e-06,
+      "loss": 0.1843,
+      "num_tokens": 375164.0,
+      "reward": 0.21249999105930328,
+      "reward_std": 0.319685161113739,
+      "rewards/reward_func/mean": 0.21249999105930328,
+      "rewards/reward_func/std": 0.4872591197490692,
+      "sampling/importance_sampling_ratio/max": 1.7669250965118408,
+      "sampling/importance_sampling_ratio/mean": 0.8863449692726135,
+      "sampling/importance_sampling_ratio/min": 0.26863494515419006,
+      "sampling/sampling_logp_difference/max": 0.3789827823638916,
+      "sampling/sampling_logp_difference/mean": 0.02467949688434601,
+      "step": 67,
+      "step_time": 93.1446157169994
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 64.0,
+      "completions/max_terminated_length": 64.0,
+      "completions/mean_length": 47.125,
+      "completions/mean_terminated_length": 47.125,
+      "completions/min_length": 30.0,
+      "completions/min_terminated_length": 30.0,
+      "entropy": 0.35669732093811035,
+      "epoch": 0.136,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8750259280204773,
+      "kl": 0.0033818050287663937,
+      "learning_rate": 4.982071251968653e-06,
+      "loss": 0.051,
+      "num_tokens": 380504.0,
+      "reward": 0.32875001430511475,
+      "reward_std": 0.5622336864471436,
+      "rewards/reward_func/mean": 0.32875001430511475,
+      "rewards/reward_func/std": 0.5360020399093628,
+      "sampling/importance_sampling_ratio/max": 1.2201801538467407,
+      "sampling/importance_sampling_ratio/mean": 0.8601148724555969,
+      "sampling/importance_sampling_ratio/min": 0.6346798539161682,
+      "sampling/sampling_logp_difference/max": 0.3918271064758301,
+      "sampling/sampling_logp_difference/mean": 0.023806363344192505,
+      "step": 68,
+      "step_time": 72.7238112029736
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.0,
+      "completions/max_terminated_length": 65.0,
+      "completions/mean_length": 50.125,
+      "completions/mean_terminated_length": 50.125,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.4199118912220001,
+      "epoch": 0.138,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0077135562896729,
+      "kl": 0.00302119180560112,
+      "learning_rate": 4.981090274276406e-06,
+      "loss": 0.1156,
+      "num_tokens": 386315.0,
+      "reward": 0.059999994933605194,
+      "reward_std": 0.2796437740325928,
+      "rewards/reward_func/mean": 0.059999994933605194,
+      "rewards/reward_func/std": 0.36245197057724,
+      "sampling/importance_sampling_ratio/max": 1.8291817903518677,
+      "sampling/importance_sampling_ratio/mean": 0.9294091463088989,
+      "sampling/importance_sampling_ratio/min": 0.3144456446170807,
+      "sampling/sampling_logp_difference/max": 0.610379695892334,
+      "sampling/sampling_logp_difference/mean": 0.031378112733364105,
+      "step": 69,
+      "step_time": 88.02450225598295
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 83.0,
+      "completions/max_terminated_length": 83.0,
+      "completions/mean_length": 57.25,
+      "completions/mean_terminated_length": 57.25,
+      "completions/min_length": 32.0,
+      "completions/min_terminated_length": 32.0,
+      "entropy": 0.38176238536834717,
+      "epoch": 0.14,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.892582356929779,
+      "kl": 0.0031344564631581306,
+      "learning_rate": 4.980083271121215e-06,
+      "loss": -0.1972,
+      "num_tokens": 391929.0,
+      "reward": 0.2150000035762787,
+      "reward_std": 0.50013267993927,
+      "rewards/reward_func/mean": 0.2150000035762787,
+      "rewards/reward_func/std": 0.46398892998695374,
+      "sampling/importance_sampling_ratio/max": 1.8030683994293213,
+      "sampling/importance_sampling_ratio/mean": 0.9491258859634399,
+      "sampling/importance_sampling_ratio/min": 0.3493870496749878,
+      "sampling/sampling_logp_difference/max": 0.4494798183441162,
+      "sampling/sampling_logp_difference/mean": 0.02591659128665924,
+      "step": 70,
+      "step_time": 71.29640350298723
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 66.0,
+      "completions/max_terminated_length": 66.0,
+      "completions/mean_length": 51.5,
+      "completions/mean_terminated_length": 51.5,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.4286239743232727,
+      "epoch": 0.142,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2103837728500366,
+      "kl": 0.0030327460262924433,
+      "learning_rate": 4.979050253066064e-06,
+      "loss": -0.1033,
+      "num_tokens": 397951.0,
+      "reward": 0.1875,
+      "reward_std": 0.344761461019516,
+      "rewards/reward_func/mean": 0.1875,
+      "rewards/reward_func/std": 0.48029011487960815,
+      "sampling/importance_sampling_ratio/max": 1.681307315826416,
+      "sampling/importance_sampling_ratio/mean": 0.8077924847602844,
+      "sampling/importance_sampling_ratio/min": 0.35340648889541626,
+      "sampling/sampling_logp_difference/max": 0.5255258083343506,
+      "sampling/sampling_logp_difference/mean": 0.02561108022928238,
+      "step": 71,
+      "step_time": 94.12945175101049
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 64.0,
+      "completions/max_terminated_length": 64.0,
+      "completions/mean_length": 51.75,
+      "completions/mean_terminated_length": 51.75,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.3729614019393921,
+      "epoch": 0.144,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.875525951385498,
+      "kl": 0.001732141012325883,
+      "learning_rate": 4.977991230946824e-06,
+      "loss": -0.0218,
+      "num_tokens": 402966.0,
+      "reward": 0.34375,
+      "reward_std": 0.5594232082366943,
+      "rewards/reward_func/mean": 0.34375,
+      "rewards/reward_func/std": 0.5332096219062805,
+      "sampling/importance_sampling_ratio/max": 1.3324414491653442,
+      "sampling/importance_sampling_ratio/mean": 0.9489821195602417,
+      "sampling/importance_sampling_ratio/min": 0.6200194358825684,
+      "sampling/sampling_logp_difference/max": 0.282620906829834,
+      "sampling/sampling_logp_difference/mean": 0.021304737776517868,
+      "step": 72,
+      "step_time": 68.7971295939933
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 53.0,
+      "completions/max_terminated_length": 53.0,
+      "completions/mean_length": 44.5,
+      "completions/mean_terminated_length": 44.5,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.32240110635757446,
+      "epoch": 0.146,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.950322151184082,
+      "kl": 0.0028352453373372555,
+      "learning_rate": 4.976906215872137e-06,
+      "loss": 0.0467,
+      "num_tokens": 409055.0,
+      "reward": 0.3387500047683716,
+      "reward_std": 0.2871127426624298,
+      "rewards/reward_func/mean": 0.3387500047683716,
+      "rewards/reward_func/std": 0.5407254099845886,
+      "sampling/importance_sampling_ratio/max": 1.2006139755249023,
+      "sampling/importance_sampling_ratio/mean": 0.8248869180679321,
+      "sampling/importance_sampling_ratio/min": 0.4684114456176758,
+      "sampling/sampling_logp_difference/max": 0.43263185024261475,
+      "sampling/sampling_logp_difference/mean": 0.023945681750774384,
+      "step": 73,
+      "step_time": 102.22122251600376
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 66.0,
+      "completions/max_terminated_length": 66.0,
+      "completions/mean_length": 50.25,
+      "completions/mean_terminated_length": 50.25,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.3135406970977783,
+      "epoch": 0.148,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.154463529586792,
+      "kl": 0.03127220273017883,
+      "learning_rate": 4.975795219223299e-06,
+      "loss": -0.0935,
+      "num_tokens": 414402.0,
+      "reward": 0.3412500023841858,
+      "reward_std": 0.5579792261123657,
+      "rewards/reward_func/mean": 0.3412500023841858,
+      "rewards/reward_func/std": 0.535975456237793,
+      "sampling/importance_sampling_ratio/max": 2.067894220352173,
+      "sampling/importance_sampling_ratio/mean": 0.9438801407814026,
+      "sampling/importance_sampling_ratio/min": 0.4140065908432007,
+      "sampling/sampling_logp_difference/max": 0.4713999032974243,
+      "sampling/sampling_logp_difference/mean": 0.02523641288280487,
+      "step": 74,
+      "step_time": 89.00602476199856
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 60.0,
+      "completions/max_terminated_length": 60.0,
+      "completions/mean_length": 53.875,
+      "completions/mean_terminated_length": 53.875,
+      "completions/min_length": 48.0,
+      "completions/min_terminated_length": 48.0,
+      "entropy": 0.32595470547676086,
+      "epoch": 0.15,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8300859332084656,
+      "kl": 0.007171849254518747,
+      "learning_rate": 4.974658252654135e-06,
+      "loss": -0.0902,
+      "num_tokens": 419796.0,
+      "reward": 0.48250001668930054,
+      "reward_std": 0.5001860857009888,
+      "rewards/reward_func/mean": 0.48250001668930054,
+      "rewards/reward_func/std": 0.5347295999526978,
+      "sampling/importance_sampling_ratio/max": 1.4946962594985962,
+      "sampling/importance_sampling_ratio/mean": 0.8154863119125366,
+      "sampling/importance_sampling_ratio/min": 0.3788175582885742,
+      "sampling/sampling_logp_difference/max": 0.7174708843231201,
+      "sampling/sampling_logp_difference/mean": 0.021303167566657066,
+      "step": 75,
+      "step_time": 59.640716498019174
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 60.0,
+      "completions/max_terminated_length": 60.0,
+      "completions/mean_length": 49.375,
+      "completions/mean_terminated_length": 49.375,
+      "completions/min_length": 42.0,
+      "completions/min_terminated_length": 42.0,
+      "entropy": 0.41575515270233154,
+      "epoch": 0.152,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4510153532028198,
+      "kl": 0.011087974533438683,
+      "learning_rate": 4.973495328090891e-06,
+      "loss": 0.1287,
+      "num_tokens": 424726.0,
+      "reward": 0.3387500047683716,
+      "reward_std": 0.5444081425666809,
+      "rewards/reward_func/mean": 0.3387500047683716,
+      "rewards/reward_func/std": 0.5208355784416199,
+      "sampling/importance_sampling_ratio/max": 1.5896728038787842,
+      "sampling/importance_sampling_ratio/mean": 1.0859061479568481,
+      "sampling/importance_sampling_ratio/min": 0.718471348285675,
+      "sampling/sampling_logp_difference/max": 0.6861748695373535,
+      "sampling/sampling_logp_difference/mean": 0.02493377774953842,
+      "step": 76,
+      "step_time": 70.72388471697923
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 50.0,
+      "completions/max_terminated_length": 50.0,
+      "completions/mean_length": 42.875,
+      "completions/mean_terminated_length": 42.875,
+      "completions/min_length": 27.0,
+      "completions/min_terminated_length": 27.0,
+      "entropy": 0.3451007008552551,
+      "epoch": 0.154,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.7033120393753052,
+      "kl": 0.006896092556416988,
+      "learning_rate": 4.972306457732091e-06,
+      "loss": 0.1233,
+      "num_tokens": 429957.0,
+      "reward": 0.09125000238418579,
+      "reward_std": 0.2647804319858551,
+      "rewards/reward_func/mean": 0.09125000238418579,
+      "rewards/reward_func/std": 0.36841118335723877,
+      "sampling/importance_sampling_ratio/max": 1.4747828245162964,
+      "sampling/importance_sampling_ratio/mean": 1.0489879846572876,
+      "sampling/importance_sampling_ratio/min": 0.6281050443649292,
+      "sampling/sampling_logp_difference/max": 0.8355374336242676,
+      "sampling/sampling_logp_difference/mean": 0.02908758632838726,
+      "step": 77,
+      "step_time": 81.86546373798046
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 68.0,
+      "completions/max_terminated_length": 68.0,
+      "completions/mean_length": 54.375,
+      "completions/mean_terminated_length": 54.375,
+      "completions/min_length": 45.0,
+      "completions/min_terminated_length": 45.0,
+      "entropy": 0.3363872170448303,
+      "epoch": 0.156,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0083401203155518,
+      "kl": 0.003795074066147208,
+      "learning_rate": 4.971091654048427e-06,
+      "loss": 0.3044,
+      "num_tokens": 436347.0,
+      "reward": 0.07499999552965164,
+      "reward_std": 0.2905214726924896,
+      "rewards/reward_func/mean": 0.07499999552965164,
+      "rewards/reward_func/std": 0.378644198179245,
+      "sampling/importance_sampling_ratio/max": 2.2779664993286133,
+      "sampling/importance_sampling_ratio/mean": 1.063035249710083,
+      "sampling/importance_sampling_ratio/min": 0.37523871660232544,
+      "sampling/sampling_logp_difference/max": 0.3972114324569702,
+      "sampling/sampling_logp_difference/mean": 0.02419961616396904,
+      "step": 78,
+      "step_time": 88.4848685679899
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 60.0,
+      "completions/max_terminated_length": 60.0,
+      "completions/mean_length": 50.5,
+      "completions/mean_terminated_length": 50.5,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.3581341505050659,
+      "epoch": 0.158,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.572177767753601,
+      "kl": 0.0030747244600206614,
+      "learning_rate": 4.96985092978261e-06,
+      "loss": -0.0336,
+      "num_tokens": 441325.0,
+      "reward": 0.051249999552965164,
+      "reward_std": 0.3115207850933075,
+      "rewards/reward_func/mean": 0.051249999552965164,
+      "rewards/reward_func/std": 0.3852434754371643,
+      "sampling/importance_sampling_ratio/max": 2.044938087463379,
+      "sampling/importance_sampling_ratio/mean": 0.971229076385498,
+      "sampling/importance_sampling_ratio/min": 0.1840338557958603,
+      "sampling/sampling_logp_difference/max": 0.6103886365890503,
+      "sampling/sampling_logp_difference/mean": 0.02984805777668953,
+      "step": 79,
+      "step_time": 92.6209842649987
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 78.0,
+      "completions/max_terminated_length": 78.0,
+      "completions/mean_length": 53.375,
+      "completions/mean_terminated_length": 53.375,
+      "completions/min_length": 30.0,
+      "completions/min_terminated_length": 30.0,
+      "entropy": 0.32628703117370605,
+      "epoch": 0.16,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8613694906234741,
+      "kl": 0.0033719956409186125,
+      "learning_rate": 4.968584297949255e-06,
+      "loss": -0.0019,
+      "num_tokens": 446935.0,
+      "reward": 0.4662500023841858,
+      "reward_std": 0.5965955257415771,
+      "rewards/reward_func/mean": 0.4662500023841858,
+      "rewards/reward_func/std": 0.5527060627937317,
+      "sampling/importance_sampling_ratio/max": 2.1245856285095215,
+      "sampling/importance_sampling_ratio/mean": 0.8101105690002441,
+      "sampling/importance_sampling_ratio/min": 0.354059100151062,
+      "sampling/sampling_logp_difference/max": 0.4604175090789795,
+      "sampling/sampling_logp_difference/mean": 0.024325117468833923,
+      "step": 80,
+      "step_time": 91.05656213400653
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 75.0,
+      "completions/max_terminated_length": 75.0,
+      "completions/mean_length": 58.125,
+      "completions/mean_terminated_length": 58.125,
+      "completions/min_length": 31.0,
+      "completions/min_terminated_length": 31.0,
+      "entropy": 0.3670700788497925,
+      "epoch": 0.162,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2181848287582397,
+      "kl": 0.002382858656346798,
+      "learning_rate": 4.967291771834727e-06,
+      "loss": -0.2348,
+      "num_tokens": 452473.0,
+      "reward": 0.15125001966953278,
+      "reward_std": 0.3374948501586914,
+      "rewards/reward_func/mean": 0.15125001966953278,
+      "rewards/reward_func/std": 0.4997267425060272,
+      "sampling/importance_sampling_ratio/max": 2.508380174636841,
+      "sampling/importance_sampling_ratio/mean": 1.2941944599151611,
+      "sampling/importance_sampling_ratio/min": 0.646767258644104,
+      "sampling/sampling_logp_difference/max": 0.3313436508178711,
+      "sampling/sampling_logp_difference/mean": 0.02512197196483612,
+      "step": 81,
+      "step_time": 90.79619163498865
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 57.0,
+      "completions/max_terminated_length": 57.0,
+      "completions/mean_length": 49.0,
+      "completions/mean_terminated_length": 49.0,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.2903425693511963,
+      "epoch": 0.164,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2693836688995361,
+      "kl": 0.0025903629139065742,
+      "learning_rate": 4.965973364997015e-06,
+      "loss": -0.0367,
+      "num_tokens": 458523.0,
+      "reward": 0.17125000059604645,
+      "reward_std": 0.3282886743545532,
+      "rewards/reward_func/mean": 0.17125000059604645,
+      "rewards/reward_func/std": 0.499898225069046,
+      "sampling/importance_sampling_ratio/max": 1.9814573526382446,
+      "sampling/importance_sampling_ratio/mean": 0.9206903576850891,
+      "sampling/importance_sampling_ratio/min": 0.2931478023529053,
+      "sampling/sampling_logp_difference/max": 0.4033019542694092,
+      "sampling/sampling_logp_difference/mean": 0.02239578776061535,
+      "step": 82,
+      "step_time": 101.29266464500688
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 85.0,
+      "completions/max_terminated_length": 85.0,
+      "completions/mean_length": 52.75,
+      "completions/mean_terminated_length": 52.75,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.3330921530723572,
+      "epoch": 0.166,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2236757278442383,
+      "kl": 0.003864692524075508,
+      "learning_rate": 4.964629091265583e-06,
+      "loss": -0.0728,
+      "num_tokens": 463684.0,
+      "reward": 0.4675000011920929,
+      "reward_std": 0.5979688763618469,
+      "rewards/reward_func/mean": 0.4675000011920929,
+      "rewards/reward_func/std": 0.5541208982467651,
+      "sampling/importance_sampling_ratio/max": 1.6764252185821533,
+      "sampling/importance_sampling_ratio/mean": 1.0374202728271484,
+      "sampling/importance_sampling_ratio/min": 0.6156142950057983,
+      "sampling/sampling_logp_difference/max": 0.5306464433670044,
+      "sampling/sampling_logp_difference/mean": 0.02434811368584633,
+      "step": 83,
+      "step_time": 65.75530088201049
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 76.0,
+      "completions/max_terminated_length": 76.0,
+      "completions/mean_length": 50.875,
+      "completions/mean_terminated_length": 50.875,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.3707743287086487,
+      "epoch": 0.168,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0121077299118042,
+      "kl": 0.006942209787666798,
+      "learning_rate": 4.963258964741227e-06,
+      "loss": 0.1128,
+      "num_tokens": 468918.0,
+      "reward": 0.3462499976158142,
+      "reward_std": 0.5688021183013916,
+      "rewards/reward_func/mean": 0.3462499976158142,
+      "rewards/reward_func/std": 0.5434529185295105,
+      "sampling/importance_sampling_ratio/max": 1.8691112995147705,
+      "sampling/importance_sampling_ratio/mean": 0.9797255992889404,
+      "sampling/importance_sampling_ratio/min": 0.19412098824977875,
+      "sampling/sampling_logp_difference/max": 0.6592090129852295,
+      "sampling/sampling_logp_difference/mean": 0.027863148599863052,
+      "step": 84,
+      "step_time": 69.84349327700329
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 58.0,
+      "completions/max_terminated_length": 58.0,
+      "completions/mean_length": 48.25,
+      "completions/mean_terminated_length": 48.25,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.350742369890213,
+      "epoch": 0.17,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.236136794090271,
+      "kl": 0.0026309723034501076,
+      "learning_rate": 4.961862999795923e-06,
+      "loss": 0.0105,
+      "num_tokens": 474878.0,
+      "reward": 0.061250001192092896,
+      "reward_std": 0.2900194525718689,
+      "rewards/reward_func/mean": 0.061250001192092896,
+      "rewards/reward_func/std": 0.3823774456977844,
+      "sampling/importance_sampling_ratio/max": 2.504836320877075,
+      "sampling/importance_sampling_ratio/mean": 1.2779099941253662,
+      "sampling/importance_sampling_ratio/min": 0.65166175365448,
+      "sampling/sampling_logp_difference/max": 0.5060451030731201,
+      "sampling/sampling_logp_difference/mean": 0.021245911717414856,
+      "step": 85,
+      "step_time": 77.75256623400492
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 62.0,
+      "completions/max_terminated_length": 62.0,
+      "completions/mean_length": 51.625,
+      "completions/mean_terminated_length": 51.625,
+      "completions/min_length": 42.0,
+      "completions/min_terminated_length": 42.0,
+      "entropy": 0.36720341444015503,
+      "epoch": 0.172,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3172496557235718,
+      "kl": 0.0030011916533112526,
+      "learning_rate": 4.960441211072686e-06,
+      "loss": -0.1479,
+      "num_tokens": 480065.0,
+      "reward": 0.4399999976158142,
+      "reward_std": 0.5658103227615356,
+      "rewards/reward_func/mean": 0.4399999976158142,
+      "rewards/reward_func/std": 0.5238865613937378,
+      "sampling/importance_sampling_ratio/max": 2.6345438957214355,
+      "sampling/importance_sampling_ratio/mean": 1.2061142921447754,
+      "sampling/importance_sampling_ratio/min": 0.6962835192680359,
+      "sampling/sampling_logp_difference/max": 0.3562922477722168,
+      "sampling/sampling_logp_difference/mean": 0.023759279400110245,
+      "step": 86,
+      "step_time": 79.76976580297924
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 57.0,
+      "completions/max_terminated_length": 57.0,
+      "completions/mean_length": 47.5,
+      "completions/mean_terminated_length": 47.5,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.3295614421367645,
+      "epoch": 0.174,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2377467155456543,
+      "kl": 0.0017705978825688362,
+      "learning_rate": 4.958993613485406e-06,
+      "loss": 0.1347,
+      "num_tokens": 485174.0,
+      "reward": -0.05000000074505806,
+      "reward_std": 0.03639974445104599,
+      "rewards/reward_func/mean": -0.05000000074505806,
+      "rewards/reward_func/std": 0.041403934359550476,
+      "sampling/importance_sampling_ratio/max": 2.701768398284912,
+      "sampling/importance_sampling_ratio/mean": 1.1716480255126953,
+      "sampling/importance_sampling_ratio/min": 0.710328221321106,
+      "sampling/sampling_logp_difference/max": 0.3339419364929199,
+      "sampling/sampling_logp_difference/mean": 0.02282622456550598,
+      "step": 87,
+      "step_time": 98.58460397701128
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 86.0,
+      "completions/max_terminated_length": 86.0,
+      "completions/mean_length": 52.5,
+      "completions/mean_terminated_length": 52.5,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.3728080689907074,
+      "epoch": 0.176,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9409402012825012,
+      "kl": 0.004020972643047571,
+      "learning_rate": 4.957520222218695e-06,
+      "loss": -0.2078,
+      "num_tokens": 491186.0,
+      "reward": 0.20624999701976776,
+      "reward_std": 0.3007173538208008,
+      "rewards/reward_func/mean": 0.20624999701976776,
+      "rewards/reward_func/std": 0.4542478024959564,
+      "sampling/importance_sampling_ratio/max": 1.1913342475891113,
+      "sampling/importance_sampling_ratio/mean": 0.8587566018104553,
+      "sampling/importance_sampling_ratio/min": 0.5435622930526733,
+      "sampling/sampling_logp_difference/max": 0.33767926692962646,
+      "sampling/sampling_logp_difference/mean": 0.02355227991938591,
+      "step": 88,
+      "step_time": 83.78908705202048
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 66.0,
+      "completions/max_terminated_length": 66.0,
+      "completions/mean_length": 52.875,
+      "completions/mean_terminated_length": 52.875,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.41878965497016907,
+      "epoch": 0.178,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9201162457466125,
+      "kl": 0.0033999462611973286,
+      "learning_rate": 4.956021052727731e-06,
+      "loss": -0.0817,
+      "num_tokens": 497013.0,
+      "reward": 0.09125000238418579,
+      "reward_std": 0.2839151620864868,
+      "rewards/reward_func/mean": 0.09125000238418579,
+      "rewards/reward_func/std": 0.369727224111557,
+      "sampling/importance_sampling_ratio/max": 1.4009984731674194,
+      "sampling/importance_sampling_ratio/mean": 0.8987118005752563,
+      "sampling/importance_sampling_ratio/min": 0.636340320110321,
+      "sampling/sampling_logp_difference/max": 0.3343019485473633,
+      "sampling/sampling_logp_difference/mean": 0.02563662827014923,
+      "step": 89,
+      "step_time": 76.07593618502142
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 55.0,
+      "completions/max_terminated_length": 55.0,
+      "completions/mean_length": 50.375,
+      "completions/mean_terminated_length": 50.375,
+      "completions/min_length": 43.0,
+      "completions/min_terminated_length": 43.0,
+      "entropy": 0.3703194260597229,
+      "epoch": 0.18,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0612517595291138,
+      "kl": 0.00556425005197525,
+      "learning_rate": 4.954496120738094e-06,
+      "loss": 0.1675,
+      "num_tokens": 502431.0,
+      "reward": 0.3462499976158142,
+      "reward_std": 0.5637357234954834,
+      "rewards/reward_func/mean": 0.3462499976158142,
+      "rewards/reward_func/std": 0.5389921069145203,
+      "sampling/importance_sampling_ratio/max": 1.7256437540054321,
+      "sampling/importance_sampling_ratio/mean": 0.9468981027603149,
+      "sampling/importance_sampling_ratio/min": 0.606105387210846,
+      "sampling/sampling_logp_difference/max": 0.343442440032959,
+      "sampling/sampling_logp_difference/mean": 0.022628474980592728,
+      "step": 90,
+      "step_time": 75.86889905299176
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 60.0,
+      "completions/max_terminated_length": 60.0,
+      "completions/mean_length": 50.125,
+      "completions/mean_terminated_length": 50.125,
+      "completions/min_length": 42.0,
+      "completions/min_terminated_length": 42.0,
+      "entropy": 0.3772880434989929,
+      "epoch": 0.182,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3590164184570312,
+      "kl": 0.0036642742343246937,
+      "learning_rate": 4.952945442245598e-06,
+      "loss": -0.2427,
+      "num_tokens": 508352.0,
+      "reward": 0.07499998807907104,
+      "reward_std": 0.28367576003074646,
+      "rewards/reward_func/mean": 0.07499998807907104,
+      "rewards/reward_func/std": 0.3612280488014221,
+      "sampling/importance_sampling_ratio/max": 1.6069527864456177,
+      "sampling/importance_sampling_ratio/mean": 0.8528153300285339,
+      "sampling/importance_sampling_ratio/min": 0.2771243453025818,
+      "sampling/sampling_logp_difference/max": 0.6460120677947998,
+      "sampling/sampling_logp_difference/mean": 0.026305314153432846,
+      "step": 91,
+      "step_time": 101.26391361499554
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 91.0,
+      "completions/max_terminated_length": 91.0,
+      "completions/mean_length": 50.75,
+      "completions/mean_terminated_length": 50.75,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.3880101442337036,
+      "epoch": 0.184,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.07570219039917,
+      "kl": 0.0035898014903068542,
+      "learning_rate": 4.951369033516127e-06,
+      "loss": -0.0628,
+      "num_tokens": 513922.0,
+      "reward": 0.3474999964237213,
+      "reward_std": 0.538013756275177,
+      "rewards/reward_func/mean": 0.3474999964237213,
+      "rewards/reward_func/std": 0.5158834457397461,
+      "sampling/importance_sampling_ratio/max": 2.46356201171875,
+      "sampling/importance_sampling_ratio/mean": 1.4318658113479614,
+      "sampling/importance_sampling_ratio/min": 0.7919402122497559,
+      "sampling/sampling_logp_difference/max": 0.5595130920410156,
+      "sampling/sampling_logp_difference/mean": 0.021545136347413063,
+      "step": 92,
+      "step_time": 89.50697983897408
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 55.0,
+      "completions/max_terminated_length": 55.0,
+      "completions/mean_length": 50.75,
+      "completions/mean_terminated_length": 50.75,
+      "completions/min_length": 45.0,
+      "completions/min_terminated_length": 45.0,
+      "entropy": 0.3597927391529083,
+      "epoch": 0.186,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.7946093082427979,
+      "kl": 0.00549793615937233,
+      "learning_rate": 4.949766911085461e-06,
+      "loss": -0.0008,
+      "num_tokens": 519677.0,
+      "reward": 0.2150000035762787,
+      "reward_std": 0.5236697196960449,
+      "rewards/reward_func/mean": 0.2150000035762787,
+      "rewards/reward_func/std": 0.48529812693595886,
+      "sampling/importance_sampling_ratio/max": 1.5985785722732544,
+      "sampling/importance_sampling_ratio/mean": 0.9824653267860413,
+      "sampling/importance_sampling_ratio/min": 0.5499786734580994,
+      "sampling/sampling_logp_difference/max": 0.40012407302856445,
+      "sampling/sampling_logp_difference/mean": 0.020420320332050323,
+      "step": 93,
+      "step_time": 75.89820895600133
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 71.0,
+      "completions/max_terminated_length": 71.0,
+      "completions/mean_length": 54.75,
+      "completions/mean_terminated_length": 54.75,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.37839484214782715,
+      "epoch": 0.188,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.6853567957878113,
+      "kl": 0.003214706666767597,
+      "learning_rate": 4.948139091759108e-06,
+      "loss": 0.2257,
+      "num_tokens": 525806.0,
+      "reward": 0.19624999165534973,
+      "reward_std": 0.5386360883712769,
+      "rewards/reward_func/mean": 0.19624999165534973,
+      "rewards/reward_func/std": 0.4986822009086609,
+      "sampling/importance_sampling_ratio/max": 2.103787422180176,
+      "sampling/importance_sampling_ratio/mean": 1.0454094409942627,
+      "sampling/importance_sampling_ratio/min": 0.4870206117630005,
+      "sampling/sampling_logp_difference/max": 0.3358621597290039,
+      "sampling/sampling_logp_difference/mean": 0.01956326514482498,
+      "step": 94,
+      "step_time": 85.72357106002164
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 67.0,
+      "completions/max_terminated_length": 67.0,
+      "completions/mean_length": 47.5,
+      "completions/mean_terminated_length": 47.5,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.3306207060813904,
+      "epoch": 0.19,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1758936643600464,
+      "kl": 0.002643125131726265,
+      "learning_rate": 4.946485592612122e-06,
+      "loss": -0.1909,
+      "num_tokens": 531520.0,
+      "reward": 0.06624999642372131,
+      "reward_std": 0.3067837357521057,
+      "rewards/reward_func/mean": 0.06624999642372131,
+      "rewards/reward_func/std": 0.38149845600128174,
+      "sampling/importance_sampling_ratio/max": 1.9292004108428955,
+      "sampling/importance_sampling_ratio/mean": 1.0738458633422852,
+      "sampling/importance_sampling_ratio/min": 0.6487919688224792,
+      "sampling/sampling_logp_difference/max": 0.3406977653503418,
+      "sampling/sampling_logp_difference/mean": 0.0220349058508873,
+      "step": 95,
+      "step_time": 77.85138512399863
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 70.0,
+      "completions/max_terminated_length": 70.0,
+      "completions/mean_length": 53.25,
+      "completions/mean_terminated_length": 53.25,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.312557190656662,
+      "epoch": 0.192,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1386572122573853,
+      "kl": 0.0068060653284192085,
+      "learning_rate": 4.944806430988927e-06,
+      "loss": -0.2,
+      "num_tokens": 536890.0,
+      "reward": 0.33250001072883606,
+      "reward_std": 0.5673606991767883,
+      "rewards/reward_func/mean": 0.33250001072883606,
+      "rewards/reward_func/std": 0.5434480309486389,
+      "sampling/importance_sampling_ratio/max": 1.4778003692626953,
+      "sampling/importance_sampling_ratio/mean": 0.9165278673171997,
+      "sampling/importance_sampling_ratio/min": 0.373668909072876,
+      "sampling/sampling_logp_difference/max": 0.5655592679977417,
+      "sampling/sampling_logp_difference/mean": 0.024791110306978226,
+      "step": 96,
+      "step_time": 62.66469675899134
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.0,
+      "completions/max_terminated_length": 61.0,
+      "completions/mean_length": 52.125,
+      "completions/mean_terminated_length": 52.125,
+      "completions/min_length": 44.0,
+      "completions/min_terminated_length": 44.0,
+      "entropy": 0.3480789363384247,
+      "epoch": 0.194,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8446367979049683,
+      "kl": 0.009365051984786987,
+      "learning_rate": 4.943101624503133e-06,
+      "loss": 0.1505,
+      "num_tokens": 542424.0,
+      "reward": -0.07750000059604645,
+      "reward_std": 0.06912855058908463,
+      "rewards/reward_func/mean": -0.07750000059604645,
+      "rewards/reward_func/std": 0.06453128159046173,
+      "sampling/importance_sampling_ratio/max": 1.3271279335021973,
+      "sampling/importance_sampling_ratio/mean": 0.8955328464508057,
+      "sampling/importance_sampling_ratio/min": 0.2967626452445984,
+      "sampling/sampling_logp_difference/max": 0.4783933162689209,
+      "sampling/sampling_logp_difference/mean": 0.025432758033275604,
+      "step": 97,
+      "step_time": 121.15107800901751
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 69.0,
+      "completions/max_terminated_length": 69.0,
+      "completions/mean_length": 52.5,
+      "completions/mean_terminated_length": 52.5,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.3962988257408142,
+      "epoch": 0.196,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.7532799243927002,
+      "kl": 0.0025938255712389946,
+      "learning_rate": 4.941371191037353e-06,
+      "loss": 0.5137,
+      "num_tokens": 548175.0,
+      "reward": 0.09125000238418579,
+      "reward_std": 0.27026599645614624,
+      "rewards/reward_func/mean": 0.09125000238418579,
+      "rewards/reward_func/std": 0.35750874876976013,
+      "sampling/importance_sampling_ratio/max": 2.1303369998931885,
+      "sampling/importance_sampling_ratio/mean": 1.1401922702789307,
+      "sampling/importance_sampling_ratio/min": 0.46015465259552,
+      "sampling/sampling_logp_difference/max": 0.5732070207595825,
+      "sampling/sampling_logp_difference/mean": 0.028814753517508507,
+      "step": 98,
+      "step_time": 93.41499740499421
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.0,
+      "completions/max_terminated_length": 65.0,
+      "completions/mean_length": 46.875,
+      "completions/mean_terminated_length": 46.875,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.36940494179725647,
+      "epoch": 0.198,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0608575344085693,
+      "kl": 0.003493869910016656,
+      "learning_rate": 4.939615148743017e-06,
+      "loss": -0.1552,
+      "num_tokens": 553527.0,
+      "reward": 0.20625001192092896,
+      "reward_std": 0.5164605379104614,
+      "rewards/reward_func/mean": 0.20625001192092896,
+      "rewards/reward_func/std": 0.4783584475517273,
+      "sampling/importance_sampling_ratio/max": 1.2723692655563354,
+      "sampling/importance_sampling_ratio/mean": 0.8784043788909912,
+      "sampling/importance_sampling_ratio/min": 0.5372451543807983,
+      "sampling/sampling_logp_difference/max": 0.5341734886169434,
+      "sampling/sampling_logp_difference/mean": 0.02111111767590046,
+      "step": 99,
+      "step_time": 90.65784694100148
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 60.0,
+      "completions/max_terminated_length": 60.0,
+      "completions/mean_length": 49.25,
+      "completions/mean_terminated_length": 49.25,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.3440898358821869,
+      "epoch": 0.2,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1309008598327637,
+      "kl": 0.0054893046617507935,
+      "learning_rate": 4.937833516040177e-06,
+      "loss": 0.0197,
+      "num_tokens": 559881.0,
+      "reward": 0.29875001311302185,
+      "reward_std": 0.5750788450241089,
+      "rewards/reward_func/mean": 0.29875001311302185,
+      "rewards/reward_func/std": 0.5545767545700073,
+      "sampling/importance_sampling_ratio/max": 1.1451483964920044,
+      "sampling/importance_sampling_ratio/mean": 0.8518111705780029,
+      "sampling/importance_sampling_ratio/min": 0.6277573108673096,
+      "sampling/sampling_logp_difference/max": 0.48022013902664185,
+      "sampling/sampling_logp_difference/mean": 0.024066496640443802,
+      "step": 100,
+      "step_time": 103.06095111800823
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 77.0,
+      "completions/max_terminated_length": 77.0,
+      "completions/mean_length": 50.5,
+      "completions/mean_terminated_length": 50.5,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.3469806909561157,
+      "epoch": 0.202,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.7262893319129944,
+      "kl": 0.0019808816723525524,
+      "learning_rate": 4.936026311617316e-06,
+      "loss": 0.0341,
+      "num_tokens": 565252.0,
+      "reward": 0.040000006556510925,
+      "reward_std": 0.3062291443347931,
+      "rewards/reward_func/mean": 0.040000006556510925,
+      "rewards/reward_func/std": 0.3904210329055786,
+      "sampling/importance_sampling_ratio/max": 2.1688106060028076,
+      "sampling/importance_sampling_ratio/mean": 1.0679666996002197,
+      "sampling/importance_sampling_ratio/min": 0.3155788481235504,
+      "sampling/sampling_logp_difference/max": 0.7815747261047363,
+      "sampling/sampling_logp_difference/mean": 0.02425907365977764,
+      "step": 101,
+      "step_time": 103.25376764600514
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 60.0,
+      "completions/max_terminated_length": 60.0,
+      "completions/mean_length": 52.5,
+      "completions/mean_terminated_length": 52.5,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.34851688146591187,
+      "epoch": 0.204,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0761581659317017,
+      "kl": 0.006346363108605146,
+      "learning_rate": 4.9341935544311536e-06,
+      "loss": -0.0727,
+      "num_tokens": 570076.0,
+      "reward": 0.4737500250339508,
+      "reward_std": 0.5936700105667114,
+      "rewards/reward_func/mean": 0.4737500250339508,
+      "rewards/reward_func/std": 0.5496476292610168,
+      "sampling/importance_sampling_ratio/max": 1.647140622138977,
+      "sampling/importance_sampling_ratio/mean": 1.0042234659194946,
+      "sampling/importance_sampling_ratio/min": 0.49350976943969727,
+      "sampling/sampling_logp_difference/max": 0.609084963798523,
+      "sampling/sampling_logp_difference/mean": 0.025170542299747467,
+      "step": 102,
+      "step_time": 64.7651237519749
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 60.0,
+      "completions/max_terminated_length": 60.0,
+      "completions/mean_length": 54.0,
+      "completions/mean_terminated_length": 54.0,
+      "completions/min_length": 47.0,
+      "completions/min_terminated_length": 47.0,
+      "entropy": 0.3427722454071045,
+      "epoch": 0.206,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.7976966500282288,
+      "kl": 0.0015114627312868834,
+      "learning_rate": 4.932335263706446e-06,
+      "loss": -0.1135,
+      "num_tokens": 576043.0,
+      "reward": 0.5950000286102295,
+      "reward_std": 0.5730479955673218,
+      "rewards/reward_func/mean": 0.5950000286102295,
+      "rewards/reward_func/std": 0.5514914989471436,
+      "sampling/importance_sampling_ratio/max": 1.248305082321167,
+      "sampling/importance_sampling_ratio/mean": 0.944599986076355,
+      "sampling/importance_sampling_ratio/min": 0.5915149450302124,
+      "sampling/sampling_logp_difference/max": 0.2609410285949707,
+      "sampling/sampling_logp_difference/mean": 0.019696425646543503,
+      "step": 103,
+      "step_time": 71.29194252597517
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 67.0,
+      "completions/max_terminated_length": 67.0,
+      "completions/mean_length": 53.375,
+      "completions/mean_terminated_length": 53.375,
+      "completions/min_length": 32.0,
+      "completions/min_terminated_length": 32.0,
+      "entropy": 0.3026958703994751,
+      "epoch": 0.208,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.035447359085083,
+      "kl": 0.002654898911714554,
+      "learning_rate": 4.930451458935783e-06,
+      "loss": -0.0804,
+      "num_tokens": 580966.0,
+      "reward": 0.4725000262260437,
+      "reward_std": 0.5602477788925171,
+      "rewards/reward_func/mean": 0.4725000262260437,
+      "rewards/reward_func/std": 0.5191407799720764,
+      "sampling/importance_sampling_ratio/max": 1.4709969758987427,
+      "sampling/importance_sampling_ratio/mean": 0.9203107357025146,
+      "sampling/importance_sampling_ratio/min": 0.38464194536209106,
+      "sampling/sampling_logp_difference/max": 0.44011521339416504,
+      "sampling/sampling_logp_difference/mean": 0.019846128299832344,
+      "step": 104,
+      "step_time": 63.931227530993056
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 57.0,
+      "completions/max_terminated_length": 57.0,
+      "completions/mean_length": 48.5,
+      "completions/mean_terminated_length": 48.5,
+      "completions/min_length": 41.0,
+      "completions/min_terminated_length": 41.0,
+      "entropy": 0.3297388553619385,
+      "epoch": 0.21,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1884028911590576,
+      "kl": 0.0026048035360872746,
+      "learning_rate": 4.928542159879386e-06,
+      "loss": 0.0376,
+      "num_tokens": 586118.0,
+      "reward": 0.46875,
+      "reward_std": 0.5946630239486694,
+      "rewards/reward_func/mean": 0.46875,
+      "rewards/reward_func/std": 0.550803005695343,
+      "sampling/importance_sampling_ratio/max": 1.9977771043777466,
+      "sampling/importance_sampling_ratio/mean": 0.9485726952552795,
+      "sampling/importance_sampling_ratio/min": 0.21913643181324005,
+      "sampling/sampling_logp_difference/max": 0.32509803771972656,
+      "sampling/sampling_logp_difference/mean": 0.021720722317695618,
+      "step": 105,
+      "step_time": 83.04879019001964
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 63.0,
+      "completions/max_terminated_length": 63.0,
+      "completions/mean_length": 44.5,
+      "completions/mean_terminated_length": 44.5,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.35155361890792847,
+      "epoch": 0.212,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0504732131958008,
+      "kl": 0.004135879687964916,
+      "learning_rate": 4.926607386564898e-06,
+      "loss": 0.1553,
+      "num_tokens": 591400.0,
+      "reward": -0.054999999701976776,
+      "reward_std": 0.04559952765703201,
+      "rewards/reward_func/mean": -0.054999999701976776,
+      "rewards/reward_func/std": 0.05903993919491768,
+      "sampling/importance_sampling_ratio/max": 1.2951682806015015,
+      "sampling/importance_sampling_ratio/mean": 0.6690744757652283,
+      "sampling/importance_sampling_ratio/min": 0.0,
+      "sampling/sampling_logp_difference/max": 0.4716770648956299,
+      "sampling/sampling_logp_difference/mean": 0.02485671453177929,
+      "step": 106,
+      "step_time": 82.7186574760126
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 56.0,
+      "completions/max_terminated_length": 56.0,
+      "completions/mean_length": 47.875,
+      "completions/mean_terminated_length": 47.875,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.34445077180862427,
+      "epoch": 0.214,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.5816599726676941,
+      "kl": 0.002885550959035754,
+      "learning_rate": 4.924647159287176e-06,
+      "loss": 0.0717,
+      "num_tokens": 596902.0,
+      "reward": 0.3525000214576721,
+      "reward_std": 0.2688867449760437,
+      "rewards/reward_func/mean": 0.3525000214576721,
+      "rewards/reward_func/std": 0.5281977653503418,
+      "sampling/importance_sampling_ratio/max": 1.3920848369598389,
+      "sampling/importance_sampling_ratio/mean": 0.6316713094711304,
+      "sampling/importance_sampling_ratio/min": 0.0,
+      "sampling/sampling_logp_difference/max": 0.5735256671905518,
+      "sampling/sampling_logp_difference/mean": 0.024873752146959305,
+      "step": 107,
+      "step_time": 67.83759238000493
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.0,
+      "completions/max_terminated_length": 65.0,
+      "completions/mean_length": 52.625,
+      "completions/mean_terminated_length": 52.625,
+      "completions/min_length": 44.0,
+      "completions/min_terminated_length": 44.0,
+      "entropy": 0.34955301880836487,
+      "epoch": 0.216,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4328964948654175,
+      "kl": 0.001958028180524707,
+      "learning_rate": 4.922661498608077e-06,
+      "loss": 0.0188,
+      "num_tokens": 602106.0,
+      "reward": 0.4675000309944153,
+      "reward_std": 0.5285453796386719,
+      "rewards/reward_func/mean": 0.4675000309944153,
+      "rewards/reward_func/std": 0.5641112327575684,
+      "sampling/importance_sampling_ratio/max": 1.7434935569763184,
+      "sampling/importance_sampling_ratio/mean": 1.167940616607666,
+      "sampling/importance_sampling_ratio/min": 0.30112484097480774,
+      "sampling/sampling_logp_difference/max": 0.42384326457977295,
+      "sampling/sampling_logp_difference/mean": 0.023688288405537605,
+      "step": 108,
+      "step_time": 72.5184516950103
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.0,
+      "completions/max_terminated_length": 65.0,
+      "completions/mean_length": 50.875,
+      "completions/mean_terminated_length": 50.875,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.3498673439025879,
+      "epoch": 0.218,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.5927255153656006,
+      "kl": 0.0023621944710612297,
+      "learning_rate": 4.920650425356239e-06,
+      "loss": -0.2113,
+      "num_tokens": 607347.0,
+      "reward": -0.0625,
+      "reward_std": 0.05268768593668938,
+      "rewards/reward_func/mean": -0.0625,
+      "rewards/reward_func/std": 0.04978525638580322,
+      "sampling/importance_sampling_ratio/max": 1.686551809310913,
+      "sampling/importance_sampling_ratio/mean": 1.2102283239364624,
+      "sampling/importance_sampling_ratio/min": 0.6830826997756958,
+      "sampling/sampling_logp_difference/max": 0.3530259132385254,
+      "sampling/sampling_logp_difference/mean": 0.02098490670323372,
+      "step": 109,
+      "step_time": 86.84248229800141
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 76.0,
+      "completions/max_terminated_length": 76.0,
+      "completions/mean_length": 51.75,
+      "completions/mean_terminated_length": 51.75,
+      "completions/min_length": 42.0,
+      "completions/min_terminated_length": 42.0,
+      "entropy": 0.35680192708969116,
+      "epoch": 0.22,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8017518520355225,
+      "kl": 0.0017795683816075325,
+      "learning_rate": 4.9186139606268735e-06,
+      "loss": -0.0156,
+      "num_tokens": 612704.0,
+      "reward": 0.07250000536441803,
+      "reward_std": 0.2962879240512848,
+      "rewards/reward_func/mean": 0.07250000536441803,
+      "rewards/reward_func/std": 0.3792756497859955,
+      "sampling/importance_sampling_ratio/max": 1.3156285285949707,
+      "sampling/importance_sampling_ratio/mean": 0.9082809686660767,
+      "sampling/importance_sampling_ratio/min": 0.624051570892334,
+      "sampling/sampling_logp_difference/max": 0.40149879455566406,
+      "sampling/sampling_logp_difference/mean": 0.024703415110707283,
+      "step": 110,
+      "step_time": 93.84956424098345
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 69.0,
+      "completions/max_terminated_length": 69.0,
+      "completions/mean_length": 52.25,
+      "completions/mean_terminated_length": 52.25,
+      "completions/min_length": 45.0,
+      "completions/min_terminated_length": 45.0,
+      "entropy": 0.32336217164993286,
+      "epoch": 0.222,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3528348207473755,
+      "kl": 0.002949443645775318,
+      "learning_rate": 4.916552125781529e-06,
+      "loss": -0.0099,
+      "num_tokens": 618399.0,
+      "reward": 0.45625001192092896,
+      "reward_std": 0.6083469390869141,
+      "rewards/reward_func/mean": 0.45625001192092896,
+      "rewards/reward_func/std": 0.5633810758590698,
+      "sampling/importance_sampling_ratio/max": 1.8164138793945312,
+      "sampling/importance_sampling_ratio/mean": 1.0095850229263306,
+      "sampling/importance_sampling_ratio/min": 0.5931808352470398,
+      "sampling/sampling_logp_difference/max": 0.5142123699188232,
+      "sampling/sampling_logp_difference/mean": 0.02279416099190712,
+      "step": 111,
+      "step_time": 79.4126727580151
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 67.0,
+      "completions/max_terminated_length": 67.0,
+      "completions/mean_length": 49.25,
+      "completions/mean_terminated_length": 49.25,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.30478546023368835,
+      "epoch": 0.224,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1281598806381226,
+      "kl": 0.0069794668816030025,
+      "learning_rate": 4.9144649424478765e-06,
+      "loss": -0.0498,
+      "num_tokens": 623892.0,
+      "reward": 0.08249999582767487,
+      "reward_std": 0.2825864851474762,
+      "rewards/reward_func/mean": 0.08249999582767487,
+      "rewards/reward_func/std": 0.37247246503829956,
+      "sampling/importance_sampling_ratio/max": 1.6144704818725586,
+      "sampling/importance_sampling_ratio/mean": 0.8535523414611816,
+      "sampling/importance_sampling_ratio/min": 0.48705849051475525,
+      "sampling/sampling_logp_difference/max": 0.6082849502563477,
+      "sampling/sampling_logp_difference/mean": 0.02124343067407608,
+      "step": 112,
+      "step_time": 95.65409678898868
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.0,
+      "completions/max_terminated_length": 65.0,
+      "completions/mean_length": 53.375,
+      "completions/mean_terminated_length": 53.375,
+      "completions/min_length": 43.0,
+      "completions/min_terminated_length": 43.0,
+      "entropy": 0.3653002679347992,
+      "epoch": 0.226,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.7723777294158936,
+      "kl": 0.008705868385732174,
+      "learning_rate": 4.912352432519484e-06,
+      "loss": -0.0089,
+      "num_tokens": 629286.0,
+      "reward": 0.0650000050663948,
+      "reward_std": 0.2788448631763458,
+      "rewards/reward_func/mean": 0.0650000050663948,
+      "rewards/reward_func/std": 0.36924636363983154,
+      "sampling/importance_sampling_ratio/max": 1.065728783607483,
+      "sampling/importance_sampling_ratio/mean": 0.8029188513755798,
+      "sampling/importance_sampling_ratio/min": 0.6283921003341675,
+      "sampling/sampling_logp_difference/max": 0.4079105854034424,
+      "sampling/sampling_logp_difference/mean": 0.02258678898215294,
+      "step": 113,
+      "step_time": 79.44450050298474
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 83.0,
+      "completions/max_terminated_length": 83.0,
+      "completions/mean_length": 50.625,
+      "completions/mean_terminated_length": 50.625,
+      "completions/min_length": 41.0,
+      "completions/min_terminated_length": 41.0,
+      "entropy": 0.3991454541683197,
+      "epoch": 0.228,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2725372314453125,
+      "kl": 0.004002253524959087,
+      "learning_rate": 4.910214618155579e-06,
+      "loss": -0.3522,
+      "num_tokens": 635091.0,
+      "reward": 0.3412500023841858,
+      "reward_std": 0.5658435821533203,
+      "rewards/reward_func/mean": 0.3412500023841858,
+      "rewards/reward_func/std": 0.5457481741905212,
+      "sampling/importance_sampling_ratio/max": 1.7948518991470337,
+      "sampling/importance_sampling_ratio/mean": 1.1463571786880493,
+      "sampling/importance_sampling_ratio/min": 0.5749549865722656,
+      "sampling/sampling_logp_difference/max": 0.36228108406066895,
+      "sampling/sampling_logp_difference/mean": 0.024780135601758957,
+      "step": 114,
+      "step_time": 75.48941349799861
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.0,
+      "completions/max_terminated_length": 61.0,
+      "completions/mean_length": 49.25,
+      "completions/mean_terminated_length": 49.25,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.3554052710533142,
+      "epoch": 0.23,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4149909019470215,
+      "kl": 0.00297270598821342,
+      "learning_rate": 4.908051521780824e-06,
+      "loss": -0.0461,
+      "num_tokens": 641015.0,
+      "reward": 0.21000000834465027,
+      "reward_std": 0.5283524990081787,
+      "rewards/reward_func/mean": 0.21000000834465027,
+      "rewards/reward_func/std": 0.4891683757305145,
+      "sampling/importance_sampling_ratio/max": 1.816857933998108,
+      "sampling/importance_sampling_ratio/mean": 1.0504989624023438,
+      "sampling/importance_sampling_ratio/min": 0.6830813884735107,
+      "sampling/sampling_logp_difference/max": 0.25256574153900146,
+      "sampling/sampling_logp_difference/mean": 0.017991136759519577,
+      "step": 115,
+      "step_time": 79.2266922009876
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 67.0,
+      "completions/max_terminated_length": 67.0,
+      "completions/mean_length": 49.25,
+      "completions/mean_terminated_length": 49.25,
+      "completions/min_length": 31.0,
+      "completions/min_terminated_length": 31.0,
+      "entropy": 0.3142127990722656,
+      "epoch": 0.232,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1826856136322021,
+      "kl": 0.005817875266075134,
+      "learning_rate": 4.905863166085076e-06,
+      "loss": -0.3008,
+      "num_tokens": 646381.0,
+      "reward": 0.33250001072883606,
+      "reward_std": 0.5690850019454956,
+      "rewards/reward_func/mean": 0.33250001072883606,
+      "rewards/reward_func/std": 0.5483677387237549,
+      "sampling/importance_sampling_ratio/max": 1.5298662185668945,
+      "sampling/importance_sampling_ratio/mean": 0.9026192426681519,
+      "sampling/importance_sampling_ratio/min": 0.0,
+      "sampling/sampling_logp_difference/max": 0.40772104263305664,
+      "sampling/sampling_logp_difference/mean": 0.021547261625528336,
+      "step": 116,
+      "step_time": 83.28613287501503
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 77.0,
+      "completions/max_terminated_length": 77.0,
+      "completions/mean_length": 50.125,
+      "completions/mean_terminated_length": 50.125,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.37694644927978516,
+      "epoch": 0.234,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9839865565299988,
+      "kl": 0.002937185112386942,
+      "learning_rate": 4.903649574023151e-06,
+      "loss": -0.0315,
+      "num_tokens": 652897.0,
+      "reward": 0.20125000178813934,
+      "reward_std": 0.31244680285453796,
+      "rewards/reward_func/mean": 0.20125000178813934,
+      "rewards/reward_func/std": 0.4629852771759033,
+      "sampling/importance_sampling_ratio/max": 1.3970638513565063,
+      "sampling/importance_sampling_ratio/mean": 0.8803737163543701,
+      "sampling/importance_sampling_ratio/min": 0.568600058555603,
+      "sampling/sampling_logp_difference/max": 0.3313124179840088,
+      "sampling/sampling_logp_difference/mean": 0.02077941596508026,
+      "step": 117,
+      "step_time": 92.2992887319997
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 68.0,
+      "completions/max_terminated_length": 68.0,
+      "completions/mean_length": 50.875,
+      "completions/mean_terminated_length": 50.875,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.3316619396209717,
+      "epoch": 0.236,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2543243169784546,
+      "kl": 0.0029075820930302143,
+      "learning_rate": 4.901410768814581e-06,
+      "loss": 0.3369,
+      "num_tokens": 659068.0,
+      "reward": 0.06875000149011612,
+      "reward_std": 0.28412488102912903,
+      "rewards/reward_func/mean": 0.06875000149011612,
+      "rewards/reward_func/std": 0.36701256036758423,
+      "sampling/importance_sampling_ratio/max": 1.9490493535995483,
+      "sampling/importance_sampling_ratio/mean": 1.230026125907898,
+      "sampling/importance_sampling_ratio/min": 0.5826879739761353,
+      "sampling/sampling_logp_difference/max": 0.3663163185119629,
+      "sampling/sampling_logp_difference/mean": 0.02376718446612358,
+      "step": 118,
+      "step_time": 81.04622099900735
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 56.0,
+      "completions/max_terminated_length": 56.0,
+      "completions/mean_length": 49.625,
+      "completions/mean_terminated_length": 49.625,
+      "completions/min_length": 40.0,
+      "completions/min_terminated_length": 40.0,
+      "entropy": 0.3243013620376587,
+      "epoch": 0.238,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0776394605636597,
+      "kl": 0.003003204707056284,
+      "learning_rate": 4.899146773943374e-06,
+      "loss": 0.0888,
+      "num_tokens": 664052.0,
+      "reward": 0.45374998450279236,
+      "reward_std": 0.5213634967803955,
+      "rewards/reward_func/mean": 0.45374998450279236,
+      "rewards/reward_func/std": 0.555361807346344,
+      "sampling/importance_sampling_ratio/max": 1.163706660270691,
+      "sampling/importance_sampling_ratio/mean": 0.9491457939147949,
+      "sampling/importance_sampling_ratio/min": 0.7341592311859131,
+      "sampling/sampling_logp_difference/max": 0.3309454917907715,
+      "sampling/sampling_logp_difference/mean": 0.021823348477482796,
+      "step": 119,
+      "step_time": 41.72294841398252
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 72.0,
+      "completions/max_terminated_length": 72.0,
+      "completions/mean_length": 52.5,
+      "completions/mean_terminated_length": 52.5,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.36999672651290894,
+      "epoch": 0.24,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.41775381565094,
+      "kl": 0.002642344683408737,
+      "learning_rate": 4.896857613157765e-06,
+      "loss": -0.1831,
+      "num_tokens": 669769.0,
+      "reward": 0.06624999642372131,
+      "reward_std": 0.2767047882080078,
+      "rewards/reward_func/mean": 0.06624999642372131,
+      "rewards/reward_func/std": 0.37159648537635803,
+      "sampling/importance_sampling_ratio/max": 1.3718173503875732,
+      "sampling/importance_sampling_ratio/mean": 0.9549704194068909,
+      "sampling/importance_sampling_ratio/min": 0.5532563924789429,
+      "sampling/sampling_logp_difference/max": 0.5324568748474121,
+      "sampling/sampling_logp_difference/mean": 0.02652132511138916,
+      "step": 120,
+      "step_time": 92.35115976299858
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 59.0,
+      "completions/max_terminated_length": 59.0,
+      "completions/mean_length": 52.0,
+      "completions/mean_terminated_length": 52.0,
+      "completions/min_length": 43.0,
+      "completions/min_terminated_length": 43.0,
+      "entropy": 0.35806554555892944,
+      "epoch": 0.242,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.6040545105934143,
+      "kl": 0.0024742307141423225,
+      "learning_rate": 4.894543310469968e-06,
+      "loss": -0.0793,
+      "num_tokens": 675165.0,
+      "reward": 0.06000000610947609,
+      "reward_std": 0.2803305685520172,
+      "rewards/reward_func/mean": 0.06000000610947609,
+      "rewards/reward_func/std": 0.3688979744911194,
+      "sampling/importance_sampling_ratio/max": 2.129168748855591,
+      "sampling/importance_sampling_ratio/mean": 0.9699528813362122,
+      "sampling/importance_sampling_ratio/min": 0.44781070947647095,
+      "sampling/sampling_logp_difference/max": 0.2890472412109375,
+      "sampling/sampling_logp_difference/mean": 0.022462455555796623,
+      "step": 121,
+      "step_time": 78.31796040100744
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 60.0,
+      "completions/max_terminated_length": 60.0,
+      "completions/mean_length": 48.875,
+      "completions/mean_terminated_length": 48.875,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.3762264847755432,
+      "epoch": 0.244,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0539501905441284,
+      "kl": 0.005846098996698856,
+      "learning_rate": 4.8922038901559225e-06,
+      "loss": 0.0026,
+      "num_tokens": 681091.0,
+      "reward": 0.2162500023841858,
+      "reward_std": 0.5134057998657227,
+      "rewards/reward_func/mean": 0.2162500023841858,
+      "rewards/reward_func/std": 0.47575318813323975,
+      "sampling/importance_sampling_ratio/max": 1.4815739393234253,
+      "sampling/importance_sampling_ratio/mean": 0.9299391508102417,
+      "sampling/importance_sampling_ratio/min": 0.5258536338806152,
+      "sampling/sampling_logp_difference/max": 0.30264854431152344,
+      "sampling/sampling_logp_difference/mean": 0.020659077912569046,
+      "step": 122,
+      "step_time": 82.64369376702234
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 56.0,
+      "completions/max_terminated_length": 56.0,
+      "completions/mean_length": 46.375,
+      "completions/mean_terminated_length": 46.375,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.35361769795417786,
+      "epoch": 0.246,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1598920822143555,
+      "kl": 0.003386750351637602,
+      "learning_rate": 4.889839376755041e-06,
+      "loss": 0.0283,
+      "num_tokens": 687305.0,
+      "reward": 0.3087500035762787,
+      "reward_std": 0.5727449655532837,
+      "rewards/reward_func/mean": 0.3087500035762787,
+      "rewards/reward_func/std": 0.5458528995513916,
+      "sampling/importance_sampling_ratio/max": 1.7175296545028687,
+      "sampling/importance_sampling_ratio/mean": 1.1679165363311768,
+      "sampling/importance_sampling_ratio/min": 0.6514824628829956,
+      "sampling/sampling_logp_difference/max": 0.47839367389678955,
+      "sampling/sampling_logp_difference/mean": 0.023937463760375977,
+      "step": 123,
+      "step_time": 90.77700008201646
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 55.0,
+      "completions/max_terminated_length": 55.0,
+      "completions/mean_length": 44.25,
+      "completions/mean_terminated_length": 44.25,
+      "completions/min_length": 32.0,
+      "completions/min_terminated_length": 32.0,
+      "entropy": 0.35109275579452515,
+      "epoch": 0.248,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0874840021133423,
+      "kl": 0.0036450112238526344,
+      "learning_rate": 4.887449795069948e-06,
+      "loss": 0.1575,
+      "num_tokens": 693333.0,
+      "reward": 0.4699999988079071,
+      "reward_std": 0.02523816004395485,
+      "rewards/reward_func/mean": 0.4699999988079071,
+      "rewards/reward_func/std": 0.5484002232551575,
+      "sampling/importance_sampling_ratio/max": 2.278353214263916,
+      "sampling/importance_sampling_ratio/mean": 1.207700490951538,
+      "sampling/importance_sampling_ratio/min": 0.5298588871955872,
+      "sampling/sampling_logp_difference/max": 0.27920615673065186,
+      "sampling/sampling_logp_difference/mean": 0.023498259484767914,
+      "step": 124,
+      "step_time": 39.61502477500471
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 62.0,
+      "completions/max_terminated_length": 62.0,
+      "completions/mean_length": 48.5,
+      "completions/mean_terminated_length": 48.5,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.35430189967155457,
+      "epoch": 0.25,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.6847572326660156,
+      "kl": 0.004919369705021381,
+      "learning_rate": 4.885035170166229e-06,
+      "loss": -0.2698,
+      "num_tokens": 698906.0,
+      "reward": 0.0949999988079071,
+      "reward_std": 0.2718702256679535,
+      "rewards/reward_func/mean": 0.0949999988079071,
+      "rewards/reward_func/std": 0.36629417538642883,
+      "sampling/importance_sampling_ratio/max": 1.845292329788208,
+      "sampling/importance_sampling_ratio/mean": 1.1654714345932007,
+      "sampling/importance_sampling_ratio/min": 0.6519782543182373,
+      "sampling/sampling_logp_difference/max": 0.4780464172363281,
+      "sampling/sampling_logp_difference/mean": 0.0236376766115427,
+      "step": 125,
+      "step_time": 84.81572797399713
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 69.0,
+      "completions/max_terminated_length": 69.0,
+      "completions/mean_length": 50.5,
+      "completions/mean_terminated_length": 50.5,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.37540292739868164,
+      "epoch": 0.252,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1251049041748047,
+      "kl": 0.004228860605508089,
+      "learning_rate": 4.8825955273721524e-06,
+      "loss": -0.1821,
+      "num_tokens": 704535.0,
+      "reward": 0.19999998807907104,
+      "reward_std": 0.5351865291595459,
+      "rewards/reward_func/mean": 0.19999998807907104,
+      "rewards/reward_func/std": 0.49549400806427,
+      "sampling/importance_sampling_ratio/max": 1.2624843120574951,
+      "sampling/importance_sampling_ratio/mean": 0.850989818572998,
+      "sampling/importance_sampling_ratio/min": 0.30390864610671997,
+      "sampling/sampling_logp_difference/max": 0.3254203796386719,
+      "sampling/sampling_logp_difference/mean": 0.022064577788114548,
+      "step": 126,
+      "step_time": 76.2562780379958
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 58.0,
+      "completions/max_terminated_length": 58.0,
+      "completions/mean_length": 50.0,
+      "completions/mean_terminated_length": 50.0,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.41910192370414734,
+      "epoch": 0.254,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.317619800567627,
+      "kl": 0.005742704961448908,
+      "learning_rate": 4.88013089227842e-06,
+      "loss": 0.0236,
+      "num_tokens": 709703.0,
+      "reward": 0.4424999952316284,
+      "reward_std": 0.5581981539726257,
+      "rewards/reward_func/mean": 0.4424999952316284,
+      "rewards/reward_func/std": 0.5799199342727661,
+      "sampling/importance_sampling_ratio/max": 1.348827838897705,
+      "sampling/importance_sampling_ratio/mean": 0.9275149703025818,
+      "sampling/importance_sampling_ratio/min": 0.33642151951789856,
+      "sampling/sampling_logp_difference/max": 0.3352065086364746,
+      "sampling/sampling_logp_difference/mean": 0.027083944529294968,
+      "step": 127,
+      "step_time": 63.868688657006714
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.0,
+      "completions/max_terminated_length": 61.0,
+      "completions/mean_length": 53.375,
+      "completions/mean_terminated_length": 53.375,
+      "completions/min_length": 47.0,
+      "completions/min_terminated_length": 47.0,
+      "entropy": 0.3978528380393982,
+      "epoch": 0.256,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.7018318176269531,
+      "kl": 0.0047828396782279015,
+      "learning_rate": 4.8776412907378845e-06,
+      "loss": -0.1779,
+      "num_tokens": 715735.0,
+      "reward": 0.21000000834465027,
+      "reward_std": 0.5070174336433411,
+      "rewards/reward_func/mean": 0.21000000834465027,
+      "rewards/reward_func/std": 0.46940696239471436,
+      "sampling/importance_sampling_ratio/max": 1.5801129341125488,
+      "sampling/importance_sampling_ratio/mean": 0.823201060295105,
+      "sampling/importance_sampling_ratio/min": 0.35874059796333313,
+      "sampling/sampling_logp_difference/max": 0.6062784194946289,
+      "sampling/sampling_logp_difference/mean": 0.02410537376999855,
+      "step": 128,
+      "step_time": 83.61712833400816
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 63.0,
+      "completions/max_terminated_length": 63.0,
+      "completions/mean_length": 55.5,
+      "completions/mean_terminated_length": 55.5,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.36482003331184387,
+      "epoch": 0.258,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.880913496017456,
+      "kl": 0.005393403582274914,
+      "learning_rate": 4.87512674886529e-06,
+      "loss": 0.1742,
+      "num_tokens": 720958.0,
+      "reward": 0.20374999940395355,
+      "reward_std": 0.311365008354187,
+      "rewards/reward_func/mean": 0.20374999940395355,
+      "rewards/reward_func/std": 0.46601465344429016,
+      "sampling/importance_sampling_ratio/max": 2.4826807975769043,
+      "sampling/importance_sampling_ratio/mean": 1.167348861694336,
+      "sampling/importance_sampling_ratio/min": 0.26117852330207825,
+      "sampling/sampling_logp_difference/max": 0.8425577878952026,
+      "sampling/sampling_logp_difference/mean": 0.025742068886756897,
+      "step": 129,
+      "step_time": 64.07934993301751
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 59.0,
+      "completions/max_terminated_length": 59.0,
+      "completions/mean_length": 48.75,
+      "completions/mean_terminated_length": 48.75,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.371246337890625,
+      "epoch": 0.26,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.614325761795044,
+      "kl": 0.0035083587281405926,
+      "learning_rate": 4.872587293036991e-06,
+      "loss": -0.2087,
+      "num_tokens": 727108.0,
+      "reward": 0.29375001788139343,
+      "reward_std": 0.562328040599823,
+      "rewards/reward_func/mean": 0.29375001788139343,
+      "rewards/reward_func/std": 0.537532389163971,
+      "sampling/importance_sampling_ratio/max": 1.6865801811218262,
+      "sampling/importance_sampling_ratio/mean": 1.0800793170928955,
+      "sampling/importance_sampling_ratio/min": 0.5898501873016357,
+      "sampling/sampling_logp_difference/max": 0.3827958106994629,
+      "sampling/sampling_logp_difference/mean": 0.024071460589766502,
+      "step": 130,
+      "step_time": 78.63163189700572
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 73.0,
+      "completions/max_terminated_length": 73.0,
+      "completions/mean_length": 50.75,
+      "completions/mean_terminated_length": 50.75,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.32340848445892334,
+      "epoch": 0.262,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.304259181022644,
+      "kl": 0.004556507803499699,
+      "learning_rate": 4.870022949890676e-06,
+      "loss": 0.207,
+      "num_tokens": 733001.0,
+      "reward": 0.19374999403953552,
+      "reward_std": 0.535616397857666,
+      "rewards/reward_func/mean": 0.19374999403953552,
+      "rewards/reward_func/std": 0.495895653963089,
+      "sampling/importance_sampling_ratio/max": 2.3520002365112305,
+      "sampling/importance_sampling_ratio/mean": 1.1608736515045166,
+      "sampling/importance_sampling_ratio/min": 0.5538614988327026,
+      "sampling/sampling_logp_difference/max": 0.394594669342041,
+      "sampling/sampling_logp_difference/mean": 0.0221773199737072,
+      "step": 131,
+      "step_time": 92.43735384300817
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 54.0,
+      "completions/max_terminated_length": 54.0,
+      "completions/mean_length": 46.125,
+      "completions/mean_terminated_length": 46.125,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.3576907515525818,
+      "epoch": 0.264,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.0428054332733154,
+      "kl": 0.018777361139655113,
+      "learning_rate": 4.867433746325093e-06,
+      "loss": -0.0642,
+      "num_tokens": 739105.0,
+      "reward": 0.21875,
+      "reward_std": 0.5183683633804321,
+      "rewards/reward_func/mean": 0.21875,
+      "rewards/reward_func/std": 0.4804295003414154,
+      "sampling/importance_sampling_ratio/max": 1.5391448736190796,
+      "sampling/importance_sampling_ratio/mean": 0.9020660519599915,
+      "sampling/importance_sampling_ratio/min": 0.2766675651073456,
+      "sampling/sampling_logp_difference/max": 1.2109692096710205,
+      "sampling/sampling_logp_difference/mean": 0.033887773752212524,
+      "step": 132,
+      "step_time": 87.67151060700417
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 66.0,
+      "completions/max_terminated_length": 66.0,
+      "completions/mean_length": 54.375,
+      "completions/mean_terminated_length": 54.375,
+      "completions/min_length": 48.0,
+      "completions/min_terminated_length": 48.0,
+      "entropy": 0.33072763681411743,
+      "epoch": 0.266,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.5945179462432861,
+      "kl": 0.0026382263749837875,
+      "learning_rate": 4.864819709499762e-06,
+      "loss": -0.0036,
+      "num_tokens": 744440.0,
+      "reward": 0.5874999761581421,
+      "reward_std": 0.5714925527572632,
+      "rewards/reward_func/mean": 0.5874999761581421,
+      "rewards/reward_func/std": 0.5562823414802551,
+      "sampling/importance_sampling_ratio/max": 2.234254837036133,
+      "sampling/importance_sampling_ratio/mean": 1.3247432708740234,
+      "sampling/importance_sampling_ratio/min": 0.6224689483642578,
+      "sampling/sampling_logp_difference/max": 0.3226501941680908,
+      "sampling/sampling_logp_difference/mean": 0.021056218072772026,
+      "step": 133,
+      "step_time": 55.756049841002095
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.0,
+      "completions/max_terminated_length": 65.0,
+      "completions/mean_length": 52.125,
+      "completions/mean_terminated_length": 52.125,
+      "completions/min_length": 44.0,
+      "completions/min_terminated_length": 44.0,
+      "entropy": 0.3642032742500305,
+      "epoch": 0.268,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.5390766859054565,
+      "kl": 0.0025580194778740406,
+      "learning_rate": 4.862180866834691e-06,
+      "loss": -0.2011,
+      "num_tokens": 750197.0,
+      "reward": 0.3425000011920929,
+      "reward_std": 0.5499535799026489,
+      "rewards/reward_func/mean": 0.3425000011920929,
+      "rewards/reward_func/std": 0.5348631739616394,
+      "sampling/importance_sampling_ratio/max": 2.091257333755493,
+      "sampling/importance_sampling_ratio/mean": 0.9505029916763306,
+      "sampling/importance_sampling_ratio/min": 0.39569008350372314,
+      "sampling/sampling_logp_difference/max": 0.5128500461578369,
+      "sampling/sampling_logp_difference/mean": 0.022797472774982452,
+      "step": 134,
+      "step_time": 77.64818813299644
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 64.0,
+      "completions/max_terminated_length": 64.0,
+      "completions/mean_length": 49.25,
+      "completions/mean_terminated_length": 49.25,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.35776978731155396,
+      "epoch": 0.27,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.332118034362793,
+      "kl": 0.0026144185103476048,
+      "learning_rate": 4.8595172460100914e-06,
+      "loss": -0.1461,
+      "num_tokens": 755246.0,
+      "reward": 0.20875000953674316,
+      "reward_std": 0.3141333758831024,
+      "rewards/reward_func/mean": 0.20875000953674316,
+      "rewards/reward_func/std": 0.4824472665786743,
+      "sampling/importance_sampling_ratio/max": 2.2898991107940674,
+      "sampling/importance_sampling_ratio/mean": 1.1793955564498901,
+      "sampling/importance_sampling_ratio/min": 0.3208160698413849,
+      "sampling/sampling_logp_difference/max": 0.32736682891845703,
+      "sampling/sampling_logp_difference/mean": 0.025175008922815323,
+      "step": 135,
+      "step_time": 94.36543551200884
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 58.0,
+      "completions/max_terminated_length": 58.0,
+      "completions/mean_length": 50.5,
+      "completions/mean_terminated_length": 50.5,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.326175332069397,
+      "epoch": 0.272,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.042453408241272,
+      "kl": 0.002404378727078438,
+      "learning_rate": 4.856828874966086e-06,
+      "loss": 0.0913,
+      "num_tokens": 761403.0,
+      "reward": 0.08624999970197678,
+      "reward_std": 0.24735195934772491,
+      "rewards/reward_func/mean": 0.08624999970197678,
+      "rewards/reward_func/std": 0.33019205927848816,
+      "sampling/importance_sampling_ratio/max": 1.598332405090332,
+      "sampling/importance_sampling_ratio/mean": 1.1521015167236328,
+      "sampling/importance_sampling_ratio/min": 0.8144843578338623,
+      "sampling/sampling_logp_difference/max": 0.30525922775268555,
+      "sampling/sampling_logp_difference/mean": 0.02139485627412796,
+      "step": 136,
+      "step_time": 89.18075294501614
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 58.0,
+      "completions/max_terminated_length": 58.0,
+      "completions/mean_length": 43.125,
+      "completions/mean_terminated_length": 43.125,
+      "completions/min_length": 29.0,
+      "completions/min_terminated_length": 29.0,
+      "entropy": 0.32590705156326294,
+      "epoch": 0.274,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.6651734709739685,
+      "kl": 0.00382244773209095,
+      "learning_rate": 4.854115781902414e-06,
+      "loss": 0.0387,
+      "num_tokens": 767277.0,
+      "reward": 0.3462499976158142,
+      "reward_std": 0.5454127788543701,
+      "rewards/reward_func/mean": 0.3462499976158142,
+      "rewards/reward_func/std": 0.5253825187683105,
+      "sampling/importance_sampling_ratio/max": 1.1137996912002563,
+      "sampling/importance_sampling_ratio/mean": 0.6871470808982849,
+      "sampling/importance_sampling_ratio/min": 0.2649921774864197,
+      "sampling/sampling_logp_difference/max": 0.43839168548583984,
+      "sampling/sampling_logp_difference/mean": 0.024401474744081497,
+      "step": 137,
+      "step_time": 63.591420451994054
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 70.0,
+      "completions/max_terminated_length": 70.0,
+      "completions/mean_length": 53.375,
+      "completions/mean_terminated_length": 53.375,
+      "completions/min_length": 42.0,
+      "completions/min_terminated_length": 42.0,
+      "entropy": 0.3442898988723755,
+      "epoch": 0.276,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3569279909133911,
+      "kl": 0.006373442709445953,
+      "learning_rate": 4.851377995278138e-06,
+      "loss": 0.0322,
+      "num_tokens": 772862.0,
+      "reward": 0.34375,
+      "reward_std": 0.28818657994270325,
+      "rewards/reward_func/mean": 0.34375,
+      "rewards/reward_func/std": 0.5449754595756531,
+      "sampling/importance_sampling_ratio/max": 2.1303188800811768,
+      "sampling/importance_sampling_ratio/mean": 1.062652587890625,
+      "sampling/importance_sampling_ratio/min": 0.4433048367500305,
+      "sampling/sampling_logp_difference/max": 0.5312175750732422,
+      "sampling/sampling_logp_difference/mean": 0.027195535600185394,
+      "step": 138,
+      "step_time": 79.88628011097899
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 64.0,
+      "completions/max_terminated_length": 64.0,
+      "completions/mean_length": 47.0,
+      "completions/mean_terminated_length": 47.0,
+      "completions/min_length": 41.0,
+      "completions/min_terminated_length": 41.0,
+      "entropy": 0.33581745624542236,
+      "epoch": 0.278,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8458130955696106,
+      "kl": 0.003910760395228863,
+      "learning_rate": 4.8486155438113455e-06,
+      "loss": 0.1521,
+      "num_tokens": 778552.0,
+      "reward": 0.07750000059604645,
+      "reward_std": 0.27364206314086914,
+      "rewards/reward_func/mean": 0.07750000059604645,
+      "rewards/reward_func/std": 0.3691205680370331,
+      "sampling/importance_sampling_ratio/max": 1.5847712755203247,
+      "sampling/importance_sampling_ratio/mean": 0.9813762307167053,
+      "sampling/importance_sampling_ratio/min": 0.5472065806388855,
+      "sampling/sampling_logp_difference/max": 0.3161931037902832,
+      "sampling/sampling_logp_difference/mean": 0.017320292070508003,
+      "step": 139,
+      "step_time": 76.26634333998663
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 56.0,
+      "completions/max_terminated_length": 56.0,
+      "completions/mean_length": 45.875,
+      "completions/mean_terminated_length": 45.875,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.3359699845314026,
+      "epoch": 0.28,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.083722710609436,
+      "kl": 0.06697973608970642,
+      "learning_rate": 4.845828456478843e-06,
+      "loss": 0.2268,
+      "num_tokens": 784051.0,
+      "reward": 0.2162499874830246,
+      "reward_std": 0.510195791721344,
+      "rewards/reward_func/mean": 0.2162499874830246,
+      "rewards/reward_func/std": 0.47307315468788147,
+      "sampling/importance_sampling_ratio/max": 1.3066641092300415,
+      "sampling/importance_sampling_ratio/mean": 0.8830969929695129,
+      "sampling/importance_sampling_ratio/min": 0.5595781207084656,
+      "sampling/sampling_logp_difference/max": 0.38854122161865234,
+      "sampling/sampling_logp_difference/mean": 0.026553025469183922,
+      "step": 140,
+      "step_time": 69.88314274000004
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 57.0,
+      "completions/max_terminated_length": 57.0,
+      "completions/mean_length": 47.125,
+      "completions/mean_terminated_length": 47.125,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.31609684228897095,
+      "epoch": 0.282,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.061277389526367,
+      "kl": 0.013994975946843624,
+      "learning_rate": 4.84301676251586e-06,
+      "loss": 0.3487,
+      "num_tokens": 788975.0,
+      "reward": -0.07000000029802322,
+      "reward_std": 0.052655644714832306,
+      "rewards/reward_func/mean": -0.07000000029802322,
+      "rewards/reward_func/std": 0.051823876798152924,
+      "sampling/importance_sampling_ratio/max": 2.0056557655334473,
+      "sampling/importance_sampling_ratio/mean": 0.9070459008216858,
+      "sampling/importance_sampling_ratio/min": 0.40230387449264526,
+      "sampling/sampling_logp_difference/max": 0.49358463287353516,
+      "sampling/sampling_logp_difference/mean": 0.023013930767774582,
+      "step": 141,
+      "step_time": 86.36220617999788
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 67.0,
+      "completions/max_terminated_length": 67.0,
+      "completions/mean_length": 50.5,
+      "completions/mean_terminated_length": 50.5,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.39303815364837646,
+      "epoch": 0.284,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3883771896362305,
+      "kl": 0.0059036314487457275,
+      "learning_rate": 4.840180491415733e-06,
+      "loss": 0.0691,
+      "num_tokens": 794046.0,
+      "reward": 0.1899999976158142,
+      "reward_std": 0.3205098509788513,
+      "rewards/reward_func/mean": 0.1899999976158142,
+      "rewards/reward_func/std": 0.48966461420059204,
+      "sampling/importance_sampling_ratio/max": 1.5588135719299316,
+      "sampling/importance_sampling_ratio/mean": 1.177175521850586,
+      "sampling/importance_sampling_ratio/min": 0.6510878801345825,
+      "sampling/sampling_logp_difference/max": 0.8279815912246704,
+      "sampling/sampling_logp_difference/mean": 0.02602643519639969,
+      "step": 142,
+      "step_time": 74.00148760300362
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 64.0,
+      "completions/max_terminated_length": 64.0,
+      "completions/mean_length": 47.375,
+      "completions/mean_terminated_length": 47.375,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.3808709979057312,
+      "epoch": 0.286,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9528871774673462,
+      "kl": 0.0036585263442248106,
+      "learning_rate": 4.837319672929606e-06,
+      "loss": 0.0533,
+      "num_tokens": 800535.0,
+      "reward": 0.023750003427267075,
+      "reward_std": 0.3143449127674103,
+      "rewards/reward_func/mean": 0.023750003427267075,
+      "rewards/reward_func/std": 0.3961578905582428,
+      "sampling/importance_sampling_ratio/max": 1.8512533903121948,
+      "sampling/importance_sampling_ratio/mean": 0.934387743473053,
+      "sampling/importance_sampling_ratio/min": 0.49656394124031067,
+      "sampling/sampling_logp_difference/max": 0.3407723903656006,
+      "sampling/sampling_logp_difference/mean": 0.02522529661655426,
+      "step": 143,
+      "step_time": 103.3366472539783
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 68.0,
+      "completions/max_terminated_length": 68.0,
+      "completions/mean_length": 50.5,
+      "completions/mean_terminated_length": 50.5,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.33955660462379456,
+      "epoch": 0.288,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3187702894210815,
+      "kl": 0.003852253081277013,
+      "learning_rate": 4.834434337066112e-06,
+      "loss": -0.0678,
+      "num_tokens": 806790.0,
+      "reward": 0.4737499952316284,
+      "reward_std": 0.6020057201385498,
+      "rewards/reward_func/mean": 0.4737499952316284,
+      "rewards/reward_func/std": 0.5573647022247314,
+      "sampling/importance_sampling_ratio/max": 1.97614586353302,
+      "sampling/importance_sampling_ratio/mean": 1.0368638038635254,
+      "sampling/importance_sampling_ratio/min": 0.6063994765281677,
+      "sampling/sampling_logp_difference/max": 0.3311631679534912,
+      "sampling/sampling_logp_difference/mean": 0.02065013162791729,
+      "step": 144,
+      "step_time": 65.69823711100616
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 68.0,
+      "completions/max_terminated_length": 68.0,
+      "completions/mean_length": 53.0,
+      "completions/mean_terminated_length": 53.0,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.331376314163208,
+      "epoch": 0.29,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9537304043769836,
+      "kl": 0.007181019987910986,
+      "learning_rate": 4.831524514091056e-06,
+      "loss": -0.0085,
+      "num_tokens": 812242.0,
+      "reward": 0.17624999582767487,
+      "reward_std": 0.32842689752578735,
+      "rewards/reward_func/mean": 0.17624999582767487,
+      "rewards/reward_func/std": 0.47101524472236633,
+      "sampling/importance_sampling_ratio/max": 1.308451533317566,
+      "sampling/importance_sampling_ratio/mean": 0.9442053437232971,
+      "sampling/importance_sampling_ratio/min": 0.579285740852356,
+      "sampling/sampling_logp_difference/max": 0.34829843044281006,
+      "sampling/sampling_logp_difference/mean": 0.017970219254493713,
+      "step": 145,
+      "step_time": 79.94236772001022
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 78.0,
+      "completions/max_terminated_length": 78.0,
+      "completions/mean_length": 52.25,
+      "completions/mean_terminated_length": 52.25,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.36558613181114197,
+      "epoch": 0.292,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.937701404094696,
+      "kl": 0.006811534054577351,
+      "learning_rate": 4.828590234527107e-06,
+      "loss": -0.0287,
+      "num_tokens": 817572.0,
+      "reward": 0.4725000262260437,
+      "reward_std": 0.48875167965888977,
+      "rewards/reward_func/mean": 0.4725000262260437,
+      "rewards/reward_func/std": 0.5325075387954712,
+      "sampling/importance_sampling_ratio/max": 1.5232332944869995,
+      "sampling/importance_sampling_ratio/mean": 0.8906862735748291,
+      "sampling/importance_sampling_ratio/min": 0.5748233199119568,
+      "sampling/sampling_logp_difference/max": 0.3986041247844696,
+      "sampling/sampling_logp_difference/mean": 0.022225454449653625,
+      "step": 146,
+      "step_time": 47.61015773200779
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 59.0,
+      "completions/max_terminated_length": 59.0,
+      "completions/mean_length": 48.125,
+      "completions/mean_terminated_length": 48.125,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.34926676750183105,
+      "epoch": 0.294,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4631636142730713,
+      "kl": 0.005530308000743389,
+      "learning_rate": 4.825631529153466e-06,
+      "loss": 0.0385,
+      "num_tokens": 823067.0,
+      "reward": -0.05374999716877937,
+      "reward_std": 0.0510866716504097,
+      "rewards/reward_func/mean": -0.05374999716877937,
+      "rewards/reward_func/std": 0.05655276030302048,
+      "sampling/importance_sampling_ratio/max": 1.7795029878616333,
+      "sampling/importance_sampling_ratio/mean": 1.1954052448272705,
+      "sampling/importance_sampling_ratio/min": 0.6682614088058472,
+      "sampling/sampling_logp_difference/max": 0.4499216079711914,
+      "sampling/sampling_logp_difference/mean": 0.021715868264436722,
+      "step": 147,
+      "step_time": 97.10051084400038
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 54.0,
+      "completions/max_terminated_length": 54.0,
+      "completions/mean_length": 47.125,
+      "completions/mean_terminated_length": 47.125,
+      "completions/min_length": 27.0,
+      "completions/min_terminated_length": 27.0,
+      "entropy": 0.34877437353134155,
+      "epoch": 0.296,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.521934986114502,
+      "kl": 0.005301266442984343,
+      "learning_rate": 4.8226484290055544e-06,
+      "loss": 0.0887,
+      "num_tokens": 828804.0,
+      "reward": 0.48374998569488525,
+      "reward_std": 0.5961781144142151,
+      "rewards/reward_func/mean": 0.48374998569488525,
+      "rewards/reward_func/std": 0.5521112680435181,
+      "sampling/importance_sampling_ratio/max": 1.8339399099349976,
+      "sampling/importance_sampling_ratio/mean": 1.0161359310150146,
+      "sampling/importance_sampling_ratio/min": 0.0,
+      "sampling/sampling_logp_difference/max": 0.7577025890350342,
+      "sampling/sampling_logp_difference/mean": 0.025348538532853127,
+      "step": 148,
+      "step_time": 61.746048774017254
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 67.0,
+      "completions/max_terminated_length": 67.0,
+      "completions/mean_length": 52.5,
+      "completions/mean_terminated_length": 52.5,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.3230116367340088,
+      "epoch": 0.298,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9116004705429077,
+      "kl": 0.011923927813768387,
+      "learning_rate": 4.8196409653746815e-06,
+      "loss": 0.0086,
+      "num_tokens": 834368.0,
+      "reward": 0.05874999612569809,
+      "reward_std": 0.28938817977905273,
+      "rewards/reward_func/mean": 0.05874999612569809,
+      "rewards/reward_func/std": 0.38327306509017944,
+      "sampling/importance_sampling_ratio/max": 1.5544939041137695,
+      "sampling/importance_sampling_ratio/mean": 0.9016103148460388,
+      "sampling/importance_sampling_ratio/min": 0.0,
+      "sampling/sampling_logp_difference/max": 1.2695889472961426,
+      "sampling/sampling_logp_difference/mean": 0.02005579136312008,
+      "step": 149,
+      "step_time": 93.92776288898312
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 53.0,
+      "completions/max_terminated_length": 53.0,
+      "completions/mean_length": 46.875,
+      "completions/mean_terminated_length": 46.875,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.31266871094703674,
+      "epoch": 0.3,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0015181303024292,
+      "kl": 0.003962170798331499,
+      "learning_rate": 4.8166091698077165e-06,
+      "loss": -0.0324,
+      "num_tokens": 839246.0,
+      "reward": 0.22374999523162842,
+      "reward_std": 0.5151989459991455,
+      "rewards/reward_func/mean": 0.22374999523162842,
+      "rewards/reward_func/std": 0.47782060503959656,
+      "sampling/importance_sampling_ratio/max": 1.158785343170166,
+      "sampling/importance_sampling_ratio/mean": 0.86640864610672,
+      "sampling/importance_sampling_ratio/min": 0.6415550112724304,
+      "sampling/sampling_logp_difference/max": 0.31314682960510254,
+      "sampling/sampling_logp_difference/mean": 0.018176782876253128,
+      "step": 150,
+      "step_time": 90.2421096219914
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 56.0,
+      "completions/max_terminated_length": 56.0,
+      "completions/mean_length": 43.125,
+      "completions/mean_terminated_length": 43.125,
+      "completions/min_length": 32.0,
+      "completions/min_terminated_length": 32.0,
+      "entropy": 0.28932589292526245,
+      "epoch": 0.302,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.364370584487915,
+      "kl": 0.00638082530349493,
+      "learning_rate": 4.813553074106761e-06,
+      "loss": -0.166,
+      "num_tokens": 844201.0,
+      "reward": 0.3137499988079071,
+      "reward_std": 0.5894033312797546,
+      "rewards/reward_func/mean": 0.3137499988079071,
+      "rewards/reward_func/std": 0.5638119578361511,
+      "sampling/importance_sampling_ratio/max": 2.0728578567504883,
+      "sampling/importance_sampling_ratio/mean": 1.2075482606887817,
+      "sampling/importance_sampling_ratio/min": 0.5291450023651123,
+      "sampling/sampling_logp_difference/max": 0.6335185766220093,
+      "sampling/sampling_logp_difference/mean": 0.022180885076522827,
+      "step": 151,
+      "step_time": 77.12891793900053
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 62.0,
+      "completions/max_terminated_length": 62.0,
+      "completions/mean_length": 48.75,
+      "completions/mean_terminated_length": 48.75,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.39411360025405884,
+      "epoch": 0.304,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.070342779159546,
+      "kl": 0.006427218206226826,
+      "learning_rate": 4.8104727103288125e-06,
+      "loss": 0.123,
+      "num_tokens": 850002.0,
+      "reward": -0.03125,
+      "reward_std": 0.026997683569788933,
+      "rewards/reward_func/mean": -0.03125,
+      "rewards/reward_func/std": 0.025319388136267662,
+      "sampling/importance_sampling_ratio/max": 1.8757935762405396,
+      "sampling/importance_sampling_ratio/mean": 1.1552492380142212,
+      "sampling/importance_sampling_ratio/min": 0.589501678943634,
+      "sampling/sampling_logp_difference/max": 0.4456930160522461,
+      "sampling/sampling_logp_difference/mean": 0.027546117082238197,
+      "step": 152,
+      "step_time": 90.55313208300504
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 66.0,
+      "completions/max_terminated_length": 66.0,
+      "completions/mean_length": 53.625,
+      "completions/mean_terminated_length": 53.625,
+      "completions/min_length": 42.0,
+      "completions/min_terminated_length": 42.0,
+      "entropy": 0.36300113797187805,
+      "epoch": 0.306,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0927797555923462,
+      "kl": 0.005236159078776836,
+      "learning_rate": 4.80736811078543e-06,
+      "loss": -0.1923,
+      "num_tokens": 855547.0,
+      "reward": 0.33000001311302185,
+      "reward_std": 0.560116171836853,
+      "rewards/reward_func/mean": 0.33000001311302185,
+      "rewards/reward_func/std": 0.538993775844574,
+      "sampling/importance_sampling_ratio/max": 1.9103295803070068,
+      "sampling/importance_sampling_ratio/mean": 1.0825953483581543,
+      "sampling/importance_sampling_ratio/min": 0.6134956479072571,
+      "sampling/sampling_logp_difference/max": 0.306821346282959,
+      "sampling/sampling_logp_difference/mean": 0.018912725150585175,
+      "step": 153,
+      "step_time": 79.64092588599306
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 54.0,
+      "completions/max_terminated_length": 54.0,
+      "completions/mean_length": 46.25,
+      "completions/mean_terminated_length": 46.25,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.3884934186935425,
+      "epoch": 0.308,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1354352235794067,
+      "kl": 0.00976630486547947,
+      "learning_rate": 4.804239308042392e-06,
+      "loss": 0.0839,
+      "num_tokens": 861032.0,
+      "reward": 0.4975000023841858,
+      "reward_std": 0.5802370309829712,
+      "rewards/reward_func/mean": 0.4975000023841858,
+      "rewards/reward_func/std": 0.5372084379196167,
+      "sampling/importance_sampling_ratio/max": 1.285419225692749,
+      "sampling/importance_sampling_ratio/mean": 0.8535559177398682,
+      "sampling/importance_sampling_ratio/min": 0.2762400805950165,
+      "sampling/sampling_logp_difference/max": 0.7990829944610596,
+      "sampling/sampling_logp_difference/mean": 0.027860336005687714,
+      "step": 154,
+      "step_time": 65.1173454009986
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 69.0,
+      "completions/max_terminated_length": 69.0,
+      "completions/mean_length": 48.375,
+      "completions/mean_terminated_length": 48.375,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.3430503308773041,
+      "epoch": 0.31,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.299552083015442,
+      "kl": 0.005469894502311945,
+      "learning_rate": 4.8010863349193605e-06,
+      "loss": -0.1091,
+      "num_tokens": 866546.0,
+      "reward": 0.46000000834465027,
+      "reward_std": 0.5039982199668884,
+      "rewards/reward_func/mean": 0.46000000834465027,
+      "rewards/reward_func/std": 0.5573149919509888,
+      "sampling/importance_sampling_ratio/max": 1.5915218591690063,
+      "sampling/importance_sampling_ratio/mean": 1.0774503946304321,
+      "sampling/importance_sampling_ratio/min": 0.6246634721755981,
+      "sampling/sampling_logp_difference/max": 0.32491254806518555,
+      "sampling/sampling_logp_difference/mean": 0.021029043942689896,
+      "step": 155,
+      "step_time": 62.39225424500182
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 66.0,
+      "completions/max_terminated_length": 66.0,
+      "completions/mean_length": 48.375,
+      "completions/mean_terminated_length": 48.375,
+      "completions/min_length": 40.0,
+      "completions/min_terminated_length": 40.0,
+      "entropy": 0.3359929323196411,
+      "epoch": 0.312,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.646360158920288,
+      "kl": 0.013532448559999466,
+      "learning_rate": 4.797909224489531e-06,
+      "loss": 0.0599,
+      "num_tokens": 872235.0,
+      "reward": 0.08875000476837158,
+      "reward_std": 0.27286672592163086,
+      "rewards/reward_func/mean": 0.08875000476837158,
+      "rewards/reward_func/std": 0.365764856338501,
+      "sampling/importance_sampling_ratio/max": 1.6614181995391846,
+      "sampling/importance_sampling_ratio/mean": 0.9551100730895996,
+      "sampling/importance_sampling_ratio/min": 0.45479723811149597,
+      "sampling/sampling_logp_difference/max": 0.41816186904907227,
+      "sampling/sampling_logp_difference/mean": 0.02349046617746353,
+      "step": 156,
+      "step_time": 86.28342253799201
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 70.0,
+      "completions/max_terminated_length": 70.0,
+      "completions/mean_length": 51.125,
+      "completions/mean_terminated_length": 51.125,
+      "completions/min_length": 27.0,
+      "completions/min_terminated_length": 27.0,
+      "entropy": 0.36201316118240356,
+      "epoch": 0.314,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2846462726593018,
+      "kl": 0.0050716521218419075,
+      "learning_rate": 4.794708010079288e-06,
+      "loss": 0.1633,
+      "num_tokens": 878136.0,
+      "reward": 0.3462499976158142,
+      "reward_std": 0.5590543746948242,
+      "rewards/reward_func/mean": 0.3462499976158142,
+      "rewards/reward_func/std": 0.5334774851799011,
+      "sampling/importance_sampling_ratio/max": 1.8937947750091553,
+      "sampling/importance_sampling_ratio/mean": 1.087288498878479,
+      "sampling/importance_sampling_ratio/min": 0.5765236020088196,
+      "sampling/sampling_logp_difference/max": 0.5770103931427002,
+      "sampling/sampling_logp_difference/mean": 0.019394293427467346,
+      "step": 157,
+      "step_time": 77.44638174801366
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 52.0,
+      "completions/max_terminated_length": 52.0,
+      "completions/mean_length": 45.5,
+      "completions/mean_terminated_length": 45.5,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.35876867175102234,
+      "epoch": 0.316,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.6277668476104736,
+      "kl": 0.012355468235909939,
+      "learning_rate": 4.791482725267858e-06,
+      "loss": 0.0167,
+      "num_tokens": 883346.0,
+      "reward": 0.32499998807907104,
+      "reward_std": 0.5781960487365723,
+      "rewards/reward_func/mean": 0.32499998807907104,
+      "rewards/reward_func/std": 0.5492072105407715,
+      "sampling/importance_sampling_ratio/max": 1.5887843370437622,
+      "sampling/importance_sampling_ratio/mean": 0.9820950627326965,
+      "sampling/importance_sampling_ratio/min": 0.44207823276519775,
+      "sampling/sampling_logp_difference/max": 0.6413552761077881,
+      "sampling/sampling_logp_difference/mean": 0.023921802639961243,
+      "step": 158,
+      "step_time": 64.3381597440166
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 59.0,
+      "completions/max_terminated_length": 59.0,
+      "completions/mean_length": 48.0,
+      "completions/mean_terminated_length": 48.0,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.32425469160079956,
+      "epoch": 0.318,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9400520324707031,
+      "kl": 0.004790422506630421,
+      "learning_rate": 4.78823340388695e-06,
+      "loss": -0.117,
+      "num_tokens": 889686.0,
+      "reward": 0.2187499850988388,
+      "reward_std": 0.31793859601020813,
+      "rewards/reward_func/mean": 0.2187499850988388,
+      "rewards/reward_func/std": 0.47139421105384827,
+      "sampling/importance_sampling_ratio/max": 1.150166392326355,
+      "sampling/importance_sampling_ratio/mean": 0.8458471894264221,
+      "sampling/importance_sampling_ratio/min": 0.521885335445404,
+      "sampling/sampling_logp_difference/max": 0.45719194412231445,
+      "sampling/sampling_logp_difference/mean": 0.020912881940603256,
+      "step": 159,
+      "step_time": 83.63672647799831
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.0,
+      "completions/max_terminated_length": 65.0,
+      "completions/mean_length": 49.125,
+      "completions/mean_terminated_length": 49.125,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.362440288066864,
+      "epoch": 0.32,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.179018259048462,
+      "kl": 0.009544030763208866,
+      "learning_rate": 4.7849600800204075e-06,
+      "loss": -0.0725,
+      "num_tokens": 895303.0,
+      "reward": 0.3062500059604645,
+      "reward_std": 0.5794415473937988,
+      "rewards/reward_func/mean": 0.3062500059604645,
+      "rewards/reward_func/std": 0.5538163185119629,
+      "sampling/importance_sampling_ratio/max": 1.3555833101272583,
+      "sampling/importance_sampling_ratio/mean": 0.8662522435188293,
+      "sampling/importance_sampling_ratio/min": 0.48955845832824707,
+      "sampling/sampling_logp_difference/max": 0.3127005100250244,
+      "sampling/sampling_logp_difference/mean": 0.02036750502884388,
+      "step": 160,
+      "step_time": 75.56624679401284
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 69.0,
+      "completions/max_terminated_length": 69.0,
+      "completions/mean_length": 49.25,
+      "completions/mean_terminated_length": 49.25,
+      "completions/min_length": 32.0,
+      "completions/min_terminated_length": 32.0,
+      "entropy": 0.3294234275817871,
+      "epoch": 0.322,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9646108150482178,
+      "kl": 0.008349942974746227,
+      "learning_rate": 4.781662788003851e-06,
+      "loss": 0.04,
+      "num_tokens": 900212.0,
+      "reward": 0.3125,
+      "reward_std": 0.28340619802474976,
+      "rewards/reward_func/mean": 0.3125,
+      "rewards/reward_func/std": 0.5329098105430603,
+      "sampling/importance_sampling_ratio/max": 1.3511476516723633,
+      "sampling/importance_sampling_ratio/mean": 0.9460296034812927,
+      "sampling/importance_sampling_ratio/min": 0.5577508211135864,
+      "sampling/sampling_logp_difference/max": 0.357053279876709,
+      "sampling/sampling_logp_difference/mean": 0.02139732614159584,
+      "step": 161,
+      "step_time": 63.430384036997566
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 57.0,
+      "completions/max_terminated_length": 57.0,
+      "completions/mean_length": 46.25,
+      "completions/mean_terminated_length": 46.25,
+      "completions/min_length": 32.0,
+      "completions/min_terminated_length": 32.0,
+      "entropy": 0.37909457087516785,
+      "epoch": 0.324,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1150704622268677,
+      "kl": 0.006739302072674036,
+      "learning_rate": 4.778341562424312e-06,
+      "loss": -0.0058,
+      "num_tokens": 905567.0,
+      "reward": 0.05624999478459358,
+      "reward_std": 0.30837467312812805,
+      "rewards/reward_func/mean": 0.05624999478459358,
+      "rewards/reward_func/std": 0.3843710124492645,
+      "sampling/importance_sampling_ratio/max": 1.5031989812850952,
+      "sampling/importance_sampling_ratio/mean": 0.9705907106399536,
+      "sampling/importance_sampling_ratio/min": 0.4351043999195099,
+      "sampling/sampling_logp_difference/max": 0.31818532943725586,
+      "sampling/sampling_logp_difference/mean": 0.023320209234952927,
+      "step": 162,
+      "step_time": 88.88530365700717
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 75.0,
+      "completions/max_terminated_length": 75.0,
+      "completions/mean_length": 49.375,
+      "completions/mean_terminated_length": 49.375,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.3668830394744873,
+      "epoch": 0.326,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.6112715005874634,
+      "kl": 0.00733697135001421,
+      "learning_rate": 4.774996438119876e-06,
+      "loss": -0.2199,
+      "num_tokens": 910978.0,
+      "reward": 0.4387499988079071,
+      "reward_std": 0.6334177255630493,
+      "rewards/reward_func/mean": 0.4387499988079071,
+      "rewards/reward_func/std": 0.5865988731384277,
+      "sampling/importance_sampling_ratio/max": 1.7501353025436401,
+      "sampling/importance_sampling_ratio/mean": 1.1737459897994995,
+      "sampling/importance_sampling_ratio/min": 0.5407097935676575,
+      "sampling/sampling_logp_difference/max": 0.5975207090377808,
+      "sampling/sampling_logp_difference/mean": 0.023949533700942993,
+      "step": 163,
+      "step_time": 77.05458755500149
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 59.0,
+      "completions/max_terminated_length": 59.0,
+      "completions/mean_length": 49.625,
+      "completions/mean_terminated_length": 49.625,
+      "completions/min_length": 41.0,
+      "completions/min_terminated_length": 41.0,
+      "entropy": 0.3550381660461426,
+      "epoch": 0.328,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4822602272033691,
+      "kl": 0.018688620999455452,
+      "learning_rate": 4.771627450179315e-06,
+      "loss": 0.1415,
+      "num_tokens": 916968.0,
+      "reward": 0.07750000059604645,
+      "reward_std": 0.2801649868488312,
+      "rewards/reward_func/mean": 0.07750000059604645,
+      "rewards/reward_func/std": 0.36939141154289246,
+      "sampling/importance_sampling_ratio/max": 2.532761573791504,
+      "sampling/importance_sampling_ratio/mean": 1.3982677459716797,
+      "sampling/importance_sampling_ratio/min": 0.7517146468162537,
+      "sampling/sampling_logp_difference/max": 0.45490455627441406,
+      "sampling/sampling_logp_difference/mean": 0.020801950246095657,
+      "step": 164,
+      "step_time": 82.38432875502622
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 67.0,
+      "completions/max_terminated_length": 67.0,
+      "completions/mean_length": 48.375,
+      "completions/mean_terminated_length": 48.375,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.31968969106674194,
+      "epoch": 0.33,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8617737293243408,
+      "kl": 0.013258876278996468,
+      "learning_rate": 4.768234633941716e-06,
+      "loss": -0.1274,
+      "num_tokens": 923326.0,
+      "reward": 0.3487499952316284,
+      "reward_std": 0.5436524152755737,
+      "rewards/reward_func/mean": 0.3487499952316284,
+      "rewards/reward_func/std": 0.5261297821998596,
+      "sampling/importance_sampling_ratio/max": 1.1405854225158691,
+      "sampling/importance_sampling_ratio/mean": 0.9033545255661011,
+      "sampling/importance_sampling_ratio/min": 0.7151353359222412,
+      "sampling/sampling_logp_difference/max": 0.31670236587524414,
+      "sampling/sampling_logp_difference/mean": 0.020617477595806122,
+      "step": 165,
+      "step_time": 91.76991003201692
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 58.0,
+      "completions/max_terminated_length": 58.0,
+      "completions/mean_length": 47.125,
+      "completions/mean_terminated_length": 47.125,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.34689170122146606,
+      "epoch": 0.332,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9533897638320923,
+      "kl": 0.005911373533308506,
+      "learning_rate": 4.764818024996117e-06,
+      "loss": 0.038,
+      "num_tokens": 929389.0,
+      "reward": 0.07500000298023224,
+      "reward_std": 0.27509522438049316,
+      "rewards/reward_func/mean": 0.07500000298023224,
+      "rewards/reward_func/std": 0.3702123165130615,
+      "sampling/importance_sampling_ratio/max": 1.1052998304367065,
+      "sampling/importance_sampling_ratio/mean": 0.8497065305709839,
+      "sampling/importance_sampling_ratio/min": 0.5713857412338257,
+      "sampling/sampling_logp_difference/max": 0.2978546619415283,
+      "sampling/sampling_logp_difference/mean": 0.019739100709557533,
+      "step": 166,
+      "step_time": 84.64203599700704
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 64.0,
+      "completions/max_terminated_length": 64.0,
+      "completions/mean_length": 52.0,
+      "completions/mean_terminated_length": 52.0,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.3531273603439331,
+      "epoch": 0.334,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.5965367555618286,
+      "kl": 0.017820192500948906,
+      "learning_rate": 4.76137765918113e-06,
+      "loss": -0.1656,
+      "num_tokens": 934556.0,
+      "reward": 0.20249998569488525,
+      "reward_std": 0.5291311740875244,
+      "rewards/reward_func/mean": 0.20249998569488525,
+      "rewards/reward_func/std": 0.4898906648159027,
+      "sampling/importance_sampling_ratio/max": 1.6110693216323853,
+      "sampling/importance_sampling_ratio/mean": 1.1585469245910645,
+      "sampling/importance_sampling_ratio/min": 0.7089804410934448,
+      "sampling/sampling_logp_difference/max": 0.5340450406074524,
+      "sampling/sampling_logp_difference/mean": 0.02586180344223976,
+      "step": 167,
+      "step_time": 66.61828825098928
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 78.0,
+      "completions/max_terminated_length": 78.0,
+      "completions/mean_length": 49.125,
+      "completions/mean_terminated_length": 49.125,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.31788909435272217,
+      "epoch": 0.336,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9643736481666565,
+      "kl": 0.008403636515140533,
+      "learning_rate": 4.757913572584564e-06,
+      "loss": 0.017,
+      "num_tokens": 939873.0,
+      "reward": 0.20375001430511475,
+      "reward_std": 0.5219398736953735,
+      "rewards/reward_func/mean": 0.20375001430511475,
+      "rewards/reward_func/std": 0.4842354357242584,
+      "sampling/importance_sampling_ratio/max": 1.196733832359314,
+      "sampling/importance_sampling_ratio/mean": 0.8918753266334534,
+      "sampling/importance_sampling_ratio/min": 0.45229190587997437,
+      "sampling/sampling_logp_difference/max": 0.3446998596191406,
+      "sampling/sampling_logp_difference/mean": 0.01955568790435791,
+      "step": 168,
+      "step_time": 73.99562716198852
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.0,
+      "completions/max_terminated_length": 65.0,
+      "completions/mean_length": 47.375,
+      "completions/mean_terminated_length": 47.375,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.34987837076187134,
+      "epoch": 0.338,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0800118446350098,
+      "kl": 0.006376350298523903,
+      "learning_rate": 4.754425801543047e-06,
+      "loss": 0.0112,
+      "num_tokens": 945824.0,
+      "reward": 0.2175000011920929,
+      "reward_std": 0.3063386380672455,
+      "rewards/reward_func/mean": 0.2175000011920929,
+      "rewards/reward_func/std": 0.477426141500473,
+      "sampling/importance_sampling_ratio/max": 1.8290735483169556,
+      "sampling/importance_sampling_ratio/mean": 1.1064127683639526,
+      "sampling/importance_sampling_ratio/min": 0.43567004799842834,
+      "sampling/sampling_logp_difference/max": 0.31137561798095703,
+      "sampling/sampling_logp_difference/mean": 0.020785929635167122,
+      "step": 169,
+      "step_time": 93.93666018798831
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.0,
+      "completions/max_terminated_length": 65.0,
+      "completions/mean_length": 51.625,
+      "completions/mean_terminated_length": 51.625,
+      "completions/min_length": 43.0,
+      "completions/min_terminated_length": 43.0,
+      "entropy": 0.35052281618118286,
+      "epoch": 0.34,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.340181589126587,
+      "kl": 0.0070198904722929,
+      "learning_rate": 4.750914382641647e-06,
+      "loss": -0.1266,
+      "num_tokens": 951240.0,
+      "reward": 0.3087499737739563,
+      "reward_std": 0.2839585244655609,
+      "rewards/reward_func/mean": 0.3087499737739563,
+      "rewards/reward_func/std": 0.5617685317993164,
+      "sampling/importance_sampling_ratio/max": 1.5249656438827515,
+      "sampling/importance_sampling_ratio/mean": 0.9443210363388062,
+      "sampling/importance_sampling_ratio/min": 0.6084120869636536,
+      "sampling/sampling_logp_difference/max": 0.3037455081939697,
+      "sampling/sampling_logp_difference/mean": 0.020245909690856934,
+      "step": 170,
+      "step_time": 85.42551145199104
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 55.0,
+      "completions/max_terminated_length": 55.0,
+      "completions/mean_length": 42.375,
+      "completions/mean_terminated_length": 42.375,
+      "completions/min_length": 29.0,
+      "completions/min_terminated_length": 29.0,
+      "entropy": 0.3007114827632904,
+      "epoch": 0.342,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.134536623954773,
+      "kl": 0.011100707575678825,
+      "learning_rate": 4.747379352713489e-06,
+      "loss": -0.001,
+      "num_tokens": 956957.0,
+      "reward": 0.33124998211860657,
+      "reward_std": 0.2721617817878723,
+      "rewards/reward_func/mean": 0.33124998211860657,
+      "rewards/reward_func/std": 0.5298096537590027,
+      "sampling/importance_sampling_ratio/max": 1.7444802522659302,
+      "sampling/importance_sampling_ratio/mean": 1.0147829055786133,
+      "sampling/importance_sampling_ratio/min": 0.4858468472957611,
+      "sampling/sampling_logp_difference/max": 0.3548402786254883,
+      "sampling/sampling_logp_difference/mean": 0.024134717881679535,
+      "step": 171,
+      "step_time": 83.73731894500088
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 63.0,
+      "completions/max_terminated_length": 63.0,
+      "completions/mean_length": 46.75,
+      "completions/mean_terminated_length": 46.75,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.36536312103271484,
+      "epoch": 0.344,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.420339345932007,
+      "kl": 0.015561670064926147,
+      "learning_rate": 4.743820748839362e-06,
+      "loss": -0.1682,
+      "num_tokens": 962384.0,
+      "reward": 0.23499999940395355,
+      "reward_std": 0.30095145106315613,
+      "rewards/reward_func/mean": 0.23499999940395355,
+      "rewards/reward_func/std": 0.46632298827171326,
+      "sampling/importance_sampling_ratio/max": 2.9884486198425293,
+      "sampling/importance_sampling_ratio/mean": 1.253305435180664,
+      "sampling/importance_sampling_ratio/min": 0.40475034713745117,
+      "sampling/sampling_logp_difference/max": 0.4607217311859131,
+      "sampling/sampling_logp_difference/mean": 0.029603634029626846,
+      "step": 172,
+      "step_time": 79.53238872098154
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 52.0,
+      "completions/max_terminated_length": 52.0,
+      "completions/mean_length": 44.5,
+      "completions/mean_terminated_length": 44.5,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.33054256439208984,
+      "epoch": 0.346,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2542983293533325,
+      "kl": 0.012076465412974358,
+      "learning_rate": 4.740238608347337e-06,
+      "loss": -0.0235,
+      "num_tokens": 968102.0,
+      "reward": 0.4775000214576721,
+      "reward_std": 0.5982934236526489,
+      "rewards/reward_func/mean": 0.4775000214576721,
+      "rewards/reward_func/std": 0.5544044971466064,
+      "sampling/importance_sampling_ratio/max": 1.2516276836395264,
+      "sampling/importance_sampling_ratio/mean": 1.0209238529205322,
+      "sampling/importance_sampling_ratio/min": 0.8097511529922485,
+      "sampling/sampling_logp_difference/max": 0.3150825500488281,
+      "sampling/sampling_logp_difference/mean": 0.022141385823488235,
+      "step": 173,
+      "step_time": 67.22070981800789
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 78.0,
+      "completions/max_terminated_length": 78.0,
+      "completions/mean_length": 54.75,
+      "completions/mean_terminated_length": 54.75,
+      "completions/min_length": 45.0,
+      "completions/min_terminated_length": 45.0,
+      "entropy": 0.3209684491157532,
+      "epoch": 0.348,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.5610387325286865,
+      "kl": 0.007439862936735153,
+      "learning_rate": 4.736632968812374e-06,
+      "loss": -0.0656,
+      "num_tokens": 973329.0,
+      "reward": 0.4699999988079071,
+      "reward_std": 0.612058162689209,
+      "rewards/reward_func/mean": 0.4699999988079071,
+      "rewards/reward_func/std": 0.5669718980789185,
+      "sampling/importance_sampling_ratio/max": 2.20025897026062,
+      "sampling/importance_sampling_ratio/mean": 1.2844336032867432,
+      "sampling/importance_sampling_ratio/min": 0.0,
+      "sampling/sampling_logp_difference/max": 0.6814525127410889,
+      "sampling/sampling_logp_difference/mean": 0.029089387506246567,
+      "step": 174,
+      "step_time": 59.10385779500939
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 60.0,
+      "completions/max_terminated_length": 60.0,
+      "completions/mean_length": 46.375,
+      "completions/mean_terminated_length": 46.375,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.3398328423500061,
+      "epoch": 0.35,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8624789714813232,
+      "kl": 0.011860033497214317,
+      "learning_rate": 4.733003868055923e-06,
+      "loss": 0.1904,
+      "num_tokens": 979417.0,
+      "reward": 0.05624999478459358,
+      "reward_std": 0.265840083360672,
+      "rewards/reward_func/mean": 0.05624999478459358,
+      "rewards/reward_func/std": 0.3444223999977112,
+      "sampling/importance_sampling_ratio/max": 1.2150940895080566,
+      "sampling/importance_sampling_ratio/mean": 0.98213791847229,
+      "sampling/importance_sampling_ratio/min": 0.5763043165206909,
+      "sampling/sampling_logp_difference/max": 0.3341519832611084,
+      "sampling/sampling_logp_difference/mean": 0.020348751917481422,
+      "step": 175,
+      "step_time": 88.84378124101204
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 64.0,
+      "completions/max_terminated_length": 64.0,
+      "completions/mean_length": 50.0,
+      "completions/mean_terminated_length": 50.0,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.3720015287399292,
+      "epoch": 0.352,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8829252123832703,
+      "kl": 0.013934159651398659,
+      "learning_rate": 4.729351344145536e-06,
+      "loss": -0.0327,
+      "num_tokens": 984863.0,
+      "reward": 0.05249999836087227,
+      "reward_std": 0.30060574412345886,
+      "rewards/reward_func/mean": 0.05249999836087227,
+      "rewards/reward_func/std": 0.38100433349609375,
+      "sampling/importance_sampling_ratio/max": 1.3568812608718872,
+      "sampling/importance_sampling_ratio/mean": 0.8758584260940552,
+      "sampling/importance_sampling_ratio/min": 0.5294094681739807,
+      "sampling/sampling_logp_difference/max": 0.36570286750793457,
+      "sampling/sampling_logp_difference/mean": 0.023136310279369354,
+      "step": 176,
+      "step_time": 95.73476834298344
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 51.0,
+      "completions/max_terminated_length": 51.0,
+      "completions/mean_length": 44.75,
+      "completions/mean_terminated_length": 44.75,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.36852994561195374,
+      "epoch": 0.354,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2951862812042236,
+      "kl": 0.021301502361893654,
+      "learning_rate": 4.725675435394461e-06,
+      "loss": 0.164,
+      "num_tokens": 990337.0,
+      "reward": 0.06875000894069672,
+      "reward_std": 0.2854534685611725,
+      "rewards/reward_func/mean": 0.06875000894069672,
+      "rewards/reward_func/std": 0.37745150923728943,
+      "sampling/importance_sampling_ratio/max": 2.195624589920044,
+      "sampling/importance_sampling_ratio/mean": 0.981530487537384,
+      "sampling/importance_sampling_ratio/min": 0.4619598090648651,
+      "sampling/sampling_logp_difference/max": 0.628758430480957,
+      "sampling/sampling_logp_difference/mean": 0.025460662320256233,
+      "step": 177,
+      "step_time": 67.39933587997803
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 58.0,
+      "completions/max_terminated_length": 58.0,
+      "completions/mean_length": 47.25,
+      "completions/mean_terminated_length": 47.25,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.3247171640396118,
+      "epoch": 0.356,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.6371877193450928,
+      "kl": 0.012556849978864193,
+      "learning_rate": 4.721976180361239e-06,
+      "loss": 0.075,
+      "num_tokens": 995402.0,
+      "reward": 0.17749999463558197,
+      "reward_std": 0.3520262837409973,
+      "rewards/reward_func/mean": 0.17749999463558197,
+      "rewards/reward_func/std": 0.5018181204795837,
+      "sampling/importance_sampling_ratio/max": 1.499563455581665,
+      "sampling/importance_sampling_ratio/mean": 0.9744052290916443,
+      "sampling/importance_sampling_ratio/min": 0.5791205763816833,
+      "sampling/sampling_logp_difference/max": 0.4286665916442871,
+      "sampling/sampling_logp_difference/mean": 0.023523185402154922,
+      "step": 178,
+      "step_time": 59.054495546006365
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 87.0,
+      "completions/max_terminated_length": 87.0,
+      "completions/mean_length": 49.125,
+      "completions/mean_terminated_length": 49.125,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.3754112720489502,
+      "epoch": 0.358,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0154576301574707,
+      "kl": 0.013785503804683685,
+      "learning_rate": 4.718253617849306e-06,
+      "loss": 0.0381,
+      "num_tokens": 1001387.0,
+      "reward": 0.08749999105930328,
+      "reward_std": 0.2781248092651367,
+      "rewards/reward_func/mean": 0.08749999105930328,
+      "rewards/reward_func/std": 0.3700868785381317,
+      "sampling/importance_sampling_ratio/max": 1.0287582874298096,
+      "sampling/importance_sampling_ratio/mean": 0.8582373857498169,
+      "sampling/importance_sampling_ratio/min": 0.6108002066612244,
+      "sampling/sampling_logp_difference/max": 0.3374152183532715,
+      "sampling/sampling_logp_difference/mean": 0.023500245064496994,
+      "step": 179,
+      "step_time": 74.29987861201516
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 50.0,
+      "completions/max_terminated_length": 50.0,
+      "completions/mean_length": 42.0,
+      "completions/mean_terminated_length": 42.0,
+      "completions/min_length": 32.0,
+      "completions/min_terminated_length": 32.0,
+      "entropy": 0.3148415982723236,
+      "epoch": 0.36,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8665428757667542,
+      "kl": 0.014602867886424065,
+      "learning_rate": 4.7145077869065815e-06,
+      "loss": 0.2052,
+      "num_tokens": 1006871.0,
+      "reward": 0.20875000953674316,
+      "reward_std": 0.5284746885299683,
+      "rewards/reward_func/mean": 0.20875000953674316,
+      "rewards/reward_func/std": 0.48932716250419617,
+      "sampling/importance_sampling_ratio/max": 1.6064436435699463,
+      "sampling/importance_sampling_ratio/mean": 0.8494887948036194,
+      "sampling/importance_sampling_ratio/min": 0.28991734981536865,
+      "sampling/sampling_logp_difference/max": 0.5766005516052246,
+      "sampling/sampling_logp_difference/mean": 0.022570453584194183,
+      "step": 180,
+      "step_time": 75.10994843998924
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 59.0,
+      "completions/max_terminated_length": 59.0,
+      "completions/mean_length": 46.625,
+      "completions/mean_terminated_length": 46.625,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.35348600149154663,
+      "epoch": 0.362,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.372689962387085,
+      "kl": 0.009884382598102093,
+      "learning_rate": 4.710738726825059e-06,
+      "loss": 0.1381,
+      "num_tokens": 1012819.0,
+      "reward": 0.20874999463558197,
+      "reward_std": 0.5279327034950256,
+      "rewards/reward_func/mean": 0.20874999463558197,
+      "rewards/reward_func/std": 0.48888903856277466,
+      "sampling/importance_sampling_ratio/max": 1.244268774986267,
+      "sampling/importance_sampling_ratio/mean": 0.9364046454429626,
+      "sampling/importance_sampling_ratio/min": 0.6309903264045715,
+      "sampling/sampling_logp_difference/max": 0.3161327838897705,
+      "sampling/sampling_logp_difference/mean": 0.02107790857553482,
+      "step": 181,
+      "step_time": 80.6431828700006
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 57.0,
+      "completions/max_terminated_length": 57.0,
+      "completions/mean_length": 47.375,
+      "completions/mean_terminated_length": 47.375,
+      "completions/min_length": 29.0,
+      "completions/min_terminated_length": 29.0,
+      "entropy": 0.3191605806350708,
+      "epoch": 0.364,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2262747287750244,
+      "kl": 0.011803516186773777,
+      "learning_rate": 4.706946477140396e-06,
+      "loss": 0.0117,
+      "num_tokens": 1017886.0,
+      "reward": 0.08250000327825546,
+      "reward_std": 0.2791511118412018,
+      "rewards/reward_func/mean": 0.08250000327825546,
+      "rewards/reward_func/std": 0.37247246503829956,
+      "sampling/importance_sampling_ratio/max": 1.2804160118103027,
+      "sampling/importance_sampling_ratio/mean": 0.7288067936897278,
+      "sampling/importance_sampling_ratio/min": 0.4809218645095825,
+      "sampling/sampling_logp_difference/max": 0.35615110397338867,
+      "sampling/sampling_logp_difference/mean": 0.023954380303621292,
+      "step": 182,
+      "step_time": 66.17639043199597
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 50.0,
+      "completions/max_terminated_length": 50.0,
+      "completions/mean_length": 41.375,
+      "completions/mean_terminated_length": 41.375,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.31017425656318665,
+      "epoch": 0.366,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.0836074352264404,
+      "kl": 0.014769114553928375,
+      "learning_rate": 4.703131077631498e-06,
+      "loss": 0.1999,
+      "num_tokens": 1023314.0,
+      "reward": 0.3387500047683716,
+      "reward_std": 0.2747931182384491,
+      "rewards/reward_func/mean": 0.3387500047683716,
+      "rewards/reward_func/std": 0.5456958413124084,
+      "sampling/importance_sampling_ratio/max": 2.228360414505005,
+      "sampling/importance_sampling_ratio/mean": 1.1713675260543823,
+      "sampling/importance_sampling_ratio/min": 0.5424574017524719,
+      "sampling/sampling_logp_difference/max": 0.5427889823913574,
+      "sampling/sampling_logp_difference/mean": 0.02546188049018383,
+      "step": 183,
+      "step_time": 82.83274039000389
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 66.0,
+      "completions/max_terminated_length": 66.0,
+      "completions/mean_length": 44.625,
+      "completions/mean_terminated_length": 44.625,
+      "completions/min_length": 31.0,
+      "completions/min_terminated_length": 31.0,
+      "entropy": 0.35528260469436646,
+      "epoch": 0.368,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2007426023483276,
+      "kl": 0.006659870967268944,
+      "learning_rate": 4.699292568320097e-06,
+      "loss": -0.0313,
+      "num_tokens": 1028524.0,
+      "reward": 0.32625001668930054,
+      "reward_std": 0.5633938312530518,
+      "rewards/reward_func/mean": 0.32625001668930054,
+      "rewards/reward_func/std": 0.5353753566741943,
+      "sampling/importance_sampling_ratio/max": 1.7591568231582642,
+      "sampling/importance_sampling_ratio/mean": 1.0408813953399658,
+      "sampling/importance_sampling_ratio/min": 0.6595721244812012,
+      "sampling/sampling_logp_difference/max": 0.7866129875183105,
+      "sampling/sampling_logp_difference/mean": 0.021467799320816994,
+      "step": 184,
+      "step_time": 79.17429194701253
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.0,
+      "completions/max_terminated_length": 61.0,
+      "completions/mean_length": 48.5,
+      "completions/mean_terminated_length": 48.5,
+      "completions/min_length": 40.0,
+      "completions/min_terminated_length": 40.0,
+      "entropy": 0.39394837617874146,
+      "epoch": 0.37,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.294677734375,
+      "kl": 0.015325892716646194,
+      "learning_rate": 4.6954309894703435e-06,
+      "loss": -0.0185,
+      "num_tokens": 1033728.0,
+      "reward": 0.14000000059604645,
+      "reward_std": 0.5303218364715576,
+      "rewards/reward_func/mean": 0.14000000059604645,
+      "rewards/reward_func/std": 0.4927183985710144,
+      "sampling/importance_sampling_ratio/max": 1.6721136569976807,
+      "sampling/importance_sampling_ratio/mean": 0.8524694442749023,
+      "sampling/importance_sampling_ratio/min": 0.3965020775794983,
+      "sampling/sampling_logp_difference/max": 0.49992823600769043,
+      "sampling/sampling_logp_difference/mean": 0.025052586570382118,
+      "step": 185,
+      "step_time": 88.38119602698134
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 58.0,
+      "completions/max_terminated_length": 58.0,
+      "completions/mean_length": 46.125,
+      "completions/mean_terminated_length": 46.125,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.27076610922813416,
+      "epoch": 0.372,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.7855340838432312,
+      "kl": 0.01319638080894947,
+      "learning_rate": 4.69154638158837e-06,
+      "loss": 0.0525,
+      "num_tokens": 1039269.0,
+      "reward": 0.3199999928474426,
+      "reward_std": 0.5744900107383728,
+      "rewards/reward_func/mean": 0.3199999928474426,
+      "rewards/reward_func/std": 0.5606883764266968,
+      "sampling/importance_sampling_ratio/max": 1.3193827867507935,
+      "sampling/importance_sampling_ratio/mean": 0.7310043573379517,
+      "sampling/importance_sampling_ratio/min": 0.36375343799591064,
+      "sampling/sampling_logp_difference/max": 0.707329273223877,
+      "sampling/sampling_logp_difference/mean": 0.02303919941186905,
+      "step": 186,
+      "step_time": 46.03551520599285
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 64.0,
+      "completions/max_terminated_length": 64.0,
+      "completions/mean_length": 44.25,
+      "completions/mean_terminated_length": 44.25,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.3389705419540405,
+      "epoch": 0.374,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0259521007537842,
+      "kl": 0.0074524343945086,
+      "learning_rate": 4.687638785421875e-06,
+      "loss": 0.0077,
+      "num_tokens": 1046492.0,
+      "reward": 0.1899999976158142,
+      "reward_std": 0.31486421823501587,
+      "rewards/reward_func/mean": 0.1899999976158142,
+      "rewards/reward_func/std": 0.476385235786438,
+      "sampling/importance_sampling_ratio/max": 1.1441234350204468,
+      "sampling/importance_sampling_ratio/mean": 0.8540750741958618,
+      "sampling/importance_sampling_ratio/min": 0.4722847044467926,
+      "sampling/sampling_logp_difference/max": 0.43096935749053955,
+      "sampling/sampling_logp_difference/mean": 0.02116192877292633,
+      "step": 187,
+      "step_time": 108.60295571299503
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 66.0,
+      "completions/max_terminated_length": 66.0,
+      "completions/mean_length": 52.75,
+      "completions/mean_terminated_length": 52.75,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.3361474871635437,
+      "epoch": 0.376,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.7023673057556152,
+      "kl": 0.01211222168058157,
+      "learning_rate": 4.683708241959694e-06,
+      "loss": -0.4484,
+      "num_tokens": 1052225.0,
+      "reward": 0.20374999940395355,
+      "reward_std": 0.5282833576202393,
+      "rewards/reward_func/mean": 0.20374999940395355,
+      "rewards/reward_func/std": 0.4892541766166687,
+      "sampling/importance_sampling_ratio/max": 1.8190691471099854,
+      "sampling/importance_sampling_ratio/mean": 1.0389931201934814,
+      "sampling/importance_sampling_ratio/min": 0.39706769585609436,
+      "sampling/sampling_logp_difference/max": 0.3256983757019043,
+      "sampling/sampling_logp_difference/mean": 0.022885797545313835,
+      "step": 188,
+      "step_time": 71.87692314898595
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 57.0,
+      "completions/max_terminated_length": 57.0,
+      "completions/mean_length": 47.25,
+      "completions/mean_terminated_length": 47.25,
+      "completions/min_length": 32.0,
+      "completions/min_terminated_length": 32.0,
+      "entropy": 0.3790978193283081,
+      "epoch": 0.378,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.685671091079712,
+      "kl": 0.02672746405005455,
+      "learning_rate": 4.679754792431368e-06,
+      "loss": -0.3355,
+      "num_tokens": 1057327.0,
+      "reward": 0.3125,
+      "reward_std": 0.592415452003479,
+      "rewards/reward_func/mean": 0.3125,
+      "rewards/reward_func/std": 0.5662848949432373,
+      "sampling/importance_sampling_ratio/max": 2.115366220474243,
+      "sampling/importance_sampling_ratio/mean": 1.1775258779525757,
+      "sampling/importance_sampling_ratio/min": 0.5436846017837524,
+      "sampling/sampling_logp_difference/max": 0.46004533767700195,
+      "sampling/sampling_logp_difference/mean": 0.02344960719347,
+      "step": 189,
+      "step_time": 89.23043878999306
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.0,
+      "completions/max_terminated_length": 61.0,
+      "completions/mean_length": 47.0,
+      "completions/mean_terminated_length": 47.0,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.34846365451812744,
+      "epoch": 0.38,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1112720966339111,
+      "kl": 0.01807713694870472,
+      "learning_rate": 4.675778478306712e-06,
+      "loss": 0.1345,
+      "num_tokens": 1062997.0,
+      "reward": 0.21125000715255737,
+      "reward_std": 0.5194716453552246,
+      "rewards/reward_func/mean": 0.21125000715255737,
+      "rewards/reward_func/std": 0.4811723232269287,
+      "sampling/importance_sampling_ratio/max": 1.4994481801986694,
+      "sampling/importance_sampling_ratio/mean": 1.0004935264587402,
+      "sampling/importance_sampling_ratio/min": 0.4650833010673523,
+      "sampling/sampling_logp_difference/max": 0.5518231391906738,
+      "sampling/sampling_logp_difference/mean": 0.02722608856856823,
+      "step": 190,
+      "step_time": 80.97714860000997
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 64.0,
+      "completions/max_terminated_length": 64.0,
+      "completions/mean_length": 47.125,
+      "completions/mean_terminated_length": 47.125,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.3735997676849365,
+      "epoch": 0.382,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2785558700561523,
+      "kl": 0.018139660358428955,
+      "learning_rate": 4.671779341295378e-06,
+      "loss": 0.1762,
+      "num_tokens": 1067953.0,
+      "reward": 0.20374999940395355,
+      "reward_std": 0.5309150815010071,
+      "rewards/reward_func/mean": 0.20374999940395355,
+      "rewards/reward_func/std": 0.49260058999061584,
+      "sampling/importance_sampling_ratio/max": 1.8519113063812256,
+      "sampling/importance_sampling_ratio/mean": 1.313336730003357,
+      "sampling/importance_sampling_ratio/min": 0.7735275626182556,
+      "sampling/sampling_logp_difference/max": 0.33982229232788086,
+      "sampling/sampling_logp_difference/mean": 0.028083689510822296,
+      "step": 191,
+      "step_time": 77.81035732399323
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 62.0,
+      "completions/max_terminated_length": 62.0,
+      "completions/mean_length": 46.25,
+      "completions/mean_terminated_length": 46.25,
+      "completions/min_length": 23.0,
+      "completions/min_terminated_length": 23.0,
+      "entropy": 0.3238619267940521,
+      "epoch": 0.384,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0245407819747925,
+      "kl": 0.014340454712510109,
+      "learning_rate": 4.667757423346423e-06,
+      "loss": 0.0233,
+      "num_tokens": 1072876.0,
+      "reward": 0.3050000071525574,
+      "reward_std": 0.6045562028884888,
+      "rewards/reward_func/mean": 0.3050000071525574,
+      "rewards/reward_func/std": 0.574978232383728,
+      "sampling/importance_sampling_ratio/max": 1.4169648885726929,
+      "sampling/importance_sampling_ratio/mean": 0.9852313995361328,
+      "sampling/importance_sampling_ratio/min": 0.6186890602111816,
+      "sampling/sampling_logp_difference/max": 0.32411623001098633,
+      "sampling/sampling_logp_difference/mean": 0.021142879500985146,
+      "step": 192,
+      "step_time": 65.84021737999865
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 64.0,
+      "completions/max_terminated_length": 64.0,
+      "completions/mean_length": 46.0,
+      "completions/mean_terminated_length": 46.0,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.335887610912323,
+      "epoch": 0.386,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4161148071289062,
+      "kl": 0.013850709423422813,
+      "learning_rate": 4.663712766647862e-06,
+      "loss": -0.0187,
+      "num_tokens": 1079270.0,
+      "reward": 0.17625001072883606,
+      "reward_std": 0.34232813119888306,
+      "rewards/reward_func/mean": 0.17625001072883606,
+      "rewards/reward_func/std": 0.49956947565078735,
+      "sampling/importance_sampling_ratio/max": 1.827757716178894,
+      "sampling/importance_sampling_ratio/mean": 1.0969743728637695,
+      "sampling/importance_sampling_ratio/min": 0.5536801815032959,
+      "sampling/sampling_logp_difference/max": 0.36859893798828125,
+      "sampling/sampling_logp_difference/mean": 0.023405691608786583,
+      "step": 193,
+      "step_time": 109.58445479700458
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 58.0,
+      "completions/max_terminated_length": 58.0,
+      "completions/mean_length": 49.5,
+      "completions/mean_terminated_length": 49.5,
+      "completions/min_length": 43.0,
+      "completions/min_terminated_length": 43.0,
+      "entropy": 0.31033533811569214,
+      "epoch": 0.388,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.027238368988037,
+      "kl": 0.016297120600938797,
+      "learning_rate": 4.65964541362623e-06,
+      "loss": -0.0868,
+      "num_tokens": 1084716.0,
+      "reward": 0.3387500047683716,
+      "reward_std": 0.5553901791572571,
+      "rewards/reward_func/mean": 0.3387500047683716,
+      "rewards/reward_func/std": 0.5315056443214417,
+      "sampling/importance_sampling_ratio/max": 1.3392726182937622,
+      "sampling/importance_sampling_ratio/mean": 1.071367859840393,
+      "sampling/importance_sampling_ratio/min": 0.7315554022789001,
+      "sampling/sampling_logp_difference/max": 0.49803805351257324,
+      "sampling/sampling_logp_difference/mean": 0.02089758589863777,
+      "step": 194,
+      "step_time": 67.651659035997
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 58.0,
+      "completions/max_terminated_length": 58.0,
+      "completions/mean_length": 44.125,
+      "completions/mean_terminated_length": 44.125,
+      "completions/min_length": 28.0,
+      "completions/min_terminated_length": 28.0,
+      "entropy": 0.3812289834022522,
+      "epoch": 0.39,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.7000164985656738,
+      "kl": 0.01980014517903328,
+      "learning_rate": 4.655555406946135e-06,
+      "loss": -0.1177,
+      "num_tokens": 1089906.0,
+      "reward": 0.32500001788139343,
+      "reward_std": 0.5569195747375488,
+      "rewards/reward_func/mean": 0.32500001788139343,
+      "rewards/reward_func/std": 0.5433756709098816,
+      "sampling/importance_sampling_ratio/max": 1.6265194416046143,
+      "sampling/importance_sampling_ratio/mean": 1.0881175994873047,
+      "sampling/importance_sampling_ratio/min": 0.6452130675315857,
+      "sampling/sampling_logp_difference/max": 0.3572232723236084,
+      "sampling/sampling_logp_difference/mean": 0.023923953995108604,
+      "step": 195,
+      "step_time": 64.9109322100121
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 68.0,
+      "completions/max_terminated_length": 68.0,
+      "completions/mean_length": 50.0,
+      "completions/mean_terminated_length": 50.0,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.37043747305870056,
+      "epoch": 0.392,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.687000036239624,
+      "kl": 0.022207628935575485,
+      "learning_rate": 4.651442789509813e-06,
+      "loss": 0.7241,
+      "num_tokens": 1095253.0,
+      "reward": -0.03999999910593033,
+      "reward_std": 0.04871772229671478,
+      "rewards/reward_func/mean": -0.03999999910593033,
+      "rewards/reward_func/std": 0.05182388052344322,
+      "sampling/importance_sampling_ratio/max": 2.730234146118164,
+      "sampling/importance_sampling_ratio/mean": 1.2118090391159058,
+      "sampling/importance_sampling_ratio/min": 0.32341212034225464,
+      "sampling/sampling_logp_difference/max": 0.3899533748626709,
+      "sampling/sampling_logp_difference/mean": 0.027441177517175674,
+      "step": 196,
+      "step_time": 88.97580981699866
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.0,
+      "completions/max_terminated_length": 61.0,
+      "completions/mean_length": 49.0,
+      "completions/mean_terminated_length": 49.0,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.4157707095146179,
+      "epoch": 0.394,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3999090194702148,
+      "kl": 0.017077336087822914,
+      "learning_rate": 4.647307604456675e-06,
+      "loss": 0.1207,
+      "num_tokens": 1101561.0,
+      "reward": 0.07624999433755875,
+      "reward_std": 0.2700246274471283,
+      "rewards/reward_func/mean": 0.07624999433755875,
+      "rewards/reward_func/std": 0.35860592126846313,
+      "sampling/importance_sampling_ratio/max": 1.3688700199127197,
+      "sampling/importance_sampling_ratio/mean": 0.9039748907089233,
+      "sampling/importance_sampling_ratio/min": 0.5610687732696533,
+      "sampling/sampling_logp_difference/max": 0.30984562635421753,
+      "sampling/sampling_logp_difference/mean": 0.026080135256052017,
+      "step": 197,
+      "step_time": 79.29961144700064
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 75.0,
+      "completions/max_terminated_length": 75.0,
+      "completions/mean_length": 50.125,
+      "completions/mean_terminated_length": 50.125,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.35132038593292236,
+      "epoch": 0.396,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0895273685455322,
+      "kl": 0.014003671705722809,
+      "learning_rate": 4.643149895162854e-06,
+      "loss": -0.0698,
+      "num_tokens": 1106835.0,
+      "reward": 0.1850000023841858,
+      "reward_std": 0.3318837285041809,
+      "rewards/reward_func/mean": 0.1850000023841858,
+      "rewards/reward_func/std": 0.4803272783756256,
+      "sampling/importance_sampling_ratio/max": 1.1942050457000732,
+      "sampling/importance_sampling_ratio/mean": 0.8434613943099976,
+      "sampling/importance_sampling_ratio/min": 0.36741903424263,
+      "sampling/sampling_logp_difference/max": 0.5363888740539551,
+      "sampling/sampling_logp_difference/mean": 0.026127520948648453,
+      "step": 198,
+      "step_time": 85.95462637199671
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 69.0,
+      "completions/max_terminated_length": 69.0,
+      "completions/mean_length": 46.75,
+      "completions/mean_terminated_length": 46.75,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.34718334674835205,
+      "epoch": 0.398,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.287834882736206,
+      "kl": 0.014416320249438286,
+      "learning_rate": 4.6389697052407535e-06,
+      "loss": -0.0184,
+      "num_tokens": 1112538.0,
+      "reward": 0.07625000178813934,
+      "reward_std": 0.27981066703796387,
+      "rewards/reward_func/mean": 0.07625000178813934,
+      "rewards/reward_func/std": 0.3634335398674011,
+      "sampling/importance_sampling_ratio/max": 1.8455092906951904,
+      "sampling/importance_sampling_ratio/mean": 1.0616990327835083,
+      "sampling/importance_sampling_ratio/min": 0.7087575197219849,
+      "sampling/sampling_logp_difference/max": 0.43187177181243896,
+      "sampling/sampling_logp_difference/mean": 0.02503993548452854,
+      "step": 199,
+      "step_time": 70.96149959298782
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.0,
+      "completions/max_terminated_length": 61.0,
+      "completions/mean_length": 50.25,
+      "completions/mean_terminated_length": 50.25,
+      "completions/min_length": 43.0,
+      "completions/min_terminated_length": 43.0,
+      "entropy": 0.3079107701778412,
+      "epoch": 0.4,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0146771669387817,
+      "kl": 0.013202982023358345,
+      "learning_rate": 4.634767078538589e-06,
+      "loss": -0.1111,
+      "num_tokens": 1118132.0,
+      "reward": 0.32249999046325684,
+      "reward_std": 0.550460934638977,
+      "rewards/reward_func/mean": 0.32249999046325684,
+      "rewards/reward_func/std": 0.5314871072769165,
+      "sampling/importance_sampling_ratio/max": 1.090162992477417,
+      "sampling/importance_sampling_ratio/mean": 0.7846779823303223,
+      "sampling/importance_sampling_ratio/min": 0.5243642330169678,
+      "sampling/sampling_logp_difference/max": 0.552169919013977,
+      "sampling/sampling_logp_difference/mean": 0.019852038472890854,
+      "step": 200,
+      "step_time": 77.93985611898825
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 53.0,
+      "completions/max_terminated_length": 53.0,
+      "completions/mean_length": 44.0,
+      "completions/mean_terminated_length": 44.0,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.38525718450546265,
+      "epoch": 0.402,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3107483386993408,
+      "kl": 0.020291147753596306,
+      "learning_rate": 4.630542059139923e-06,
+      "loss": 0.0876,
+      "num_tokens": 1123554.0,
+      "reward": 0.44999998807907104,
+      "reward_std": 0.5826581716537476,
+      "rewards/reward_func/mean": 0.44999998807907104,
+      "rewards/reward_func/std": 0.5397353768348694,
+      "sampling/importance_sampling_ratio/max": 1.5795011520385742,
+      "sampling/importance_sampling_ratio/mean": 0.9796627163887024,
+      "sampling/importance_sampling_ratio/min": 0.26825037598609924,
+      "sampling/sampling_logp_difference/max": 0.42403650283813477,
+      "sampling/sampling_logp_difference/mean": 0.02384255826473236,
+      "step": 201,
+      "step_time": 64.71107027700054
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 60.0,
+      "completions/max_terminated_length": 60.0,
+      "completions/mean_length": 49.5,
+      "completions/mean_terminated_length": 49.5,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.3214360177516937,
+      "epoch": 0.404,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9233896732330322,
+      "kl": 0.01243473682552576,
+      "learning_rate": 4.626294691363213e-06,
+      "loss": -0.006,
+      "num_tokens": 1129228.0,
+      "reward": 0.19374999403953552,
+      "reward_std": 0.5165963172912598,
+      "rewards/reward_func/mean": 0.19374999403953552,
+      "rewards/reward_func/std": 0.4797302186489105,
+      "sampling/importance_sampling_ratio/max": 1.7446887493133545,
+      "sampling/importance_sampling_ratio/mean": 1.0539482831954956,
+      "sampling/importance_sampling_ratio/min": 0.6484421491622925,
+      "sampling/sampling_logp_difference/max": 0.3515496253967285,
+      "sampling/sampling_logp_difference/mean": 0.02195613458752632,
+      "step": 202,
+      "step_time": 65.19753580997349
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 63.0,
+      "completions/max_terminated_length": 63.0,
+      "completions/mean_length": 47.375,
+      "completions/mean_terminated_length": 47.375,
+      "completions/min_length": 32.0,
+      "completions/min_terminated_length": 32.0,
+      "entropy": 0.3714994192123413,
+      "epoch": 0.406,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8211506009101868,
+      "kl": 0.010113951750099659,
+      "learning_rate": 4.622025019761336e-06,
+      "loss": 0.0358,
+      "num_tokens": 1134606.0,
+      "reward": 0.19249999523162842,
+      "reward_std": 0.5170982480049133,
+      "rewards/reward_func/mean": 0.19249999523162842,
+      "rewards/reward_func/std": 0.47927772998809814,
+      "sampling/importance_sampling_ratio/max": 2.0278983116149902,
+      "sampling/importance_sampling_ratio/mean": 0.9206888675689697,
+      "sampling/importance_sampling_ratio/min": 0.5617751479148865,
+      "sampling/sampling_logp_difference/max": 0.347994327545166,
+      "sampling/sampling_logp_difference/mean": 0.02045644447207451,
+      "step": 203,
+      "step_time": 71.5089026770147
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.0,
+      "completions/max_terminated_length": 65.0,
+      "completions/mean_length": 43.25,
+      "completions/mean_terminated_length": 43.25,
+      "completions/min_length": 28.0,
+      "completions/min_terminated_length": 28.0,
+      "entropy": 0.3702104687690735,
+      "epoch": 0.408,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3650530576705933,
+      "kl": 0.030135968700051308,
+      "learning_rate": 4.617733089121127e-06,
+      "loss": 0.2188,
+      "num_tokens": 1139666.0,
+      "reward": 0.07249999791383743,
+      "reward_std": 0.29401281476020813,
+      "rewards/reward_func/mean": 0.07249999791383743,
+      "rewards/reward_func/std": 0.37803059816360474,
+      "sampling/importance_sampling_ratio/max": 1.2655539512634277,
+      "sampling/importance_sampling_ratio/mean": 0.7001688480377197,
+      "sampling/importance_sampling_ratio/min": 0.36836326122283936,
+      "sampling/sampling_logp_difference/max": 0.5306470394134521,
+      "sampling/sampling_logp_difference/mean": 0.030222740024328232,
+      "step": 204,
+      "step_time": 76.82139863798511
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 63.0,
+      "completions/max_terminated_length": 63.0,
+      "completions/mean_length": 48.25,
+      "completions/mean_terminated_length": 48.25,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.3269600570201874,
+      "epoch": 0.41,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2307133674621582,
+      "kl": 0.010514447465538979,
+      "learning_rate": 4.613418944462907e-06,
+      "loss": 0.0782,
+      "num_tokens": 1145168.0,
+      "reward": 0.33249998092651367,
+      "reward_std": 0.5493869781494141,
+      "rewards/reward_func/mean": 0.33249998092651367,
+      "rewards/reward_func/std": 0.5238797664642334,
+      "sampling/importance_sampling_ratio/max": 1.906840443611145,
+      "sampling/importance_sampling_ratio/mean": 1.0142680406570435,
+      "sampling/importance_sampling_ratio/min": 0.42224809527397156,
+      "sampling/sampling_logp_difference/max": 0.7108626365661621,
+      "sampling/sampling_logp_difference/mean": 0.02854611724615097,
+      "step": 205,
+      "step_time": 78.07254538699635
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 59.0,
+      "completions/max_terminated_length": 59.0,
+      "completions/mean_length": 48.875,
+      "completions/mean_terminated_length": 48.875,
+      "completions/min_length": 41.0,
+      "completions/min_terminated_length": 41.0,
+      "entropy": 0.39792150259017944,
+      "epoch": 0.412,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3023905754089355,
+      "kl": 0.02957381308078766,
+      "learning_rate": 4.609082631040012e-06,
+      "loss": -0.0722,
+      "num_tokens": 1150370.0,
+      "reward": 0.3500000238418579,
+      "reward_std": 0.5520753264427185,
+      "rewards/reward_func/mean": 0.3500000238418579,
+      "rewards/reward_func/std": 0.5316282510757446,
+      "sampling/importance_sampling_ratio/max": 1.5235435962677002,
+      "sampling/importance_sampling_ratio/mean": 0.9376378655433655,
+      "sampling/importance_sampling_ratio/min": 0.33686015009880066,
+      "sampling/sampling_logp_difference/max": 0.342923641204834,
+      "sampling/sampling_logp_difference/mean": 0.027645057067275047,
+      "step": 206,
+      "step_time": 63.247660350985825
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 74.0,
+      "completions/max_terminated_length": 74.0,
+      "completions/mean_length": 53.0,
+      "completions/mean_terminated_length": 53.0,
+      "completions/min_length": 40.0,
+      "completions/min_terminated_length": 40.0,
+      "entropy": 0.35857129096984863,
+      "epoch": 0.414,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0902588367462158,
+      "kl": 0.009508270770311356,
+      "learning_rate": 4.604724194338318e-06,
+      "loss": 0.0542,
+      "num_tokens": 1155624.0,
+      "reward": 0.48500001430511475,
+      "reward_std": 0.5167855620384216,
+      "rewards/reward_func/mean": 0.48500001430511475,
+      "rewards/reward_func/std": 0.5455272793769836,
+      "sampling/importance_sampling_ratio/max": 2.0466551780700684,
+      "sampling/importance_sampling_ratio/mean": 1.1512298583984375,
+      "sampling/importance_sampling_ratio/min": 0.4752918779850006,
+      "sampling/sampling_logp_difference/max": 0.3554987907409668,
+      "sampling/sampling_logp_difference/mean": 0.02029740810394287,
+      "step": 207,
+      "step_time": 50.03297023801133
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 81.0,
+      "completions/max_terminated_length": 81.0,
+      "completions/mean_length": 51.625,
+      "completions/mean_terminated_length": 51.625,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.3821730315685272,
+      "epoch": 0.416,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3871904611587524,
+      "kl": 0.01627778261899948,
+      "learning_rate": 4.600343680075764e-06,
+      "loss": -0.1631,
+      "num_tokens": 1161217.0,
+      "reward": 0.5975000262260437,
+      "reward_std": 0.5603698492050171,
+      "rewards/reward_func/mean": 0.5975000262260437,
+      "rewards/reward_func/std": 0.5395169854164124,
+      "sampling/importance_sampling_ratio/max": 2.740676164627075,
+      "sampling/importance_sampling_ratio/mean": 1.3194831609725952,
+      "sampling/importance_sampling_ratio/min": 0.6237443685531616,
+      "sampling/sampling_logp_difference/max": 0.33385396003723145,
+      "sampling/sampling_logp_difference/mean": 0.023148780688643456,
+      "step": 208,
+      "step_time": 48.81324854400009
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 63.0,
+      "completions/max_terminated_length": 63.0,
+      "completions/mean_length": 47.75,
+      "completions/mean_terminated_length": 47.75,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.4071102738380432,
+      "epoch": 0.418,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3003276586532593,
+      "kl": 0.015321669168770313,
+      "learning_rate": 4.5959411342018715e-06,
+      "loss": 0.0384,
+      "num_tokens": 1166266.0,
+      "reward": 0.21250000596046448,
+      "reward_std": 0.31011754274368286,
+      "rewards/reward_func/mean": 0.21250000596046448,
+      "rewards/reward_func/std": 0.48414137959480286,
+      "sampling/importance_sampling_ratio/max": 1.357431173324585,
+      "sampling/importance_sampling_ratio/mean": 0.9291549921035767,
+      "sampling/importance_sampling_ratio/min": 0.40400320291519165,
+      "sampling/sampling_logp_difference/max": 0.3345675468444824,
+      "sampling/sampling_logp_difference/mean": 0.02914167195558548,
+      "step": 209,
+      "step_time": 58.75232109500212
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 59.0,
+      "completions/max_terminated_length": 59.0,
+      "completions/mean_length": 44.375,
+      "completions/mean_terminated_length": 44.375,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.3340144157409668,
+      "epoch": 0.42,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2524479627609253,
+      "kl": 0.009892448782920837,
+      "learning_rate": 4.591516602897263e-06,
+      "loss": 0.0476,
+      "num_tokens": 1171977.0,
+      "reward": 0.20249998569488525,
+      "reward_std": 0.5303123593330383,
+      "rewards/reward_func/mean": 0.20249998569488525,
+      "rewards/reward_func/std": 0.491288423538208,
+      "sampling/importance_sampling_ratio/max": 1.9688581228256226,
+      "sampling/importance_sampling_ratio/mean": 0.9722031354904175,
+      "sampling/importance_sampling_ratio/min": 0.4560692310333252,
+      "sampling/sampling_logp_difference/max": 0.47432082891464233,
+      "sampling/sampling_logp_difference/mean": 0.024021849036216736,
+      "step": 210,
+      "step_time": 66.03959386100178
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 70.0,
+      "completions/max_terminated_length": 70.0,
+      "completions/mean_length": 47.5,
+      "completions/mean_terminated_length": 47.5,
+      "completions/min_length": 32.0,
+      "completions/min_terminated_length": 32.0,
+      "entropy": 0.36171913146972656,
+      "epoch": 0.422,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9004639387130737,
+      "kl": 0.01368255726993084,
+      "learning_rate": 4.587070132573178e-06,
+      "loss": -0.099,
+      "num_tokens": 1178226.0,
+      "reward": 0.3137499988079071,
+      "reward_std": 0.5728945732116699,
+      "rewards/reward_func/mean": 0.3137499988079071,
+      "rewards/reward_func/std": 0.5473296046257019,
+      "sampling/importance_sampling_ratio/max": 1.6000454425811768,
+      "sampling/importance_sampling_ratio/mean": 0.8045486211776733,
+      "sampling/importance_sampling_ratio/min": 0.18612989783287048,
+      "sampling/sampling_logp_difference/max": 0.4911985397338867,
+      "sampling/sampling_logp_difference/mean": 0.02342919073998928,
+      "step": 211,
+      "step_time": 82.29735374101438
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 81.0,
+      "completions/max_terminated_length": 81.0,
+      "completions/mean_length": 55.625,
+      "completions/mean_terminated_length": 55.625,
+      "completions/min_length": 40.0,
+      "completions/min_terminated_length": 40.0,
+      "entropy": 0.3647511601448059,
+      "epoch": 0.424,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4303269386291504,
+      "kl": 0.014668257907032967,
+      "learning_rate": 4.582601769870988e-06,
+      "loss": -0.0589,
+      "num_tokens": 1183454.0,
+      "reward": 0.05624999478459358,
+      "reward_std": 0.28012219071388245,
+      "rewards/reward_func/mean": 0.05624999478459358,
+      "rewards/reward_func/std": 0.36660364270210266,
+      "sampling/importance_sampling_ratio/max": 1.5942217111587524,
+      "sampling/importance_sampling_ratio/mean": 1.0475343465805054,
+      "sampling/importance_sampling_ratio/min": 0.5613923072814941,
+      "sampling/sampling_logp_difference/max": 0.30344557762145996,
+      "sampling/sampling_logp_difference/mean": 0.02498428151011467,
+      "step": 212,
+      "step_time": 81.58139562400174
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 56.0,
+      "completions/max_terminated_length": 56.0,
+      "completions/mean_length": 47.375,
+      "completions/mean_terminated_length": 47.375,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.32731741666793823,
+      "epoch": 0.426,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.9570350646972656,
+      "kl": 0.01391584612429142,
+      "learning_rate": 4.578111561661702e-06,
+      "loss": -0.0079,
+      "num_tokens": 1188684.0,
+      "reward": 0.20625001192092896,
+      "reward_std": 0.31164175271987915,
+      "rewards/reward_func/mean": 0.20625001192092896,
+      "rewards/reward_func/std": 0.4845598340034485,
+      "sampling/importance_sampling_ratio/max": 2.221400022506714,
+      "sampling/importance_sampling_ratio/mean": 1.2576444149017334,
+      "sampling/importance_sampling_ratio/min": 0.4654132127761841,
+      "sampling/sampling_logp_difference/max": 0.3340733051300049,
+      "sampling/sampling_logp_difference/mean": 0.02158265747129917,
+      "step": 213,
+      "step_time": 62.86962395600858
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 59.0,
+      "completions/max_terminated_length": 59.0,
+      "completions/mean_length": 44.875,
+      "completions/mean_terminated_length": 44.875,
+      "completions/min_length": 31.0,
+      "completions/min_terminated_length": 31.0,
+      "entropy": 0.3720092177391052,
+      "epoch": 0.428,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.0819950103759766,
+      "kl": 0.028701618313789368,
+      "learning_rate": 4.57359955504548e-06,
+      "loss": -0.2403,
+      "num_tokens": 1194175.0,
+      "reward": 0.059999994933605194,
+      "reward_std": 0.2900388836860657,
+      "rewards/reward_func/mean": 0.059999994933605194,
+      "rewards/reward_func/std": 0.3795486092567444,
+      "sampling/importance_sampling_ratio/max": 1.9808765649795532,
+      "sampling/importance_sampling_ratio/mean": 0.9989551305770874,
+      "sampling/importance_sampling_ratio/min": 0.3208101689815521,
+      "sampling/sampling_logp_difference/max": 0.43723440170288086,
+      "sampling/sampling_logp_difference/mean": 0.02771320939064026,
+      "step": 214,
+      "step_time": 80.43211394100217
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 60.0,
+      "completions/max_terminated_length": 60.0,
+      "completions/mean_length": 44.125,
+      "completions/mean_terminated_length": 44.125,
+      "completions/min_length": 24.0,
+      "completions/min_terminated_length": 24.0,
+      "entropy": 0.3983091115951538,
+      "epoch": 0.43,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0234328508377075,
+      "kl": 0.017359508201479912,
+      "learning_rate": 4.569065797351135e-06,
+      "loss": 0.03,
+      "num_tokens": 1200200.0,
+      "reward": 0.07500000298023224,
+      "reward_std": 0.28411543369293213,
+      "rewards/reward_func/mean": 0.07500000298023224,
+      "rewards/reward_func/std": 0.3648875057697296,
+      "sampling/importance_sampling_ratio/max": 1.542760968208313,
+      "sampling/importance_sampling_ratio/mean": 0.9468032717704773,
+      "sampling/importance_sampling_ratio/min": 0.331230491399765,
+      "sampling/sampling_logp_difference/max": 0.34746503829956055,
+      "sampling/sampling_logp_difference/mean": 0.023643018677830696,
+      "step": 215,
+      "step_time": 68.54731415698188
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 63.0,
+      "completions/max_terminated_length": 63.0,
+      "completions/mean_length": 45.625,
+      "completions/mean_terminated_length": 45.625,
+      "completions/min_length": 31.0,
+      "completions/min_terminated_length": 31.0,
+      "entropy": 0.32628491520881653,
+      "epoch": 0.432,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.16749107837677,
+      "kl": 0.009836241602897644,
+      "learning_rate": 4.564510336135642e-06,
+      "loss": -0.1468,
+      "num_tokens": 1205836.0,
+      "reward": 0.3449999988079071,
+      "reward_std": 0.5644152164459229,
+      "rewards/reward_func/mean": 0.3449999988079071,
+      "rewards/reward_func/std": 0.5431390404701233,
+      "sampling/importance_sampling_ratio/max": 1.6908862590789795,
+      "sampling/importance_sampling_ratio/mean": 1.001993179321289,
+      "sampling/importance_sampling_ratio/min": 0.4759381413459778,
+      "sampling/sampling_logp_difference/max": 0.45307183265686035,
+      "sampling/sampling_logp_difference/mean": 0.023161139339208603,
+      "step": 216,
+      "step_time": 64.80334895499982
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 71.0,
+      "completions/max_terminated_length": 71.0,
+      "completions/mean_length": 47.75,
+      "completions/mean_terminated_length": 47.75,
+      "completions/min_length": 32.0,
+      "completions/min_terminated_length": 32.0,
+      "entropy": 0.40457984805107117,
+      "epoch": 0.434,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.506805181503296,
+      "kl": 0.02346435934305191,
+      "learning_rate": 4.559933219183631e-06,
+      "loss": 0.1214,
+      "num_tokens": 1211436.0,
+      "reward": 0.07000000774860382,
+      "reward_std": 0.28503167629241943,
+      "rewards/reward_func/mean": 0.07000000774860382,
+      "rewards/reward_func/std": 0.36613819003105164,
+      "sampling/importance_sampling_ratio/max": 2.0334134101867676,
+      "sampling/importance_sampling_ratio/mean": 1.1956446170806885,
+      "sampling/importance_sampling_ratio/min": 0.4909520149230957,
+      "sampling/sampling_logp_difference/max": 0.3521122932434082,
+      "sampling/sampling_logp_difference/mean": 0.023371540009975433,
+      "step": 217,
+      "step_time": 77.5817707440001
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 67.0,
+      "completions/max_terminated_length": 67.0,
+      "completions/mean_length": 46.75,
+      "completions/mean_terminated_length": 46.75,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.3373414874076843,
+      "epoch": 0.436,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.612067461013794,
+      "kl": 0.02040504291653633,
+      "learning_rate": 4.555334494506895e-06,
+      "loss": 0.0114,
+      "num_tokens": 1216591.0,
+      "reward": 0.3100000023841858,
+      "reward_std": 0.2696232199668884,
+      "rewards/reward_func/mean": 0.3100000023841858,
+      "rewards/reward_func/std": 0.525221049785614,
+      "sampling/importance_sampling_ratio/max": 2.0312304496765137,
+      "sampling/importance_sampling_ratio/mean": 1.0194265842437744,
+      "sampling/importance_sampling_ratio/min": 0.5188978910446167,
+      "sampling/sampling_logp_difference/max": 0.5666763782501221,
+      "sampling/sampling_logp_difference/mean": 0.023367371410131454,
+      "step": 218,
+      "step_time": 83.6308395829983
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 58.0,
+      "completions/max_terminated_length": 58.0,
+      "completions/mean_length": 45.125,
+      "completions/mean_terminated_length": 45.125,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.3169403672218323,
+      "epoch": 0.438,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9353013038635254,
+      "kl": 0.058528319001197815,
+      "learning_rate": 4.550714210343879e-06,
+      "loss": 0.0259,
+      "num_tokens": 1222212.0,
+      "reward": 0.45375001430511475,
+      "reward_std": 0.5997226238250732,
+      "rewards/reward_func/mean": 0.45375001430511475,
+      "rewards/reward_func/std": 0.5565438866615295,
+      "sampling/importance_sampling_ratio/max": 1.582319736480713,
+      "sampling/importance_sampling_ratio/mean": 0.8256447315216064,
+      "sampling/importance_sampling_ratio/min": 0.30875927209854126,
+      "sampling/sampling_logp_difference/max": 0.9188776016235352,
+      "sampling/sampling_logp_difference/mean": 0.023561663925647736,
+      "step": 219,
+      "step_time": 80.09332663999521
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 64.0,
+      "completions/max_terminated_length": 64.0,
+      "completions/mean_length": 44.625,
+      "completions/mean_terminated_length": 44.625,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.36092275381088257,
+      "epoch": 0.44,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.6617423892021179,
+      "kl": 0.00997140072286129,
+      "learning_rate": 4.546072415159179e-06,
+      "loss": 0.145,
+      "num_tokens": 1227779.0,
+      "reward": 0.32749998569488525,
+      "reward_std": 0.578244149684906,
+      "rewards/reward_func/mean": 0.32749998569488525,
+      "rewards/reward_func/std": 0.5523391962051392,
+      "sampling/importance_sampling_ratio/max": 1.2815821170806885,
+      "sampling/importance_sampling_ratio/mean": 0.6444365978240967,
+      "sampling/importance_sampling_ratio/min": 0.0,
+      "sampling/sampling_logp_difference/max": 1.1129623651504517,
+      "sampling/sampling_logp_difference/mean": 0.029664166271686554,
+      "step": 220,
+      "step_time": 67.70866433801712
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 67.0,
+      "completions/max_terminated_length": 67.0,
+      "completions/mean_length": 55.375,
+      "completions/mean_terminated_length": 55.375,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.38162463903427124,
+      "epoch": 0.442,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8828568458557129,
+      "kl": 0.009829282760620117,
+      "learning_rate": 4.541409157643027e-06,
+      "loss": -0.0023,
+      "num_tokens": 1232951.0,
+      "reward": 0.20249998569488525,
+      "reward_std": 0.3496881127357483,
+      "rewards/reward_func/mean": 0.20249998569488525,
+      "rewards/reward_func/std": 0.48948225378990173,
+      "sampling/importance_sampling_ratio/max": 1.5951018333435059,
+      "sampling/importance_sampling_ratio/mean": 1.0153491497039795,
+      "sampling/importance_sampling_ratio/min": 0.5687949657440186,
+      "sampling/sampling_logp_difference/max": 0.5899345278739929,
+      "sampling/sampling_logp_difference/mean": 0.025079842656850815,
+      "step": 221,
+      "step_time": 59.01676659900113
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 77.0,
+      "completions/max_terminated_length": 77.0,
+      "completions/mean_length": 49.0,
+      "completions/mean_terminated_length": 49.0,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.34739094972610474,
+      "epoch": 0.444,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8717793226242065,
+      "kl": 0.013192622922360897,
+      "learning_rate": 4.5367244867107905e-06,
+      "loss": 0.1667,
+      "num_tokens": 1238183.0,
+      "reward": 0.0612499974668026,
+      "reward_std": 0.28369978070259094,
+      "rewards/reward_func/mean": 0.0612499974668026,
+      "rewards/reward_func/std": 0.37635233998298645,
+      "sampling/importance_sampling_ratio/max": 1.736910343170166,
+      "sampling/importance_sampling_ratio/mean": 0.845312237739563,
+      "sampling/importance_sampling_ratio/min": 0.32411935925483704,
+      "sampling/sampling_logp_difference/max": 0.4334859848022461,
+      "sampling/sampling_logp_difference/mean": 0.02428375370800495,
+      "step": 222,
+      "step_time": 75.28331548400456
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 71.0,
+      "completions/max_terminated_length": 71.0,
+      "completions/mean_length": 49.125,
+      "completions/mean_terminated_length": 49.125,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.3791123628616333,
+      "epoch": 0.446,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.7146968841552734,
+      "kl": 0.009486062452197075,
+      "learning_rate": 4.53201845150245e-06,
+      "loss": -0.0391,
+      "num_tokens": 1244209.0,
+      "reward": 0.1850000023841858,
+      "reward_std": 0.4920302927494049,
+      "rewards/reward_func/mean": 0.1850000023841858,
+      "rewards/reward_func/std": 0.45610150694847107,
+      "sampling/importance_sampling_ratio/max": 1.846500039100647,
+      "sampling/importance_sampling_ratio/mean": 1.1525156497955322,
+      "sampling/importance_sampling_ratio/min": 0.5845286250114441,
+      "sampling/sampling_logp_difference/max": 0.3337571620941162,
+      "sampling/sampling_logp_difference/mean": 0.023619763553142548,
+      "step": 223,
+      "step_time": 73.09225799201522
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 74.0,
+      "completions/max_terminated_length": 74.0,
+      "completions/mean_length": 50.5,
+      "completions/mean_terminated_length": 50.5,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.3343263268470764,
+      "epoch": 0.448,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0479278564453125,
+      "kl": 0.015914462506771088,
+      "learning_rate": 4.527291101382088e-06,
+      "loss": -0.0026,
+      "num_tokens": 1249545.0,
+      "reward": 0.45125001668930054,
+      "reward_std": 0.6346049904823303,
+      "rewards/reward_func/mean": 0.45125001668930054,
+      "rewards/reward_func/std": 0.5894412994384766,
+      "sampling/importance_sampling_ratio/max": 1.4512196779251099,
+      "sampling/importance_sampling_ratio/mean": 0.9548776149749756,
+      "sampling/importance_sampling_ratio/min": 0.34800758957862854,
+      "sampling/sampling_logp_difference/max": 0.516020655632019,
+      "sampling/sampling_logp_difference/mean": 0.019098889082670212,
+      "step": 224,
+      "step_time": 61.251870251988294
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 67.0,
+      "completions/max_terminated_length": 67.0,
+      "completions/mean_length": 52.75,
+      "completions/mean_terminated_length": 52.75,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.35256800055503845,
+      "epoch": 0.45,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4217804670333862,
+      "kl": 0.021977337077260017,
+      "learning_rate": 4.522542485937369e-06,
+      "loss": 0.4031,
+      "num_tokens": 1255140.0,
+      "reward": -0.06624999642372131,
+      "reward_std": 0.04499492794275284,
+      "rewards/reward_func/mean": -0.06624999642372131,
+      "rewards/reward_func/std": 0.07818248122930527,
+      "sampling/importance_sampling_ratio/max": 1.9071402549743652,
+      "sampling/importance_sampling_ratio/mean": 0.9328581094741821,
+      "sampling/importance_sampling_ratio/min": 0.30502116680145264,
+      "sampling/sampling_logp_difference/max": 0.640667200088501,
+      "sampling/sampling_logp_difference/mean": 0.02563471347093582,
+      "step": 225,
+      "step_time": 75.17881314299302
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 74.0,
+      "completions/max_terminated_length": 74.0,
+      "completions/mean_length": 48.5,
+      "completions/mean_terminated_length": 48.5,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.35993432998657227,
+      "epoch": 0.452,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.419751524925232,
+      "kl": 0.011443949304521084,
+      "learning_rate": 4.517772654979024e-06,
+      "loss": -0.1155,
+      "num_tokens": 1261099.0,
+      "reward": 0.32375001907348633,
+      "reward_std": 0.5461503267288208,
+      "rewards/reward_func/mean": 0.32375001907348633,
+      "rewards/reward_func/std": 0.5280405282974243,
+      "sampling/importance_sampling_ratio/max": 1.3371970653533936,
+      "sampling/importance_sampling_ratio/mean": 0.980187714099884,
+      "sampling/importance_sampling_ratio/min": 0.6122799515724182,
+      "sampling/sampling_logp_difference/max": 0.3190453052520752,
+      "sampling/sampling_logp_difference/mean": 0.0227971188724041,
+      "step": 226,
+      "step_time": 74.47182274601073
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.0,
+      "completions/max_terminated_length": 65.0,
+      "completions/mean_length": 47.5,
+      "completions/mean_terminated_length": 47.5,
+      "completions/min_length": 27.0,
+      "completions/min_terminated_length": 27.0,
+      "entropy": 0.38980555534362793,
+      "epoch": 0.454,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.9645390510559082,
+      "kl": 0.03210742026567459,
+      "learning_rate": 4.512981658540321e-06,
+      "loss": -0.2877,
+      "num_tokens": 1266504.0,
+      "reward": 0.32624998688697815,
+      "reward_std": 0.5668675899505615,
+      "rewards/reward_func/mean": 0.32624998688697815,
+      "rewards/reward_func/std": 0.5424794554710388,
+      "sampling/importance_sampling_ratio/max": 1.9740383625030518,
+      "sampling/importance_sampling_ratio/mean": 0.9537367224693298,
+      "sampling/importance_sampling_ratio/min": 0.35949572920799255,
+      "sampling/sampling_logp_difference/max": 0.7103188037872314,
+      "sampling/sampling_logp_difference/mean": 0.03307211026549339,
+      "step": 227,
+      "step_time": 57.815353090001736
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 55.0,
+      "completions/max_terminated_length": 55.0,
+      "completions/mean_length": 41.625,
+      "completions/mean_terminated_length": 41.625,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.2987158000469208,
+      "epoch": 0.456,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.449369192123413,
+      "kl": 0.01764463633298874,
+      "learning_rate": 4.508169546876547e-06,
+      "loss": 0.1858,
+      "num_tokens": 1272180.0,
+      "reward": 0.19750000536441803,
+      "reward_std": 0.30442947149276733,
+      "rewards/reward_func/mean": 0.19750000536441803,
+      "rewards/reward_func/std": 0.4862612783908844,
+      "sampling/importance_sampling_ratio/max": 1.3735835552215576,
+      "sampling/importance_sampling_ratio/mean": 0.7681852579116821,
+      "sampling/importance_sampling_ratio/min": 0.3591448962688446,
+      "sampling/sampling_logp_difference/max": 0.4523334801197052,
+      "sampling/sampling_logp_difference/mean": 0.02623111382126808,
+      "step": 228,
+      "step_time": 62.75833543899353
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 52.0,
+      "completions/max_terminated_length": 52.0,
+      "completions/mean_length": 42.25,
+      "completions/mean_terminated_length": 42.25,
+      "completions/min_length": 32.0,
+      "completions/min_terminated_length": 32.0,
+      "entropy": 0.3362084925174713,
+      "epoch": 0.458,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.9343422651290894,
+      "kl": 0.01823657564818859,
+      "learning_rate": 4.503336370464476e-06,
+      "loss": -0.2018,
+      "num_tokens": 1277910.0,
+      "reward": 0.09624999761581421,
+      "reward_std": 0.27238762378692627,
+      "rewards/reward_func/mean": 0.09624999761581421,
+      "rewards/reward_func/std": 0.3667204976081848,
+      "sampling/importance_sampling_ratio/max": 2.1912035942077637,
+      "sampling/importance_sampling_ratio/mean": 1.1063485145568848,
+      "sampling/importance_sampling_ratio/min": 0.4857397675514221,
+      "sampling/sampling_logp_difference/max": 0.8033664226531982,
+      "sampling/sampling_logp_difference/mean": 0.022801101207733154,
+      "step": 229,
+      "step_time": 79.13566814499791
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 56.0,
+      "completions/max_terminated_length": 56.0,
+      "completions/mean_length": 47.25,
+      "completions/mean_terminated_length": 47.25,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.37015005946159363,
+      "epoch": 0.46,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.9363261461257935,
+      "kl": 0.019413193687796593,
+      "learning_rate": 4.49848218000184e-06,
+      "loss": -0.2319,
+      "num_tokens": 1284156.0,
+      "reward": 0.19249999523162842,
+      "reward_std": 0.33216795325279236,
+      "rewards/reward_func/mean": 0.19249999523162842,
+      "rewards/reward_func/std": 0.4885766804218292,
+      "sampling/importance_sampling_ratio/max": 2.352567195892334,
+      "sampling/importance_sampling_ratio/mean": 1.2104213237762451,
+      "sampling/importance_sampling_ratio/min": 0.4038701057434082,
+      "sampling/sampling_logp_difference/max": 0.38236117362976074,
+      "sampling/sampling_logp_difference/mean": 0.028649557381868362,
+      "step": 230,
+      "step_time": 72.49902504199417
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 67.0,
+      "completions/max_terminated_length": 67.0,
+      "completions/mean_length": 52.0,
+      "completions/mean_terminated_length": 52.0,
+      "completions/min_length": 40.0,
+      "completions/min_terminated_length": 40.0,
+      "entropy": 0.3422005772590637,
+      "epoch": 0.462,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.6006170511245728,
+      "kl": 0.025375576689839363,
+      "learning_rate": 4.493607026406802e-06,
+      "loss": 0.1486,
+      "num_tokens": 1289211.0,
+      "reward": 0.5887500047683716,
+      "reward_std": 0.5644031763076782,
+      "rewards/reward_func/mean": 0.5887500047683716,
+      "rewards/reward_func/std": 0.538023829460144,
+      "sampling/importance_sampling_ratio/max": 1.8998997211456299,
+      "sampling/importance_sampling_ratio/mean": 0.896106481552124,
+      "sampling/importance_sampling_ratio/min": 0.4045734107494354,
+      "sampling/sampling_logp_difference/max": 0.6570481061935425,
+      "sampling/sampling_logp_difference/mean": 0.02584882825613022,
+      "step": 231,
+      "step_time": 43.68991583000752
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.0,
+      "completions/max_terminated_length": 65.0,
+      "completions/mean_length": 46.125,
+      "completions/mean_terminated_length": 46.125,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.3895803689956665,
+      "epoch": 0.464,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.428395390510559,
+      "kl": 0.036273203790187836,
+      "learning_rate": 4.488710960817416e-06,
+      "loss": -0.0911,
+      "num_tokens": 1294840.0,
+      "reward": 0.3199999928474426,
+      "reward_std": 0.2673959732055664,
+      "rewards/reward_func/mean": 0.3199999928474426,
+      "rewards/reward_func/std": 0.515225350856781,
+      "sampling/importance_sampling_ratio/max": 2.268913984298706,
+      "sampling/importance_sampling_ratio/mean": 1.0703096389770508,
+      "sampling/importance_sampling_ratio/min": 0.59864342212677,
+      "sampling/sampling_logp_difference/max": 0.3564453125,
+      "sampling/sampling_logp_difference/mean": 0.026173098012804985,
+      "step": 232,
+      "step_time": 55.16194109900971
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 55.0,
+      "completions/max_terminated_length": 55.0,
+      "completions/mean_length": 42.375,
+      "completions/mean_terminated_length": 42.375,
+      "completions/min_length": 28.0,
+      "completions/min_terminated_length": 28.0,
+      "entropy": 0.3868124783039093,
+      "epoch": 0.466,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3841030597686768,
+      "kl": 0.05138152837753296,
+      "learning_rate": 4.483794034591092e-06,
+      "loss": -0.0381,
+      "num_tokens": 1299943.0,
+      "reward": 0.20875000953674316,
+      "reward_std": 0.3170267939567566,
+      "rewards/reward_func/mean": 0.20875000953674316,
+      "rewards/reward_func/std": 0.47408372163772583,
+      "sampling/importance_sampling_ratio/max": 1.1332757472991943,
+      "sampling/importance_sampling_ratio/mean": 0.8772479891777039,
+      "sampling/importance_sampling_ratio/min": 0.6085068583488464,
+      "sampling/sampling_logp_difference/max": 0.6103432178497314,
+      "sampling/sampling_logp_difference/mean": 0.03235594183206558,
+      "step": 233,
+      "step_time": 57.82354362300248
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 59.0,
+      "completions/max_terminated_length": 59.0,
+      "completions/mean_length": 50.125,
+      "completions/mean_terminated_length": 50.125,
+      "completions/min_length": 42.0,
+      "completions/min_terminated_length": 42.0,
+      "entropy": 0.3302072584629059,
+      "epoch": 0.468,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9921053051948547,
+      "kl": 0.01756385527551174,
+      "learning_rate": 4.4788562993040615e-06,
+      "loss": -0.009,
+      "num_tokens": 1305391.0,
+      "reward": 0.32124999165534973,
+      "reward_std": 0.570686936378479,
+      "rewards/reward_func/mean": 0.32124999165534973,
+      "rewards/reward_func/std": 0.5467158555984497,
+      "sampling/importance_sampling_ratio/max": 1.3551892042160034,
+      "sampling/importance_sampling_ratio/mean": 0.8291321992874146,
+      "sampling/importance_sampling_ratio/min": 0.32071855664253235,
+      "sampling/sampling_logp_difference/max": 0.42920511960983276,
+      "sampling/sampling_logp_difference/mean": 0.021804213523864746,
+      "step": 234,
+      "step_time": 75.09231540199835
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 50.0,
+      "completions/max_terminated_length": 50.0,
+      "completions/mean_length": 41.125,
+      "completions/mean_terminated_length": 41.125,
+      "completions/min_length": 26.0,
+      "completions/min_terminated_length": 26.0,
+      "entropy": 0.38166582584381104,
+      "epoch": 0.47,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.6319152116775513,
+      "kl": 0.03030114620923996,
+      "learning_rate": 4.473897806750829e-06,
+      "loss": -0.0721,
+      "num_tokens": 1311091.0,
+      "reward": 0.05250000208616257,
+      "reward_std": 0.29743990302085876,
+      "rewards/reward_func/mean": 0.05250000208616257,
+      "rewards/reward_func/std": 0.3858848810195923,
+      "sampling/importance_sampling_ratio/max": 1.8289971351623535,
+      "sampling/importance_sampling_ratio/mean": 0.8988316059112549,
+      "sampling/importance_sampling_ratio/min": 0.0,
+      "sampling/sampling_logp_difference/max": 0.950005054473877,
+      "sampling/sampling_logp_difference/mean": 0.03348758816719055,
+      "step": 235,
+      "step_time": 76.2468694190029
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 55.0,
+      "completions/max_terminated_length": 55.0,
+      "completions/mean_length": 43.625,
+      "completions/mean_terminated_length": 43.625,
+      "completions/min_length": 32.0,
+      "completions/min_terminated_length": 32.0,
+      "entropy": 0.35070234537124634,
+      "epoch": 0.472,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1173913478851318,
+      "kl": 0.03465205430984497,
+      "learning_rate": 4.4689186089436365e-06,
+      "loss": -0.0474,
+      "num_tokens": 1316336.0,
+      "reward": 0.2150000035762787,
+      "reward_std": 0.3214074671268463,
+      "rewards/reward_func/mean": 0.2150000035762787,
+      "rewards/reward_func/std": 0.485386461019516,
+      "sampling/importance_sampling_ratio/max": 1.4250974655151367,
+      "sampling/importance_sampling_ratio/mean": 0.7525547742843628,
+      "sampling/importance_sampling_ratio/min": 0.2883736193180084,
+      "sampling/sampling_logp_difference/max": 0.680816650390625,
+      "sampling/sampling_logp_difference/mean": 0.024951238185167313,
+      "step": 236,
+      "step_time": 45.73709376499755
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 54.0,
+      "completions/max_terminated_length": 54.0,
+      "completions/mean_length": 43.5,
+      "completions/mean_terminated_length": 43.5,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.34809672832489014,
+      "epoch": 0.474,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1273499727249146,
+      "kl": 0.026207346469163895,
+      "learning_rate": 4.463918758111912e-06,
+      "loss": 0.1471,
+      "num_tokens": 1322121.0,
+      "reward": -0.03500000014901161,
+      "reward_std": 0.028673537075519562,
+      "rewards/reward_func/mean": -0.03500000014901161,
+      "rewards/reward_func/std": 0.03999999910593033,
+      "sampling/importance_sampling_ratio/max": 1.5887080430984497,
+      "sampling/importance_sampling_ratio/mean": 0.9801490306854248,
+      "sampling/importance_sampling_ratio/min": 0.5287134647369385,
+      "sampling/sampling_logp_difference/max": 0.49480628967285156,
+      "sampling/sampling_logp_difference/mean": 0.025246813893318176,
+      "step": 237,
+      "step_time": 90.44008958002087
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 56.0,
+      "completions/max_terminated_length": 56.0,
+      "completions/mean_length": 43.625,
+      "completions/mean_terminated_length": 43.625,
+      "completions/min_length": 28.0,
+      "completions/min_terminated_length": 28.0,
+      "entropy": 0.3520908057689667,
+      "epoch": 0.476,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0922024250030518,
+      "kl": 0.031959474086761475,
+      "learning_rate": 4.4588983067017255e-06,
+      "loss": 0.1783,
+      "num_tokens": 1328212.0,
+      "reward": 0.2212499976158142,
+      "reward_std": 0.5126502513885498,
+      "rewards/reward_func/mean": 0.2212499976158142,
+      "rewards/reward_func/std": 0.4746558964252472,
+      "sampling/importance_sampling_ratio/max": 1.6246837377548218,
+      "sampling/importance_sampling_ratio/mean": 0.8979704976081848,
+      "sampling/importance_sampling_ratio/min": 0.3638645112514496,
+      "sampling/sampling_logp_difference/max": 0.4873514175415039,
+      "sampling/sampling_logp_difference/mean": 0.028458524495363235,
+      "step": 238,
+      "step_time": 71.68060715598403
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 60.0,
+      "completions/max_terminated_length": 60.0,
+      "completions/mean_length": 47.0,
+      "completions/mean_terminated_length": 47.0,
+      "completions/min_length": 40.0,
+      "completions/min_terminated_length": 40.0,
+      "entropy": 0.3871595859527588,
+      "epoch": 0.478,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2288389205932617,
+      "kl": 0.01771704852581024,
+      "learning_rate": 4.4538573073752365e-06,
+      "loss": 0.0403,
+      "num_tokens": 1333316.0,
+      "reward": 0.054999999701976776,
+      "reward_std": 0.29602476954460144,
+      "rewards/reward_func/mean": 0.054999999701976776,
+      "rewards/reward_func/std": 0.36570870876312256,
+      "sampling/importance_sampling_ratio/max": 1.5434668064117432,
+      "sampling/importance_sampling_ratio/mean": 0.9942148923873901,
+      "sampling/importance_sampling_ratio/min": 0.48395439982414246,
+      "sampling/sampling_logp_difference/max": 0.6915938854217529,
+      "sampling/sampling_logp_difference/mean": 0.035692013800144196,
+      "step": 239,
+      "step_time": 70.68868763197679
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 70.0,
+      "completions/max_terminated_length": 70.0,
+      "completions/mean_length": 47.875,
+      "completions/mean_terminated_length": 47.875,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.31809288263320923,
+      "epoch": 0.48,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0677132606506348,
+      "kl": 0.011697100475430489,
+      "learning_rate": 4.448795813010142e-06,
+      "loss": -0.1253,
+      "num_tokens": 1338733.0,
+      "reward": 0.36125001311302185,
+      "reward_std": 0.5394142866134644,
+      "rewards/reward_func/mean": 0.36125001311302185,
+      "rewards/reward_func/std": 0.5180302262306213,
+      "sampling/importance_sampling_ratio/max": 1.8030056953430176,
+      "sampling/importance_sampling_ratio/mean": 1.1689889430999756,
+      "sampling/importance_sampling_ratio/min": 0.7900420427322388,
+      "sampling/sampling_logp_difference/max": 0.3128845691680908,
+      "sampling/sampling_logp_difference/mean": 0.021864818409085274,
+      "step": 240,
+      "step_time": 66.84894346201327
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 60.0,
+      "completions/max_terminated_length": 60.0,
+      "completions/mean_length": 47.75,
+      "completions/mean_terminated_length": 47.75,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.29514139890670776,
+      "epoch": 0.482,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0881181955337524,
+      "kl": 0.02634306624531746,
+      "learning_rate": 4.443713876699124e-06,
+      "loss": -0.0806,
+      "num_tokens": 1344418.0,
+      "reward": 0.07999999821186066,
+      "reward_std": 0.25690117478370667,
+      "rewards/reward_func/mean": 0.07999999821186066,
+      "rewards/reward_func/std": 0.33342379331588745,
+      "sampling/importance_sampling_ratio/max": 1.363787055015564,
+      "sampling/importance_sampling_ratio/mean": 0.8313639163970947,
+      "sampling/importance_sampling_ratio/min": 0.3071029484272003,
+      "sampling/sampling_logp_difference/max": 0.6727430820465088,
+      "sampling/sampling_logp_difference/mean": 0.02636832371354103,
+      "step": 241,
+      "step_time": 81.16167590999976
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 59.0,
+      "completions/max_terminated_length": 59.0,
+      "completions/mean_length": 45.5,
+      "completions/mean_terminated_length": 45.5,
+      "completions/min_length": 31.0,
+      "completions/min_terminated_length": 31.0,
+      "entropy": 0.36427628993988037,
+      "epoch": 0.484,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.100838541984558,
+      "kl": 0.041223861277103424,
+      "learning_rate": 4.438611551749288e-06,
+      "loss": -0.2757,
+      "num_tokens": 1350588.0,
+      "reward": 0.5874999761581421,
+      "reward_std": 0.5468531847000122,
+      "rewards/reward_func/mean": 0.5874999761581421,
+      "rewards/reward_func/std": 0.5267623662948608,
+      "sampling/importance_sampling_ratio/max": 2.2273752689361572,
+      "sampling/importance_sampling_ratio/mean": 1.0134867429733276,
+      "sampling/importance_sampling_ratio/min": 0.3902888894081116,
+      "sampling/sampling_logp_difference/max": 0.5989378690719604,
+      "sampling/sampling_logp_difference/mean": 0.02611200511455536,
+      "step": 242,
+      "step_time": 67.87047297498793
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 56.0,
+      "completions/max_terminated_length": 56.0,
+      "completions/mean_length": 44.375,
+      "completions/mean_terminated_length": 44.375,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.35488879680633545,
+      "epoch": 0.486,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.331992268562317,
+      "kl": 0.044845033437013626,
+      "learning_rate": 4.4334888916816096e-06,
+      "loss": -0.0932,
+      "num_tokens": 1355918.0,
+      "reward": 0.20125000178813934,
+      "reward_std": 0.5272895097732544,
+      "rewards/reward_func/mean": 0.20125000178813934,
+      "rewards/reward_func/std": 0.4884212911128998,
+      "sampling/importance_sampling_ratio/max": 1.0778487920761108,
+      "sampling/importance_sampling_ratio/mean": 0.9069632887840271,
+      "sampling/importance_sampling_ratio/min": 0.3717224597930908,
+      "sampling/sampling_logp_difference/max": 0.729764461517334,
+      "sampling/sampling_logp_difference/mean": 0.026907198131084442,
+      "step": 243,
+      "step_time": 67.90137365201372
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 50.0,
+      "completions/max_terminated_length": 50.0,
+      "completions/mean_length": 44.125,
+      "completions/mean_terminated_length": 44.125,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.3981369733810425,
+      "epoch": 0.488,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1184395551681519,
+      "kl": 0.015510768629610538,
+      "learning_rate": 4.42834595023037e-06,
+      "loss": -0.0087,
+      "num_tokens": 1360516.0,
+      "reward": 0.5824999809265137,
+      "reward_std": 0.5755907893180847,
+      "rewards/reward_func/mean": 0.5824999809265137,
+      "rewards/reward_func/std": 0.5471158027648926,
+      "sampling/importance_sampling_ratio/max": 1.1929256916046143,
+      "sampling/importance_sampling_ratio/mean": 0.7005432844161987,
+      "sampling/importance_sampling_ratio/min": 0.47305941581726074,
+      "sampling/sampling_logp_difference/max": 0.354036808013916,
+      "sampling/sampling_logp_difference/mean": 0.024651892483234406,
+      "step": 244,
+      "step_time": 61.913708773994585
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 58.0,
+      "completions/max_terminated_length": 58.0,
+      "completions/mean_length": 48.0,
+      "completions/mean_terminated_length": 48.0,
+      "completions/min_length": 40.0,
+      "completions/min_terminated_length": 40.0,
+      "entropy": 0.31958675384521484,
+      "epoch": 0.49,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1137831211090088,
+      "kl": 0.024688197299838066,
+      "learning_rate": 4.423182781342589e-06,
+      "loss": -0.0889,
+      "num_tokens": 1365727.0,
+      "reward": 0.32625001668930054,
+      "reward_std": 0.5717824697494507,
+      "rewards/reward_func/mean": 0.32625001668930054,
+      "rewards/reward_func/std": 0.5434266328811646,
+      "sampling/importance_sampling_ratio/max": 1.4841914176940918,
+      "sampling/importance_sampling_ratio/mean": 0.8029133081436157,
+      "sampling/importance_sampling_ratio/min": 0.39716988801956177,
+      "sampling/sampling_logp_difference/max": 0.5414783358573914,
+      "sampling/sampling_logp_difference/mean": 0.02428363636136055,
+      "step": 245,
+      "step_time": 68.99983911900199
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 66.0,
+      "completions/max_terminated_length": 66.0,
+      "completions/mean_length": 46.125,
+      "completions/mean_terminated_length": 46.125,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.33968907594680786,
+      "epoch": 0.492,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2323132753372192,
+      "kl": 0.01886364072561264,
+      "learning_rate": 4.417999439177465e-06,
+      "loss": 0.2441,
+      "num_tokens": 1371605.0,
+      "reward": 0.08750000596046448,
+      "reward_std": 0.2773665487766266,
+      "rewards/reward_func/mean": 0.08750000596046448,
+      "rewards/reward_func/std": 0.36577707529067993,
+      "sampling/importance_sampling_ratio/max": 1.7966817617416382,
+      "sampling/importance_sampling_ratio/mean": 0.9920728802680969,
+      "sampling/importance_sampling_ratio/min": 0.46240681409835815,
+      "sampling/sampling_logp_difference/max": 0.3581950068473816,
+      "sampling/sampling_logp_difference/mean": 0.02110222354531288,
+      "step": 246,
+      "step_time": 86.06116112999734
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 57.0,
+      "completions/max_terminated_length": 57.0,
+      "completions/mean_length": 45.0,
+      "completions/mean_terminated_length": 45.0,
+      "completions/min_length": 27.0,
+      "completions/min_terminated_length": 27.0,
+      "entropy": 0.3882921040058136,
+      "epoch": 0.494,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0457669496536255,
+      "kl": 0.0466264933347702,
+      "learning_rate": 4.412795978105807e-06,
+      "loss": 0.0479,
+      "num_tokens": 1377108.0,
+      "reward": 0.08125000447034836,
+      "reward_std": 0.290319561958313,
+      "rewards/reward_func/mean": 0.08125000447034836,
+      "rewards/reward_func/std": 0.3741442859172821,
+      "sampling/importance_sampling_ratio/max": 1.3163291215896606,
+      "sampling/importance_sampling_ratio/mean": 0.8274441957473755,
+      "sampling/importance_sampling_ratio/min": 0.5468934178352356,
+      "sampling/sampling_logp_difference/max": 0.3266195058822632,
+      "sampling/sampling_logp_difference/mean": 0.023234577849507332,
+      "step": 247,
+      "step_time": 69.2718325239839
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 56.0,
+      "completions/max_terminated_length": 56.0,
+      "completions/mean_length": 48.0,
+      "completions/mean_terminated_length": 48.0,
+      "completions/min_length": 42.0,
+      "completions/min_terminated_length": 42.0,
+      "entropy": 0.3644499182701111,
+      "epoch": 0.496,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8662134408950806,
+      "kl": 0.028522610664367676,
+      "learning_rate": 4.407572452709459e-06,
+      "loss": -0.1758,
+      "num_tokens": 1382458.0,
+      "reward": 0.3387500047683716,
+      "reward_std": 0.2905788719654083,
+      "rewards/reward_func/mean": 0.3387500047683716,
+      "rewards/reward_func/std": 0.550206184387207,
+      "sampling/importance_sampling_ratio/max": 1.9892619848251343,
+      "sampling/importance_sampling_ratio/mean": 0.994696319103241,
+      "sampling/importance_sampling_ratio/min": 0.32547527551651,
+      "sampling/sampling_logp_difference/max": 0.5737671852111816,
+      "sampling/sampling_logp_difference/mean": 0.029661521315574646,
+      "step": 248,
+      "step_time": 55.92289188998984
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.0,
+      "completions/max_terminated_length": 61.0,
+      "completions/mean_length": 51.375,
+      "completions/mean_terminated_length": 51.375,
+      "completions/min_length": 43.0,
+      "completions/min_terminated_length": 43.0,
+      "entropy": 0.340048223733902,
+      "epoch": 0.498,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2371996641159058,
+      "kl": 0.014844512566924095,
+      "learning_rate": 4.402328917780728e-06,
+      "loss": 0.1829,
+      "num_tokens": 1387909.0,
+      "reward": 0.32249999046325684,
+      "reward_std": 0.5570697784423828,
+      "rewards/reward_func/mean": 0.32249999046325684,
+      "rewards/reward_func/std": 0.531970739364624,
+      "sampling/importance_sampling_ratio/max": 1.771705985069275,
+      "sampling/importance_sampling_ratio/mean": 1.064762830734253,
+      "sampling/importance_sampling_ratio/min": 0.49545010924339294,
+      "sampling/sampling_logp_difference/max": 0.531287670135498,
+      "sampling/sampling_logp_difference/mean": 0.022021599113941193,
+      "step": 249,
+      "step_time": 72.32509338197997
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 67.0,
+      "completions/max_terminated_length": 67.0,
+      "completions/mean_length": 53.125,
+      "completions/mean_terminated_length": 53.125,
+      "completions/min_length": 40.0,
+      "completions/min_terminated_length": 40.0,
+      "entropy": 0.3873959183692932,
+      "epoch": 0.5,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9252265691757202,
+      "kl": 0.01229300070554018,
+      "learning_rate": 4.397065428321818e-06,
+      "loss": 0.0921,
+      "num_tokens": 1393363.0,
+      "reward": 0.34375,
+      "reward_std": 0.5575473308563232,
+      "rewards/reward_func/mean": 0.34375,
+      "rewards/reward_func/std": 0.5310620069503784,
+      "sampling/importance_sampling_ratio/max": 1.7814934253692627,
+      "sampling/importance_sampling_ratio/mean": 1.0325000286102295,
+      "sampling/importance_sampling_ratio/min": 0.5736287832260132,
+      "sampling/sampling_logp_difference/max": 0.45818281173706055,
+      "sampling/sampling_logp_difference/mean": 0.026250842958688736,
+      "step": 250,
+      "step_time": 90.09270300000207
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 77.0,
+      "completions/max_terminated_length": 77.0,
+      "completions/mean_length": 54.75,
+      "completions/mean_terminated_length": 54.75,
+      "completions/min_length": 41.0,
+      "completions/min_terminated_length": 41.0,
+      "entropy": 0.3573990762233734,
+      "epoch": 0.502,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9304350018501282,
+      "kl": 0.01920994371175766,
+      "learning_rate": 4.391782039544239e-06,
+      "loss": 0.1493,
+      "num_tokens": 1399112.0,
+      "reward": 0.3375000059604645,
+      "reward_std": 0.5359517931938171,
+      "rewards/reward_func/mean": 0.3375000059604645,
+      "rewards/reward_func/std": 0.5219400525093079,
+      "sampling/importance_sampling_ratio/max": 1.4142625331878662,
+      "sampling/importance_sampling_ratio/mean": 0.8782503604888916,
+      "sampling/importance_sampling_ratio/min": 0.3311513364315033,
+      "sampling/sampling_logp_difference/max": 0.5579543113708496,
+      "sampling/sampling_logp_difference/mean": 0.024326374754309654,
+      "step": 251,
+      "step_time": 80.91022923600394
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 55.0,
+      "completions/max_terminated_length": 55.0,
+      "completions/mean_length": 47.25,
+      "completions/mean_terminated_length": 47.25,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.3160034418106079,
+      "epoch": 0.504,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.0592174530029297,
+      "kl": 0.01498313620686531,
+      "learning_rate": 4.386478806868242e-06,
+      "loss": 0.2131,
+      "num_tokens": 1404423.0,
+      "reward": 0.19875001907348633,
+      "reward_std": 0.3156750202178955,
+      "rewards/reward_func/mean": 0.19875001907348633,
+      "rewards/reward_func/std": 0.4896481931209564,
+      "sampling/importance_sampling_ratio/max": 2.2778773307800293,
+      "sampling/importance_sampling_ratio/mean": 1.1893842220306396,
+      "sampling/importance_sampling_ratio/min": 0.4248703420162201,
+      "sampling/sampling_logp_difference/max": 0.31923460960388184,
+      "sampling/sampling_logp_difference/mean": 0.021706879138946533,
+      "step": 252,
+      "step_time": 76.23892499000067
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 66.0,
+      "completions/max_terminated_length": 66.0,
+      "completions/mean_length": 49.75,
+      "completions/mean_terminated_length": 49.75,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.3231382369995117,
+      "epoch": 0.506,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1245347261428833,
+      "kl": 0.02181754633784294,
+      "learning_rate": 4.381155785922226e-06,
+      "loss": 0.1193,
+      "num_tokens": 1409836.0,
+      "reward": 0.30375000834465027,
+      "reward_std": 0.5851833820343018,
+      "rewards/reward_func/mean": 0.30375000834465027,
+      "rewards/reward_func/std": 0.56360924243927,
+      "sampling/importance_sampling_ratio/max": 2.5759124755859375,
+      "sampling/importance_sampling_ratio/mean": 1.0727500915527344,
+      "sampling/importance_sampling_ratio/min": 0.623710036277771,
+      "sampling/sampling_logp_difference/max": 0.6664900779724121,
+      "sampling/sampling_logp_difference/mean": 0.023033898323774338,
+      "step": 253,
+      "step_time": 63.543558523000684
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.0,
+      "completions/max_terminated_length": 61.0,
+      "completions/mean_length": 48.75,
+      "completions/mean_terminated_length": 48.75,
+      "completions/min_length": 40.0,
+      "completions/min_terminated_length": 40.0,
+      "entropy": 0.3466748595237732,
+      "epoch": 0.508,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.142482042312622,
+      "kl": 0.0223647840321064,
+      "learning_rate": 4.375813032542164e-06,
+      "loss": -0.0771,
+      "num_tokens": 1415411.0,
+      "reward": 0.21000000834465027,
+      "reward_std": 0.3328624665737152,
+      "rewards/reward_func/mean": 0.21000000834465027,
+      "rewards/reward_func/std": 0.48594531416893005,
+      "sampling/importance_sampling_ratio/max": 2.0455007553100586,
+      "sampling/importance_sampling_ratio/mean": 1.0768548250198364,
+      "sampling/importance_sampling_ratio/min": 0.49030447006225586,
+      "sampling/sampling_logp_difference/max": 0.5383121967315674,
+      "sampling/sampling_logp_difference/mean": 0.03029092587530613,
+      "step": 254,
+      "step_time": 89.68648639999446
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 56.0,
+      "completions/max_terminated_length": 56.0,
+      "completions/mean_length": 48.625,
+      "completions/mean_terminated_length": 48.625,
+      "completions/min_length": 40.0,
+      "completions/min_terminated_length": 40.0,
+      "entropy": 0.3746393322944641,
+      "epoch": 0.51,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.6275901794433594,
+      "kl": 0.032982099801301956,
+      "learning_rate": 4.37045060277101e-06,
+      "loss": -0.3207,
+      "num_tokens": 1420829.0,
+      "reward": 0.07375000417232513,
+      "reward_std": 0.2716521620750427,
+      "rewards/reward_func/mean": 0.07375000417232513,
+      "rewards/reward_func/std": 0.3556457757949829,
+      "sampling/importance_sampling_ratio/max": 2.175576686859131,
+      "sampling/importance_sampling_ratio/mean": 1.019911527633667,
+      "sampling/importance_sampling_ratio/min": 0.40404126048088074,
+      "sampling/sampling_logp_difference/max": 0.3250246047973633,
+      "sampling/sampling_logp_difference/mean": 0.024091674014925957,
+      "step": 255,
+      "step_time": 82.5458397520124
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.0,
+      "completions/max_terminated_length": 61.0,
+      "completions/mean_length": 43.75,
+      "completions/mean_terminated_length": 43.75,
+      "completions/min_length": 28.0,
+      "completions/min_terminated_length": 28.0,
+      "entropy": 0.3585067689418793,
+      "epoch": 0.512,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.829698383808136,
+      "kl": 0.021870668977499008,
+      "learning_rate": 4.365068552858116e-06,
+      "loss": 0.0817,
+      "num_tokens": 1426845.0,
+      "reward": 0.1887499988079071,
+      "reward_std": 0.5287714004516602,
+      "rewards/reward_func/mean": 0.1887499988079071,
+      "rewards/reward_func/std": 0.4895898401737213,
+      "sampling/importance_sampling_ratio/max": 1.7392264604568481,
+      "sampling/importance_sampling_ratio/mean": 0.691516637802124,
+      "sampling/importance_sampling_ratio/min": 0.22693133354187012,
+      "sampling/sampling_logp_difference/max": 0.8031024932861328,
+      "sampling/sampling_logp_difference/mean": 0.028423123061656952,
+      "step": 256,
+      "step_time": 77.55902498602518
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 57.0,
+      "completions/max_terminated_length": 57.0,
+      "completions/mean_length": 47.0,
+      "completions/mean_terminated_length": 47.0,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.3533346652984619,
+      "epoch": 0.514,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0792738199234009,
+      "kl": 0.01500007789582014,
+      "learning_rate": 4.359666939258637e-06,
+      "loss": -0.1518,
+      "num_tokens": 1432532.0,
+      "reward": 0.07000000774860382,
+      "reward_std": 0.2898591160774231,
+      "rewards/reward_func/mean": 0.07000000774860382,
+      "rewards/reward_func/std": 0.38045087456703186,
+      "sampling/importance_sampling_ratio/max": 1.7748743295669556,
+      "sampling/importance_sampling_ratio/mean": 1.000688910484314,
+      "sampling/importance_sampling_ratio/min": 0.3758687973022461,
+      "sampling/sampling_logp_difference/max": 0.6241648197174072,
+      "sampling/sampling_logp_difference/mean": 0.028312578797340393,
+      "step": 257,
+      "step_time": 73.71465296699898
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 72.0,
+      "completions/max_terminated_length": 72.0,
+      "completions/mean_length": 52.125,
+      "completions/mean_terminated_length": 52.125,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.36250796914100647,
+      "epoch": 0.516,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3215895891189575,
+      "kl": 0.020508520305156708,
+      "learning_rate": 4.354245818632944e-06,
+      "loss": -0.2258,
+      "num_tokens": 1438131.0,
+      "reward": -0.0949999988079071,
+      "reward_std": 0.0752500668168068,
+      "rewards/reward_func/mean": -0.0949999988079071,
+      "rewards/reward_func/std": 0.07559289783239365,
+      "sampling/importance_sampling_ratio/max": 2.191699743270874,
+      "sampling/importance_sampling_ratio/mean": 1.1482765674591064,
+      "sampling/importance_sampling_ratio/min": 0.5960127115249634,
+      "sampling/sampling_logp_difference/max": 0.35130882263183594,
+      "sampling/sampling_logp_difference/mean": 0.02419322356581688,
+      "step": 258,
+      "step_time": 78.94406015900313
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 56.0,
+      "completions/max_terminated_length": 56.0,
+      "completions/mean_length": 45.5,
+      "completions/mean_terminated_length": 45.5,
+      "completions/min_length": 31.0,
+      "completions/min_terminated_length": 31.0,
+      "entropy": 0.3972855806350708,
+      "epoch": 0.518,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4929661750793457,
+      "kl": 0.021859250962734222,
+      "learning_rate": 4.348805247846027e-06,
+      "loss": 0.1502,
+      "num_tokens": 1444118.0,
+      "reward": 0.2149999886751175,
+      "reward_std": 0.31619954109191895,
+      "rewards/reward_func/mean": 0.2149999886751175,
+      "rewards/reward_func/std": 0.4730146527290344,
+      "sampling/importance_sampling_ratio/max": 1.930320382118225,
+      "sampling/importance_sampling_ratio/mean": 1.0938146114349365,
+      "sampling/importance_sampling_ratio/min": 0.44256508350372314,
+      "sampling/sampling_logp_difference/max": 0.29829633235931396,
+      "sampling/sampling_logp_difference/mean": 0.027022160589694977,
+      "step": 259,
+      "step_time": 78.32750187598867
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 64.0,
+      "completions/max_terminated_length": 64.0,
+      "completions/mean_length": 52.375,
+      "completions/mean_terminated_length": 52.375,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.35829824209213257,
+      "epoch": 0.52,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.167080044746399,
+      "kl": 0.013501507230103016,
+      "learning_rate": 4.343345283966901e-06,
+      "loss": -0.1633,
+      "num_tokens": 1449057.0,
+      "reward": 0.4612500071525574,
+      "reward_std": 0.6074321269989014,
+      "rewards/reward_func/mean": 0.4612500071525574,
+      "rewards/reward_func/std": 0.5628102421760559,
+      "sampling/importance_sampling_ratio/max": 1.504439115524292,
+      "sampling/importance_sampling_ratio/mean": 1.075119972229004,
+      "sampling/importance_sampling_ratio/min": 0.27312949299812317,
+      "sampling/sampling_logp_difference/max": 0.33127808570861816,
+      "sampling/sampling_logp_difference/mean": 0.026082661002874374,
+      "step": 260,
+      "step_time": 60.16271702598897
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 51.0,
+      "completions/max_terminated_length": 51.0,
+      "completions/mean_length": 44.25,
+      "completions/mean_terminated_length": 44.25,
+      "completions/min_length": 31.0,
+      "completions/min_terminated_length": 31.0,
+      "entropy": 0.3394550681114197,
+      "epoch": 0.522,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2084001302719116,
+      "kl": 0.023300688713788986,
+      "learning_rate": 4.337865984268002e-06,
+      "loss": -0.0475,
+      "num_tokens": 1454514.0,
+      "reward": 0.21000000834465027,
+      "reward_std": 0.5280653238296509,
+      "rewards/reward_func/mean": 0.21000000834465027,
+      "rewards/reward_func/std": 0.48890548944473267,
+      "sampling/importance_sampling_ratio/max": 1.85581374168396,
+      "sampling/importance_sampling_ratio/mean": 1.034727692604065,
+      "sampling/importance_sampling_ratio/min": 0.5134819149971008,
+      "sampling/sampling_logp_difference/max": 0.6527895927429199,
+      "sampling/sampling_logp_difference/mean": 0.028075508773326874,
+      "step": 261,
+      "step_time": 65.41974141600076
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 77.0,
+      "completions/max_terminated_length": 77.0,
+      "completions/mean_length": 45.5,
+      "completions/mean_terminated_length": 45.5,
+      "completions/min_length": 26.0,
+      "completions/min_terminated_length": 26.0,
+      "entropy": 0.3510357737541199,
+      "epoch": 0.524,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.0556254386901855,
+      "kl": 0.016779771074652672,
+      "learning_rate": 4.33236740622459e-06,
+      "loss": -0.177,
+      "num_tokens": 1460819.0,
+      "reward": -0.06750000268220901,
+      "reward_std": 0.056236058473587036,
+      "rewards/reward_func/mean": -0.06750000268220901,
+      "rewards/reward_func/std": 0.05548487976193428,
+      "sampling/importance_sampling_ratio/max": 2.7717020511627197,
+      "sampling/importance_sampling_ratio/mean": 1.2683167457580566,
+      "sampling/importance_sampling_ratio/min": 0.6609295010566711,
+      "sampling/sampling_logp_difference/max": 0.4664306640625,
+      "sampling/sampling_logp_difference/mean": 0.024730544537305832,
+      "step": 262,
+      "step_time": 89.55936830199789
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 58.0,
+      "completions/max_terminated_length": 58.0,
+      "completions/mean_length": 49.25,
+      "completions/mean_terminated_length": 49.25,
+      "completions/min_length": 41.0,
+      "completions/min_terminated_length": 41.0,
+      "entropy": 0.3273940086364746,
+      "epoch": 0.526,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.300922155380249,
+      "kl": 0.0253826305270195,
+      "learning_rate": 4.326849607514149e-06,
+      "loss": -0.1908,
+      "num_tokens": 1466312.0,
+      "reward": 0.32750001549720764,
+      "reward_std": 0.5473343133926392,
+      "rewards/reward_func/mean": 0.32750001549720764,
+      "rewards/reward_func/std": 0.5286033153533936,
+      "sampling/importance_sampling_ratio/max": 1.702580213546753,
+      "sampling/importance_sampling_ratio/mean": 1.12638521194458,
+      "sampling/importance_sampling_ratio/min": 0.5338081121444702,
+      "sampling/sampling_logp_difference/max": 0.4523458480834961,
+      "sampling/sampling_logp_difference/mean": 0.024661045521497726,
+      "step": 263,
+      "step_time": 67.0695453399967
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.0,
+      "completions/max_terminated_length": 61.0,
+      "completions/mean_length": 50.25,
+      "completions/mean_terminated_length": 50.25,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.3104347586631775,
+      "epoch": 0.528,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8551791906356812,
+      "kl": 0.013168178498744965,
+      "learning_rate": 4.321312646015775e-06,
+      "loss": -0.0571,
+      "num_tokens": 1471010.0,
+      "reward": 0.3400000035762787,
+      "reward_std": 0.5720411539077759,
+      "rewards/reward_func/mean": 0.3400000035762787,
+      "rewards/reward_func/std": 0.5474616289138794,
+      "sampling/importance_sampling_ratio/max": 1.145720362663269,
+      "sampling/importance_sampling_ratio/mean": 0.6736248135566711,
+      "sampling/importance_sampling_ratio/min": 0.32681626081466675,
+      "sampling/sampling_logp_difference/max": 0.506934404373169,
+      "sampling/sampling_logp_difference/mean": 0.022311819717288017,
+      "step": 264,
+      "step_time": 69.11695815299754
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 78.0,
+      "completions/max_terminated_length": 78.0,
+      "completions/mean_length": 53.375,
+      "completions/mean_terminated_length": 53.375,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.36542245745658875,
+      "epoch": 0.53,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.7678577899932861,
+      "kl": 0.01349552534520626,
+      "learning_rate": 4.315756579809575e-06,
+      "loss": -0.0131,
+      "num_tokens": 1475783.0,
+      "reward": 0.45250001549720764,
+      "reward_std": 0.5276904106140137,
+      "rewards/reward_func/mean": 0.45250001549720764,
+      "rewards/reward_func/std": 0.5621070265769958,
+      "sampling/importance_sampling_ratio/max": 1.4794089794158936,
+      "sampling/importance_sampling_ratio/mean": 0.8411662578582764,
+      "sampling/importance_sampling_ratio/min": 0.2986375391483307,
+      "sampling/sampling_logp_difference/max": 0.3246455192565918,
+      "sampling/sampling_logp_difference/mean": 0.02376371994614601,
+      "step": 265,
+      "step_time": 60.26253752099001
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 58.0,
+      "completions/max_terminated_length": 58.0,
+      "completions/mean_length": 46.0,
+      "completions/mean_terminated_length": 46.0,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.39109036326408386,
+      "epoch": 0.532,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.601122260093689,
+      "kl": 0.030363351106643677,
+      "learning_rate": 4.3101814671760546e-06,
+      "loss": 0.1835,
+      "num_tokens": 1480977.0,
+      "reward": 0.19500000774860382,
+      "reward_std": 0.498978853225708,
+      "rewards/reward_func/mean": 0.19500000774860382,
+      "rewards/reward_func/std": 0.46309521794319153,
+      "sampling/importance_sampling_ratio/max": 1.9800269603729248,
+      "sampling/importance_sampling_ratio/mean": 1.074782133102417,
+      "sampling/importance_sampling_ratio/min": 0.28303632140159607,
+      "sampling/sampling_logp_difference/max": 0.3251028060913086,
+      "sampling/sampling_logp_difference/mean": 0.03300042822957039,
+      "step": 266,
+      "step_time": 73.40508937300183
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 66.0,
+      "completions/max_terminated_length": 66.0,
+      "completions/mean_length": 50.125,
+      "completions/mean_terminated_length": 50.125,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.31551459431648254,
+      "epoch": 0.534,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2413638830184937,
+      "kl": 0.046541355550289154,
+      "learning_rate": 4.304587366595506e-06,
+      "loss": 0.0603,
+      "num_tokens": 1486647.0,
+      "reward": -0.03125,
+      "reward_std": 0.03729227930307388,
+      "rewards/reward_func/mean": -0.03125,
+      "rewards/reward_func/std": 0.035632047802209854,
+      "sampling/importance_sampling_ratio/max": 1.5068446397781372,
+      "sampling/importance_sampling_ratio/mean": 1.0979515314102173,
+      "sampling/importance_sampling_ratio/min": 0.7618433237075806,
+      "sampling/sampling_logp_difference/max": 0.4640469551086426,
+      "sampling/sampling_logp_difference/mean": 0.021073922514915466,
+      "step": 267,
+      "step_time": 78.26023236100446
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 58.0,
+      "completions/max_terminated_length": 58.0,
+      "completions/mean_length": 43.0,
+      "completions/mean_terminated_length": 43.0,
+      "completions/min_length": 32.0,
+      "completions/min_terminated_length": 32.0,
+      "entropy": 0.3318823575973511,
+      "epoch": 0.536,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2611191272735596,
+      "kl": 0.04281270503997803,
+      "learning_rate": 4.298974336747397e-06,
+      "loss": 0.1527,
+      "num_tokens": 1491435.0,
+      "reward": 0.4449999928474426,
+      "reward_std": 0.5528978109359741,
+      "rewards/reward_func/mean": 0.4449999928474426,
+      "rewards/reward_func/std": 0.5943784117698669,
+      "sampling/importance_sampling_ratio/max": 2.169663190841675,
+      "sampling/importance_sampling_ratio/mean": 1.2059040069580078,
+      "sampling/importance_sampling_ratio/min": 0.5681382417678833,
+      "sampling/sampling_logp_difference/max": 0.44361448287963867,
+      "sampling/sampling_logp_difference/mean": 0.02404342032968998,
+      "step": 268,
+      "step_time": 42.1042278399982
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 62.0,
+      "completions/max_terminated_length": 62.0,
+      "completions/mean_length": 46.25,
+      "completions/mean_terminated_length": 46.25,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.3449662923812866,
+      "epoch": 0.538,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4394900798797607,
+      "kl": 0.04537257179617882,
+      "learning_rate": 4.2933424365097565e-06,
+      "loss": -0.0417,
+      "num_tokens": 1497478.0,
+      "reward": 0.23375000059604645,
+      "reward_std": 0.3076711595058441,
+      "rewards/reward_func/mean": 0.23375000059604645,
+      "rewards/reward_func/std": 0.4731939435005188,
+      "sampling/importance_sampling_ratio/max": 1.6045145988464355,
+      "sampling/importance_sampling_ratio/mean": 0.9230844974517822,
+      "sampling/importance_sampling_ratio/min": 0.4231981933116913,
+      "sampling/sampling_logp_difference/max": 0.4870121479034424,
+      "sampling/sampling_logp_difference/mean": 0.027318792417645454,
+      "step": 269,
+      "step_time": 78.79464126299717
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.0,
+      "completions/max_terminated_length": 65.0,
+      "completions/mean_length": 48.5,
+      "completions/mean_terminated_length": 48.5,
+      "completions/min_length": 32.0,
+      "completions/min_terminated_length": 32.0,
+      "entropy": 0.3510008454322815,
+      "epoch": 0.54,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2418956756591797,
+      "kl": 0.018656443804502487,
+      "learning_rate": 4.287691724958551e-06,
+      "loss": 0.0041,
+      "num_tokens": 1502743.0,
+      "reward": 0.05625000223517418,
+      "reward_std": 0.30281367897987366,
+      "rewards/reward_func/mean": 0.05625000223517418,
+      "rewards/reward_func/std": 0.38615089654922485,
+      "sampling/importance_sampling_ratio/max": 1.43633234500885,
+      "sampling/importance_sampling_ratio/mean": 0.9880182147026062,
+      "sampling/importance_sampling_ratio/min": 0.5201124548912048,
+      "sampling/sampling_logp_difference/max": 0.4504268169403076,
+      "sampling/sampling_logp_difference/mean": 0.025521527975797653,
+      "step": 270,
+      "step_time": 61.80690009400132
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 53.0,
+      "completions/max_terminated_length": 53.0,
+      "completions/mean_length": 46.375,
+      "completions/mean_terminated_length": 46.375,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.3246690034866333,
+      "epoch": 0.542,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.149324893951416,
+      "kl": 0.07095597684383392,
+      "learning_rate": 4.282022261367074e-06,
+      "loss": 0.1048,
+      "num_tokens": 1508366.0,
+      "reward": 0.33375000953674316,
+      "reward_std": 0.5544325113296509,
+      "rewards/reward_func/mean": 0.33375000953674316,
+      "rewards/reward_func/std": 0.5303351283073425,
+      "sampling/importance_sampling_ratio/max": 2.206528425216675,
+      "sampling/importance_sampling_ratio/mean": 0.8827699422836304,
+      "sampling/importance_sampling_ratio/min": 0.25518810749053955,
+      "sampling/sampling_logp_difference/max": 1.0000684261322021,
+      "sampling/sampling_logp_difference/mean": 0.03170555830001831,
+      "step": 271,
+      "step_time": 75.03205436599092
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 68.0,
+      "completions/max_terminated_length": 68.0,
+      "completions/mean_length": 51.125,
+      "completions/mean_terminated_length": 51.125,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.30604857206344604,
+      "epoch": 0.544,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.9059810638427734,
+      "kl": 0.059660904109478,
+      "learning_rate": 4.276334105205312e-06,
+      "loss": -0.2118,
+      "num_tokens": 1513438.0,
+      "reward": 0.06875000149011612,
+      "reward_std": 0.2786497473716736,
+      "rewards/reward_func/mean": 0.06875000149011612,
+      "rewards/reward_func/std": 0.36317792534828186,
+      "sampling/importance_sampling_ratio/max": 2.2432162761688232,
+      "sampling/importance_sampling_ratio/mean": 0.9688401222229004,
+      "sampling/importance_sampling_ratio/min": 0.4208078682422638,
+      "sampling/sampling_logp_difference/max": 0.7957940101623535,
+      "sampling/sampling_logp_difference/mean": 0.025905363261699677,
+      "step": 272,
+      "step_time": 70.6048888520163
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 67.0,
+      "completions/max_terminated_length": 67.0,
+      "completions/mean_length": 46.5,
+      "completions/mean_terminated_length": 46.5,
+      "completions/min_length": 30.0,
+      "completions/min_terminated_length": 30.0,
+      "entropy": 0.42150887846946716,
+      "epoch": 0.546,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.848087191581726,
+      "kl": 0.04411306977272034,
+      "learning_rate": 4.270627316139333e-06,
+      "loss": 0.0721,
+      "num_tokens": 1519207.0,
+      "reward": 0.3174999952316284,
+      "reward_std": 0.3132410943508148,
+      "rewards/reward_func/mean": 0.3174999952316284,
+      "rewards/reward_func/std": 0.5588700175285339,
+      "sampling/importance_sampling_ratio/max": 2.6300036907196045,
+      "sampling/importance_sampling_ratio/mean": 1.3033478260040283,
+      "sampling/importance_sampling_ratio/min": 0.6930631399154663,
+      "sampling/sampling_logp_difference/max": 0.4798305034637451,
+      "sampling/sampling_logp_difference/mean": 0.027141718193888664,
+      "step": 273,
+      "step_time": 58.65063955899677
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 56.0,
+      "completions/max_terminated_length": 56.0,
+      "completions/mean_length": 45.375,
+      "completions/mean_terminated_length": 45.375,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.346945196390152,
+      "epoch": 0.548,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3174351453781128,
+      "kl": 0.03675675392150879,
+      "learning_rate": 4.264901954030655e-06,
+      "loss": 0.2718,
+      "num_tokens": 1524595.0,
+      "reward": 0.3349999785423279,
+      "reward_std": 0.5533304214477539,
+      "rewards/reward_func/mean": 0.3349999785423279,
+      "rewards/reward_func/std": 0.5276091694831848,
+      "sampling/importance_sampling_ratio/max": 1.823628306388855,
+      "sampling/importance_sampling_ratio/mean": 1.3205350637435913,
+      "sampling/importance_sampling_ratio/min": 0.5515703558921814,
+      "sampling/sampling_logp_difference/max": 0.6266647577285767,
+      "sampling/sampling_logp_difference/mean": 0.027004873380064964,
+      "step": 274,
+      "step_time": 77.85147952000261
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 52.0,
+      "completions/max_terminated_length": 52.0,
+      "completions/mean_length": 46.875,
+      "completions/mean_terminated_length": 46.875,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.34322333335876465,
+      "epoch": 0.55,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.5239591598510742,
+      "kl": 0.03387777507305145,
+      "learning_rate": 4.259158078935616e-06,
+      "loss": 0.0834,
+      "num_tokens": 1530599.0,
+      "reward": 0.6112500429153442,
+      "reward_std": 0.5479111671447754,
+      "rewards/reward_func/mean": 0.6112500429153442,
+      "rewards/reward_func/std": 0.5258309841156006,
+      "sampling/importance_sampling_ratio/max": 1.549354910850525,
+      "sampling/importance_sampling_ratio/mean": 0.9935581088066101,
+      "sampling/importance_sampling_ratio/min": 0.30347806215286255,
+      "sampling/sampling_logp_difference/max": 0.5402736663818359,
+      "sampling/sampling_logp_difference/mean": 0.026231858879327774,
+      "step": 275,
+      "step_time": 44.57912472402677
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 63.0,
+      "completions/max_terminated_length": 63.0,
+      "completions/mean_length": 44.5,
+      "completions/mean_terminated_length": 44.5,
+      "completions/min_length": 27.0,
+      "completions/min_terminated_length": 27.0,
+      "entropy": 0.35677075386047363,
+      "epoch": 0.552,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.31052827835083,
+      "kl": 0.03178555518388748,
+      "learning_rate": 4.2533957511047485e-06,
+      "loss": -0.2195,
+      "num_tokens": 1536340.0,
+      "reward": 0.33500000834465027,
+      "reward_std": 0.5740325450897217,
+      "rewards/reward_func/mean": 0.33500000834465027,
+      "rewards/reward_func/std": 0.551310122013092,
+      "sampling/importance_sampling_ratio/max": 1.479032039642334,
+      "sampling/importance_sampling_ratio/mean": 1.0965967178344727,
+      "sampling/importance_sampling_ratio/min": 0.65904301404953,
+      "sampling/sampling_logp_difference/max": 0.5930355787277222,
+      "sampling/sampling_logp_difference/mean": 0.027675746008753777,
+      "step": 276,
+      "step_time": 56.27619910798967
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 52.0,
+      "completions/max_terminated_length": 52.0,
+      "completions/mean_length": 43.75,
+      "completions/mean_terminated_length": 43.75,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.3377889394760132,
+      "epoch": 0.554,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.999190628528595,
+      "kl": 0.032812558114528656,
+      "learning_rate": 4.247615030982144e-06,
+      "loss": 0.0927,
+      "num_tokens": 1541902.0,
+      "reward": 0.4775000214576721,
+      "reward_std": 0.4942038655281067,
+      "rewards/reward_func/mean": 0.4775000214576721,
+      "rewards/reward_func/std": 0.527304470539093,
+      "sampling/importance_sampling_ratio/max": 1.5036600828170776,
+      "sampling/importance_sampling_ratio/mean": 0.9121675491333008,
+      "sampling/importance_sampling_ratio/min": 0.3932625651359558,
+      "sampling/sampling_logp_difference/max": 0.6314131021499634,
+      "sampling/sampling_logp_difference/mean": 0.027674881741404533,
+      "step": 277,
+      "step_time": 66.32918151500053
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 54.0,
+      "completions/max_terminated_length": 54.0,
+      "completions/mean_length": 44.75,
+      "completions/mean_terminated_length": 44.75,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.35427534580230713,
+      "epoch": 0.556,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1933726072311401,
+      "kl": 0.06276769191026688,
+      "learning_rate": 4.241815979204822e-06,
+      "loss": 0.1654,
+      "num_tokens": 1548032.0,
+      "reward": 0.19750000536441803,
+      "reward_std": 0.32018035650253296,
+      "rewards/reward_func/mean": 0.19750000536441803,
+      "rewards/reward_func/std": 0.48417091369628906,
+      "sampling/importance_sampling_ratio/max": 1.7151527404785156,
+      "sampling/importance_sampling_ratio/mean": 1.0098499059677124,
+      "sampling/importance_sampling_ratio/min": 0.11691775172948837,
+      "sampling/sampling_logp_difference/max": 1.2129077911376953,
+      "sampling/sampling_logp_difference/mean": 0.02612270414829254,
+      "step": 278,
+      "step_time": 88.54080397897633
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 55.0,
+      "completions/max_terminated_length": 55.0,
+      "completions/mean_length": 42.25,
+      "completions/mean_terminated_length": 42.25,
+      "completions/min_length": 31.0,
+      "completions/min_terminated_length": 31.0,
+      "entropy": 0.3449207544326782,
+      "epoch": 0.558,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.924571692943573,
+      "kl": 0.040953975170850754,
+      "learning_rate": 4.235998656602091e-06,
+      "loss": 0.1445,
+      "num_tokens": 1553989.0,
+      "reward": -0.06750000268220901,
+      "reward_std": 0.03040887415409088,
+      "rewards/reward_func/mean": -0.06750000268220901,
+      "rewards/reward_func/std": 0.051199886947870255,
+      "sampling/importance_sampling_ratio/max": 0.9909558892250061,
+      "sampling/importance_sampling_ratio/mean": 0.7079716920852661,
+      "sampling/importance_sampling_ratio/min": 0.47882190346717834,
+      "sampling/sampling_logp_difference/max": 0.6735103130340576,
+      "sampling/sampling_logp_difference/mean": 0.03071964532136917,
+      "step": 279,
+      "step_time": 82.45593494997593
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 84.0,
+      "completions/max_terminated_length": 84.0,
+      "completions/mean_length": 46.5,
+      "completions/mean_terminated_length": 46.5,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.38967427611351013,
+      "epoch": 0.56,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2218159437179565,
+      "kl": 0.027102379128336906,
+      "learning_rate": 4.230163124194913e-06,
+      "loss": 0.0018,
+      "num_tokens": 1559709.0,
+      "reward": 0.08249999582767487,
+      "reward_std": 0.27100443840026855,
+      "rewards/reward_func/mean": 0.08249999582767487,
+      "rewards/reward_func/std": 0.3715507984161377,
+      "sampling/importance_sampling_ratio/max": 1.6555224657058716,
+      "sampling/importance_sampling_ratio/mean": 1.070943832397461,
+      "sampling/importance_sampling_ratio/min": 0.5340960025787354,
+      "sampling/sampling_logp_difference/max": 0.4693126082420349,
+      "sampling/sampling_logp_difference/mean": 0.027980361133813858,
+      "step": 280,
+      "step_time": 72.15682938401005
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 66.0,
+      "completions/max_terminated_length": 66.0,
+      "completions/mean_length": 50.25,
+      "completions/mean_terminated_length": 50.25,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.29565370082855225,
+      "epoch": 0.562,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.19646418094635,
+      "kl": 0.03536316379904747,
+      "learning_rate": 4.224309443195261e-06,
+      "loss": -0.2295,
+      "num_tokens": 1565505.0,
+      "reward": 0.48250001668930054,
+      "reward_std": 0.5834507346153259,
+      "rewards/reward_func/mean": 0.48250001668930054,
+      "rewards/reward_func/std": 0.5402050018310547,
+      "sampling/importance_sampling_ratio/max": 1.867733359336853,
+      "sampling/importance_sampling_ratio/mean": 1.0055427551269531,
+      "sampling/importance_sampling_ratio/min": 0.4048961102962494,
+      "sampling/sampling_logp_difference/max": 0.6614785194396973,
+      "sampling/sampling_logp_difference/mean": 0.027097908779978752,
+      "step": 281,
+      "step_time": 51.57847329697688
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 71.0,
+      "completions/max_terminated_length": 71.0,
+      "completions/mean_length": 56.125,
+      "completions/mean_terminated_length": 56.125,
+      "completions/min_length": 42.0,
+      "completions/min_terminated_length": 42.0,
+      "entropy": 0.35139578580856323,
+      "epoch": 0.564,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.086079478263855,
+      "kl": 0.022778205573558807,
+      "learning_rate": 4.218437675005479e-06,
+      "loss": -0.2493,
+      "num_tokens": 1571510.0,
+      "reward": 0.5787500143051147,
+      "reward_std": 0.5751041173934937,
+      "rewards/reward_func/mean": 0.5787500143051147,
+      "rewards/reward_func/std": 0.5546797513961792,
+      "sampling/importance_sampling_ratio/max": 1.7726209163665771,
+      "sampling/importance_sampling_ratio/mean": 1.1253960132598877,
+      "sampling/importance_sampling_ratio/min": 0.4784102737903595,
+      "sampling/sampling_logp_difference/max": 0.4526965618133545,
+      "sampling/sampling_logp_difference/mean": 0.02535804733633995,
+      "step": 282,
+      "step_time": 64.53625944399391
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 64.0,
+      "completions/max_terminated_length": 64.0,
+      "completions/mean_length": 45.25,
+      "completions/mean_terminated_length": 45.25,
+      "completions/min_length": 24.0,
+      "completions/min_terminated_length": 24.0,
+      "entropy": 0.398438036441803,
+      "epoch": 0.566,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.212346076965332,
+      "kl": 0.037971317768096924,
+      "learning_rate": 4.212547881217637e-06,
+      "loss": -0.064,
+      "num_tokens": 1577608.0,
+      "reward": 0.2212499976158142,
+      "reward_std": 0.29377394914627075,
+      "rewards/reward_func/mean": 0.2212499976158142,
+      "rewards/reward_func/std": 0.4595475196838379,
+      "sampling/importance_sampling_ratio/max": 1.3747642040252686,
+      "sampling/importance_sampling_ratio/mean": 0.9095951914787292,
+      "sampling/importance_sampling_ratio/min": 0.45244070887565613,
+      "sampling/sampling_logp_difference/max": 0.7049179077148438,
+      "sampling/sampling_logp_difference/mean": 0.030841922387480736,
+      "step": 283,
+      "step_time": 84.87170067700208
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 59.0,
+      "completions/max_terminated_length": 59.0,
+      "completions/mean_length": 47.625,
+      "completions/mean_terminated_length": 47.625,
+      "completions/min_length": 40.0,
+      "completions/min_terminated_length": 40.0,
+      "entropy": 0.36814165115356445,
+      "epoch": 0.568,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1691949367523193,
+      "kl": 0.036575593054294586,
+      "learning_rate": 4.206640123612885e-06,
+      "loss": 0.0775,
+      "num_tokens": 1582975.0,
+      "reward": 0.7237499952316284,
+      "reward_std": 0.5162468552589417,
+      "rewards/reward_func/mean": 0.7237499952316284,
+      "rewards/reward_func/std": 0.4783584177494049,
+      "sampling/importance_sampling_ratio/max": 1.1772783994674683,
+      "sampling/importance_sampling_ratio/mean": 0.7350926399230957,
+      "sampling/importance_sampling_ratio/min": 0.24923691153526306,
+      "sampling/sampling_logp_difference/max": 0.8092962503433228,
+      "sampling/sampling_logp_difference/mean": 0.03558259829878807,
+      "step": 284,
+      "step_time": 59.08952103398042
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 50.0,
+      "completions/max_terminated_length": 50.0,
+      "completions/mean_length": 40.375,
+      "completions/mean_terminated_length": 40.375,
+      "completions/min_length": 26.0,
+      "completions/min_terminated_length": 26.0,
+      "entropy": 0.31116950511932373,
+      "epoch": 0.57,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1499625444412231,
+      "kl": 0.05957644805312157,
+      "learning_rate": 4.2007144641608035e-06,
+      "loss": 0.2114,
+      "num_tokens": 1588426.0,
+      "reward": 0.20625001192092896,
+      "reward_std": 0.29973241686820984,
+      "rewards/reward_func/mean": 0.20625001192092896,
+      "rewards/reward_func/std": 0.4607428014278412,
+      "sampling/importance_sampling_ratio/max": 1.3515949249267578,
+      "sampling/importance_sampling_ratio/mean": 0.9128226041793823,
+      "sampling/importance_sampling_ratio/min": 0.24216710031032562,
+      "sampling/sampling_logp_difference/max": 0.3609771728515625,
+      "sampling/sampling_logp_difference/mean": 0.025414273142814636,
+      "step": 285,
+      "step_time": 69.37833641498582
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 56.0,
+      "completions/max_terminated_length": 56.0,
+      "completions/mean_length": 41.875,
+      "completions/mean_terminated_length": 41.875,
+      "completions/min_length": 30.0,
+      "completions/min_terminated_length": 30.0,
+      "entropy": 0.40447139739990234,
+      "epoch": 0.572,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.3697779178619385,
+      "kl": 0.02398294396698475,
+      "learning_rate": 4.194770965018758e-06,
+      "loss": 0.2327,
+      "num_tokens": 1594255.0,
+      "reward": 0.4737499952316284,
+      "reward_std": 0.5166642665863037,
+      "rewards/reward_func/mean": 0.4737499952316284,
+      "rewards/reward_func/std": 0.5499594211578369,
+      "sampling/importance_sampling_ratio/max": 1.7312536239624023,
+      "sampling/importance_sampling_ratio/mean": 0.9678086638450623,
+      "sampling/importance_sampling_ratio/min": 0.5032089352607727,
+      "sampling/sampling_logp_difference/max": 0.43535709381103516,
+      "sampling/sampling_logp_difference/mean": 0.030212290585041046,
+      "step": 286,
+      "step_time": 86.86279435199685
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 79.0,
+      "completions/max_terminated_length": 79.0,
+      "completions/mean_length": 53.75,
+      "completions/mean_terminated_length": 53.75,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.35356995463371277,
+      "epoch": 0.574,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1606370210647583,
+      "kl": 0.023810427635908127,
+      "learning_rate": 4.188809688531241e-06,
+      "loss": -0.1423,
+      "num_tokens": 1599919.0,
+      "reward": 0.08499999344348907,
+      "reward_std": 0.28996607661247253,
+      "rewards/reward_func/mean": 0.08499999344348907,
+      "rewards/reward_func/std": 0.3730185925960541,
+      "sampling/importance_sampling_ratio/max": 1.213178277015686,
+      "sampling/importance_sampling_ratio/mean": 0.8015030026435852,
+      "sampling/importance_sampling_ratio/min": 0.18578791618347168,
+      "sampling/sampling_logp_difference/max": 0.367124080657959,
+      "sampling/sampling_logp_difference/mean": 0.02456764504313469,
+      "step": 287,
+      "step_time": 86.99813774897484
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 64.0,
+      "completions/max_terminated_length": 64.0,
+      "completions/mean_length": 42.5,
+      "completions/mean_terminated_length": 42.5,
+      "completions/min_length": 31.0,
+      "completions/min_terminated_length": 31.0,
+      "entropy": 0.37545299530029297,
+      "epoch": 0.576,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9484260678291321,
+      "kl": 0.03164836764335632,
+      "learning_rate": 4.182830697229223e-06,
+      "loss": 0.0409,
+      "num_tokens": 1605747.0,
+      "reward": 0.22625000774860382,
+      "reward_std": 0.3063211739063263,
+      "rewards/reward_func/mean": 0.22625000774860382,
+      "rewards/reward_func/std": 0.4631241261959076,
+      "sampling/importance_sampling_ratio/max": 1.3765383958816528,
+      "sampling/importance_sampling_ratio/mean": 0.9212698340415955,
+      "sampling/importance_sampling_ratio/min": 0.42979246377944946,
+      "sampling/sampling_logp_difference/max": 0.46885204315185547,
+      "sampling/sampling_logp_difference/mean": 0.0255972221493721,
+      "step": 288,
+      "step_time": 67.68871720400057
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 78.0,
+      "completions/max_terminated_length": 78.0,
+      "completions/mean_length": 48.0,
+      "completions/mean_terminated_length": 48.0,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.3726646602153778,
+      "epoch": 0.578,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2278378009796143,
+      "kl": 0.03291169926524162,
+      "learning_rate": 4.176834053829492e-06,
+      "loss": 0.0774,
+      "num_tokens": 1611005.0,
+      "reward": 0.33249998092651367,
+      "reward_std": 0.5452134609222412,
+      "rewards/reward_func/mean": 0.33249998092651367,
+      "rewards/reward_func/std": 0.5284410715103149,
+      "sampling/importance_sampling_ratio/max": 1.2047574520111084,
+      "sampling/importance_sampling_ratio/mean": 0.9297256469726562,
+      "sampling/importance_sampling_ratio/min": 0.5736981630325317,
+      "sampling/sampling_logp_difference/max": 0.4195805788040161,
+      "sampling/sampling_logp_difference/mean": 0.025271501392126083,
+      "step": 289,
+      "step_time": 57.347708321001846
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.0,
+      "completions/max_terminated_length": 65.0,
+      "completions/mean_length": 47.375,
+      "completions/mean_terminated_length": 47.375,
+      "completions/min_length": 31.0,
+      "completions/min_terminated_length": 31.0,
+      "entropy": 0.368205189704895,
+      "epoch": 0.58,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.06058931350708,
+      "kl": 0.01727902702987194,
+      "learning_rate": 4.170819821234001e-06,
+      "loss": -0.1661,
+      "num_tokens": 1616685.0,
+      "reward": 0.6000000238418579,
+      "reward_std": 0.5506213903427124,
+      "rewards/reward_func/mean": 0.6000000238418579,
+      "rewards/reward_func/std": 0.5333184599876404,
+      "sampling/importance_sampling_ratio/max": 1.8462737798690796,
+      "sampling/importance_sampling_ratio/mean": 0.8948688507080078,
+      "sampling/importance_sampling_ratio/min": 0.4318339228630066,
+      "sampling/sampling_logp_difference/max": 0.5361829996109009,
+      "sampling/sampling_logp_difference/mean": 0.030598482117056847,
+      "step": 290,
+      "step_time": 63.116088277020026
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 57.0,
+      "completions/max_terminated_length": 57.0,
+      "completions/mean_length": 45.875,
+      "completions/mean_terminated_length": 45.875,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.3375159502029419,
+      "epoch": 0.582,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.7271595001220703,
+      "kl": 0.036022864282131195,
+      "learning_rate": 4.164788062529203e-06,
+      "loss": 0.3231,
+      "num_tokens": 1622232.0,
+      "reward": 0.3474999964237213,
+      "reward_std": 0.2686045467853546,
+      "rewards/reward_func/mean": 0.3474999964237213,
+      "rewards/reward_func/std": 0.5296832323074341,
+      "sampling/importance_sampling_ratio/max": 2.602046489715576,
+      "sampling/importance_sampling_ratio/mean": 1.1395049095153809,
+      "sampling/importance_sampling_ratio/min": 0.46707242727279663,
+      "sampling/sampling_logp_difference/max": 0.3359344005584717,
+      "sampling/sampling_logp_difference/mean": 0.025325238704681396,
+      "step": 291,
+      "step_time": 80.50347790899104
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 52.0,
+      "completions/max_terminated_length": 52.0,
+      "completions/mean_length": 45.375,
+      "completions/mean_terminated_length": 45.375,
+      "completions/min_length": 27.0,
+      "completions/min_terminated_length": 27.0,
+      "entropy": 0.36788409948349,
+      "epoch": 0.584,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0641146898269653,
+      "kl": 0.027490928769111633,
+      "learning_rate": 4.158738840985393e-06,
+      "loss": 0.1119,
+      "num_tokens": 1627699.0,
+      "reward": 0.17999999225139618,
+      "reward_std": 0.3215157687664032,
+      "rewards/reward_func/mean": 0.17999999225139618,
+      "rewards/reward_func/std": 0.4744320213794708,
+      "sampling/importance_sampling_ratio/max": 1.5140283107757568,
+      "sampling/importance_sampling_ratio/mean": 0.6938580870628357,
+      "sampling/importance_sampling_ratio/min": 0.20368647575378418,
+      "sampling/sampling_logp_difference/max": 0.8070402145385742,
+      "sampling/sampling_logp_difference/mean": 0.02949894405901432,
+      "step": 292,
+      "step_time": 78.2215075980057
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 60.0,
+      "completions/max_terminated_length": 60.0,
+      "completions/mean_length": 45.125,
+      "completions/mean_terminated_length": 45.125,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.4428096115589142,
+      "epoch": 0.586,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.749643325805664,
+      "kl": 0.04018591344356537,
+      "learning_rate": 4.1526722200560445e-06,
+      "loss": -0.1564,
+      "num_tokens": 1633177.0,
+      "reward": 0.34375,
+      "reward_std": 0.5563769340515137,
+      "rewards/reward_func/mean": 0.34375,
+      "rewards/reward_func/std": 0.5327540040016174,
+      "sampling/importance_sampling_ratio/max": 2.5977683067321777,
+      "sampling/importance_sampling_ratio/mean": 0.9267335534095764,
+      "sampling/importance_sampling_ratio/min": 0.43353283405303955,
+      "sampling/sampling_logp_difference/max": 0.6082069873809814,
+      "sampling/sampling_logp_difference/mean": 0.036718130111694336,
+      "step": 293,
+      "step_time": 72.21064010998816
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 60.0,
+      "completions/max_terminated_length": 60.0,
+      "completions/mean_length": 45.25,
+      "completions/mean_terminated_length": 45.25,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.3257609009742737,
+      "epoch": 0.588,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1807507276535034,
+      "kl": 0.030308792367577553,
+      "learning_rate": 4.146588263377137e-06,
+      "loss": 0.0547,
+      "num_tokens": 1638629.0,
+      "reward": 0.5962499976158142,
+      "reward_std": 0.5583738088607788,
+      "rewards/reward_func/mean": 0.5962499976158142,
+      "rewards/reward_func/std": 0.5385679006576538,
+      "sampling/importance_sampling_ratio/max": 1.4324092864990234,
+      "sampling/importance_sampling_ratio/mean": 0.9339421391487122,
+      "sampling/importance_sampling_ratio/min": 0.6571045517921448,
+      "sampling/sampling_logp_difference/max": 0.35495901107788086,
+      "sampling/sampling_logp_difference/mean": 0.021137617528438568,
+      "step": 294,
+      "step_time": 68.63880399399204
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 66.0,
+      "completions/max_terminated_length": 66.0,
+      "completions/mean_length": 51.375,
+      "completions/mean_terminated_length": 51.375,
+      "completions/min_length": 42.0,
+      "completions/min_terminated_length": 42.0,
+      "entropy": 0.36071956157684326,
+      "epoch": 0.59,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4050084352493286,
+      "kl": 0.03706521913409233,
+      "learning_rate": 4.140487034766499e-06,
+      "loss": 0.0768,
+      "num_tokens": 1644795.0,
+      "reward": 0.35249999165534973,
+      "reward_std": 0.5524863600730896,
+      "rewards/reward_func/mean": 0.35249999165534973,
+      "rewards/reward_func/std": 0.5344623327255249,
+      "sampling/importance_sampling_ratio/max": 1.5176059007644653,
+      "sampling/importance_sampling_ratio/mean": 0.9870838522911072,
+      "sampling/importance_sampling_ratio/min": 0.6246324777603149,
+      "sampling/sampling_logp_difference/max": 0.8912210464477539,
+      "sampling/sampling_logp_difference/mean": 0.028878837823867798,
+      "step": 295,
+      "step_time": 57.42247140299878
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 59.0,
+      "completions/max_terminated_length": 59.0,
+      "completions/mean_length": 47.875,
+      "completions/mean_terminated_length": 47.875,
+      "completions/min_length": 40.0,
+      "completions/min_terminated_length": 40.0,
+      "entropy": 0.3431392312049866,
+      "epoch": 0.592,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1508780717849731,
+      "kl": 0.03153597190976143,
+      "learning_rate": 4.134368598223132e-06,
+      "loss": 0.1312,
+      "num_tokens": 1650107.0,
+      "reward": 0.3387500047683716,
+      "reward_std": 0.5518091320991516,
+      "rewards/reward_func/mean": 0.3387500047683716,
+      "rewards/reward_func/std": 0.5335979461669922,
+      "sampling/importance_sampling_ratio/max": 1.6481400728225708,
+      "sampling/importance_sampling_ratio/mean": 0.934108555316925,
+      "sampling/importance_sampling_ratio/min": 0.31286314129829407,
+      "sampling/sampling_logp_difference/max": 0.3653430938720703,
+      "sampling/sampling_logp_difference/mean": 0.03261955454945564,
+      "step": 296,
+      "step_time": 48.63130289298715
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 51.0,
+      "completions/max_terminated_length": 51.0,
+      "completions/mean_length": 42.125,
+      "completions/mean_terminated_length": 42.125,
+      "completions/min_length": 32.0,
+      "completions/min_terminated_length": 32.0,
+      "entropy": 0.33156031370162964,
+      "epoch": 0.594,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4071409702301025,
+      "kl": 0.041910890489816666,
+      "learning_rate": 4.128233017926538e-06,
+      "loss": 0.2664,
+      "num_tokens": 1655436.0,
+      "reward": -0.0637499988079071,
+      "reward_std": 0.03450929373502731,
+      "rewards/reward_func/mean": -0.0637499988079071,
+      "rewards/reward_func/std": 0.04274091124534607,
+      "sampling/importance_sampling_ratio/max": 1.8012773990631104,
+      "sampling/importance_sampling_ratio/mean": 0.9478522539138794,
+      "sampling/importance_sampling_ratio/min": 0.0,
+      "sampling/sampling_logp_difference/max": 0.553492546081543,
+      "sampling/sampling_logp_difference/mean": 0.030245978385210037,
+      "step": 297,
+      "step_time": 74.5723572280258
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 53.0,
+      "completions/max_terminated_length": 53.0,
+      "completions/mean_length": 43.875,
+      "completions/mean_terminated_length": 43.875,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.3426669239997864,
+      "epoch": 0.596,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1105406284332275,
+      "kl": 0.043890222907066345,
+      "learning_rate": 4.1220803582360545e-06,
+      "loss": -0.0848,
+      "num_tokens": 1661032.0,
+      "reward": -0.03999999910593033,
+      "reward_std": 0.03082464262843132,
+      "rewards/reward_func/mean": -0.03999999910593033,
+      "rewards/reward_func/std": 0.029760954901576042,
+      "sampling/importance_sampling_ratio/max": 1.2387455701828003,
+      "sampling/importance_sampling_ratio/mean": 0.9630196690559387,
+      "sampling/importance_sampling_ratio/min": 0.6839993596076965,
+      "sampling/sampling_logp_difference/max": 0.5896548628807068,
+      "sampling/sampling_logp_difference/mean": 0.029966674745082855,
+      "step": 298,
+      "step_time": 70.879077177
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 66.0,
+      "completions/max_terminated_length": 66.0,
+      "completions/mean_length": 51.125,
+      "completions/mean_terminated_length": 51.125,
+      "completions/min_length": 30.0,
+      "completions/min_terminated_length": 30.0,
+      "entropy": 0.36084866523742676,
+      "epoch": 0.598,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1439580917358398,
+      "kl": 0.04164861887693405,
+      "learning_rate": 4.115910683690167e-06,
+      "loss": 0.109,
+      "num_tokens": 1666142.0,
+      "reward": 0.46000000834465027,
+      "reward_std": 0.5153526067733765,
+      "rewards/reward_func/mean": 0.46000000834465027,
+      "rewards/reward_func/std": 0.5593363046646118,
+      "sampling/importance_sampling_ratio/max": 1.1726311445236206,
+      "sampling/importance_sampling_ratio/mean": 0.7731176614761353,
+      "sampling/importance_sampling_ratio/min": 0.44161850214004517,
+      "sampling/sampling_logp_difference/max": 0.5879793167114258,
+      "sampling/sampling_logp_difference/mean": 0.029971588402986526,
+      "step": 299,
+      "step_time": 40.97617705501034
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 86.0,
+      "completions/max_terminated_length": 86.0,
+      "completions/mean_length": 53.0,
+      "completions/mean_terminated_length": 53.0,
+      "completions/min_length": 31.0,
+      "completions/min_terminated_length": 31.0,
+      "entropy": 0.35997629165649414,
+      "epoch": 0.6,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2015734910964966,
+      "kl": 0.051748767495155334,
+      "learning_rate": 4.109724059005844e-06,
+      "loss": -0.1698,
+      "num_tokens": 1671675.0,
+      "reward": 0.19499999284744263,
+      "reward_std": 0.5328658819198608,
+      "rewards/reward_func/mean": 0.19499999284744263,
+      "rewards/reward_func/std": 0.4941948652267456,
+      "sampling/importance_sampling_ratio/max": 1.5676287412643433,
+      "sampling/importance_sampling_ratio/mean": 0.8457791805267334,
+      "sampling/importance_sampling_ratio/min": 0.0,
+      "sampling/sampling_logp_difference/max": 1.410290241241455,
+      "sampling/sampling_logp_difference/mean": 0.03373635932803154,
+      "step": 300,
+      "step_time": 71.877353650023
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 74.0,
+      "completions/max_terminated_length": 74.0,
+      "completions/mean_length": 47.625,
+      "completions/mean_terminated_length": 47.625,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.3280709981918335,
+      "epoch": 0.602,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.5422002077102661,
+      "kl": 0.04158281534910202,
+      "learning_rate": 4.1035205490778505e-06,
+      "loss": -0.1959,
+      "num_tokens": 1677448.0,
+      "reward": 0.3199999928474426,
+      "reward_std": 0.5629400610923767,
+      "rewards/reward_func/mean": 0.3199999928474426,
+      "rewards/reward_func/std": 0.5402909517288208,
+      "sampling/importance_sampling_ratio/max": 1.9516421556472778,
+      "sampling/importance_sampling_ratio/mean": 1.1000713109970093,
+      "sampling/importance_sampling_ratio/min": 0.3914698660373688,
+      "sampling/sampling_logp_difference/max": 0.4937098026275635,
+      "sampling/sampling_logp_difference/mean": 0.025912173092365265,
+      "step": 301,
+      "step_time": 59.86676025000634
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 54.0,
+      "completions/max_terminated_length": 54.0,
+      "completions/mean_length": 43.5,
+      "completions/mean_terminated_length": 43.5,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.3313376307487488,
+      "epoch": 0.604,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.997847855091095,
+      "kl": 0.04069218039512634,
+      "learning_rate": 4.09730021897807e-06,
+      "loss": -0.0619,
+      "num_tokens": 1683406.0,
+      "reward": 0.19749999046325684,
+      "reward_std": 0.3082555830478668,
+      "rewards/reward_func/mean": 0.19749999046325684,
+      "rewards/reward_func/std": 0.4607369899749756,
+      "sampling/importance_sampling_ratio/max": 1.2228721380233765,
+      "sampling/importance_sampling_ratio/mean": 0.8224000930786133,
+      "sampling/importance_sampling_ratio/min": 0.42023351788520813,
+      "sampling/sampling_logp_difference/max": 0.5434841513633728,
+      "sampling/sampling_logp_difference/mean": 0.02660995163023472,
+      "step": 302,
+      "step_time": 57.52045150997583
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.0,
+      "completions/max_terminated_length": 61.0,
+      "completions/mean_length": 48.25,
+      "completions/mean_terminated_length": 48.25,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.31421804428100586,
+      "epoch": 0.606,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4279636144638062,
+      "kl": 0.07083047926425934,
+      "learning_rate": 4.091063133954821e-06,
+      "loss": 0.2061,
+      "num_tokens": 1689378.0,
+      "reward": 0.19249999523162842,
+      "reward_std": 0.5418117642402649,
+      "rewards/reward_func/mean": 0.19249999523162842,
+      "rewards/reward_func/std": 0.5016757845878601,
+      "sampling/importance_sampling_ratio/max": 2.132955312728882,
+      "sampling/importance_sampling_ratio/mean": 1.1564010381698608,
+      "sampling/importance_sampling_ratio/min": 0.4834826588630676,
+      "sampling/sampling_logp_difference/max": 0.5907609462738037,
+      "sampling/sampling_logp_difference/mean": 0.03361092135310173,
+      "step": 303,
+      "step_time": 67.22909496401553
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 55.0,
+      "completions/max_terminated_length": 55.0,
+      "completions/mean_length": 42.0,
+      "completions/mean_terminated_length": 42.0,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.3458764851093292,
+      "epoch": 0.608,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.9183087348937988,
+      "kl": 0.04568685591220856,
+      "learning_rate": 4.084809359432175e-06,
+      "loss": -0.0881,
+      "num_tokens": 1694776.0,
+      "reward": 0.09000000357627869,
+      "reward_std": 0.2616836130619049,
+      "rewards/reward_func/mean": 0.09000000357627869,
+      "rewards/reward_func/std": 0.36847177147865295,
+      "sampling/importance_sampling_ratio/max": 1.7175835371017456,
+      "sampling/importance_sampling_ratio/mean": 0.9860607385635376,
+      "sampling/importance_sampling_ratio/min": 0.327860951423645,
+      "sampling/sampling_logp_difference/max": 0.5655612945556641,
+      "sampling/sampling_logp_difference/mean": 0.028499091044068336,
+      "step": 304,
+      "step_time": 72.93971385998884
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 59.0,
+      "completions/max_terminated_length": 59.0,
+      "completions/mean_length": 46.5,
+      "completions/mean_terminated_length": 46.5,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.331033319234848,
+      "epoch": 0.61,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8779069185256958,
+      "kl": 0.04410824924707413,
+      "learning_rate": 4.0785389610092684e-06,
+      "loss": 0.0479,
+      "num_tokens": 1700586.0,
+      "reward": 0.59375,
+      "reward_std": 0.2722131311893463,
+      "rewards/reward_func/mean": 0.59375,
+      "rewards/reward_func/std": 0.5475644469261169,
+      "sampling/importance_sampling_ratio/max": 1.7427366971969604,
+      "sampling/importance_sampling_ratio/mean": 1.1339176893234253,
+      "sampling/importance_sampling_ratio/min": 0.7268555760383606,
+      "sampling/sampling_logp_difference/max": 0.3699074983596802,
+      "sampling/sampling_logp_difference/mean": 0.02840990573167801,
+      "step": 305,
+      "step_time": 38.05158003201359
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 68.0,
+      "completions/max_terminated_length": 68.0,
+      "completions/mean_length": 44.75,
+      "completions/mean_terminated_length": 44.75,
+      "completions/min_length": 32.0,
+      "completions/min_terminated_length": 32.0,
+      "entropy": 0.3475850224494934,
+      "epoch": 0.612,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3732694387435913,
+      "kl": 0.05851783603429794,
+      "learning_rate": 4.072252004459612e-06,
+      "loss": -0.4087,
+      "num_tokens": 1706255.0,
+      "reward": 0.4462500214576721,
+      "reward_std": 0.5143392086029053,
+      "rewards/reward_func/mean": 0.4462500214576721,
+      "rewards/reward_func/std": 0.5704118609428406,
+      "sampling/importance_sampling_ratio/max": 2.909179925918579,
+      "sampling/importance_sampling_ratio/mean": 1.355375051498413,
+      "sampling/importance_sampling_ratio/min": 0.4884859621524811,
+      "sampling/sampling_logp_difference/max": 0.7288825511932373,
+      "sampling/sampling_logp_difference/mean": 0.031946711242198944,
+      "step": 306,
+      "step_time": 56.35153491600067
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 66.0,
+      "completions/max_terminated_length": 66.0,
+      "completions/mean_length": 44.375,
+      "completions/mean_terminated_length": 44.375,
+      "completions/min_length": 30.0,
+      "completions/min_terminated_length": 30.0,
+      "entropy": 0.37247800827026367,
+      "epoch": 0.614,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.049514889717102,
+      "kl": 0.05375540256500244,
+      "learning_rate": 4.065948555730405e-06,
+      "loss": 0.1078,
+      "num_tokens": 1712211.0,
+      "reward": 0.45625001192092896,
+      "reward_std": 0.6163418889045715,
+      "rewards/reward_func/mean": 0.45625001192092896,
+      "rewards/reward_func/std": 0.5708875060081482,
+      "sampling/importance_sampling_ratio/max": 1.4518539905548096,
+      "sampling/importance_sampling_ratio/mean": 0.7474272847175598,
+      "sampling/importance_sampling_ratio/min": 0.3841031789779663,
+      "sampling/sampling_logp_difference/max": 0.5305154323577881,
+      "sampling/sampling_logp_difference/mean": 0.030646320432424545,
+      "step": 307,
+      "step_time": 66.77364812800079
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 56.0,
+      "completions/max_terminated_length": 56.0,
+      "completions/mean_length": 46.25,
+      "completions/mean_terminated_length": 46.25,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.3100343346595764,
+      "epoch": 0.616,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0289682149887085,
+      "kl": 0.052720747888088226,
+      "learning_rate": 4.059628680941843e-06,
+      "loss": 0.0498,
+      "num_tokens": 1717818.0,
+      "reward": 0.21125000715255737,
+      "reward_std": 0.29770827293395996,
+      "rewards/reward_func/mean": 0.21125000715255737,
+      "rewards/reward_func/std": 0.4665508270263672,
+      "sampling/importance_sampling_ratio/max": 1.2022721767425537,
+      "sampling/importance_sampling_ratio/mean": 0.9475799202919006,
+      "sampling/importance_sampling_ratio/min": 0.5206012725830078,
+      "sampling/sampling_logp_difference/max": 0.5640921592712402,
+      "sampling/sampling_logp_difference/mean": 0.03175481781363487,
+      "step": 308,
+      "step_time": 52.89879798798938
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 69.0,
+      "completions/max_terminated_length": 69.0,
+      "completions/mean_length": 44.625,
+      "completions/mean_terminated_length": 44.625,
+      "completions/min_length": 32.0,
+      "completions/min_terminated_length": 32.0,
+      "entropy": 0.392910361289978,
+      "epoch": 0.618,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1463991403579712,
+      "kl": 0.09175321459770203,
+      "learning_rate": 4.053292446386422e-06,
+      "loss": 0.103,
+      "num_tokens": 1722948.0,
+      "reward": 0.32750001549720764,
+      "reward_std": 0.5502669811248779,
+      "rewards/reward_func/mean": 0.32750001549720764,
+      "rewards/reward_func/std": 0.5303031802177429,
+      "sampling/importance_sampling_ratio/max": 1.6144081354141235,
+      "sampling/importance_sampling_ratio/mean": 0.8773033022880554,
+      "sampling/importance_sampling_ratio/min": 0.24481238424777985,
+      "sampling/sampling_logp_difference/max": 0.6958191394805908,
+      "sampling/sampling_logp_difference/mean": 0.03132324665784836,
+      "step": 309,
+      "step_time": 62.81438364399946
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.0,
+      "completions/max_terminated_length": 61.0,
+      "completions/mean_length": 43.375,
+      "completions/mean_terminated_length": 43.375,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.3314189910888672,
+      "epoch": 0.62,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1365076303482056,
+      "kl": 0.045356642454862595,
+      "learning_rate": 4.046939918528243e-06,
+      "loss": -0.0211,
+      "num_tokens": 1728875.0,
+      "reward": -0.04874999821186066,
+      "reward_std": 0.03686491772532463,
+      "rewards/reward_func/mean": -0.04874999821186066,
+      "rewards/reward_func/std": 0.03482097014784813,
+      "sampling/importance_sampling_ratio/max": 1.382016897201538,
+      "sampling/importance_sampling_ratio/mean": 0.8258918523788452,
+      "sampling/importance_sampling_ratio/min": 0.43768084049224854,
+      "sampling/sampling_logp_difference/max": 0.34904003143310547,
+      "sampling/sampling_logp_difference/mean": 0.02661317214369774,
+      "step": 310,
+      "step_time": 84.43736876899493
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 49.0,
+      "completions/max_terminated_length": 49.0,
+      "completions/mean_length": 42.0,
+      "completions/mean_terminated_length": 42.0,
+      "completions/min_length": 28.0,
+      "completions/min_terminated_length": 28.0,
+      "entropy": 0.342917263507843,
+      "epoch": 0.622,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4713886976242065,
+      "kl": 0.060660719871520996,
+      "learning_rate": 4.040571164002319e-06,
+      "loss": 0.0434,
+      "num_tokens": 1734842.0,
+      "reward": 0.3512499928474426,
+      "reward_std": 0.5479995012283325,
+      "rewards/reward_func/mean": 0.3512499928474426,
+      "rewards/reward_func/std": 0.5240620970726013,
+      "sampling/importance_sampling_ratio/max": 1.7727338075637817,
+      "sampling/importance_sampling_ratio/mean": 0.9686833024024963,
+      "sampling/importance_sampling_ratio/min": 0.39146628975868225,
+      "sampling/sampling_logp_difference/max": 0.700446605682373,
+      "sampling/sampling_logp_difference/mean": 0.029514621943235397,
+      "step": 311,
+      "step_time": 68.79045250298805
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 53.0,
+      "completions/max_terminated_length": 53.0,
+      "completions/mean_length": 41.5,
+      "completions/mean_terminated_length": 41.5,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.3210405707359314,
+      "epoch": 0.624,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8161787390708923,
+      "kl": 0.04533413052558899,
+      "learning_rate": 4.034186249613869e-06,
+      "loss": 0.137,
+      "num_tokens": 1740368.0,
+      "reward": 0.0637500062584877,
+      "reward_std": 0.2749331593513489,
+      "rewards/reward_func/mean": 0.0637500062584877,
+      "rewards/reward_func/std": 0.3796215355396271,
+      "sampling/importance_sampling_ratio/max": 1.1369949579238892,
+      "sampling/importance_sampling_ratio/mean": 0.693924069404602,
+      "sampling/importance_sampling_ratio/min": 0.3688696622848511,
+      "sampling/sampling_logp_difference/max": 0.5726242065429688,
+      "sampling/sampling_logp_difference/mean": 0.02921966463327408,
+      "step": 312,
+      "step_time": 74.01787159900414
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 50.0,
+      "completions/max_terminated_length": 50.0,
+      "completions/mean_length": 40.625,
+      "completions/mean_terminated_length": 40.625,
+      "completions/min_length": 23.0,
+      "completions/min_terminated_length": 23.0,
+      "entropy": 0.3051733076572418,
+      "epoch": 0.626,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9667705297470093,
+      "kl": 0.04298641160130501,
+      "learning_rate": 4.027785242337626e-06,
+      "loss": 0.0425,
+      "num_tokens": 1745737.0,
+      "reward": 0.4637500047683716,
+      "reward_std": 0.6106890439987183,
+      "rewards/reward_func/mean": 0.4637500047683716,
+      "rewards/reward_func/std": 0.5657343864440918,
+      "sampling/importance_sampling_ratio/max": 1.2044254541397095,
+      "sampling/importance_sampling_ratio/mean": 0.7017180919647217,
+      "sampling/importance_sampling_ratio/min": 0.41121870279312134,
+      "sampling/sampling_logp_difference/max": 0.5601418018341064,
+      "sampling/sampling_logp_difference/mean": 0.03372935950756073,
+      "step": 313,
+      "step_time": 56.49958878697362
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.0,
+      "completions/max_terminated_length": 61.0,
+      "completions/mean_length": 47.875,
+      "completions/mean_terminated_length": 47.875,
+      "completions/min_length": 32.0,
+      "completions/min_terminated_length": 32.0,
+      "entropy": 0.37881386280059814,
+      "epoch": 0.628,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9144023060798645,
+      "kl": 0.03883805125951767,
+      "learning_rate": 4.021368209317126e-06,
+      "loss": 0.0706,
+      "num_tokens": 1750627.0,
+      "reward": 0.3125,
+      "reward_std": 0.5669680833816528,
+      "rewards/reward_func/mean": 0.3125,
+      "rewards/reward_func/std": 0.5413936972618103,
+      "sampling/importance_sampling_ratio/max": 1.3021681308746338,
+      "sampling/importance_sampling_ratio/mean": 0.6122154593467712,
+      "sampling/importance_sampling_ratio/min": 0.0,
+      "sampling/sampling_logp_difference/max": 0.7377749681472778,
+      "sampling/sampling_logp_difference/mean": 0.03731653094291687,
+      "step": 314,
+      "step_time": 64.65534779199515
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.0,
+      "completions/max_terminated_length": 61.0,
+      "completions/mean_length": 44.375,
+      "completions/mean_terminated_length": 44.375,
+      "completions/min_length": 24.0,
+      "completions/min_terminated_length": 24.0,
+      "entropy": 0.322407066822052,
+      "epoch": 0.63,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.6095478534698486,
+      "kl": 0.06635308265686035,
+      "learning_rate": 4.014935217864009e-06,
+      "loss": 0.0829,
+      "num_tokens": 1756143.0,
+      "reward": 0.3400000333786011,
+      "reward_std": 0.5607088804244995,
+      "rewards/reward_func/mean": 0.3400000333786011,
+      "rewards/reward_func/std": 0.5389142632484436,
+      "sampling/importance_sampling_ratio/max": 2.9857375621795654,
+      "sampling/importance_sampling_ratio/mean": 1.097962737083435,
+      "sampling/importance_sampling_ratio/min": 0.29625648260116577,
+      "sampling/sampling_logp_difference/max": 0.9051809310913086,
+      "sampling/sampling_logp_difference/mean": 0.030315592885017395,
+      "step": 315,
+      "step_time": 75.3316736620036
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 70.0,
+      "completions/max_terminated_length": 70.0,
+      "completions/mean_length": 49.0,
+      "completions/mean_terminated_length": 49.0,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.354464590549469,
+      "epoch": 0.632,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.7500587701797485,
+      "kl": 0.041008904576301575,
+      "learning_rate": 4.008486335457312e-06,
+      "loss": 0.2378,
+      "num_tokens": 1761628.0,
+      "reward": 0.0949999988079071,
+      "reward_std": 0.28850340843200684,
+      "rewards/reward_func/mean": 0.0949999988079071,
+      "rewards/reward_func/std": 0.3677732050418854,
+      "sampling/importance_sampling_ratio/max": 1.8479022979736328,
+      "sampling/importance_sampling_ratio/mean": 0.8248315453529358,
+      "sampling/importance_sampling_ratio/min": 0.3391701281070709,
+      "sampling/sampling_logp_difference/max": 0.9850505590438843,
+      "sampling/sampling_logp_difference/mean": 0.026787061244249344,
+      "step": 316,
+      "step_time": 72.44107799098128
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 60.0,
+      "completions/max_terminated_length": 60.0,
+      "completions/mean_length": 46.625,
+      "completions/mean_terminated_length": 46.625,
+      "completions/min_length": 31.0,
+      "completions/min_terminated_length": 31.0,
+      "entropy": 0.37994247674942017,
+      "epoch": 0.634,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.623810052871704,
+      "kl": 0.03418804332613945,
+      "learning_rate": 4.002021629742759e-06,
+      "loss": -0.0948,
+      "num_tokens": 1767506.0,
+      "reward": 0.07000000029802322,
+      "reward_std": 0.2821284532546997,
+      "rewards/reward_func/mean": 0.07000000029802322,
+      "rewards/reward_func/std": 0.37405118346214294,
+      "sampling/importance_sampling_ratio/max": 2.5057566165924072,
+      "sampling/importance_sampling_ratio/mean": 1.1749823093414307,
+      "sampling/importance_sampling_ratio/min": 0.4858405590057373,
+      "sampling/sampling_logp_difference/max": 0.3556022644042969,
+      "sampling/sampling_logp_difference/mean": 0.03094809502363205,
+      "step": 317,
+      "step_time": 73.08309103900683
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 51.0,
+      "completions/max_terminated_length": 51.0,
+      "completions/mean_length": 43.125,
+      "completions/mean_terminated_length": 43.125,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.3214326500892639,
+      "epoch": 0.636,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.192352294921875,
+      "kl": 0.05013597011566162,
+      "learning_rate": 3.995541168532055e-06,
+      "loss": 0.1681,
+      "num_tokens": 1772800.0,
+      "reward": 0.21500001847743988,
+      "reward_std": 0.30573850870132446,
+      "rewards/reward_func/mean": 0.21500001847743988,
+      "rewards/reward_func/std": 0.47563493251800537,
+      "sampling/importance_sampling_ratio/max": 2.769392967224121,
+      "sampling/importance_sampling_ratio/mean": 1.9062137603759766,
+      "sampling/importance_sampling_ratio/min": 0.9690021276473999,
+      "sampling/sampling_logp_difference/max": 0.4255542755126953,
+      "sampling/sampling_logp_difference/mean": 0.029431238770484924,
+      "step": 318,
+      "step_time": 78.88887128600618
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 69.0,
+      "completions/max_terminated_length": 69.0,
+      "completions/mean_length": 46.125,
+      "completions/mean_terminated_length": 46.125,
+      "completions/min_length": 31.0,
+      "completions/min_terminated_length": 31.0,
+      "entropy": 0.3768948018550873,
+      "epoch": 0.638,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.7573028802871704,
+      "kl": 0.041640929877758026,
+      "learning_rate": 3.989045019802171e-06,
+      "loss": -0.0145,
+      "num_tokens": 1778980.0,
+      "reward": 0.19999998807907104,
+      "reward_std": 0.31466037034988403,
+      "rewards/reward_func/mean": 0.19999998807907104,
+      "rewards/reward_func/std": 0.46757736802101135,
+      "sampling/importance_sampling_ratio/max": 2.0911169052124023,
+      "sampling/importance_sampling_ratio/mean": 1.2725701332092285,
+      "sampling/importance_sampling_ratio/min": 0.7229686379432678,
+      "sampling/sampling_logp_difference/max": 0.35713261365890503,
+      "sampling/sampling_logp_difference/mean": 0.030360868200659752,
+      "step": 319,
+      "step_time": 77.96896261701477
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 68.0,
+      "completions/max_terminated_length": 68.0,
+      "completions/mean_length": 50.75,
+      "completions/mean_terminated_length": 50.75,
+      "completions/min_length": 29.0,
+      "completions/min_terminated_length": 29.0,
+      "entropy": 0.36589163541793823,
+      "epoch": 0.64,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2818424701690674,
+      "kl": 0.03474745154380798,
+      "learning_rate": 3.982533251694632e-06,
+      "loss": -0.3233,
+      "num_tokens": 1785246.0,
+      "reward": 0.21000000834465027,
+      "reward_std": 0.308533251285553,
+      "rewards/reward_func/mean": 0.21000000834465027,
+      "rewards/reward_func/std": 0.4801190495491028,
+      "sampling/importance_sampling_ratio/max": 1.9405113458633423,
+      "sampling/importance_sampling_ratio/mean": 1.1001548767089844,
+      "sampling/importance_sampling_ratio/min": 0.4418053925037384,
+      "sampling/sampling_logp_difference/max": 0.6586148738861084,
+      "sampling/sampling_logp_difference/mean": 0.02688867226243019,
+      "step": 320,
+      "step_time": 76.73345412599156
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 59.0,
+      "completions/max_terminated_length": 59.0,
+      "completions/mean_length": 45.25,
+      "completions/mean_terminated_length": 45.25,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.29908668994903564,
+      "epoch": 0.642,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0722907781600952,
+      "kl": 0.05384838581085205,
+      "learning_rate": 3.976005932514807e-06,
+      "loss": -0.0787,
+      "num_tokens": 1790214.0,
+      "reward": 0.45875000953674316,
+      "reward_std": 0.5092880129814148,
+      "rewards/reward_func/mean": 0.45875000953674316,
+      "rewards/reward_func/std": 0.5402231812477112,
+      "sampling/importance_sampling_ratio/max": 2.0527751445770264,
+      "sampling/importance_sampling_ratio/mean": 1.0192339420318604,
+      "sampling/importance_sampling_ratio/min": 0.3669769763946533,
+      "sampling/sampling_logp_difference/max": 0.6636786460876465,
+      "sampling/sampling_logp_difference/mean": 0.02793467789888382,
+      "step": 321,
+      "step_time": 52.20804076900822
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 63.0,
+      "completions/max_terminated_length": 63.0,
+      "completions/mean_length": 49.875,
+      "completions/mean_terminated_length": 49.875,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.35425591468811035,
+      "epoch": 0.644,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0075650215148926,
+      "kl": 0.07112079858779907,
+      "learning_rate": 3.969463130731183e-06,
+      "loss": -0.2281,
+      "num_tokens": 1796411.0,
+      "reward": 0.48625001311302185,
+      "reward_std": 0.5877156257629395,
+      "rewards/reward_func/mean": 0.48625001311302185,
+      "rewards/reward_func/std": 0.5441622138023376,
+      "sampling/importance_sampling_ratio/max": 2.1321513652801514,
+      "sampling/importance_sampling_ratio/mean": 0.815255343914032,
+      "sampling/importance_sampling_ratio/min": 0.3492589294910431,
+      "sampling/sampling_logp_difference/max": 0.6331918239593506,
+      "sampling/sampling_logp_difference/mean": 0.02603982575237751,
+      "step": 322,
+      "step_time": 75.52292313199723
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 54.0,
+      "completions/max_terminated_length": 54.0,
+      "completions/mean_length": 44.125,
+      "completions/mean_terminated_length": 44.125,
+      "completions/min_length": 25.0,
+      "completions/min_terminated_length": 25.0,
+      "entropy": 0.31836074590682983,
+      "epoch": 0.646,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4238131046295166,
+      "kl": 0.046384476125240326,
+      "learning_rate": 3.962904914974656e-06,
+      "loss": 0.0372,
+      "num_tokens": 1801901.0,
+      "reward": 0.35374999046325684,
+      "reward_std": 0.5490298271179199,
+      "rewards/reward_func/mean": 0.35374999046325684,
+      "rewards/reward_func/std": 0.5245934128761292,
+      "sampling/importance_sampling_ratio/max": 1.4118305444717407,
+      "sampling/importance_sampling_ratio/mean": 0.8808070421218872,
+      "sampling/importance_sampling_ratio/min": 0.5332664847373962,
+      "sampling/sampling_logp_difference/max": 0.8431804180145264,
+      "sampling/sampling_logp_difference/mean": 0.028243277221918106,
+      "step": 323,
+      "step_time": 68.1251233840012
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 56.0,
+      "completions/max_terminated_length": 56.0,
+      "completions/mean_length": 43.25,
+      "completions/mean_terminated_length": 43.25,
+      "completions/min_length": 29.0,
+      "completions/min_terminated_length": 29.0,
+      "entropy": 0.31607919931411743,
+      "epoch": 0.648,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3807119131088257,
+      "kl": 0.07309075444936752,
+      "learning_rate": 3.956331354037805e-06,
+      "loss": -0.0479,
+      "num_tokens": 1806905.0,
+      "reward": 0.21124999225139618,
+      "reward_std": 0.3054782450199127,
+      "rewards/reward_func/mean": 0.21124999225139618,
+      "rewards/reward_func/std": 0.4696028232574463,
+      "sampling/importance_sampling_ratio/max": 1.787608027458191,
+      "sampling/importance_sampling_ratio/mean": 1.0451674461364746,
+      "sampling/importance_sampling_ratio/min": 0.46881166100502014,
+      "sampling/sampling_logp_difference/max": 0.5253305435180664,
+      "sampling/sampling_logp_difference/mean": 0.029314052313566208,
+      "step": 324,
+      "step_time": 59.86747224899591
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.0,
+      "completions/max_terminated_length": 65.0,
+      "completions/mean_length": 47.375,
+      "completions/mean_terminated_length": 47.375,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.3600061535835266,
+      "epoch": 0.65,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.817853569984436,
+      "kl": 0.09967118501663208,
+      "learning_rate": 3.949742516874175e-06,
+      "loss": 0.2608,
+      "num_tokens": 1812735.0,
+      "reward": 0.20499999821186066,
+      "reward_std": 0.3137704133987427,
+      "rewards/reward_func/mean": 0.20499999821186066,
+      "rewards/reward_func/std": 0.47461265325546265,
+      "sampling/importance_sampling_ratio/max": 2.5692901611328125,
+      "sampling/importance_sampling_ratio/mean": 0.9470885992050171,
+      "sampling/importance_sampling_ratio/min": 0.3106057047843933,
+      "sampling/sampling_logp_difference/max": 0.8942482471466064,
+      "sampling/sampling_logp_difference/mean": 0.03815475106239319,
+      "step": 325,
+      "step_time": 61.724708480003756
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 52.0,
+      "completions/max_terminated_length": 52.0,
+      "completions/mean_length": 41.125,
+      "completions/mean_terminated_length": 41.125,
+      "completions/min_length": 27.0,
+      "completions/min_terminated_length": 27.0,
+      "entropy": 0.3302639126777649,
+      "epoch": 0.652,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.5889121294021606,
+      "kl": 0.032158948481082916,
+      "learning_rate": 3.943138472597549e-06,
+      "loss": 0.0395,
+      "num_tokens": 1817852.0,
+      "reward": 0.08499999344348907,
+      "reward_std": 0.28810441493988037,
+      "rewards/reward_func/mean": 0.08499999344348907,
+      "rewards/reward_func/std": 0.37232860922813416,
+      "sampling/importance_sampling_ratio/max": 2.248680830001831,
+      "sampling/importance_sampling_ratio/mean": 1.1071228981018066,
+      "sampling/importance_sampling_ratio/min": 0.4287269413471222,
+      "sampling/sampling_logp_difference/max": 0.4500095844268799,
+      "sampling/sampling_logp_difference/mean": 0.03271816670894623,
+      "step": 326,
+      "step_time": 78.85871165001299
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 58.0,
+      "completions/max_terminated_length": 58.0,
+      "completions/mean_length": 41.875,
+      "completions/mean_terminated_length": 41.875,
+      "completions/min_length": 30.0,
+      "completions/min_terminated_length": 30.0,
+      "entropy": 0.3419029712677002,
+      "epoch": 0.654,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.6311590671539307,
+      "kl": 0.047403544187545776,
+      "learning_rate": 3.936519290481226e-06,
+      "loss": -0.2247,
+      "num_tokens": 1823582.0,
+      "reward": 0.19874998927116394,
+      "reward_std": 0.518446683883667,
+      "rewards/reward_func/mean": 0.19874998927116394,
+      "rewards/reward_func/std": 0.48034030199050903,
+      "sampling/importance_sampling_ratio/max": 1.9648873805999756,
+      "sampling/importance_sampling_ratio/mean": 1.09955632686615,
+      "sampling/importance_sampling_ratio/min": 0.5106386542320251,
+      "sampling/sampling_logp_difference/max": 0.47838133573532104,
+      "sampling/sampling_logp_difference/mean": 0.03344731032848358,
+      "step": 327,
+      "step_time": 74.20873203998781
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.0,
+      "completions/max_terminated_length": 61.0,
+      "completions/mean_length": 49.25,
+      "completions/mean_terminated_length": 49.25,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.31387221813201904,
+      "epoch": 0.656,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.6050386428833008,
+      "kl": 0.0334724560379982,
+      "learning_rate": 3.929885039957296e-06,
+      "loss": 0.1015,
+      "num_tokens": 1828698.0,
+      "reward": 0.1899999976158142,
+      "reward_std": 0.33716854453086853,
+      "rewards/reward_func/mean": 0.1899999976158142,
+      "rewards/reward_func/std": 0.4895770847797394,
+      "sampling/importance_sampling_ratio/max": 1.870469570159912,
+      "sampling/importance_sampling_ratio/mean": 0.8102731108665466,
+      "sampling/importance_sampling_ratio/min": 0.3841648995876312,
+      "sampling/sampling_logp_difference/max": 0.6972520351409912,
+      "sampling/sampling_logp_difference/mean": 0.02928170934319496,
+      "step": 328,
+      "step_time": 132.74387937001302
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 68.0,
+      "completions/max_terminated_length": 68.0,
+      "completions/mean_length": 50.625,
+      "completions/mean_terminated_length": 50.625,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.33447951078414917,
+      "epoch": 0.658,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.379056453704834,
+      "kl": 0.03984800726175308,
+      "learning_rate": 3.923235790615907e-06,
+      "loss": -0.1686,
+      "num_tokens": 1834063.0,
+      "reward": 0.21125000715255737,
+      "reward_std": 0.506218671798706,
+      "rewards/reward_func/mean": 0.21125000715255737,
+      "rewards/reward_func/std": 0.46896353363990784,
+      "sampling/importance_sampling_ratio/max": 1.307706594467163,
+      "sampling/importance_sampling_ratio/mean": 0.8228154182434082,
+      "sampling/importance_sampling_ratio/min": 0.5563095211982727,
+      "sampling/sampling_logp_difference/max": 0.5035196542739868,
+      "sampling/sampling_logp_difference/mean": 0.025627177208662033,
+      "step": 329,
+      "step_time": 143.56957943798625
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 47.0,
+      "completions/max_terminated_length": 47.0,
+      "completions/mean_length": 39.125,
+      "completions/mean_terminated_length": 39.125,
+      "completions/min_length": 23.0,
+      "completions/min_terminated_length": 23.0,
+      "entropy": 0.3598230183124542,
+      "epoch": 0.66,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.37947416305542,
+      "kl": 0.0858326181769371,
+      "learning_rate": 3.916571612204538e-06,
+      "loss": -0.1299,
+      "num_tokens": 1839339.0,
+      "reward": 0.21250000596046448,
+      "reward_std": 0.5239397287368774,
+      "rewards/reward_func/mean": 0.21250000596046448,
+      "rewards/reward_func/std": 0.4850846827030182,
+      "sampling/importance_sampling_ratio/max": 1.8522554636001587,
+      "sampling/importance_sampling_ratio/mean": 1.0172133445739746,
+      "sampling/importance_sampling_ratio/min": 0.35823509097099304,
+      "sampling/sampling_logp_difference/max": 0.7279484272003174,
+      "sampling/sampling_logp_difference/mean": 0.03425194323062897,
+      "step": 330,
+      "step_time": 138.2842517439858
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 63.0,
+      "completions/max_terminated_length": 63.0,
+      "completions/mean_length": 42.0,
+      "completions/mean_terminated_length": 42.0,
+      "completions/min_length": 31.0,
+      "completions/min_terminated_length": 31.0,
+      "entropy": 0.3195509910583496,
+      "epoch": 0.662,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.0245273113250732,
+      "kl": 0.04566916078329086,
+      "learning_rate": 3.909892574627267e-06,
+      "loss": -0.0532,
+      "num_tokens": 1845149.0,
+      "reward": 0.3187499940395355,
+      "reward_std": 0.5860832333564758,
+      "rewards/reward_func/mean": 0.3187499940395355,
+      "rewards/reward_func/std": 0.56430584192276,
+      "sampling/importance_sampling_ratio/max": 2.2832202911376953,
+      "sampling/importance_sampling_ratio/mean": 1.1496918201446533,
+      "sampling/importance_sampling_ratio/min": 0.5304498672485352,
+      "sampling/sampling_logp_difference/max": 0.8081755638122559,
+      "sampling/sampling_logp_difference/mean": 0.028967654332518578,
+      "step": 331,
+      "step_time": 137.66897978598718
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 71.0,
+      "completions/max_terminated_length": 71.0,
+      "completions/mean_length": 49.625,
+      "completions/mean_terminated_length": 49.625,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.32289984822273254,
+      "epoch": 0.664,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8185482025146484,
+      "kl": 0.10041403025388718,
+      "learning_rate": 3.903198747944037e-06,
+      "loss": 0.1168,
+      "num_tokens": 1850899.0,
+      "reward": 0.22624999284744263,
+      "reward_std": 0.3100869655609131,
+      "rewards/reward_func/mean": 0.22624999284744263,
+      "rewards/reward_func/std": 0.47853758931159973,
+      "sampling/importance_sampling_ratio/max": 1.338444471359253,
+      "sampling/importance_sampling_ratio/mean": 0.8065738677978516,
+      "sampling/importance_sampling_ratio/min": 0.3798188865184784,
+      "sampling/sampling_logp_difference/max": 0.8146078586578369,
+      "sampling/sampling_logp_difference/mean": 0.02689986675977707,
+      "step": 332,
+      "step_time": 131.41008436502307
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 56.0,
+      "completions/max_terminated_length": 56.0,
+      "completions/mean_length": 46.375,
+      "completions/mean_terminated_length": 46.375,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.3707420527935028,
+      "epoch": 0.666,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2363697290420532,
+      "kl": 0.03508942574262619,
+      "learning_rate": 3.896490202369924e-06,
+      "loss": 0.0616,
+      "num_tokens": 1856034.0,
+      "reward": 0.32124999165534973,
+      "reward_std": 0.5887609720230103,
+      "rewards/reward_func/mean": 0.32124999165534973,
+      "rewards/reward_func/std": 0.563393771648407,
+      "sampling/importance_sampling_ratio/max": 1.6524691581726074,
+      "sampling/importance_sampling_ratio/mean": 0.8412412405014038,
+      "sampling/importance_sampling_ratio/min": 0.23496931791305542,
+      "sampling/sampling_logp_difference/max": 0.6445038318634033,
+      "sampling/sampling_logp_difference/mean": 0.03339887410402298,
+      "step": 333,
+      "step_time": 111.69739279698115
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 82.0,
+      "completions/max_terminated_length": 82.0,
+      "completions/mean_length": 53.75,
+      "completions/mean_terminated_length": 53.75,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.33553531765937805,
+      "epoch": 0.668,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9219703674316406,
+      "kl": 0.09176594018936157,
+      "learning_rate": 3.889767008274396e-06,
+      "loss": 0.2604,
+      "num_tokens": 1861621.0,
+      "reward": 0.3537500202655792,
+      "reward_std": 0.5339703559875488,
+      "rewards/reward_func/mean": 0.3537500202655792,
+      "rewards/reward_func/std": 0.5136407017707825,
+      "sampling/importance_sampling_ratio/max": 1.8493578433990479,
+      "sampling/importance_sampling_ratio/mean": 1.008284091949463,
+      "sampling/importance_sampling_ratio/min": 0.41284075379371643,
+      "sampling/sampling_logp_difference/max": 0.6564333438873291,
+      "sampling/sampling_logp_difference/mean": 0.025348259136080742,
+      "step": 334,
+      "step_time": 143.32291307201376
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 47.0,
+      "completions/max_terminated_length": 47.0,
+      "completions/mean_length": 39.625,
+      "completions/mean_terminated_length": 39.625,
+      "completions/min_length": 29.0,
+      "completions/min_terminated_length": 29.0,
+      "entropy": 0.3513152301311493,
+      "epoch": 0.67,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9763464331626892,
+      "kl": 0.06704329699277878,
+      "learning_rate": 3.883029236180577e-06,
+      "loss": -0.1172,
+      "num_tokens": 1867778.0,
+      "reward": 0.35374999046325684,
+      "reward_std": 0.2704784870147705,
+      "rewards/reward_func/mean": 0.35374999046325684,
+      "rewards/reward_func/std": 0.5355620980262756,
+      "sampling/importance_sampling_ratio/max": 1.107627272605896,
+      "sampling/importance_sampling_ratio/mean": 0.7351757287979126,
+      "sampling/importance_sampling_ratio/min": 0.19063004851341248,
+      "sampling/sampling_logp_difference/max": 0.8456048965454102,
+      "sampling/sampling_logp_difference/mean": 0.033929385244846344,
+      "step": 335,
+      "step_time": 103.19867493197671
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 55.0,
+      "completions/max_terminated_length": 55.0,
+      "completions/mean_length": 41.875,
+      "completions/mean_terminated_length": 41.875,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.31681621074676514,
+      "epoch": 0.672,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.7861030101776123,
+      "kl": 0.03690392151474953,
+      "learning_rate": 3.876276956764509e-06,
+      "loss": 0.2589,
+      "num_tokens": 1872931.0,
+      "reward": 0.21375000476837158,
+      "reward_std": 0.32227829098701477,
+      "rewards/reward_func/mean": 0.21375000476837158,
+      "rewards/reward_func/std": 0.4870299994945526,
+      "sampling/importance_sampling_ratio/max": 2.2250986099243164,
+      "sampling/importance_sampling_ratio/mean": 1.0775128602981567,
+      "sampling/importance_sampling_ratio/min": 0.5108433961868286,
+      "sampling/sampling_logp_difference/max": 0.35452377796173096,
+      "sampling/sampling_logp_difference/mean": 0.026147497817873955,
+      "step": 336,
+      "step_time": 108.95734459199593
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 56.0,
+      "completions/max_terminated_length": 56.0,
+      "completions/mean_length": 41.5,
+      "completions/mean_terminated_length": 41.5,
+      "completions/min_length": 29.0,
+      "completions/min_terminated_length": 29.0,
+      "entropy": 0.3189052939414978,
+      "epoch": 0.674,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.9657090902328491,
+      "kl": 0.06692003458738327,
+      "learning_rate": 3.869510240854408e-06,
+      "loss": 0.1239,
+      "num_tokens": 1878410.0,
+      "reward": 0.32249999046325684,
+      "reward_std": 0.5750815868377686,
+      "rewards/reward_func/mean": 0.32249999046325684,
+      "rewards/reward_func/std": 0.5570265650749207,
+      "sampling/importance_sampling_ratio/max": 2.461669445037842,
+      "sampling/importance_sampling_ratio/mean": 1.2536345720291138,
+      "sampling/importance_sampling_ratio/min": 0.7026631236076355,
+      "sampling/sampling_logp_difference/max": 0.595012903213501,
+      "sampling/sampling_logp_difference/mean": 0.025707338005304337,
+      "step": 337,
+      "step_time": 101.68271847401047
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 70.0,
+      "completions/max_terminated_length": 70.0,
+      "completions/mean_length": 53.625,
+      "completions/mean_terminated_length": 53.625,
+      "completions/min_length": 41.0,
+      "completions/min_terminated_length": 41.0,
+      "entropy": 0.3161134421825409,
+      "epoch": 0.676,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2771250009536743,
+      "kl": 0.017098795622587204,
+      "learning_rate": 3.862729159429921e-06,
+      "loss": -0.2422,
+      "num_tokens": 1883892.0,
+      "reward": 0.7250000238418579,
+      "reward_std": 0.49705883860588074,
+      "rewards/reward_func/mean": 0.7250000238418579,
+      "rewards/reward_func/std": 0.4603104889392853,
+      "sampling/importance_sampling_ratio/max": 2.6572251319885254,
+      "sampling/importance_sampling_ratio/mean": 1.1089489459991455,
+      "sampling/importance_sampling_ratio/min": 0.5457375645637512,
+      "sampling/sampling_logp_difference/max": 0.491180419921875,
+      "sampling/sampling_logp_difference/mean": 0.02168424054980278,
+      "step": 338,
+      "step_time": 114.0666631339991
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 54.0,
+      "completions/max_terminated_length": 54.0,
+      "completions/mean_length": 41.0,
+      "completions/mean_terminated_length": 41.0,
+      "completions/min_length": 26.0,
+      "completions/min_terminated_length": 26.0,
+      "entropy": 0.396328866481781,
+      "epoch": 0.678,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4366711378097534,
+      "kl": 0.17721709609031677,
+      "learning_rate": 3.855933783621384e-06,
+      "loss": 0.1282,
+      "num_tokens": 1889200.0,
+      "reward": 0.30000001192092896,
+      "reward_std": 0.30565518140792847,
+      "rewards/reward_func/mean": 0.30000001192092896,
+      "rewards/reward_func/std": 0.5595406293869019,
+      "sampling/importance_sampling_ratio/max": 1.7435904741287231,
+      "sampling/importance_sampling_ratio/mean": 0.9623221158981323,
+      "sampling/importance_sampling_ratio/min": 0.3996666669845581,
+      "sampling/sampling_logp_difference/max": 0.7043921947479248,
+      "sampling/sampling_logp_difference/mean": 0.03383718058466911,
+      "step": 339,
+      "step_time": 126.46415012000944
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 54.0,
+      "completions/max_terminated_length": 54.0,
+      "completions/mean_length": 44.5,
+      "completions/mean_terminated_length": 44.5,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.3627287745475769,
+      "epoch": 0.68,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1164697408676147,
+      "kl": 0.04694604501128197,
+      "learning_rate": 3.849124184709073e-06,
+      "loss": 0.0417,
+      "num_tokens": 1894511.0,
+      "reward": 0.06749999523162842,
+      "reward_std": 0.2736448645591736,
+      "rewards/reward_func/mean": 0.06749999523162842,
+      "rewards/reward_func/std": 0.3591557443141937,
+      "sampling/importance_sampling_ratio/max": 1.6633166074752808,
+      "sampling/importance_sampling_ratio/mean": 1.0712683200836182,
+      "sampling/importance_sampling_ratio/min": 0.5509455800056458,
+      "sampling/sampling_logp_difference/max": 0.3140767812728882,
+      "sampling/sampling_logp_difference/mean": 0.02482220157980919,
+      "step": 340,
+      "step_time": 162.8545896350115
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 53.0,
+      "completions/max_terminated_length": 53.0,
+      "completions/mean_length": 42.75,
+      "completions/mean_terminated_length": 42.75,
+      "completions/min_length": 29.0,
+      "completions/min_terminated_length": 29.0,
+      "entropy": 0.31078046560287476,
+      "epoch": 0.682,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.7845726013183594,
+      "kl": 0.04270056635141373,
+      "learning_rate": 3.84230043412246e-06,
+      "loss": -0.2732,
+      "num_tokens": 1900006.0,
+      "reward": 0.32625001668930054,
+      "reward_std": 0.5653538703918457,
+      "rewards/reward_func/mean": 0.32625001668930054,
+      "rewards/reward_func/std": 0.5494916439056396,
+      "sampling/importance_sampling_ratio/max": 2.5016562938690186,
+      "sampling/importance_sampling_ratio/mean": 1.0579283237457275,
+      "sampling/importance_sampling_ratio/min": 0.6514557003974915,
+      "sampling/sampling_logp_difference/max": 0.5734856128692627,
+      "sampling/sampling_logp_difference/mean": 0.029540089890360832,
+      "step": 341,
+      "step_time": 155.76240094099194
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 60.0,
+      "completions/max_terminated_length": 60.0,
+      "completions/mean_length": 43.125,
+      "completions/mean_terminated_length": 43.125,
+      "completions/min_length": 29.0,
+      "completions/min_terminated_length": 29.0,
+      "entropy": 0.3381982445716858,
+      "epoch": 0.684,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.8940988779067993,
+      "kl": 0.1022232174873352,
+      "learning_rate": 3.835462603439458e-06,
+      "loss": 0.1884,
+      "num_tokens": 1904962.0,
+      "reward": 0.21625001728534698,
+      "reward_std": 0.31474921107292175,
+      "rewards/reward_func/mean": 0.21625001728534698,
+      "rewards/reward_func/std": 0.4785973131656647,
+      "sampling/importance_sampling_ratio/max": 1.3884916305541992,
+      "sampling/importance_sampling_ratio/mean": 1.0323078632354736,
+      "sampling/importance_sampling_ratio/min": 0.5798347592353821,
+      "sampling/sampling_logp_difference/max": 0.6027919054031372,
+      "sampling/sampling_logp_difference/mean": 0.026107758283615112,
+      "step": 342,
+      "step_time": 166.86433797102654
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 51.0,
+      "completions/max_terminated_length": 51.0,
+      "completions/mean_length": 40.625,
+      "completions/mean_terminated_length": 40.625,
+      "completions/min_length": 30.0,
+      "completions/min_terminated_length": 30.0,
+      "entropy": 0.33497440814971924,
+      "epoch": 0.686,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.1610031127929688,
+      "kl": 0.09758682548999786,
+      "learning_rate": 3.828610764385676e-06,
+      "loss": -0.0412,
+      "num_tokens": 1911022.0,
+      "reward": -0.07250000536441803,
+      "reward_std": 0.054318200796842575,
+      "rewards/reward_func/mean": -0.07250000536441803,
+      "rewards/reward_func/std": 0.054967526346445084,
+      "sampling/importance_sampling_ratio/max": 1.8711848258972168,
+      "sampling/importance_sampling_ratio/mean": 1.0269144773483276,
+      "sampling/importance_sampling_ratio/min": 0.13635054230690002,
+      "sampling/sampling_logp_difference/max": 1.1250584125518799,
+      "sampling/sampling_logp_difference/mean": 0.0336228646337986,
+      "step": 343,
+      "step_time": 180.27627392599243
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 52.0,
+      "completions/max_terminated_length": 52.0,
+      "completions/mean_length": 43.5,
+      "completions/mean_terminated_length": 43.5,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.2781206965446472,
+      "epoch": 0.688,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1632080078125,
+      "kl": 0.10593483597040176,
+      "learning_rate": 3.821744988833664e-06,
+      "loss": 0.0054,
+      "num_tokens": 1916625.0,
+      "reward": 0.3199999928474426,
+      "reward_std": 0.5272395610809326,
+      "rewards/reward_func/mean": 0.3199999928474426,
+      "rewards/reward_func/std": 0.5035871863365173,
+      "sampling/importance_sampling_ratio/max": 1.4332565069198608,
+      "sampling/importance_sampling_ratio/mean": 0.9319165945053101,
+      "sampling/importance_sampling_ratio/min": 0.38523051142692566,
+      "sampling/sampling_logp_difference/max": 0.8005368709564209,
+      "sampling/sampling_logp_difference/mean": 0.020923875272274017,
+      "step": 344,
+      "step_time": 169.41366141600884
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 50.0,
+      "completions/max_terminated_length": 50.0,
+      "completions/mean_length": 39.375,
+      "completions/mean_terminated_length": 39.375,
+      "completions/min_length": 26.0,
+      "completions/min_terminated_length": 26.0,
+      "entropy": 0.2810716927051544,
+      "epoch": 0.69,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4414160251617432,
+      "kl": 0.06682641804218292,
+      "learning_rate": 3.814865348802157e-06,
+      "loss": -0.2297,
+      "num_tokens": 1921399.0,
+      "reward": 0.21000000834465027,
+      "reward_std": 0.5288327932357788,
+      "rewards/reward_func/mean": 0.21000000834465027,
+      "rewards/reward_func/std": 0.48986876010894775,
+      "sampling/importance_sampling_ratio/max": 2.1541748046875,
+      "sampling/importance_sampling_ratio/mean": 1.0254625082015991,
+      "sampling/importance_sampling_ratio/min": 0.4324725568294525,
+      "sampling/sampling_logp_difference/max": 0.8203954696655273,
+      "sampling/sampling_logp_difference/mean": 0.026356138288974762,
+      "step": 345,
+      "step_time": 129.16487764098565
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 48.0,
+      "completions/max_terminated_length": 48.0,
+      "completions/mean_length": 42.5,
+      "completions/mean_terminated_length": 42.5,
+      "completions/min_length": 28.0,
+      "completions/min_terminated_length": 28.0,
+      "entropy": 0.34982192516326904,
+      "epoch": 0.692,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2038586139678955,
+      "kl": 0.16085557639598846,
+      "learning_rate": 3.807971916455325e-06,
+      "loss": 0.0815,
+      "num_tokens": 1926202.0,
+      "reward": 0.07124999910593033,
+      "reward_std": 0.27993497252464294,
+      "rewards/reward_func/mean": 0.07124999910593033,
+      "rewards/reward_func/std": 0.3617590665817261,
+      "sampling/importance_sampling_ratio/max": 1.7573891878128052,
+      "sampling/importance_sampling_ratio/mean": 0.9032962322235107,
+      "sampling/importance_sampling_ratio/min": 0.29005834460258484,
+      "sampling/sampling_logp_difference/max": 1.3162736892700195,
+      "sampling/sampling_logp_difference/mean": 0.03286924958229065,
+      "step": 346,
+      "step_time": 146.0007931359869
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 60.0,
+      "completions/max_terminated_length": 60.0,
+      "completions/mean_length": 48.25,
+      "completions/mean_terminated_length": 48.25,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.3232361674308777,
+      "epoch": 0.694,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0941061973571777,
+      "kl": 0.026414429768919945,
+      "learning_rate": 3.8010647641020116e-06,
+      "loss": 0.1266,
+      "num_tokens": 1931733.0,
+      "reward": 0.5987499952316284,
+      "reward_std": 0.5347613096237183,
+      "rewards/reward_func/mean": 0.5987499952316284,
+      "rewards/reward_func/std": 0.5155701041221619,
+      "sampling/importance_sampling_ratio/max": 1.3389661312103271,
+      "sampling/importance_sampling_ratio/mean": 0.6809048056602478,
+      "sampling/importance_sampling_ratio/min": 0.19245320558547974,
+      "sampling/sampling_logp_difference/max": 1.0144225358963013,
+      "sampling/sampling_logp_difference/mean": 0.02918568253517151,
+      "step": 347,
+      "step_time": 71.32271579199005
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 55.0,
+      "completions/max_terminated_length": 55.0,
+      "completions/mean_length": 43.625,
+      "completions/mean_terminated_length": 43.625,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.3079647123813629,
+      "epoch": 0.696,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.154685139656067,
+      "kl": 0.09130249172449112,
+      "learning_rate": 3.794143964194976e-06,
+      "loss": -0.0868,
+      "num_tokens": 1936951.0,
+      "reward": 0.46250003576278687,
+      "reward_std": 0.5227590799331665,
+      "rewards/reward_func/mean": 0.46250003576278687,
+      "rewards/reward_func/std": 0.5515885949134827,
+      "sampling/importance_sampling_ratio/max": 1.4307719469070435,
+      "sampling/importance_sampling_ratio/mean": 0.8543438911437988,
+      "sampling/importance_sampling_ratio/min": 0.3845389783382416,
+      "sampling/sampling_logp_difference/max": 0.6325764656066895,
+      "sampling/sampling_logp_difference/mean": 0.03074759989976883,
+      "step": 348,
+      "step_time": 61.10349588000099
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 70.0,
+      "completions/max_terminated_length": 70.0,
+      "completions/mean_length": 49.5,
+      "completions/mean_terminated_length": 49.5,
+      "completions/min_length": 32.0,
+      "completions/min_terminated_length": 32.0,
+      "entropy": 0.32811909914016724,
+      "epoch": 0.698,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4756181240081787,
+      "kl": 0.07114064693450928,
+      "learning_rate": 3.7872095893301344e-06,
+      "loss": 0.232,
+      "num_tokens": 1942770.0,
+      "reward": 0.3100000023841858,
+      "reward_std": 0.31517019867897034,
+      "rewards/reward_func/mean": 0.3100000023841858,
+      "rewards/reward_func/std": 0.5469656586647034,
+      "sampling/importance_sampling_ratio/max": 1.6810601949691772,
+      "sampling/importance_sampling_ratio/mean": 0.9875794649124146,
+      "sampling/importance_sampling_ratio/min": 0.3065728545188904,
+      "sampling/sampling_logp_difference/max": 0.4949173927307129,
+      "sampling/sampling_logp_difference/mean": 0.025241130962967873,
+      "step": 349,
+      "step_time": 48.66686181901605
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 58.0,
+      "completions/max_terminated_length": 58.0,
+      "completions/mean_length": 42.25,
+      "completions/mean_terminated_length": 42.25,
+      "completions/min_length": 29.0,
+      "completions/min_terminated_length": 29.0,
+      "entropy": 0.3392306864261627,
+      "epoch": 0.7,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.145804524421692,
+      "kl": 0.03867422789335251,
+      "learning_rate": 3.7802617122457976e-06,
+      "loss": 0.0707,
+      "num_tokens": 1948625.0,
+      "reward": 0.09000000357627869,
+      "reward_std": 0.2660285234451294,
+      "rewards/reward_func/mean": 0.09000000357627869,
+      "rewards/reward_func/std": 0.3568112850189209,
+      "sampling/importance_sampling_ratio/max": 1.6579951047897339,
+      "sampling/importance_sampling_ratio/mean": 1.0459256172180176,
+      "sampling/importance_sampling_ratio/min": 0.5915707945823669,
+      "sampling/sampling_logp_difference/max": 0.4812997579574585,
+      "sampling/sampling_logp_difference/mean": 0.02722543105483055,
+      "step": 350,
+      "step_time": 76.36607002699748
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 70.0,
+      "completions/max_terminated_length": 70.0,
+      "completions/mean_length": 47.25,
+      "completions/mean_terminated_length": 47.25,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.3211192488670349,
+      "epoch": 0.702,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0469977855682373,
+      "kl": 0.027719926089048386,
+      "learning_rate": 3.773300405821908e-06,
+      "loss": -0.0345,
+      "num_tokens": 1954448.0,
+      "reward": 0.32375001907348633,
+      "reward_std": 0.281686395406723,
+      "rewards/reward_func/mean": 0.32375001907348633,
+      "rewards/reward_func/std": 0.527769923210144,
+      "sampling/importance_sampling_ratio/max": 1.9723066091537476,
+      "sampling/importance_sampling_ratio/mean": 1.1106541156768799,
+      "sampling/importance_sampling_ratio/min": 0.5282062292098999,
+      "sampling/sampling_logp_difference/max": 0.3540763854980469,
+      "sampling/sampling_logp_difference/mean": 0.02676708996295929,
+      "step": 351,
+      "step_time": 78.26852857100312
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.0,
+      "completions/max_terminated_length": 61.0,
+      "completions/mean_length": 47.875,
+      "completions/mean_terminated_length": 47.875,
+      "completions/min_length": 27.0,
+      "completions/min_terminated_length": 27.0,
+      "entropy": 0.3046337366104126,
+      "epoch": 0.704,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.208288550376892,
+      "kl": 0.03900061175227165,
+      "learning_rate": 3.766325743079277e-06,
+      "loss": -0.1125,
+      "num_tokens": 1959253.0,
+      "reward": 0.48375001549720764,
+      "reward_std": 0.5962894558906555,
+      "rewards/reward_func/mean": 0.48375001549720764,
+      "rewards/reward_func/std": 0.5521371364593506,
+      "sampling/importance_sampling_ratio/max": 1.670057773590088,
+      "sampling/importance_sampling_ratio/mean": 0.9210529327392578,
+      "sampling/importance_sampling_ratio/min": 0.5158092379570007,
+      "sampling/sampling_logp_difference/max": 0.432373046875,
+      "sampling/sampling_logp_difference/mean": 0.026169460266828537,
+      "step": 352,
+      "step_time": 46.398978653975064
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 53.0,
+      "completions/max_terminated_length": 53.0,
+      "completions/mean_length": 41.0,
+      "completions/mean_terminated_length": 41.0,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.31318768858909607,
+      "epoch": 0.706,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.743395209312439,
+      "kl": 0.0346795991063118,
+      "learning_rate": 3.7593377971788162e-06,
+      "loss": 0.1768,
+      "num_tokens": 1964058.0,
+      "reward": 0.22500000894069672,
+      "reward_std": 0.31266871094703674,
+      "rewards/reward_func/mean": 0.22500000894069672,
+      "rewards/reward_func/std": 0.4766250550746918,
+      "sampling/importance_sampling_ratio/max": 1.8619552850723267,
+      "sampling/importance_sampling_ratio/mean": 1.091329574584961,
+      "sampling/importance_sampling_ratio/min": 0.28429219126701355,
+      "sampling/sampling_logp_difference/max": 0.7750775814056396,
+      "sampling/sampling_logp_difference/mean": 0.031623724848032,
+      "step": 353,
+      "step_time": 58.123137532005785
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 73.0,
+      "completions/max_terminated_length": 73.0,
+      "completions/mean_length": 47.625,
+      "completions/mean_terminated_length": 47.625,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.35126036405563354,
+      "epoch": 0.708,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4767982959747314,
+      "kl": 0.033217888325452805,
+      "learning_rate": 3.752336641420772e-06,
+      "loss": 0.0776,
+      "num_tokens": 1968954.0,
+      "reward": 0.058750007301568985,
+      "reward_std": 0.2922004461288452,
+      "rewards/reward_func/mean": 0.058750007301568985,
+      "rewards/reward_func/std": 0.3824521601200104,
+      "sampling/importance_sampling_ratio/max": 1.434964895248413,
+      "sampling/importance_sampling_ratio/mean": 1.084316372871399,
+      "sampling/importance_sampling_ratio/min": 0.5846006870269775,
+      "sampling/sampling_logp_difference/max": 0.4179229736328125,
+      "sampling/sampling_logp_difference/mean": 0.0240701362490654,
+      "step": 354,
+      "step_time": 59.292683080013376
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 50.0,
+      "completions/max_terminated_length": 50.0,
+      "completions/mean_length": 41.5,
+      "completions/mean_terminated_length": 41.5,
+      "completions/min_length": 29.0,
+      "completions/min_terminated_length": 29.0,
+      "entropy": 0.328327476978302,
+      "epoch": 0.71,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.247985601425171,
+      "kl": 0.08559633791446686,
+      "learning_rate": 3.7453223492439544e-06,
+      "loss": 0.0737,
+      "num_tokens": 1975108.0,
+      "reward": 0.4699999988079071,
+      "reward_std": 0.5927736163139343,
+      "rewards/reward_func/mean": 0.4699999988079071,
+      "rewards/reward_func/std": 0.5489730834960938,
+      "sampling/importance_sampling_ratio/max": 1.4081599712371826,
+      "sampling/importance_sampling_ratio/mean": 0.8387018442153931,
+      "sampling/importance_sampling_ratio/min": 0.19741253554821014,
+      "sampling/sampling_logp_difference/max": 0.9286923408508301,
+      "sampling/sampling_logp_difference/mean": 0.03092752769589424,
+      "step": 355,
+      "step_time": 75.66988031598157
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 49.0,
+      "completions/max_terminated_length": 49.0,
+      "completions/mean_length": 40.0,
+      "completions/mean_terminated_length": 40.0,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.28474941849708557,
+      "epoch": 0.712,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.736219882965088,
+      "kl": 0.04625285789370537,
+      "learning_rate": 3.7382949942249695e-06,
+      "loss": 0.2333,
+      "num_tokens": 1980329.0,
+      "reward": 0.3212500214576721,
+      "reward_std": 0.5408031344413757,
+      "rewards/reward_func/mean": 0.3212500214576721,
+      "rewards/reward_func/std": 0.5195723176002502,
+      "sampling/importance_sampling_ratio/max": 2.1159582138061523,
+      "sampling/importance_sampling_ratio/mean": 1.136248230934143,
+      "sampling/importance_sampling_ratio/min": 0.0,
+      "sampling/sampling_logp_difference/max": 0.6177792549133301,
+      "sampling/sampling_logp_difference/mean": 0.02496938779950142,
+      "step": 356,
+      "step_time": 65.68752502801362
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 63.0,
+      "completions/max_terminated_length": 63.0,
+      "completions/mean_length": 50.0,
+      "completions/mean_terminated_length": 50.0,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.32189249992370605,
+      "epoch": 0.714,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1041979789733887,
+      "kl": 0.060013748705387115,
+      "learning_rate": 3.731254650077446e-06,
+      "loss": -0.0802,
+      "num_tokens": 1985708.0,
+      "reward": 0.44624999165534973,
+      "reward_std": 0.6114711165428162,
+      "rewards/reward_func/mean": 0.44624999165534973,
+      "rewards/reward_func/std": 0.5663905143737793,
+      "sampling/importance_sampling_ratio/max": 1.5184648036956787,
+      "sampling/importance_sampling_ratio/mean": 0.783623218536377,
+      "sampling/importance_sampling_ratio/min": 0.3887534737586975,
+      "sampling/sampling_logp_difference/max": 0.5213687419891357,
+      "sampling/sampling_logp_difference/mean": 0.025201398879289627,
+      "step": 357,
+      "step_time": 61.06893451101496
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 54.0,
+      "completions/max_terminated_length": 54.0,
+      "completions/mean_length": 44.625,
+      "completions/mean_terminated_length": 44.625,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.34849998354911804,
+      "epoch": 0.716,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.8569178581237793,
+      "kl": 0.10115896165370941,
+      "learning_rate": 3.724201390651263e-06,
+      "loss": 0.0172,
+      "num_tokens": 1991176.0,
+      "reward": 0.0912499949336052,
+      "reward_std": 0.27447310090065,
+      "rewards/reward_func/mean": 0.0912499949336052,
+      "rewards/reward_func/std": 0.36868250370025635,
+      "sampling/importance_sampling_ratio/max": 2.399606943130493,
+      "sampling/importance_sampling_ratio/mean": 1.0813590288162231,
+      "sampling/importance_sampling_ratio/min": 0.29478445649147034,
+      "sampling/sampling_logp_difference/max": 1.0274195671081543,
+      "sampling/sampling_logp_difference/mean": 0.03125939890742302,
+      "step": 358,
+      "step_time": 74.65547078498639
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 52.0,
+      "completions/max_terminated_length": 52.0,
+      "completions/mean_length": 40.75,
+      "completions/mean_terminated_length": 40.75,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.36881792545318604,
+      "epoch": 0.718,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.5232397317886353,
+      "kl": 0.06990374624729156,
+      "learning_rate": 3.7171352899317743e-06,
+      "loss": 0.0231,
+      "num_tokens": 1997445.0,
+      "reward": 0.2199999988079071,
+      "reward_std": 0.3053818643093109,
+      "rewards/reward_func/mean": 0.2199999988079071,
+      "rewards/reward_func/std": 0.4732864201068878,
+      "sampling/importance_sampling_ratio/max": 1.7546019554138184,
+      "sampling/importance_sampling_ratio/mean": 0.9471590518951416,
+      "sampling/importance_sampling_ratio/min": 0.46070781350135803,
+      "sampling/sampling_logp_difference/max": 0.7129201889038086,
+      "sampling/sampling_logp_difference/mean": 0.028827045112848282,
+      "step": 359,
+      "step_time": 74.88154268401559
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 69.0,
+      "completions/max_terminated_length": 69.0,
+      "completions/mean_length": 43.625,
+      "completions/mean_terminated_length": 43.625,
+      "completions/min_length": 30.0,
+      "completions/min_terminated_length": 30.0,
+      "entropy": 0.36909693479537964,
+      "epoch": 0.72,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8818954825401306,
+      "kl": 0.040109992027282715,
+      "learning_rate": 3.710056422039033e-06,
+      "loss": 0.2106,
+      "num_tokens": 2003046.0,
+      "reward": 0.3062500059604645,
+      "reward_std": 0.5747673511505127,
+      "rewards/reward_func/mean": 0.3062500059604645,
+      "rewards/reward_func/std": 0.5578514337539673,
+      "sampling/importance_sampling_ratio/max": 2.0071616172790527,
+      "sampling/importance_sampling_ratio/mean": 1.0366851091384888,
+      "sampling/importance_sampling_ratio/min": 0.5076926946640015,
+      "sampling/sampling_logp_difference/max": 0.45261478424072266,
+      "sampling/sampling_logp_difference/mean": 0.028059128671884537,
+      "step": 360,
+      "step_time": 67.58852625099826
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.0,
+      "completions/max_terminated_length": 61.0,
+      "completions/mean_length": 49.375,
+      "completions/mean_terminated_length": 49.375,
+      "completions/min_length": 40.0,
+      "completions/min_terminated_length": 40.0,
+      "entropy": 0.37454652786254883,
+      "epoch": 0.722,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1584450006484985,
+      "kl": 0.01666010171175003,
+      "learning_rate": 3.702964861227013e-06,
+      "loss": 0.0801,
+      "num_tokens": 2008281.0,
+      "reward": -0.08624999970197678,
+      "reward_std": 0.0722728967666626,
+      "rewards/reward_func/mean": -0.08624999970197678,
+      "rewards/reward_func/std": 0.06781013309955597,
+      "sampling/importance_sampling_ratio/max": 1.410200595855713,
+      "sampling/importance_sampling_ratio/mean": 0.9846078753471375,
+      "sampling/importance_sampling_ratio/min": 0.7172226309776306,
+      "sampling/sampling_logp_difference/max": 0.46905517578125,
+      "sampling/sampling_logp_difference/mean": 0.025215893983840942,
+      "step": 361,
+      "step_time": 91.82594713801518
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 52.0,
+      "completions/max_terminated_length": 52.0,
+      "completions/mean_length": 39.375,
+      "completions/mean_terminated_length": 39.375,
+      "completions/min_length": 26.0,
+      "completions/min_terminated_length": 26.0,
+      "entropy": 0.3056425154209137,
+      "epoch": 0.724,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.8975749015808105,
+      "kl": 0.11677496135234833,
+      "learning_rate": 3.695860681882832e-06,
+      "loss": 0.0079,
+      "num_tokens": 2014004.0,
+      "reward": 0.4437500238418579,
+      "reward_std": 0.6349660754203796,
+      "rewards/reward_func/mean": 0.4437500238418579,
+      "rewards/reward_func/std": 0.5882161259651184,
+      "sampling/importance_sampling_ratio/max": 2.2386791706085205,
+      "sampling/importance_sampling_ratio/mean": 1.0769392251968384,
+      "sampling/importance_sampling_ratio/min": 0.508983850479126,
+      "sampling/sampling_logp_difference/max": 0.8052873611450195,
+      "sampling/sampling_logp_difference/mean": 0.029708731919527054,
+      "step": 362,
+      "step_time": 70.66860884500784
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 55.0,
+      "completions/max_terminated_length": 55.0,
+      "completions/mean_length": 46.125,
+      "completions/mean_terminated_length": 46.125,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.3323149085044861,
+      "epoch": 0.726,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.601610541343689,
+      "kl": 0.044327329844236374,
+      "learning_rate": 3.6887439585259693e-06,
+      "loss": -0.0394,
+      "num_tokens": 2019115.0,
+      "reward": 0.19749999046325684,
+      "reward_std": 0.5344071984291077,
+      "rewards/reward_func/mean": 0.19749999046325684,
+      "rewards/reward_func/std": 0.49485206604003906,
+      "sampling/importance_sampling_ratio/max": 1.6172147989273071,
+      "sampling/importance_sampling_ratio/mean": 1.0461113452911377,
+      "sampling/importance_sampling_ratio/min": 0.661210834980011,
+      "sampling/sampling_logp_difference/max": 0.423846960067749,
+      "sampling/sampling_logp_difference/mean": 0.02795753814280033,
+      "step": 363,
+      "step_time": 64.47163575098966
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 64.0,
+      "completions/max_terminated_length": 64.0,
+      "completions/mean_length": 48.75,
+      "completions/mean_terminated_length": 48.75,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.3601047396659851,
+      "epoch": 0.728,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0017635822296143,
+      "kl": 0.026227379217743874,
+      "learning_rate": 3.6816147658074864e-06,
+      "loss": 0.0791,
+      "num_tokens": 2024411.0,
+      "reward": 0.2212499976158142,
+      "reward_std": 0.5133354663848877,
+      "rewards/reward_func/mean": 0.2212499976158142,
+      "rewards/reward_func/std": 0.4760383367538452,
+      "sampling/importance_sampling_ratio/max": 1.4538358449935913,
+      "sampling/importance_sampling_ratio/mean": 0.9334630966186523,
+      "sampling/importance_sampling_ratio/min": 0.5542329549789429,
+      "sampling/sampling_logp_difference/max": 0.3732813596725464,
+      "sampling/sampling_logp_difference/mean": 0.02371375635266304,
+      "step": 364,
+      "step_time": 62.915858155989554
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.0,
+      "completions/max_terminated_length": 65.0,
+      "completions/mean_length": 51.5,
+      "completions/mean_terminated_length": 51.5,
+      "completions/min_length": 29.0,
+      "completions/min_terminated_length": 29.0,
+      "entropy": 0.33008331060409546,
+      "epoch": 0.73,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4119970798492432,
+      "kl": 0.02246996760368347,
+      "learning_rate": 3.6744731785092396e-06,
+      "loss": 0.1875,
+      "num_tokens": 2029629.0,
+      "reward": 0.4650000333786011,
+      "reward_std": 0.4775117039680481,
+      "rewards/reward_func/mean": 0.4650000333786011,
+      "rewards/reward_func/std": 0.5166375041007996,
+      "sampling/importance_sampling_ratio/max": 1.4311546087265015,
+      "sampling/importance_sampling_ratio/mean": 0.8069183230400085,
+      "sampling/importance_sampling_ratio/min": 0.30695483088493347,
+      "sampling/sampling_logp_difference/max": 0.8008233308792114,
+      "sampling/sampling_logp_difference/mean": 0.028506487607955933,
+      "step": 365,
+      "step_time": 69.22173458198085
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 66.0,
+      "completions/max_terminated_length": 66.0,
+      "completions/mean_length": 47.625,
+      "completions/mean_terminated_length": 47.625,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.34061259031295776,
+      "epoch": 0.732,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.749092161655426,
+      "kl": 0.06381135433912277,
+      "learning_rate": 3.6673192715431016e-06,
+      "loss": 0.1062,
+      "num_tokens": 2035390.0,
+      "reward": 0.3412500023841858,
+      "reward_std": 0.5657950639724731,
+      "rewards/reward_func/mean": 0.3412500023841858,
+      "rewards/reward_func/std": 0.5442803502082825,
+      "sampling/importance_sampling_ratio/max": 1.2575000524520874,
+      "sampling/importance_sampling_ratio/mean": 0.7373183965682983,
+      "sampling/importance_sampling_ratio/min": 0.2651961147785187,
+      "sampling/sampling_logp_difference/max": 0.8941724300384521,
+      "sampling/sampling_logp_difference/mean": 0.024856336414813995,
+      "step": 366,
+      "step_time": 61.59983134100912
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 57.0,
+      "completions/max_terminated_length": 57.0,
+      "completions/mean_length": 45.75,
+      "completions/mean_terminated_length": 45.75,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.3267011046409607,
+      "epoch": 0.734,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0291807651519775,
+      "kl": 0.0357687771320343,
+      "learning_rate": 3.6601531199501715e-06,
+      "loss": 0.0779,
+      "num_tokens": 2041220.0,
+      "reward": 0.33000001311302185,
+      "reward_std": 0.5733025074005127,
+      "rewards/reward_func/mean": 0.33000001311302185,
+      "rewards/reward_func/std": 0.5529143214225769,
+      "sampling/importance_sampling_ratio/max": 1.1229214668273926,
+      "sampling/importance_sampling_ratio/mean": 0.8919734954833984,
+      "sampling/importance_sampling_ratio/min": 0.6937599778175354,
+      "sampling/sampling_logp_difference/max": 0.5363889932632446,
+      "sampling/sampling_logp_difference/mean": 0.029397767037153244,
+      "step": 367,
+      "step_time": 66.55807171101333
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 60.0,
+      "completions/max_terminated_length": 60.0,
+      "completions/mean_length": 46.0,
+      "completions/mean_terminated_length": 46.0,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.4076734185218811,
+      "epoch": 0.736,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.5241880416870117,
+      "kl": 0.04465167969465256,
+      "learning_rate": 3.652974798899988e-06,
+      "loss": -0.1161,
+      "num_tokens": 2047319.0,
+      "reward": 0.3499999940395355,
+      "reward_std": 0.5534278154373169,
+      "rewards/reward_func/mean": 0.3499999940395355,
+      "rewards/reward_func/std": 0.5284478664398193,
+      "sampling/importance_sampling_ratio/max": 1.7426992654800415,
+      "sampling/importance_sampling_ratio/mean": 0.89775550365448,
+      "sampling/importance_sampling_ratio/min": 0.49534907937049866,
+      "sampling/sampling_logp_difference/max": 0.423353910446167,
+      "sampling/sampling_logp_difference/mean": 0.027613524347543716,
+      "step": 368,
+      "step_time": 61.087412825989304
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.0,
+      "completions/max_terminated_length": 65.0,
+      "completions/mean_length": 44.5,
+      "completions/mean_terminated_length": 44.5,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.31100600957870483,
+      "epoch": 0.738,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.9741218090057373,
+      "kl": 0.041330281645059586,
+      "learning_rate": 3.645784383689742e-06,
+      "loss": -0.0427,
+      "num_tokens": 2052270.0,
+      "reward": 0.45249998569488525,
+      "reward_std": 0.6035691499710083,
+      "rewards/reward_func/mean": 0.45249998569488525,
+      "rewards/reward_func/std": 0.5591256618499756,
+      "sampling/importance_sampling_ratio/max": 1.8154767751693726,
+      "sampling/importance_sampling_ratio/mean": 1.2792425155639648,
+      "sampling/importance_sampling_ratio/min": 0.7800292372703552,
+      "sampling/sampling_logp_difference/max": 0.3694136142730713,
+      "sampling/sampling_logp_difference/mean": 0.022285200655460358,
+      "step": 369,
+      "step_time": 50.397062509000534
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 74.0,
+      "completions/max_terminated_length": 74.0,
+      "completions/mean_length": 48.375,
+      "completions/mean_terminated_length": 48.375,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.3526594042778015,
+      "epoch": 0.74,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3253847360610962,
+      "kl": 0.1274574100971222,
+      "learning_rate": 3.6385819497434877e-06,
+      "loss": -0.0685,
+      "num_tokens": 2057269.0,
+      "reward": 0.33375000953674316,
+      "reward_std": 0.5655902028083801,
+      "rewards/reward_func/mean": 0.33375000953674316,
+      "rewards/reward_func/std": 0.5493616461753845,
+      "sampling/importance_sampling_ratio/max": 1.402198076248169,
+      "sampling/importance_sampling_ratio/mean": 0.8689178824424744,
+      "sampling/importance_sampling_ratio/min": 0.3067050278186798,
+      "sampling/sampling_logp_difference/max": 0.9296143054962158,
+      "sampling/sampling_logp_difference/mean": 0.026013534516096115,
+      "step": 370,
+      "step_time": 54.17731352400733
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 64.0,
+      "completions/max_terminated_length": 64.0,
+      "completions/mean_length": 47.375,
+      "completions/mean_terminated_length": 47.375,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.32903480529785156,
+      "epoch": 0.742,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.6364682912826538,
+      "kl": 0.044946420937776566,
+      "learning_rate": 3.631367572611348e-06,
+      "loss": -0.2922,
+      "num_tokens": 2063722.0,
+      "reward": 0.3500000238418579,
+      "reward_std": 0.5495222806930542,
+      "rewards/reward_func/mean": 0.3500000238418579,
+      "rewards/reward_func/std": 0.5277445316314697,
+      "sampling/importance_sampling_ratio/max": 1.5483042001724243,
+      "sampling/importance_sampling_ratio/mean": 0.8218961954116821,
+      "sampling/importance_sampling_ratio/min": 0.41721194982528687,
+      "sampling/sampling_logp_difference/max": 0.5305330753326416,
+      "sampling/sampling_logp_difference/mean": 0.028160959482192993,
+      "step": 371,
+      "step_time": 61.68605206900975
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 59.0,
+      "completions/max_terminated_length": 59.0,
+      "completions/mean_length": 44.25,
+      "completions/mean_terminated_length": 44.25,
+      "completions/min_length": 30.0,
+      "completions/min_terminated_length": 30.0,
+      "entropy": 0.31724613904953003,
+      "epoch": 0.744,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3481601476669312,
+      "kl": 0.06961038708686829,
+      "learning_rate": 3.6241413279687256e-06,
+      "loss": 0.2308,
+      "num_tokens": 2069668.0,
+      "reward": 0.20499999821186066,
+      "reward_std": 0.3475438058376312,
+      "rewards/reward_func/mean": 0.20499999821186066,
+      "rewards/reward_func/std": 0.4931531250476837,
+      "sampling/importance_sampling_ratio/max": 1.3638176918029785,
+      "sampling/importance_sampling_ratio/mean": 0.7686522006988525,
+      "sampling/importance_sampling_ratio/min": 0.18426480889320374,
+      "sampling/sampling_logp_difference/max": 0.6221842765808105,
+      "sampling/sampling_logp_difference/mean": 0.032336391508579254,
+      "step": 372,
+      "step_time": 73.30788465001388
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 59.0,
+      "completions/max_terminated_length": 59.0,
+      "completions/mean_length": 49.875,
+      "completions/mean_terminated_length": 49.875,
+      "completions/min_length": 43.0,
+      "completions/min_terminated_length": 43.0,
+      "entropy": 0.29763156175613403,
+      "epoch": 0.746,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0755096673965454,
+      "kl": 0.02788379229605198,
+      "learning_rate": 3.616903291615506e-06,
+      "loss": 0.0231,
+      "num_tokens": 2074693.0,
+      "reward": 0.3149999976158142,
+      "reward_std": 0.5274383425712585,
+      "rewards/reward_func/mean": 0.3149999976158142,
+      "rewards/reward_func/std": 0.5020813345909119,
+      "sampling/importance_sampling_ratio/max": 1.2642863988876343,
+      "sampling/importance_sampling_ratio/mean": 0.8364578485488892,
+      "sampling/importance_sampling_ratio/min": 0.37059077620506287,
+      "sampling/sampling_logp_difference/max": 0.4319629669189453,
+      "sampling/sampling_logp_difference/mean": 0.026207586750388145,
+      "step": 373,
+      "step_time": 66.48929881799268
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 59.0,
+      "completions/max_terminated_length": 59.0,
+      "completions/mean_length": 46.125,
+      "completions/mean_terminated_length": 46.125,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.35318872332572937,
+      "epoch": 0.748,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.5173914432525635,
+      "kl": 0.024975910782814026,
+      "learning_rate": 3.609653539475268e-06,
+      "loss": -0.0445,
+      "num_tokens": 2080341.0,
+      "reward": 0.3137499988079071,
+      "reward_std": 0.3301275372505188,
+      "rewards/reward_func/mean": 0.3137499988079071,
+      "rewards/reward_func/std": 0.5643184781074524,
+      "sampling/importance_sampling_ratio/max": 1.3749171495437622,
+      "sampling/importance_sampling_ratio/mean": 0.8896816372871399,
+      "sampling/importance_sampling_ratio/min": 0.5193299651145935,
+      "sampling/sampling_logp_difference/max": 0.5717992782592773,
+      "sampling/sampling_logp_difference/mean": 0.030124176293611526,
+      "step": 374,
+      "step_time": 78.54219227202702
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 66.0,
+      "completions/max_terminated_length": 66.0,
+      "completions/mean_length": 47.0,
+      "completions/mean_terminated_length": 47.0,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.36500370502471924,
+      "epoch": 0.75,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.6961071491241455,
+      "kl": 0.21644490957260132,
+      "learning_rate": 3.6023921475944795e-06,
+      "loss": 0.2398,
+      "num_tokens": 2085708.0,
+      "reward": 0.19875000417232513,
+      "reward_std": 0.517146110534668,
+      "rewards/reward_func/mean": 0.19875000417232513,
+      "rewards/reward_func/std": 0.47908952832221985,
+      "sampling/importance_sampling_ratio/max": 2.1243157386779785,
+      "sampling/importance_sampling_ratio/mean": 0.9670206904411316,
+      "sampling/importance_sampling_ratio/min": 0.29750171303749084,
+      "sampling/sampling_logp_difference/max": 1.0457005500793457,
+      "sampling/sampling_logp_difference/mean": 0.03371373564004898,
+      "step": 375,
+      "step_time": 66.68903090100503
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 51.0,
+      "completions/max_terminated_length": 51.0,
+      "completions/mean_length": 40.25,
+      "completions/mean_terminated_length": 40.25,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.38407090306282043,
+      "epoch": 0.752,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.7444822788238525,
+      "kl": 0.07864461094141006,
+      "learning_rate": 3.5951191921417063e-06,
+      "loss": -0.0054,
+      "num_tokens": 2091007.0,
+      "reward": 0.3712500035762787,
+      "reward_std": 0.5389498472213745,
+      "rewards/reward_func/mean": 0.3712500035762787,
+      "rewards/reward_func/std": 0.5179474949836731,
+      "sampling/importance_sampling_ratio/max": 1.3411577939987183,
+      "sampling/importance_sampling_ratio/mean": 0.9035917520523071,
+      "sampling/importance_sampling_ratio/min": 0.5722795128822327,
+      "sampling/sampling_logp_difference/max": 0.6103904247283936,
+      "sampling/sampling_logp_difference/mean": 0.04205818474292755,
+      "step": 376,
+      "step_time": 62.62372294199304
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 55.0,
+      "completions/max_terminated_length": 55.0,
+      "completions/mean_length": 45.375,
+      "completions/mean_terminated_length": 45.375,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.3571351170539856,
+      "epoch": 0.754,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4393010139465332,
+      "kl": 0.05092768371105194,
+      "learning_rate": 3.5878347494068083e-06,
+      "loss": 0.0737,
+      "num_tokens": 2096885.0,
+      "reward": -0.08124999701976776,
+      "reward_std": 0.05413114279508591,
+      "rewards/reward_func/mean": -0.08124999701976776,
+      "rewards/reward_func/std": 0.05617256462574005,
+      "sampling/importance_sampling_ratio/max": 1.5597022771835327,
+      "sampling/importance_sampling_ratio/mean": 1.0888936519622803,
+      "sampling/importance_sampling_ratio/min": 0.7159003019332886,
+      "sampling/sampling_logp_difference/max": 0.7558160424232483,
+      "sampling/sampling_logp_difference/mean": 0.028478611260652542,
+      "step": 377,
+      "step_time": 78.95239180698991
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 55.0,
+      "completions/max_terminated_length": 55.0,
+      "completions/mean_length": 44.125,
+      "completions/mean_terminated_length": 44.125,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.3541492819786072,
+      "epoch": 0.756,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.104987382888794,
+      "kl": 0.06759263575077057,
+      "learning_rate": 3.580538895800144e-06,
+      "loss": -0.0204,
+      "num_tokens": 2102217.0,
+      "reward": 0.19624999165534973,
+      "reward_std": 0.5378745794296265,
+      "rewards/reward_func/mean": 0.19624999165534973,
+      "rewards/reward_func/std": 0.49805158376693726,
+      "sampling/importance_sampling_ratio/max": 0.9906109571456909,
+      "sampling/importance_sampling_ratio/mean": 0.7715339660644531,
+      "sampling/importance_sampling_ratio/min": 0.558393657207489,
+      "sampling/sampling_logp_difference/max": 0.5296880006790161,
+      "sampling/sampling_logp_difference/mean": 0.026829030364751816,
+      "step": 378,
+      "step_time": 68.67950404499425
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 55.0,
+      "completions/max_terminated_length": 55.0,
+      "completions/mean_length": 43.625,
+      "completions/mean_terminated_length": 43.625,
+      "completions/min_length": 27.0,
+      "completions/min_terminated_length": 27.0,
+      "entropy": 0.3333103060722351,
+      "epoch": 0.758,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.306211233139038,
+      "kl": 0.04187663272023201,
+      "learning_rate": 3.573231707851765e-06,
+      "loss": -0.0646,
+      "num_tokens": 2108035.0,
+      "reward": 0.4725000262260437,
+      "reward_std": 0.5237306356430054,
+      "rewards/reward_func/mean": 0.4725000262260437,
+      "rewards/reward_func/std": 0.5537598729133606,
+      "sampling/importance_sampling_ratio/max": 1.1231999397277832,
+      "sampling/importance_sampling_ratio/mean": 0.8123407363891602,
+      "sampling/importance_sampling_ratio/min": 0.6417423486709595,
+      "sampling/sampling_logp_difference/max": 0.675841212272644,
+      "sampling/sampling_logp_difference/mean": 0.029995568096637726,
+      "step": 379,
+      "step_time": 58.079839242011076
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 54.0,
+      "completions/max_terminated_length": 54.0,
+      "completions/mean_length": 42.125,
+      "completions/mean_terminated_length": 42.125,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.33336013555526733,
+      "epoch": 0.76,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.535415530204773,
+      "kl": 0.06656455248594284,
+      "learning_rate": 3.5659132622106152e-06,
+      "loss": -0.1762,
+      "num_tokens": 2113701.0,
+      "reward": 0.0637500062584877,
+      "reward_std": 0.2779829502105713,
+      "rewards/reward_func/mean": 0.0637500062584877,
+      "rewards/reward_func/std": 0.37591552734375,
+      "sampling/importance_sampling_ratio/max": 2.21850848197937,
+      "sampling/importance_sampling_ratio/mean": 1.0035760402679443,
+      "sampling/importance_sampling_ratio/min": 0.36623576283454895,
+      "sampling/sampling_logp_difference/max": 0.5119132995605469,
+      "sampling/sampling_logp_difference/mean": 0.03865154832601547,
+      "step": 380,
+      "step_time": 83.85681084700627
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 54.0,
+      "completions/max_terminated_length": 54.0,
+      "completions/mean_length": 41.75,
+      "completions/mean_terminated_length": 41.75,
+      "completions/min_length": 31.0,
+      "completions/min_terminated_length": 31.0,
+      "entropy": 0.34765076637268066,
+      "epoch": 0.762,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4875462055206299,
+      "kl": 0.05875123292207718,
+      "learning_rate": 3.5585836356437266e-06,
+      "loss": 0.0993,
+      "num_tokens": 2118822.0,
+      "reward": 0.05499999597668648,
+      "reward_std": 0.28776630759239197,
+      "rewards/reward_func/mean": 0.05499999597668648,
+      "rewards/reward_func/std": 0.37928506731987,
+      "sampling/importance_sampling_ratio/max": 2.0379128456115723,
+      "sampling/importance_sampling_ratio/mean": 1.3014514446258545,
+      "sampling/importance_sampling_ratio/min": 0.6343486309051514,
+      "sampling/sampling_logp_difference/max": 0.4492349624633789,
+      "sampling/sampling_logp_difference/mean": 0.026231329888105392,
+      "step": 381,
+      "step_time": 78.49495024702628
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 58.0,
+      "completions/max_terminated_length": 58.0,
+      "completions/mean_length": 50.0,
+      "completions/mean_terminated_length": 50.0,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.3074229955673218,
+      "epoch": 0.764,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0164070129394531,
+      "kl": 0.019709967076778412,
+      "learning_rate": 3.551242905035412e-06,
+      "loss": -0.1317,
+      "num_tokens": 2125216.0,
+      "reward": 0.08374999463558197,
+      "reward_std": 0.2835198938846588,
+      "rewards/reward_func/mean": 0.08374999463558197,
+      "rewards/reward_func/std": 0.37217265367507935,
+      "sampling/importance_sampling_ratio/max": 1.2361012697219849,
+      "sampling/importance_sampling_ratio/mean": 0.9302610158920288,
+      "sampling/importance_sampling_ratio/min": 0.6827021241188049,
+      "sampling/sampling_logp_difference/max": 0.3573673963546753,
+      "sampling/sampling_logp_difference/mean": 0.02304799109697342,
+      "step": 382,
+      "step_time": 84.3939113280212
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 50.0,
+      "completions/max_terminated_length": 50.0,
+      "completions/mean_length": 40.0,
+      "completions/mean_terminated_length": 40.0,
+      "completions/min_length": 26.0,
+      "completions/min_terminated_length": 26.0,
+      "entropy": 0.3727479577064514,
+      "epoch": 0.766,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.0571773052215576,
+      "kl": 0.09017743915319443,
+      "learning_rate": 3.5438911473864633e-06,
+      "loss": -0.2174,
+      "num_tokens": 2131334.0,
+      "reward": 0.0962500050663948,
+      "reward_std": 0.2652566134929657,
+      "rewards/reward_func/mean": 0.0962500050663948,
+      "rewards/reward_func/std": 0.35399505496025085,
+      "sampling/importance_sampling_ratio/max": 2.516140937805176,
+      "sampling/importance_sampling_ratio/mean": 1.00909423828125,
+      "sampling/importance_sampling_ratio/min": 0.6436149477958679,
+      "sampling/sampling_logp_difference/max": 0.5928447246551514,
+      "sampling/sampling_logp_difference/mean": 0.03408171236515045,
+      "step": 383,
+      "step_time": 73.35666742300964
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 54.0,
+      "completions/max_terminated_length": 54.0,
+      "completions/mean_length": 43.5,
+      "completions/mean_terminated_length": 43.5,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.3380432724952698,
+      "epoch": 0.768,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.5185048580169678,
+      "kl": 0.05075772851705551,
+      "learning_rate": 3.5365284398133404e-06,
+      "loss": 0.1199,
+      "num_tokens": 2136480.0,
+      "reward": 0.30000001192092896,
+      "reward_std": 0.5517951250076294,
+      "rewards/reward_func/mean": 0.30000001192092896,
+      "rewards/reward_func/std": 0.5378262996673584,
+      "sampling/importance_sampling_ratio/max": 2.533414125442505,
+      "sampling/importance_sampling_ratio/mean": 0.987388014793396,
+      "sampling/importance_sampling_ratio/min": 0.2914103865623474,
+      "sampling/sampling_logp_difference/max": 0.4989492893218994,
+      "sampling/sampling_logp_difference/mean": 0.03067699819803238,
+      "step": 384,
+      "step_time": 55.22710300600738
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 66.0,
+      "completions/max_terminated_length": 66.0,
+      "completions/mean_length": 47.125,
+      "completions/mean_terminated_length": 47.125,
+      "completions/min_length": 32.0,
+      "completions/min_terminated_length": 32.0,
+      "entropy": 0.3242243528366089,
+      "epoch": 0.77,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.345138669013977,
+      "kl": 0.039375655353069305,
+      "learning_rate": 3.52915485954736e-06,
+      "loss": 0.0886,
+      "num_tokens": 2141751.0,
+      "reward": 0.4362500011920929,
+      "reward_std": 0.5983107686042786,
+      "rewards/reward_func/mean": 0.4362500011920929,
+      "rewards/reward_func/std": 0.5539711117744446,
+      "sampling/importance_sampling_ratio/max": 1.7134405374526978,
+      "sampling/importance_sampling_ratio/mean": 1.042137861251831,
+      "sampling/importance_sampling_ratio/min": 0.4775417149066925,
+      "sampling/sampling_logp_difference/max": 0.5579397678375244,
+      "sampling/sampling_logp_difference/mean": 0.025659702718257904,
+      "step": 385,
+      "step_time": 67.54349041997921
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 42.0,
+      "completions/max_terminated_length": 42.0,
+      "completions/mean_length": 37.125,
+      "completions/mean_terminated_length": 37.125,
+      "completions/min_length": 28.0,
+      "completions/min_terminated_length": 28.0,
+      "entropy": 0.33516746759414673,
+      "epoch": 0.772,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.208026170730591,
+      "kl": 0.05478062853217125,
+      "learning_rate": 3.521770483933891e-06,
+      "loss": 0.2502,
+      "num_tokens": 2146979.0,
+      "reward": -0.0637499988079071,
+      "reward_std": 0.04775945842266083,
+      "rewards/reward_func/mean": -0.0637499988079071,
+      "rewards/reward_func/std": 0.050409041345119476,
+      "sampling/importance_sampling_ratio/max": 1.972628116607666,
+      "sampling/importance_sampling_ratio/mean": 1.1597208976745605,
+      "sampling/importance_sampling_ratio/min": 0.6736937165260315,
+      "sampling/sampling_logp_difference/max": 0.4482576847076416,
+      "sampling/sampling_logp_difference/mean": 0.027906980365514755,
+      "step": 386,
+      "step_time": 74.46757221099688
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 53.0,
+      "completions/max_terminated_length": 53.0,
+      "completions/mean_length": 46.0,
+      "completions/mean_terminated_length": 46.0,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.37138980627059937,
+      "epoch": 0.774,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9289368391036987,
+      "kl": 0.10337759554386139,
+      "learning_rate": 3.514375390431539e-06,
+      "loss": 0.172,
+      "num_tokens": 2153373.0,
+      "reward": 0.2900000214576721,
+      "reward_std": 0.5930180549621582,
+      "rewards/reward_func/mean": 0.2900000214576721,
+      "rewards/reward_func/std": 0.5795319080352783,
+      "sampling/importance_sampling_ratio/max": 1.536302924156189,
+      "sampling/importance_sampling_ratio/mean": 0.7297533750534058,
+      "sampling/importance_sampling_ratio/min": 0.289122611284256,
+      "sampling/sampling_logp_difference/max": 0.8604832887649536,
+      "sampling/sampling_logp_difference/mean": 0.034349218010902405,
+      "step": 387,
+      "step_time": 61.59288591900258
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 58.0,
+      "completions/max_terminated_length": 58.0,
+      "completions/mean_length": 44.375,
+      "completions/mean_terminated_length": 44.375,
+      "completions/min_length": 31.0,
+      "completions/min_terminated_length": 31.0,
+      "entropy": 0.4133331775665283,
+      "epoch": 0.776,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9855160713195801,
+      "kl": 0.045814886689186096,
+      "learning_rate": 3.5069696566113347e-06,
+      "loss": 0.0904,
+      "num_tokens": 2159078.0,
+      "reward": 0.33500000834465027,
+      "reward_std": 0.5581594705581665,
+      "rewards/reward_func/mean": 0.33500000834465027,
+      "rewards/reward_func/std": 0.5354037284851074,
+      "sampling/importance_sampling_ratio/max": 1.518318772315979,
+      "sampling/importance_sampling_ratio/mean": 0.8139652609825134,
+      "sampling/importance_sampling_ratio/min": 0.37126120924949646,
+      "sampling/sampling_logp_difference/max": 0.5169713497161865,
+      "sampling/sampling_logp_difference/mean": 0.03355231136083603,
+      "step": 388,
+      "step_time": 81.17526444801479
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 43.0,
+      "completions/max_terminated_length": 43.0,
+      "completions/mean_length": 35.875,
+      "completions/mean_terminated_length": 35.875,
+      "completions/min_length": 27.0,
+      "completions/min_terminated_length": 27.0,
+      "entropy": 0.3351132869720459,
+      "epoch": 0.778,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4382963180541992,
+      "kl": 0.047305479645729065,
+      "learning_rate": 3.499553360155923e-06,
+      "loss": 0.1196,
+      "num_tokens": 2165109.0,
+      "reward": 0.2150000035762787,
+      "reward_std": 0.5208038091659546,
+      "rewards/reward_func/mean": 0.2150000035762787,
+      "rewards/reward_func/std": 0.48329228162765503,
+      "sampling/importance_sampling_ratio/max": 1.9932667016983032,
+      "sampling/importance_sampling_ratio/mean": 1.2677991390228271,
+      "sampling/importance_sampling_ratio/min": 0.7389498949050903,
+      "sampling/sampling_logp_difference/max": 0.46536529064178467,
+      "sampling/sampling_logp_difference/mean": 0.027284495532512665,
+      "step": 389,
+      "step_time": 68.42802210498485
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 71.0,
+      "completions/max_terminated_length": 71.0,
+      "completions/mean_length": 50.75,
+      "completions/mean_terminated_length": 50.75,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.3567490577697754,
+      "epoch": 0.78,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0806845426559448,
+      "kl": 0.039206504821777344,
+      "learning_rate": 3.4921265788587432e-06,
+      "loss": -0.1312,
+      "num_tokens": 2170662.0,
+      "reward": 0.1899999976158142,
+      "reward_std": 0.5110079050064087,
+      "rewards/reward_func/mean": 0.1899999976158142,
+      "rewards/reward_func/std": 0.4738294184207916,
+      "sampling/importance_sampling_ratio/max": 1.3621087074279785,
+      "sampling/importance_sampling_ratio/mean": 0.7618493437767029,
+      "sampling/importance_sampling_ratio/min": 0.11757281422615051,
+      "sampling/sampling_logp_difference/max": 0.7672085762023926,
+      "sampling/sampling_logp_difference/mean": 0.029348157346248627,
+      "step": 390,
+      "step_time": 66.64952985799755
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 45.0,
+      "completions/max_terminated_length": 45.0,
+      "completions/mean_length": 41.5,
+      "completions/mean_terminated_length": 41.5,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.348691463470459,
+      "epoch": 0.782,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.4213788509368896,
+      "kl": 0.06088120490312576,
+      "learning_rate": 3.484689390623218e-06,
+      "loss": -0.2873,
+      "num_tokens": 2176785.0,
+      "reward": 0.3537500202655792,
+      "reward_std": 0.5490626096725464,
+      "rewards/reward_func/mean": 0.3537500202655792,
+      "rewards/reward_func/std": 0.5272554159164429,
+      "sampling/importance_sampling_ratio/max": 2.726332426071167,
+      "sampling/importance_sampling_ratio/mean": 1.269676923751831,
+      "sampling/importance_sampling_ratio/min": 0.4701959788799286,
+      "sampling/sampling_logp_difference/max": 0.5951485633850098,
+      "sampling/sampling_logp_difference/mean": 0.031430695205926895,
+      "step": 391,
+      "step_time": 64.82404442300322
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 67.0,
+      "completions/max_terminated_length": 67.0,
+      "completions/mean_length": 48.75,
+      "completions/mean_terminated_length": 48.75,
+      "completions/min_length": 40.0,
+      "completions/min_terminated_length": 40.0,
+      "entropy": 0.32772278785705566,
+      "epoch": 0.784,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.8402619361877441,
+      "kl": 0.03273371234536171,
+      "learning_rate": 3.4772418734619325e-06,
+      "loss": 0.2288,
+      "num_tokens": 2182195.0,
+      "reward": 0.09624999761581421,
+      "reward_std": 0.27131104469299316,
+      "rewards/reward_func/mean": 0.09624999761581421,
+      "rewards/reward_func/std": 0.3657844066619873,
+      "sampling/importance_sampling_ratio/max": 2.0606470108032227,
+      "sampling/importance_sampling_ratio/mean": 1.0602631568908691,
+      "sampling/importance_sampling_ratio/min": 0.5077344179153442,
+      "sampling/sampling_logp_difference/max": 0.41891008615493774,
+      "sampling/sampling_logp_difference/mean": 0.028547827154397964,
+      "step": 392,
+      "step_time": 64.06525129399961
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 62.0,
+      "completions/max_terminated_length": 62.0,
+      "completions/mean_length": 47.875,
+      "completions/mean_terminated_length": 47.875,
+      "completions/min_length": 29.0,
+      "completions/min_terminated_length": 29.0,
+      "entropy": 0.32786738872528076,
+      "epoch": 0.786,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.5365052223205566,
+      "kl": 0.044348280876874924,
+      "learning_rate": 3.4697841054958163e-06,
+      "loss": -0.1633,
+      "num_tokens": 2188346.0,
+      "reward": 0.36000001430511475,
+      "reward_std": 0.5519298315048218,
+      "rewards/reward_func/mean": 0.36000001430511475,
+      "rewards/reward_func/std": 0.5301482677459717,
+      "sampling/importance_sampling_ratio/max": 2.044487237930298,
+      "sampling/importance_sampling_ratio/mean": 1.0870068073272705,
+      "sampling/importance_sampling_ratio/min": 0.6400982141494751,
+      "sampling/sampling_logp_difference/max": 0.7581937313079834,
+      "sampling/sampling_logp_difference/mean": 0.02735818549990654,
+      "step": 393,
+      "step_time": 63.89243840900599
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 54.0,
+      "completions/max_terminated_length": 54.0,
+      "completions/mean_length": 41.625,
+      "completions/mean_terminated_length": 41.625,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.3156575858592987,
+      "epoch": 0.788,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4243261814117432,
+      "kl": 0.05710726976394653,
+      "learning_rate": 3.4623161649533284e-06,
+      "loss": -0.3008,
+      "num_tokens": 2193765.0,
+      "reward": 0.32749998569488525,
+      "reward_std": 0.5432307720184326,
+      "rewards/reward_func/mean": 0.32749998569488525,
+      "rewards/reward_func/std": 0.5308685898780823,
+      "sampling/importance_sampling_ratio/max": 2.2074787616729736,
+      "sampling/importance_sampling_ratio/mean": 1.2915685176849365,
+      "sampling/importance_sampling_ratio/min": 0.6163145303726196,
+      "sampling/sampling_logp_difference/max": 0.40680623054504395,
+      "sampling/sampling_logp_difference/mean": 0.02459460124373436,
+      "step": 394,
+      "step_time": 63.77927023899974
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 57.0,
+      "completions/max_terminated_length": 57.0,
+      "completions/mean_length": 47.75,
+      "completions/mean_terminated_length": 47.75,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.357902467250824,
+      "epoch": 0.79,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4730643033981323,
+      "kl": 0.07591858506202698,
+      "learning_rate": 3.4548381301696298e-06,
+      "loss": 0.1483,
+      "num_tokens": 2199321.0,
+      "reward": -0.03375000134110451,
+      "reward_std": 0.026678871363401413,
+      "rewards/reward_func/mean": -0.03375000134110451,
+      "rewards/reward_func/std": 0.025035688653588295,
+      "sampling/importance_sampling_ratio/max": 2.484659433364868,
+      "sampling/importance_sampling_ratio/mean": 1.1020760536193848,
+      "sampling/importance_sampling_ratio/min": 0.20723672211170197,
+      "sampling/sampling_logp_difference/max": 0.9204421043395996,
+      "sampling/sampling_logp_difference/mean": 0.03480283543467522,
+      "step": 395,
+      "step_time": 72.94622380597866
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 70.0,
+      "completions/max_terminated_length": 70.0,
+      "completions/mean_length": 48.625,
+      "completions/mean_terminated_length": 48.625,
+      "completions/min_length": 29.0,
+      "completions/min_terminated_length": 29.0,
+      "entropy": 0.4134517312049866,
+      "epoch": 0.792,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.6859726905822754,
+      "kl": 0.03517558425664902,
+      "learning_rate": 3.4473500795857674e-06,
+      "loss": -0.1951,
+      "num_tokens": 2204573.0,
+      "reward": 0.20875000953674316,
+      "reward_std": 0.3220616579055786,
+      "rewards/reward_func/mean": 0.20875000953674316,
+      "rewards/reward_func/std": 0.47588828206062317,
+      "sampling/importance_sampling_ratio/max": 1.7888513803482056,
+      "sampling/importance_sampling_ratio/mean": 1.0129364728927612,
+      "sampling/importance_sampling_ratio/min": 0.49311375617980957,
+      "sampling/sampling_logp_difference/max": 0.5829896926879883,
+      "sampling/sampling_logp_difference/mean": 0.03469054028391838,
+      "step": 396,
+      "step_time": 74.89418144299998
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 57.0,
+      "completions/max_terminated_length": 57.0,
+      "completions/mean_length": 44.125,
+      "completions/mean_terminated_length": 44.125,
+      "completions/min_length": 31.0,
+      "completions/min_terminated_length": 31.0,
+      "entropy": 0.30955445766448975,
+      "epoch": 0.794,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.5693347454071045,
+      "kl": 0.04247763007879257,
+      "learning_rate": 3.4398520917478478e-06,
+      "loss": -0.0086,
+      "num_tokens": 2210029.0,
+      "reward": 0.08750000596046448,
+      "reward_std": 0.2670246660709381,
+      "rewards/reward_func/mean": 0.08750000596046448,
+      "rewards/reward_func/std": 0.36958470940589905,
+      "sampling/importance_sampling_ratio/max": 1.8365312814712524,
+      "sampling/importance_sampling_ratio/mean": 1.170079231262207,
+      "sampling/importance_sampling_ratio/min": 0.4552127420902252,
+      "sampling/sampling_logp_difference/max": 0.3448103666305542,
+      "sampling/sampling_logp_difference/mean": 0.02435469999909401,
+      "step": 397,
+      "step_time": 71.30152476101648
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.0,
+      "completions/max_terminated_length": 61.0,
+      "completions/mean_length": 48.25,
+      "completions/mean_terminated_length": 48.25,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.34962934255599976,
+      "epoch": 0.796,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2815780639648438,
+      "kl": 0.03365220129489899,
+      "learning_rate": 3.4323442453062173e-06,
+      "loss": 0.1781,
+      "num_tokens": 2214891.0,
+      "reward": 0.32499998807907104,
+      "reward_std": 0.5809470415115356,
+      "rewards/reward_func/mean": 0.32499998807907104,
+      "rewards/reward_func/std": 0.5604844689369202,
+      "sampling/importance_sampling_ratio/max": 1.4398008584976196,
+      "sampling/importance_sampling_ratio/mean": 0.9877474308013916,
+      "sampling/importance_sampling_ratio/min": 0.5344565510749817,
+      "sampling/sampling_logp_difference/max": 0.38164573907852173,
+      "sampling/sampling_logp_difference/mean": 0.02679327502846718,
+      "step": 398,
+      "step_time": 67.73330377798993
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 59.0,
+      "completions/max_terminated_length": 59.0,
+      "completions/mean_length": 43.125,
+      "completions/mean_terminated_length": 43.125,
+      "completions/min_length": 31.0,
+      "completions/min_terminated_length": 31.0,
+      "entropy": 0.30688661336898804,
+      "epoch": 0.798,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.5855470895767212,
+      "kl": 0.0417325496673584,
+      "learning_rate": 3.4248266190146307e-06,
+      "loss": 0.004,
+      "num_tokens": 2220361.0,
+      "reward": 0.4762499928474426,
+      "reward_std": 0.6048096418380737,
+      "rewards/reward_func/mean": 0.4762499928474426,
+      "rewards/reward_func/std": 0.560661256313324,
+      "sampling/importance_sampling_ratio/max": 1.3558542728424072,
+      "sampling/importance_sampling_ratio/mean": 1.0467090606689453,
+      "sampling/importance_sampling_ratio/min": 0.8046448230743408,
+      "sampling/sampling_logp_difference/max": 0.37460851669311523,
+      "sampling/sampling_logp_difference/mean": 0.02754260040819645,
+      "step": 399,
+      "step_time": 63.321532267989824
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 70.0,
+      "completions/max_terminated_length": 70.0,
+      "completions/mean_length": 50.375,
+      "completions/mean_terminated_length": 50.375,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.36169493198394775,
+      "epoch": 0.8,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.4955718517303467,
+      "kl": 0.05709603428840637,
+      "learning_rate": 3.417299291729431e-06,
+      "loss": -0.3635,
+      "num_tokens": 2225385.0,
+      "reward": 0.3387500047683716,
+      "reward_std": 0.5678717494010925,
+      "rewards/reward_func/mean": 0.3387500047683716,
+      "rewards/reward_func/std": 0.5412007570266724,
+      "sampling/importance_sampling_ratio/max": 2.468524694442749,
+      "sampling/importance_sampling_ratio/mean": 1.3570051193237305,
+      "sampling/importance_sampling_ratio/min": 0.45365825295448303,
+      "sampling/sampling_logp_difference/max": 0.5086992979049683,
+      "sampling/sampling_logp_difference/mean": 0.028253626078367233,
+      "step": 400,
+      "step_time": 61.90352356500807
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.0,
+      "completions/max_terminated_length": 61.0,
+      "completions/mean_length": 50.375,
+      "completions/mean_terminated_length": 50.375,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.34915873408317566,
+      "epoch": 0.802,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.7310982346534729,
+      "kl": 0.028745461255311966,
+      "learning_rate": 3.4097623424087196e-06,
+      "loss": -0.1418,
+      "num_tokens": 2231023.0,
+      "reward": 0.3375000059604645,
+      "reward_std": 0.2833724915981293,
+      "rewards/reward_func/mean": 0.3375000059604645,
+      "rewards/reward_func/std": 0.5279272198677063,
+      "sampling/importance_sampling_ratio/max": 1.532747745513916,
+      "sampling/importance_sampling_ratio/mean": 0.7657254934310913,
+      "sampling/importance_sampling_ratio/min": 0.29685893654823303,
+      "sampling/sampling_logp_difference/max": 0.4246586561203003,
+      "sampling/sampling_logp_difference/mean": 0.0307551771402359,
+      "step": 401,
+      "step_time": 82.38972250098595
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 60.0,
+      "completions/max_terminated_length": 60.0,
+      "completions/mean_length": 43.875,
+      "completions/mean_terminated_length": 43.875,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.3424833416938782,
+      "epoch": 0.804,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.250693917274475,
+      "kl": 0.03432589769363403,
+      "learning_rate": 3.4022158501115283e-06,
+      "loss": -0.166,
+      "num_tokens": 2237005.0,
+      "reward": 0.21125000715255737,
+      "reward_std": 0.312855988740921,
+      "rewards/reward_func/mean": 0.21125000715255737,
+      "rewards/reward_func/std": 0.4853699207305908,
+      "sampling/importance_sampling_ratio/max": 1.5625203847885132,
+      "sampling/importance_sampling_ratio/mean": 1.0789234638214111,
+      "sampling/importance_sampling_ratio/min": 0.6180092096328735,
+      "sampling/sampling_logp_difference/max": 0.35615015029907227,
+      "sampling/sampling_logp_difference/mean": 0.026920361444354057,
+      "step": 402,
+      "step_time": 65.18766634300118
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 52.0,
+      "completions/max_terminated_length": 52.0,
+      "completions/mean_length": 45.625,
+      "completions/mean_terminated_length": 45.625,
+      "completions/min_length": 31.0,
+      "completions/min_terminated_length": 31.0,
+      "entropy": 0.3446376919746399,
+      "epoch": 0.806,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2360810041427612,
+      "kl": 0.0331093966960907,
+      "learning_rate": 3.39465989399699e-06,
+      "loss": 0.16,
+      "num_tokens": 2242114.0,
+      "reward": 0.45625001192092896,
+      "reward_std": 0.6050564050674438,
+      "rewards/reward_func/mean": 0.45625001192092896,
+      "rewards/reward_func/std": 0.5601769685745239,
+      "sampling/importance_sampling_ratio/max": 2.0269222259521484,
+      "sampling/importance_sampling_ratio/mean": 1.0755150318145752,
+      "sampling/importance_sampling_ratio/min": 0.587192714214325,
+      "sampling/sampling_logp_difference/max": 0.29895949363708496,
+      "sampling/sampling_logp_difference/mean": 0.025805631652474403,
+      "step": 403,
+      "step_time": 54.9477135160123
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 59.0,
+      "completions/max_terminated_length": 59.0,
+      "completions/mean_length": 46.875,
+      "completions/mean_terminated_length": 46.875,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.3936536908149719,
+      "epoch": 0.808,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.0102906227111816,
+      "kl": 0.059495870023965836,
+      "learning_rate": 3.3870945533235104e-06,
+      "loss": -0.0334,
+      "num_tokens": 2247189.0,
+      "reward": 0.19625000655651093,
+      "reward_std": 0.5299696922302246,
+      "rewards/reward_func/mean": 0.19625000655651093,
+      "rewards/reward_func/std": 0.4908865690231323,
+      "sampling/importance_sampling_ratio/max": 1.2130988836288452,
+      "sampling/importance_sampling_ratio/mean": 0.9266165494918823,
+      "sampling/importance_sampling_ratio/min": 0.7416336536407471,
+      "sampling/sampling_logp_difference/max": 0.2876337766647339,
+      "sampling/sampling_logp_difference/mean": 0.028024829924106598,
+      "step": 404,
+      "step_time": 71.07167344598565
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 73.0,
+      "completions/max_terminated_length": 73.0,
+      "completions/mean_length": 54.75,
+      "completions/mean_terminated_length": 54.75,
+      "completions/min_length": 42.0,
+      "completions/min_terminated_length": 42.0,
+      "entropy": 0.334345281124115,
+      "epoch": 0.81,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.5419965982437134,
+      "kl": 0.025859929621219635,
+      "learning_rate": 3.3795199074479312e-06,
+      "loss": -0.1101,
+      "num_tokens": 2252252.0,
+      "reward": 0.6000000238418579,
+      "reward_std": 0.5447690486907959,
+      "rewards/reward_func/mean": 0.6000000238418579,
+      "rewards/reward_func/std": 0.5224940180778503,
+      "sampling/importance_sampling_ratio/max": 1.4799644947052002,
+      "sampling/importance_sampling_ratio/mean": 0.7123466730117798,
+      "sampling/importance_sampling_ratio/min": 0.14022274315357208,
+      "sampling/sampling_logp_difference/max": 0.7181998491287231,
+      "sampling/sampling_logp_difference/mean": 0.026170939207077026,
+      "step": 405,
+      "step_time": 48.95189845201094
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 70.0,
+      "completions/max_terminated_length": 70.0,
+      "completions/mean_length": 48.25,
+      "completions/mean_terminated_length": 48.25,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.3260424733161926,
+      "epoch": 0.812,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2206482887268066,
+      "kl": 0.07319030910730362,
+      "learning_rate": 3.3719360358247054e-06,
+      "loss": -0.1504,
+      "num_tokens": 2257641.0,
+      "reward": 0.21000000834465027,
+      "reward_std": 0.3072892427444458,
+      "rewards/reward_func/mean": 0.21000000834465027,
+      "rewards/reward_func/std": 0.47958314418792725,
+      "sampling/importance_sampling_ratio/max": 1.4747114181518555,
+      "sampling/importance_sampling_ratio/mean": 0.7886297702789307,
+      "sampling/importance_sampling_ratio/min": 0.39762672781944275,
+      "sampling/sampling_logp_difference/max": 0.3593275547027588,
+      "sampling/sampling_logp_difference/mean": 0.02779657021164894,
+      "step": 406,
+      "step_time": 61.756067362002796
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 71.0,
+      "completions/max_terminated_length": 71.0,
+      "completions/mean_length": 50.75,
+      "completions/mean_terminated_length": 50.75,
+      "completions/min_length": 30.0,
+      "completions/min_terminated_length": 30.0,
+      "entropy": 0.341819167137146,
+      "epoch": 0.814,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.2889909744262695,
+      "kl": 0.01969139650464058,
+      "learning_rate": 3.3643430180050573e-06,
+      "loss": 0.7006,
+      "num_tokens": 2263126.0,
+      "reward": 0.4150000214576721,
+      "reward_std": 0.5482439398765564,
+      "rewards/reward_func/mean": 0.4150000214576721,
+      "rewards/reward_func/std": 0.5823842883110046,
+      "sampling/importance_sampling_ratio/max": 2.7643935680389404,
+      "sampling/importance_sampling_ratio/mean": 1.1803869009017944,
+      "sampling/importance_sampling_ratio/min": 0.6169243454933167,
+      "sampling/sampling_logp_difference/max": 0.3439610004425049,
+      "sampling/sampling_logp_difference/mean": 0.025598403066396713,
+      "step": 407,
+      "step_time": 63.48746524998569
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 83.0,
+      "completions/max_terminated_length": 83.0,
+      "completions/mean_length": 49.125,
+      "completions/mean_terminated_length": 49.125,
+      "completions/min_length": 32.0,
+      "completions/min_terminated_length": 32.0,
+      "entropy": 0.32550209760665894,
+      "epoch": 0.816,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.5375040769577026,
+      "kl": 0.02752833254635334,
+      "learning_rate": 3.3567409336361502e-06,
+      "loss": -0.0216,
+      "num_tokens": 2268322.0,
+      "reward": 0.19875000417232513,
+      "reward_std": 0.30625003576278687,
+      "rewards/reward_func/mean": 0.19875000417232513,
+      "rewards/reward_func/std": 0.45642828941345215,
+      "sampling/importance_sampling_ratio/max": 2.6713926792144775,
+      "sampling/importance_sampling_ratio/mean": 1.2524373531341553,
+      "sampling/importance_sampling_ratio/min": 0.6978874206542969,
+      "sampling/sampling_logp_difference/max": 0.4598565101623535,
+      "sampling/sampling_logp_difference/mean": 0.027718737721443176,
+      "step": 408,
+      "step_time": 67.29830334399594
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 58.0,
+      "completions/max_terminated_length": 58.0,
+      "completions/mean_length": 44.5,
+      "completions/mean_terminated_length": 44.5,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.36724764108657837,
+      "epoch": 0.818,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.9681098461151123,
+      "kl": 0.05620799958705902,
+      "learning_rate": 3.3491298624602514e-06,
+      "loss": -0.1462,
+      "num_tokens": 2273479.0,
+      "reward": 0.59375,
+      "reward_std": 0.5756310224533081,
+      "rewards/reward_func/mean": 0.59375,
+      "rewards/reward_func/std": 0.5577746033668518,
+      "sampling/importance_sampling_ratio/max": 2.058076858520508,
+      "sampling/importance_sampling_ratio/mean": 1.0275644063949585,
+      "sampling/importance_sampling_ratio/min": 0.5849137306213379,
+      "sampling/sampling_logp_difference/max": 0.6340939998626709,
+      "sampling/sampling_logp_difference/mean": 0.033282943069934845,
+      "step": 409,
+      "step_time": 67.91412261300138
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 50.0,
+      "completions/max_terminated_length": 50.0,
+      "completions/mean_length": 39.625,
+      "completions/mean_terminated_length": 39.625,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.3391873240470886,
+      "epoch": 0.82,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.0897281169891357,
+      "kl": 0.048063769936561584,
+      "learning_rate": 3.3415098843138972e-06,
+      "loss": -0.1435,
+      "num_tokens": 2279337.0,
+      "reward": 0.10750000923871994,
+      "reward_std": 0.2595524489879608,
+      "rewards/reward_func/mean": 0.10750000923871994,
+      "rewards/reward_func/std": 0.35289618372917175,
+      "sampling/importance_sampling_ratio/max": 2.8655083179473877,
+      "sampling/importance_sampling_ratio/mean": 1.0282737016677856,
+      "sampling/importance_sampling_ratio/min": 0.27357611060142517,
+      "sampling/sampling_logp_difference/max": 0.4681780934333801,
+      "sampling/sampling_logp_difference/mean": 0.03042689338326454,
+      "step": 410,
+      "step_time": 83.52543040498858
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 49.0,
+      "completions/max_terminated_length": 49.0,
+      "completions/mean_length": 42.75,
+      "completions/mean_terminated_length": 42.75,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.3415806293487549,
+      "epoch": 0.822,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.6372363567352295,
+      "kl": 0.050147589296102524,
+      "learning_rate": 3.333881079127052e-06,
+      "loss": -0.3055,
+      "num_tokens": 2284889.0,
+      "reward": 0.21000000834465027,
+      "reward_std": 0.5254905223846436,
+      "rewards/reward_func/mean": 0.21000000834465027,
+      "rewards/reward_func/std": 0.4876474142074585,
+      "sampling/importance_sampling_ratio/max": 2.446664571762085,
+      "sampling/importance_sampling_ratio/mean": 0.9917970895767212,
+      "sampling/importance_sampling_ratio/min": 0.3648597002029419,
+      "sampling/sampling_logp_difference/max": 0.5268797874450684,
+      "sampling/sampling_logp_difference/mean": 0.022872356697916985,
+      "step": 411,
+      "step_time": 73.05385316698812
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 68.0,
+      "completions/max_terminated_length": 68.0,
+      "completions/mean_length": 47.125,
+      "completions/mean_terminated_length": 47.125,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.3670850694179535,
+      "epoch": 0.824,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2050609588623047,
+      "kl": 0.01863059774041176,
+      "learning_rate": 3.326243526922272e-06,
+      "loss": 0.1589,
+      "num_tokens": 2290321.0,
+      "reward": 0.19500000774860382,
+      "reward_std": 0.3351808488368988,
+      "rewards/reward_func/mean": 0.19500000774860382,
+      "rewards/reward_func/std": 0.49318209290504456,
+      "sampling/importance_sampling_ratio/max": 1.9619362354278564,
+      "sampling/importance_sampling_ratio/mean": 0.9046612977981567,
+      "sampling/importance_sampling_ratio/min": 0.5072652697563171,
+      "sampling/sampling_logp_difference/max": 0.5272719860076904,
+      "sampling/sampling_logp_difference/mean": 0.027489028871059418,
+      "step": 412,
+      "step_time": 92.1496964310063
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 68.0,
+      "completions/max_terminated_length": 68.0,
+      "completions/mean_length": 52.5,
+      "completions/mean_terminated_length": 52.5,
+      "completions/min_length": 40.0,
+      "completions/min_terminated_length": 40.0,
+      "entropy": 0.3263223469257355,
+      "epoch": 0.826,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.7847272157669067,
+      "kl": 0.03273576870560646,
+      "learning_rate": 3.3185973078138665e-06,
+      "loss": 0.0545,
+      "num_tokens": 2296019.0,
+      "reward": 0.20125000178813934,
+      "reward_std": 0.5348846316337585,
+      "rewards/reward_func/mean": 0.20125000178813934,
+      "rewards/reward_func/std": 0.4956507384777069,
+      "sampling/importance_sampling_ratio/max": 1.2074002027511597,
+      "sampling/importance_sampling_ratio/mean": 0.7049754858016968,
+      "sampling/importance_sampling_ratio/min": 0.45924341678619385,
+      "sampling/sampling_logp_difference/max": 0.36492061614990234,
+      "sampling/sampling_logp_difference/mean": 0.029689345508813858,
+      "step": 413,
+      "step_time": 74.78980298401439
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 59.0,
+      "completions/max_terminated_length": 59.0,
+      "completions/mean_length": 43.125,
+      "completions/mean_terminated_length": 43.125,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.34388232231140137,
+      "epoch": 0.828,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1072615385055542,
+      "kl": 0.043772339820861816,
+      "learning_rate": 3.3109425020070564e-06,
+      "loss": 0.2443,
+      "num_tokens": 2301154.0,
+      "reward": 0.15125000476837158,
+      "reward_std": 0.5701001286506653,
+      "rewards/reward_func/mean": 0.15125000476837158,
+      "rewards/reward_func/std": 0.5283244848251343,
+      "sampling/importance_sampling_ratio/max": 1.8563178777694702,
+      "sampling/importance_sampling_ratio/mean": 0.9956398010253906,
+      "sampling/importance_sampling_ratio/min": 0.31948381662368774,
+      "sampling/sampling_logp_difference/max": 0.6346423625946045,
+      "sampling/sampling_logp_difference/mean": 0.0296938456594944,
+      "step": 414,
+      "step_time": 71.1694306099962
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 66.0,
+      "completions/max_terminated_length": 66.0,
+      "completions/mean_length": 53.0,
+      "completions/mean_terminated_length": 53.0,
+      "completions/min_length": 40.0,
+      "completions/min_terminated_length": 40.0,
+      "entropy": 0.350239098072052,
+      "epoch": 0.83,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9788258075714111,
+      "kl": 0.02329590916633606,
+      "learning_rate": 3.3032791897971313e-06,
+      "loss": 0.0095,
+      "num_tokens": 2306595.0,
+      "reward": 0.7325000166893005,
+      "reward_std": 0.31240540742874146,
+      "rewards/reward_func/mean": 0.7325000166893005,
+      "rewards/reward_func/std": 0.4742136597633362,
+      "sampling/importance_sampling_ratio/max": 1.4771513938903809,
+      "sampling/importance_sampling_ratio/mean": 1.0924103260040283,
+      "sampling/importance_sampling_ratio/min": 0.5864495038986206,
+      "sampling/sampling_logp_difference/max": 0.35701167583465576,
+      "sampling/sampling_logp_difference/mean": 0.022829465568065643,
+      "step": 415,
+      "step_time": 51.9381214719906
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 64.0,
+      "completions/max_terminated_length": 64.0,
+      "completions/mean_length": 50.125,
+      "completions/mean_terminated_length": 50.125,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.3615211248397827,
+      "epoch": 0.832,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.6271722316741943,
+      "kl": 0.04001173749566078,
+      "learning_rate": 3.2956074515686105e-06,
+      "loss": 0.0667,
+      "num_tokens": 2311738.0,
+      "reward": 0.17375001311302185,
+      "reward_std": 0.34344157576560974,
+      "rewards/reward_func/mean": 0.17375001311302185,
+      "rewards/reward_func/std": 0.49100297689437866,
+      "sampling/importance_sampling_ratio/max": 2.3310201168060303,
+      "sampling/importance_sampling_ratio/mean": 1.2795183658599854,
+      "sampling/importance_sampling_ratio/min": 0.5067328214645386,
+      "sampling/sampling_logp_difference/max": 0.495988130569458,
+      "sampling/sampling_logp_difference/mean": 0.029406055808067322,
+      "step": 416,
+      "step_time": 78.19868917198619
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 50.0,
+      "completions/max_terminated_length": 50.0,
+      "completions/mean_length": 38.75,
+      "completions/mean_terminated_length": 38.75,
+      "completions/min_length": 29.0,
+      "completions/min_terminated_length": 29.0,
+      "entropy": 0.3619380593299866,
+      "epoch": 0.834,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2272183895111084,
+      "kl": 0.04641294479370117,
+      "learning_rate": 3.2879273677943972e-06,
+      "loss": -0.0374,
+      "num_tokens": 2317239.0,
+      "reward": 0.4699999988079071,
+      "reward_std": 0.5924452543258667,
+      "rewards/reward_func/mean": 0.4699999988079071,
+      "rewards/reward_func/std": 0.5485044717788696,
+      "sampling/importance_sampling_ratio/max": 1.6035174131393433,
+      "sampling/importance_sampling_ratio/mean": 0.8214474320411682,
+      "sampling/importance_sampling_ratio/min": 0.0,
+      "sampling/sampling_logp_difference/max": 0.5355191230773926,
+      "sampling/sampling_logp_difference/mean": 0.031899720430374146,
+      "step": 417,
+      "step_time": 67.45473215699894
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 52.0,
+      "completions/max_terminated_length": 52.0,
+      "completions/mean_length": 43.25,
+      "completions/mean_terminated_length": 43.25,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.40914639830589294,
+      "epoch": 0.836,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.7058494091033936,
+      "kl": 0.04687212407588959,
+      "learning_rate": 3.2802390190349364e-06,
+      "loss": 0.1611,
+      "num_tokens": 2323573.0,
+      "reward": 0.33000001311302185,
+      "reward_std": 0.5646458864212036,
+      "rewards/reward_func/mean": 0.33000001311302185,
+      "rewards/reward_func/std": 0.5414794683456421,
+      "sampling/importance_sampling_ratio/max": 2.929563522338867,
+      "sampling/importance_sampling_ratio/mean": 1.1725656986236572,
+      "sampling/importance_sampling_ratio/min": 0.3646584451198578,
+      "sampling/sampling_logp_difference/max": 0.5263292789459229,
+      "sampling/sampling_logp_difference/mean": 0.03212471306324005,
+      "step": 418,
+      "step_time": 73.99689673900139
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 74.0,
+      "completions/max_terminated_length": 74.0,
+      "completions/mean_length": 51.75,
+      "completions/mean_terminated_length": 51.75,
+      "completions/min_length": 40.0,
+      "completions/min_terminated_length": 40.0,
+      "entropy": 0.388424813747406,
+      "epoch": 0.838,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2566641569137573,
+      "kl": 0.040666110813617706,
+      "learning_rate": 3.272542485937369e-06,
+      "loss": 0.0819,
+      "num_tokens": 2329180.0,
+      "reward": 0.3449999988079071,
+      "reward_std": 0.5655855536460876,
+      "rewards/reward_func/mean": 0.3449999988079071,
+      "rewards/reward_func/std": 0.5425863862037659,
+      "sampling/importance_sampling_ratio/max": 1.893444538116455,
+      "sampling/importance_sampling_ratio/mean": 1.027420997619629,
+      "sampling/importance_sampling_ratio/min": 0.41170260310173035,
+      "sampling/sampling_logp_difference/max": 0.336561918258667,
+      "sampling/sampling_logp_difference/mean": 0.02408537268638611,
+      "step": 419,
+      "step_time": 65.69701232301304
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 64.0,
+      "completions/max_terminated_length": 64.0,
+      "completions/mean_length": 45.75,
+      "completions/mean_terminated_length": 45.75,
+      "completions/min_length": 32.0,
+      "completions/min_terminated_length": 32.0,
+      "entropy": 0.3684334456920624,
+      "epoch": 0.84,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4962432384490967,
+      "kl": 0.028718747198581696,
+      "learning_rate": 3.264837849234685e-06,
+      "loss": -0.1286,
+      "num_tokens": 2335827.0,
+      "reward": 0.3362500071525574,
+      "reward_std": 0.5644514560699463,
+      "rewards/reward_func/mean": 0.3362500071525574,
+      "rewards/reward_func/std": 0.5412403345108032,
+      "sampling/importance_sampling_ratio/max": 2.035574197769165,
+      "sampling/importance_sampling_ratio/mean": 1.2553296089172363,
+      "sampling/importance_sampling_ratio/min": 0.5002336502075195,
+      "sampling/sampling_logp_difference/max": 0.2905765771865845,
+      "sampling/sampling_logp_difference/mean": 0.02430140972137451,
+      "step": 420,
+      "step_time": 772.381344155001
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 64.0,
+      "completions/max_terminated_length": 64.0,
+      "completions/mean_length": 43.375,
+      "completions/mean_terminated_length": 43.375,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.39142391085624695,
+      "epoch": 0.842,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1592785120010376,
+      "kl": 0.037018656730651855,
+      "learning_rate": 3.257125189744877e-06,
+      "loss": -0.101,
+      "num_tokens": 2341291.0,
+      "reward": 0.45375001430511475,
+      "reward_std": 0.6169389486312866,
+      "rewards/reward_func/mean": 0.45375001430511475,
+      "rewards/reward_func/std": 0.571687638759613,
+      "sampling/importance_sampling_ratio/max": 1.636826992034912,
+      "sampling/importance_sampling_ratio/mean": 0.8795583248138428,
+      "sampling/importance_sampling_ratio/min": 0.4447176456451416,
+      "sampling/sampling_logp_difference/max": 0.5345578193664551,
+      "sampling/sampling_logp_difference/mean": 0.024022206664085388,
+      "step": 421,
+      "step_time": 59.57560216600541
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 50.0,
+      "completions/max_terminated_length": 50.0,
+      "completions/mean_length": 44.25,
+      "completions/mean_terminated_length": 44.25,
+      "completions/min_length": 41.0,
+      "completions/min_terminated_length": 41.0,
+      "entropy": 0.34517401456832886,
+      "epoch": 0.844,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.165475606918335,
+      "kl": 0.05213654413819313,
+      "learning_rate": 3.249404588370095e-06,
+      "loss": 0.1109,
+      "num_tokens": 2346050.0,
+      "reward": 0.3412500023841858,
+      "reward_std": 0.5530316829681396,
+      "rewards/reward_func/mean": 0.3412500023841858,
+      "rewards/reward_func/std": 0.532713770866394,
+      "sampling/importance_sampling_ratio/max": 2.421031951904297,
+      "sampling/importance_sampling_ratio/mean": 1.4897425174713135,
+      "sampling/importance_sampling_ratio/min": 0.8438997864723206,
+      "sampling/sampling_logp_difference/max": 0.3565685749053955,
+      "sampling/sampling_logp_difference/mean": 0.028397034853696823,
+      "step": 422,
+      "step_time": 53.3122301310068
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 66.0,
+      "completions/max_terminated_length": 66.0,
+      "completions/mean_length": 48.75,
+      "completions/mean_terminated_length": 48.75,
+      "completions/min_length": 41.0,
+      "completions/min_terminated_length": 41.0,
+      "entropy": 0.3420068621635437,
+      "epoch": 0.846,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.7624173760414124,
+      "kl": 0.03828991949558258,
+      "learning_rate": 3.2416761260957925e-06,
+      "loss": 0.0449,
+      "num_tokens": 2351785.0,
+      "reward": 0.17999999225139618,
+      "reward_std": 0.5343748331069946,
+      "rewards/reward_func/mean": 0.17999999225139618,
+      "rewards/reward_func/std": 0.49509018659591675,
+      "sampling/importance_sampling_ratio/max": 0.8726930022239685,
+      "sampling/importance_sampling_ratio/mean": 0.6684524416923523,
+      "sampling/importance_sampling_ratio/min": 0.5162980556488037,
+      "sampling/sampling_logp_difference/max": 0.7039575576782227,
+      "sampling/sampling_logp_difference/mean": 0.023529747501015663,
+      "step": 423,
+      "step_time": 71.27505167000345
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 64.0,
+      "completions/max_terminated_length": 64.0,
+      "completions/mean_length": 45.5,
+      "completions/mean_terminated_length": 45.5,
+      "completions/min_length": 31.0,
+      "completions/min_terminated_length": 31.0,
+      "entropy": 0.3805294632911682,
+      "epoch": 0.848,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.6922258138656616,
+      "kl": 0.04322695732116699,
+      "learning_rate": 3.233939883989882e-06,
+      "loss": 0.1443,
+      "num_tokens": 2357558.0,
+      "reward": 0.3450000286102295,
+      "reward_std": 0.24957968294620514,
+      "rewards/reward_func/mean": 0.3450000286102295,
+      "rewards/reward_func/std": 0.5098739862442017,
+      "sampling/importance_sampling_ratio/max": 2.186922788619995,
+      "sampling/importance_sampling_ratio/mean": 1.163309097290039,
+      "sampling/importance_sampling_ratio/min": 0.4379298686981201,
+      "sampling/sampling_logp_difference/max": 0.7527205944061279,
+      "sampling/sampling_logp_difference/mean": 0.030846048146486282,
+      "step": 424,
+      "step_time": 52.987184192985296
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 66.0,
+      "completions/max_terminated_length": 66.0,
+      "completions/mean_length": 50.375,
+      "completions/mean_terminated_length": 50.375,
+      "completions/min_length": 30.0,
+      "completions/min_terminated_length": 30.0,
+      "entropy": 0.380068302154541,
+      "epoch": 0.85,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.7612060308456421,
+      "kl": 0.03679168224334717,
+      "learning_rate": 3.2261959432018834e-06,
+      "loss": -0.0798,
+      "num_tokens": 2362976.0,
+      "reward": 0.32499998807907104,
+      "reward_std": 0.5652101039886475,
+      "rewards/reward_func/mean": 0.32499998807907104,
+      "rewards/reward_func/std": 0.5401322841644287,
+      "sampling/importance_sampling_ratio/max": 1.0401641130447388,
+      "sampling/importance_sampling_ratio/mean": 0.5586026906967163,
+      "sampling/importance_sampling_ratio/min": 0.27103391289711,
+      "sampling/sampling_logp_difference/max": 0.5478124618530273,
+      "sampling/sampling_logp_difference/mean": 0.03913367539644241,
+      "step": 425,
+      "step_time": 76.52260100099375
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 55.0,
+      "completions/max_terminated_length": 55.0,
+      "completions/mean_length": 47.125,
+      "completions/mean_terminated_length": 47.125,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.3354133069515228,
+      "epoch": 0.852,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4465264081954956,
+      "kl": 0.02433839999139309,
+      "learning_rate": 3.218444384962071e-06,
+      "loss": -0.404,
+      "num_tokens": 2368735.0,
+      "reward": 0.21250000596046448,
+      "reward_std": 0.32150566577911377,
+      "rewards/reward_func/mean": 0.21250000596046448,
+      "rewards/reward_func/std": 0.48443636298179626,
+      "sampling/importance_sampling_ratio/max": 1.766361951828003,
+      "sampling/importance_sampling_ratio/mean": 0.968987226486206,
+      "sampling/importance_sampling_ratio/min": 0.29835739731788635,
+      "sampling/sampling_logp_difference/max": 0.7882108688354492,
+      "sampling/sampling_logp_difference/mean": 0.029678575694561005,
+      "step": 426,
+      "step_time": 68.1356228920049
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 52.0,
+      "completions/max_terminated_length": 52.0,
+      "completions/mean_length": 43.125,
+      "completions/mean_terminated_length": 43.125,
+      "completions/min_length": 40.0,
+      "completions/min_terminated_length": 40.0,
+      "entropy": 0.33666664361953735,
+      "epoch": 0.854,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.9550222158432007,
+      "kl": 0.0564693845808506,
+      "learning_rate": 3.210685290580622e-06,
+      "loss": -0.0499,
+      "num_tokens": 2373721.0,
+      "reward": 0.3474999964237213,
+      "reward_std": 0.5655620098114014,
+      "rewards/reward_func/mean": 0.3474999964237213,
+      "rewards/reward_func/std": 0.5410770177841187,
+      "sampling/importance_sampling_ratio/max": 1.442548155784607,
+      "sampling/importance_sampling_ratio/mean": 0.9848485589027405,
+      "sampling/importance_sampling_ratio/min": 0.6200289726257324,
+      "sampling/sampling_logp_difference/max": 0.4186820983886719,
+      "sampling/sampling_logp_difference/mean": 0.02865251712501049,
+      "step": 427,
+      "step_time": 46.70685623100144
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.0,
+      "completions/max_terminated_length": 65.0,
+      "completions/mean_length": 46.25,
+      "completions/mean_terminated_length": 46.25,
+      "completions/min_length": 32.0,
+      "completions/min_terminated_length": 32.0,
+      "entropy": 0.36010992527008057,
+      "epoch": 0.856,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.5365159511566162,
+      "kl": 0.03516993671655655,
+      "learning_rate": 3.2029187414467645e-06,
+      "loss": -0.1816,
+      "num_tokens": 2379614.0,
+      "reward": 0.22500000894069672,
+      "reward_std": 0.3162981867790222,
+      "rewards/reward_func/mean": 0.22500000894069672,
+      "rewards/reward_func/std": 0.47952359914779663,
+      "sampling/importance_sampling_ratio/max": 1.5209850072860718,
+      "sampling/importance_sampling_ratio/mean": 1.071610689163208,
+      "sampling/importance_sampling_ratio/min": 0.45961546897888184,
+      "sampling/sampling_logp_difference/max": 0.6144394874572754,
+      "sampling/sampling_logp_difference/mean": 0.033051151782274246,
+      "step": 428,
+      "step_time": 65.01070052201976
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 72.0,
+      "completions/max_terminated_length": 72.0,
+      "completions/mean_length": 48.5,
+      "completions/mean_terminated_length": 48.5,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.34195345640182495,
+      "epoch": 0.858,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.953159749507904,
+      "kl": 0.032611116766929626,
+      "learning_rate": 3.1951448190279256e-06,
+      "loss": 0.0294,
+      "num_tokens": 2385361.0,
+      "reward": 0.09000000357627869,
+      "reward_std": 0.2679736018180847,
+      "rewards/reward_func/mean": 0.09000000357627869,
+      "rewards/reward_func/std": 0.3642212748527527,
+      "sampling/importance_sampling_ratio/max": 1.2745250463485718,
+      "sampling/importance_sampling_ratio/mean": 0.9374400973320007,
+      "sampling/importance_sampling_ratio/min": 0.4317379891872406,
+      "sampling/sampling_logp_difference/max": 0.44930171966552734,
+      "sampling/sampling_logp_difference/mean": 0.02398090809583664,
+      "step": 429,
+      "step_time": 63.217384373012464
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 69.0,
+      "completions/max_terminated_length": 69.0,
+      "completions/mean_length": 57.0,
+      "completions/mean_terminated_length": 57.0,
+      "completions/min_length": 43.0,
+      "completions/min_terminated_length": 43.0,
+      "entropy": 0.3918173611164093,
+      "epoch": 0.86,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.7345211505889893,
+      "kl": 0.02356931008398533,
+      "learning_rate": 3.1873636048688714e-06,
+      "loss": 0.0721,
+      "num_tokens": 2390785.0,
+      "reward": 0.2150000035762787,
+      "reward_std": 0.5217581987380981,
+      "rewards/reward_func/mean": 0.2150000035762787,
+      "rewards/reward_func/std": 0.4830853343009949,
+      "sampling/importance_sampling_ratio/max": 1.0560283660888672,
+      "sampling/importance_sampling_ratio/mean": 0.7125515937805176,
+      "sampling/importance_sampling_ratio/min": 0.24447228014469147,
+      "sampling/sampling_logp_difference/max": 1.1061149835586548,
+      "sampling/sampling_logp_difference/mean": 0.02791447564959526,
+      "step": 430,
+      "step_time": 69.20054752400029
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.0,
+      "completions/max_terminated_length": 65.0,
+      "completions/mean_length": 49.375,
+      "completions/mean_terminated_length": 49.375,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.3796185851097107,
+      "epoch": 0.862,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9570589661598206,
+      "kl": 0.03291895240545273,
+      "learning_rate": 3.1795751805908578e-06,
+      "loss": -0.0766,
+      "num_tokens": 2396141.0,
+      "reward": 0.3125,
+      "reward_std": 0.5881974697113037,
+      "rewards/reward_func/mean": 0.3125,
+      "rewards/reward_func/std": 0.5682240724563599,
+      "sampling/importance_sampling_ratio/max": 1.2188318967819214,
+      "sampling/importance_sampling_ratio/mean": 0.7393078207969666,
+      "sampling/importance_sampling_ratio/min": 0.3626616597175598,
+      "sampling/sampling_logp_difference/max": 0.3476827144622803,
+      "sampling/sampling_logp_difference/mean": 0.029474619776010513,
+      "step": 431,
+      "step_time": 65.4366222230019
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 58.0,
+      "completions/max_terminated_length": 58.0,
+      "completions/mean_length": 42.875,
+      "completions/mean_terminated_length": 42.875,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.3385878801345825,
+      "epoch": 0.864,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.5139399766921997,
+      "kl": 0.041907161474227905,
+      "learning_rate": 3.171779627890769e-06,
+      "loss": 0.1129,
+      "num_tokens": 2400741.0,
+      "reward": 0.1899999976158142,
+      "reward_std": 0.3400847911834717,
+      "rewards/reward_func/mean": 0.1899999976158142,
+      "rewards/reward_func/std": 0.4960990846157074,
+      "sampling/importance_sampling_ratio/max": 1.7639198303222656,
+      "sampling/importance_sampling_ratio/mean": 1.0898196697235107,
+      "sampling/importance_sampling_ratio/min": 0.6894667148590088,
+      "sampling/sampling_logp_difference/max": 0.5719653367996216,
+      "sampling/sampling_logp_difference/mean": 0.028854355216026306,
+      "step": 432,
+      "step_time": 46.04387527299696
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 59.0,
+      "completions/max_terminated_length": 59.0,
+      "completions/mean_length": 47.25,
+      "completions/mean_terminated_length": 47.25,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.34956616163253784,
+      "epoch": 0.866,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9688817262649536,
+      "kl": 0.02931622788310051,
+      "learning_rate": 3.1639770285402632e-06,
+      "loss": 0.1477,
+      "num_tokens": 2405893.0,
+      "reward": 0.04375000298023224,
+      "reward_std": 0.3060930669307709,
+      "rewards/reward_func/mean": 0.04375000298023224,
+      "rewards/reward_func/std": 0.39467665553092957,
+      "sampling/importance_sampling_ratio/max": 1.536496639251709,
+      "sampling/importance_sampling_ratio/mean": 1.0786614418029785,
+      "sampling/importance_sampling_ratio/min": 0.7137445211410522,
+      "sampling/sampling_logp_difference/max": 0.34972822666168213,
+      "sampling/sampling_logp_difference/mean": 0.02250964567065239,
+      "step": 433,
+      "step_time": 69.64978085900657
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.0,
+      "completions/max_terminated_length": 61.0,
+      "completions/mean_length": 47.5,
+      "completions/mean_terminated_length": 47.5,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.36804884672164917,
+      "epoch": 0.868,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0465831756591797,
+      "kl": 0.034811001271009445,
+      "learning_rate": 3.1561674643849173e-06,
+      "loss": -0.1412,
+      "num_tokens": 2411564.0,
+      "reward": 0.10000000149011612,
+      "reward_std": 0.26890355348587036,
+      "rewards/reward_func/mean": 0.10000000149011612,
+      "rewards/reward_func/std": 0.3607531785964966,
+      "sampling/importance_sampling_ratio/max": 2.2357981204986572,
+      "sampling/importance_sampling_ratio/mean": 0.8856201767921448,
+      "sampling/importance_sampling_ratio/min": 0.4398100972175598,
+      "sampling/sampling_logp_difference/max": 0.648827075958252,
+      "sampling/sampling_logp_difference/mean": 0.02694147266447544,
+      "step": 434,
+      "step_time": 78.29400004900526
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 68.0,
+      "completions/max_terminated_length": 68.0,
+      "completions/mean_length": 47.75,
+      "completions/mean_terminated_length": 47.75,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.3648771643638611,
+      "epoch": 0.87,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.5500693321228027,
+      "kl": 0.049925297498703,
+      "learning_rate": 3.148351017343363e-06,
+      "loss": 0.0987,
+      "num_tokens": 2418201.0,
+      "reward": 0.21875,
+      "reward_std": 0.5047336220741272,
+      "rewards/reward_func/mean": 0.21875,
+      "rewards/reward_func/std": 0.46759071946144104,
+      "sampling/importance_sampling_ratio/max": 2.2972049713134766,
+      "sampling/importance_sampling_ratio/mean": 1.2422068119049072,
+      "sampling/importance_sampling_ratio/min": 0.5480000376701355,
+      "sampling/sampling_logp_difference/max": 0.49748849868774414,
+      "sampling/sampling_logp_difference/mean": 0.03015657514333725,
+      "step": 435,
+      "step_time": 80.38836584499222
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 51.0,
+      "completions/max_terminated_length": 51.0,
+      "completions/mean_length": 45.875,
+      "completions/mean_terminated_length": 45.875,
+      "completions/min_length": 41.0,
+      "completions/min_terminated_length": 41.0,
+      "entropy": 0.3652074337005615,
+      "epoch": 0.872,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4921752214431763,
+      "kl": 0.0575464591383934,
+      "learning_rate": 3.1405277694064306e-06,
+      "loss": -0.2442,
+      "num_tokens": 2423760.0,
+      "reward": 0.20124998688697815,
+      "reward_std": 0.32401105761528015,
+      "rewards/reward_func/mean": 0.20124998688697815,
+      "rewards/reward_func/std": 0.49380266666412354,
+      "sampling/importance_sampling_ratio/max": 1.8371641635894775,
+      "sampling/importance_sampling_ratio/mean": 1.028379201889038,
+      "sampling/importance_sampling_ratio/min": 0.34969013929367065,
+      "sampling/sampling_logp_difference/max": 0.47838956117630005,
+      "sampling/sampling_logp_difference/mean": 0.028822563588619232,
+      "step": 436,
+      "step_time": 111.30371044500498
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 67.0,
+      "completions/max_terminated_length": 67.0,
+      "completions/mean_length": 49.0,
+      "completions/mean_terminated_length": 49.0,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.3787916898727417,
+      "epoch": 0.874,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.373725414276123,
+      "kl": 0.029538137838244438,
+      "learning_rate": 3.1326978026362907e-06,
+      "loss": -0.1174,
+      "num_tokens": 2429732.0,
+      "reward": 0.1912499964237213,
+      "reward_std": 0.32099446654319763,
+      "rewards/reward_func/mean": 0.1912499964237213,
+      "rewards/reward_func/std": 0.4616256058216095,
+      "sampling/importance_sampling_ratio/max": 1.5630745887756348,
+      "sampling/importance_sampling_ratio/mean": 1.042021632194519,
+      "sampling/importance_sampling_ratio/min": 0.4928293526172638,
+      "sampling/sampling_logp_difference/max": 0.35456085205078125,
+      "sampling/sampling_logp_difference/mean": 0.02736075408756733,
+      "step": 437,
+      "step_time": 104.65821277699433
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 54.0,
+      "completions/max_terminated_length": 54.0,
+      "completions/mean_length": 45.25,
+      "completions/mean_terminated_length": 45.25,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.35759854316711426,
+      "epoch": 0.876,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3202944993972778,
+      "kl": 0.040575023740530014,
+      "learning_rate": 3.1248611991655885e-06,
+      "loss": 0.0142,
+      "num_tokens": 2435583.0,
+      "reward": 0.2237500101327896,
+      "reward_std": 0.3150855600833893,
+      "rewards/reward_func/mean": 0.2237500101327896,
+      "rewards/reward_func/std": 0.4777906835079193,
+      "sampling/importance_sampling_ratio/max": 1.4550713300704956,
+      "sampling/importance_sampling_ratio/mean": 0.7871130108833313,
+      "sampling/importance_sampling_ratio/min": 0.40031906962394714,
+      "sampling/sampling_logp_difference/max": 0.5306928157806396,
+      "sampling/sampling_logp_difference/mean": 0.028820747509598732,
+      "step": 438,
+      "step_time": 81.86951732399757
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 69.0,
+      "completions/max_terminated_length": 69.0,
+      "completions/mean_length": 52.375,
+      "completions/mean_terminated_length": 52.375,
+      "completions/min_length": 47.0,
+      "completions/min_terminated_length": 47.0,
+      "entropy": 0.3563615679740906,
+      "epoch": 0.878,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.279760718345642,
+      "kl": 0.03050798550248146,
+      "learning_rate": 3.1170180411965854e-06,
+      "loss": -0.1991,
+      "num_tokens": 2442392.0,
+      "reward": 0.36250001192092896,
+      "reward_std": 0.5422559976577759,
+      "rewards/reward_func/mean": 0.36250001192092896,
+      "rewards/reward_func/std": 0.519855797290802,
+      "sampling/importance_sampling_ratio/max": 1.3513309955596924,
+      "sampling/importance_sampling_ratio/mean": 0.7875853776931763,
+      "sampling/importance_sampling_ratio/min": 0.474069207906723,
+      "sampling/sampling_logp_difference/max": 0.5970335006713867,
+      "sampling/sampling_logp_difference/mean": 0.027284270152449608,
+      "step": 439,
+      "step_time": 78.53958937400603
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 92.0,
+      "completions/max_terminated_length": 92.0,
+      "completions/mean_length": 52.125,
+      "completions/mean_terminated_length": 52.125,
+      "completions/min_length": 40.0,
+      "completions/min_terminated_length": 40.0,
+      "entropy": 0.36696097254753113,
+      "epoch": 0.88,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3010104894638062,
+      "kl": 0.10381826758384705,
+      "learning_rate": 3.109168411000299e-06,
+      "loss": 0.0224,
+      "num_tokens": 2447245.0,
+      "reward": 0.4625000059604645,
+      "reward_std": 0.5960428714752197,
+      "rewards/reward_func/mean": 0.4625000059604645,
+      "rewards/reward_func/std": 0.5521063804626465,
+      "sampling/importance_sampling_ratio/max": 1.707277536392212,
+      "sampling/importance_sampling_ratio/mean": 0.8685052394866943,
+      "sampling/importance_sampling_ratio/min": 0.19099442660808563,
+      "sampling/sampling_logp_difference/max": 1.2762131690979004,
+      "sampling/sampling_logp_difference/mean": 0.029757626354694366,
+      "step": 440,
+      "step_time": 63.11404897898319
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 55.0,
+      "completions/max_terminated_length": 55.0,
+      "completions/mean_length": 46.125,
+      "completions/mean_terminated_length": 46.125,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.3573892414569855,
+      "epoch": 0.882,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.6774803400039673,
+      "kl": 0.05356031656265259,
+      "learning_rate": 3.1013123909156347e-06,
+      "loss": -0.0621,
+      "num_tokens": 2452150.0,
+      "reward": 0.3125,
+      "reward_std": 0.5504498481750488,
+      "rewards/reward_func/mean": 0.3125,
+      "rewards/reward_func/std": 0.5366496443748474,
+      "sampling/importance_sampling_ratio/max": 2.0549330711364746,
+      "sampling/importance_sampling_ratio/mean": 1.1193873882293701,
+      "sampling/importance_sampling_ratio/min": 0.4323776066303253,
+      "sampling/sampling_logp_difference/max": 0.3989245891571045,
+      "sampling/sampling_logp_difference/mean": 0.025564704090356827,
+      "step": 441,
+      "step_time": 76.97689333499875
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 81.0,
+      "completions/max_terminated_length": 81.0,
+      "completions/mean_length": 54.125,
+      "completions/mean_terminated_length": 54.125,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.30483388900756836,
+      "epoch": 0.884,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4331544637680054,
+      "kl": 0.02398044988512993,
+      "learning_rate": 3.093450063348525e-06,
+      "loss": 0.364,
+      "num_tokens": 2457723.0,
+      "reward": 0.07000000029802322,
+      "reward_std": 0.2906396687030792,
+      "rewards/reward_func/mean": 0.07000000029802322,
+      "rewards/reward_func/std": 0.37815341353416443,
+      "sampling/importance_sampling_ratio/max": 2.091522216796875,
+      "sampling/importance_sampling_ratio/mean": 1.1620619297027588,
+      "sampling/importance_sampling_ratio/min": 0.6012184023857117,
+      "sampling/sampling_logp_difference/max": 0.30550384521484375,
+      "sampling/sampling_logp_difference/mean": 0.022237438708543777,
+      "step": 442,
+      "step_time": 95.15003140000044
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 55.0,
+      "completions/max_terminated_length": 55.0,
+      "completions/mean_length": 48.625,
+      "completions/mean_terminated_length": 48.625,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.34086257219314575,
+      "epoch": 0.886,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1229441165924072,
+      "kl": 0.01796545460820198,
+      "learning_rate": 3.085581510771067e-06,
+      "loss": -0.0669,
+      "num_tokens": 2462560.0,
+      "reward": 0.3512499928474426,
+      "reward_std": 0.5547357797622681,
+      "rewards/reward_func/mean": 0.3512499928474426,
+      "rewards/reward_func/std": 0.5352286100387573,
+      "sampling/importance_sampling_ratio/max": 1.212695837020874,
+      "sampling/importance_sampling_ratio/mean": 0.912885844707489,
+      "sampling/importance_sampling_ratio/min": 0.4976806342601776,
+      "sampling/sampling_logp_difference/max": 0.33936166763305664,
+      "sampling/sampling_logp_difference/mean": 0.02151985839009285,
+      "step": 443,
+      "step_time": 56.16717357101152
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 62.0,
+      "completions/max_terminated_length": 62.0,
+      "completions/mean_length": 45.0,
+      "completions/mean_terminated_length": 45.0,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.34066683053970337,
+      "epoch": 0.888,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1225097179412842,
+      "kl": 0.029933886602520943,
+      "learning_rate": 3.0777068157206535e-06,
+      "loss": 0.0719,
+      "num_tokens": 2468388.0,
+      "reward": 0.1899999976158142,
+      "reward_std": 0.5411940813064575,
+      "rewards/reward_func/mean": 0.1899999976158142,
+      "rewards/reward_func/std": 0.5013980269432068,
+      "sampling/importance_sampling_ratio/max": 1.6062737703323364,
+      "sampling/importance_sampling_ratio/mean": 0.7600141167640686,
+      "sampling/importance_sampling_ratio/min": 0.24852630496025085,
+      "sampling/sampling_logp_difference/max": 0.6514277458190918,
+      "sampling/sampling_logp_difference/mean": 0.025996115058660507,
+      "step": 444,
+      "step_time": 86.21614760000375
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 62.0,
+      "completions/max_terminated_length": 62.0,
+      "completions/mean_length": 47.75,
+      "completions/mean_terminated_length": 47.75,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.3731077015399933,
+      "epoch": 0.89,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.1878068447113037,
+      "kl": 0.029690194875001907,
+      "learning_rate": 3.0698260607991094e-06,
+      "loss": -0.1014,
+      "num_tokens": 2473364.0,
+      "reward": 0.21875,
+      "reward_std": 0.5235260725021362,
+      "rewards/reward_func/mean": 0.21875,
+      "rewards/reward_func/std": 0.4851638376712799,
+      "sampling/importance_sampling_ratio/max": 1.600021481513977,
+      "sampling/importance_sampling_ratio/mean": 0.9576125144958496,
+      "sampling/importance_sampling_ratio/min": 0.5527809858322144,
+      "sampling/sampling_logp_difference/max": 0.35846877098083496,
+      "sampling/sampling_logp_difference/mean": 0.02683459408581257,
+      "step": 445,
+      "step_time": 66.11640017299214
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 58.0,
+      "completions/max_terminated_length": 58.0,
+      "completions/mean_length": 47.625,
+      "completions/mean_terminated_length": 47.625,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.36752647161483765,
+      "epoch": 0.892,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9450146555900574,
+      "kl": 0.0277615524828434,
+      "learning_rate": 3.061939328671824e-06,
+      "loss": 0.1718,
+      "num_tokens": 2478775.0,
+      "reward": 0.3125,
+      "reward_std": 0.5557467341423035,
+      "rewards/reward_func/mean": 0.3125,
+      "rewards/reward_func/std": 0.5402578711509705,
+      "sampling/importance_sampling_ratio/max": 1.8847589492797852,
+      "sampling/importance_sampling_ratio/mean": 0.9969915747642517,
+      "sampling/importance_sampling_ratio/min": 0.4349041283130646,
+      "sampling/sampling_logp_difference/max": 0.40544378757476807,
+      "sampling/sampling_logp_difference/mean": 0.02645990625023842,
+      "step": 446,
+      "step_time": 93.85621070399066
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 57.0,
+      "completions/max_terminated_length": 57.0,
+      "completions/mean_length": 44.375,
+      "completions/mean_terminated_length": 44.375,
+      "completions/min_length": 32.0,
+      "completions/min_terminated_length": 32.0,
+      "entropy": 0.35863834619522095,
+      "epoch": 0.894,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.6648696660995483,
+      "kl": 0.03483325242996216,
+      "learning_rate": 3.054046702066886e-06,
+      "loss": 0.1038,
+      "num_tokens": 2484436.0,
+      "reward": 0.5862500071525574,
+      "reward_std": 0.5568501353263855,
+      "rewards/reward_func/mean": 0.5862500071525574,
+      "rewards/reward_func/std": 0.5336917042732239,
+      "sampling/importance_sampling_ratio/max": 2.2653186321258545,
+      "sampling/importance_sampling_ratio/mean": 1.2341718673706055,
+      "sampling/importance_sampling_ratio/min": 0.42728522419929504,
+      "sampling/sampling_logp_difference/max": 0.7648518085479736,
+      "sampling/sampling_logp_difference/mean": 0.025960015133023262,
+      "step": 447,
+      "step_time": 76.71857017299044
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 71.0,
+      "completions/max_terminated_length": 71.0,
+      "completions/mean_length": 52.625,
+      "completions/mean_terminated_length": 52.625,
+      "completions/min_length": 40.0,
+      "completions/min_terminated_length": 40.0,
+      "entropy": 0.3564414083957672,
+      "epoch": 0.896,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1071441173553467,
+      "kl": 0.02148180454969406,
+      "learning_rate": 3.0461482637742133e-06,
+      "loss": 0.0403,
+      "num_tokens": 2490437.0,
+      "reward": 0.32875001430511475,
+      "reward_std": 0.569521427154541,
+      "rewards/reward_func/mean": 0.32875001430511475,
+      "rewards/reward_func/std": 0.547577440738678,
+      "sampling/importance_sampling_ratio/max": 1.057119607925415,
+      "sampling/importance_sampling_ratio/mean": 0.8925005197525024,
+      "sampling/importance_sampling_ratio/min": 0.7844187021255493,
+      "sampling/sampling_logp_difference/max": 0.3507990837097168,
+      "sampling/sampling_logp_difference/mean": 0.026810673996806145,
+      "step": 448,
+      "step_time": 82.088118226995
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 67.0,
+      "completions/max_terminated_length": 67.0,
+      "completions/mean_length": 48.0,
+      "completions/mean_terminated_length": 48.0,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.3908958435058594,
+      "epoch": 0.898,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2796645164489746,
+      "kl": 0.027592984959483147,
+      "learning_rate": 3.0382440966446876e-06,
+      "loss": -0.1308,
+      "num_tokens": 2496183.0,
+      "reward": 0.07874999940395355,
+      "reward_std": 0.2891866862773895,
+      "rewards/reward_func/mean": 0.07874999940395355,
+      "rewards/reward_func/std": 0.37215349078178406,
+      "sampling/importance_sampling_ratio/max": 1.3071595430374146,
+      "sampling/importance_sampling_ratio/mean": 0.8888345956802368,
+      "sampling/importance_sampling_ratio/min": 0.33864834904670715,
+      "sampling/sampling_logp_difference/max": 0.3511269688606262,
+      "sampling/sampling_logp_difference/mean": 0.03274238109588623,
+      "step": 449,
+      "step_time": 70.07518242698279
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 79.0,
+      "completions/max_terminated_length": 79.0,
+      "completions/mean_length": 58.875,
+      "completions/mean_terminated_length": 58.875,
+      "completions/min_length": 46.0,
+      "completions/min_terminated_length": 46.0,
+      "entropy": 0.35438233613967896,
+      "epoch": 0.9,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3290492296218872,
+      "kl": 0.013173183426260948,
+      "learning_rate": 3.0303342835892804e-06,
+      "loss": -0.041,
+      "num_tokens": 2502767.0,
+      "reward": 0.23125000298023224,
+      "reward_std": 0.5127817392349243,
+      "rewards/reward_func/mean": 0.23125000298023224,
+      "rewards/reward_func/std": 0.4747461676597595,
+      "sampling/importance_sampling_ratio/max": 2.287126302719116,
+      "sampling/importance_sampling_ratio/mean": 1.1372334957122803,
+      "sampling/importance_sampling_ratio/min": 0.29354920983314514,
+      "sampling/sampling_logp_difference/max": 0.5065096616744995,
+      "sampling/sampling_logp_difference/mean": 0.025254379957914352,
+      "step": 450,
+      "step_time": 73.5957540590025
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 54.0,
+      "completions/max_terminated_length": 54.0,
+      "completions/mean_length": 43.125,
+      "completions/mean_terminated_length": 43.125,
+      "completions/min_length": 26.0,
+      "completions/min_terminated_length": 26.0,
+      "entropy": 0.36208608746528625,
+      "epoch": 0.902,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2244484424591064,
+      "kl": 0.024516358971595764,
+      "learning_rate": 3.0224189075781886e-06,
+      "loss": -0.0166,
+      "num_tokens": 2509154.0,
+      "reward": 0.20374999940395355,
+      "reward_std": 0.524694561958313,
+      "rewards/reward_func/mean": 0.20374999940395355,
+      "rewards/reward_func/std": 0.48582589626312256,
+      "sampling/importance_sampling_ratio/max": 1.417374610900879,
+      "sampling/importance_sampling_ratio/mean": 0.9122079610824585,
+      "sampling/importance_sampling_ratio/min": 0.3931795656681061,
+      "sampling/sampling_logp_difference/max": 0.4949922561645508,
+      "sampling/sampling_logp_difference/mean": 0.0227043554186821,
+      "step": 451,
+      "step_time": 78.99534437101102
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 53.0,
+      "completions/max_terminated_length": 53.0,
+      "completions/mean_length": 42.375,
+      "completions/mean_terminated_length": 42.375,
+      "completions/min_length": 31.0,
+      "completions/min_terminated_length": 31.0,
+      "entropy": 0.39959007501602173,
+      "epoch": 0.904,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0420317649841309,
+      "kl": 0.019628848880529404,
+      "learning_rate": 3.014498051639959e-06,
+      "loss": 0.1187,
+      "num_tokens": 2514772.0,
+      "reward": -0.05375000089406967,
+      "reward_std": 0.0541689358651638,
+      "rewards/reward_func/mean": -0.05375000089406967,
+      "rewards/reward_func/std": 0.05705573782324791,
+      "sampling/importance_sampling_ratio/max": 1.0508769750595093,
+      "sampling/importance_sampling_ratio/mean": 0.7083895802497864,
+      "sampling/importance_sampling_ratio/min": 0.29281339049339294,
+      "sampling/sampling_logp_difference/max": 0.9839637279510498,
+      "sampling/sampling_logp_difference/mean": 0.03381787985563278,
+      "step": 452,
+      "step_time": 81.53623366498505
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 59.0,
+      "completions/max_terminated_length": 59.0,
+      "completions/mean_length": 47.375,
+      "completions/mean_terminated_length": 47.375,
+      "completions/min_length": 41.0,
+      "completions/min_terminated_length": 41.0,
+      "entropy": 0.367666631937027,
+      "epoch": 0.906,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.8917317390441895,
+      "kl": 0.022898491472005844,
+      "learning_rate": 3.006571798860626e-06,
+      "loss": 0.0868,
+      "num_tokens": 2519920.0,
+      "reward": 0.45625001192092896,
+      "reward_std": 0.6168291568756104,
+      "rewards/reward_func/mean": 0.45625001192092896,
+      "rewards/reward_func/std": 0.5718875527381897,
+      "sampling/importance_sampling_ratio/max": 2.3027987480163574,
+      "sampling/importance_sampling_ratio/mean": 1.5321813821792603,
+      "sampling/importance_sampling_ratio/min": 0.91518634557724,
+      "sampling/sampling_logp_difference/max": 0.6675479412078857,
+      "sampling/sampling_logp_difference/mean": 0.02647707611322403,
+      "step": 453,
+      "step_time": 71.51700325298589
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 76.0,
+      "completions/max_terminated_length": 76.0,
+      "completions/mean_length": 50.0,
+      "completions/mean_terminated_length": 50.0,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.3597128987312317,
+      "epoch": 0.908,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8695248365402222,
+      "kl": 0.044961053878068924,
+      "learning_rate": 2.9986402323828274e-06,
+      "loss": 0.0217,
+      "num_tokens": 2525228.0,
+      "reward": 0.32124999165534973,
+      "reward_std": 0.551304042339325,
+      "rewards/reward_func/mean": 0.32124999165534973,
+      "rewards/reward_func/std": 0.5287569761276245,
+      "sampling/importance_sampling_ratio/max": 1.051468014717102,
+      "sampling/importance_sampling_ratio/mean": 0.6988952159881592,
+      "sampling/importance_sampling_ratio/min": 0.27730298042297363,
+      "sampling/sampling_logp_difference/max": 0.5294761657714844,
+      "sampling/sampling_logp_difference/mean": 0.03408505767583847,
+      "step": 454,
+      "step_time": 66.79093995000585
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 69.0,
+      "completions/max_terminated_length": 69.0,
+      "completions/mean_length": 48.0,
+      "completions/mean_terminated_length": 48.0,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.40276795625686646,
+      "epoch": 0.91,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.8840203285217285,
+      "kl": 0.020732712000608444,
+      "learning_rate": 2.9907034354049443e-06,
+      "loss": -0.206,
+      "num_tokens": 2530621.0,
+      "reward": 0.22499999403953552,
+      "reward_std": 0.5174823999404907,
+      "rewards/reward_func/mean": 0.22499999403953552,
+      "rewards/reward_func/std": 0.4791063070297241,
+      "sampling/importance_sampling_ratio/max": 1.370976448059082,
+      "sampling/importance_sampling_ratio/mean": 0.9440828561782837,
+      "sampling/importance_sampling_ratio/min": 0.7049600481987,
+      "sampling/sampling_logp_difference/max": 0.33017855882644653,
+      "sampling/sampling_logp_difference/mean": 0.02502366527915001,
+      "step": 455,
+      "step_time": 65.70268553399364
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 62.0,
+      "completions/max_terminated_length": 62.0,
+      "completions/mean_length": 46.25,
+      "completions/mean_terminated_length": 46.25,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.3440622091293335,
+      "epoch": 0.912,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9514747262001038,
+      "kl": 0.02538667805492878,
+      "learning_rate": 2.9827614911802205e-06,
+      "loss": -0.2967,
+      "num_tokens": 2536636.0,
+      "reward": 0.5924999713897705,
+      "reward_std": 0.5447898507118225,
+      "rewards/reward_func/mean": 0.5924999713897705,
+      "rewards/reward_func/std": 0.5242614150047302,
+      "sampling/importance_sampling_ratio/max": 1.4159477949142456,
+      "sampling/importance_sampling_ratio/mean": 0.8564717769622803,
+      "sampling/importance_sampling_ratio/min": 0.0,
+      "sampling/sampling_logp_difference/max": 0.6149642467498779,
+      "sampling/sampling_logp_difference/mean": 0.02475292794406414,
+      "step": 456,
+      "step_time": 60.81095889999415
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 70.0,
+      "completions/max_terminated_length": 70.0,
+      "completions/mean_length": 48.75,
+      "completions/mean_terminated_length": 48.75,
+      "completions/min_length": 29.0,
+      "completions/min_terminated_length": 29.0,
+      "entropy": 0.36642664670944214,
+      "epoch": 0.914,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3120555877685547,
+      "kl": 0.024605643004179,
+      "learning_rate": 2.9748144830158925e-06,
+      "loss": 0.1126,
+      "num_tokens": 2542012.0,
+      "reward": 0.4650000035762787,
+      "reward_std": 0.6151281595230103,
+      "rewards/reward_func/mean": 0.4650000035762787,
+      "rewards/reward_func/std": 0.5700375437736511,
+      "sampling/importance_sampling_ratio/max": 1.2174410820007324,
+      "sampling/importance_sampling_ratio/mean": 0.8987510204315186,
+      "sampling/importance_sampling_ratio/min": 0.4412446916103363,
+      "sampling/sampling_logp_difference/max": 0.48370981216430664,
+      "sampling/sampling_logp_difference/mean": 0.02678913250565529,
+      "step": 457,
+      "step_time": 51.764286594989244
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 56.0,
+      "completions/max_terminated_length": 56.0,
+      "completions/mean_length": 45.375,
+      "completions/mean_terminated_length": 45.375,
+      "completions/min_length": 29.0,
+      "completions/min_terminated_length": 29.0,
+      "entropy": 0.39495640993118286,
+      "epoch": 0.916,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3088325262069702,
+      "kl": 0.03151445835828781,
+      "learning_rate": 2.966862494272316e-06,
+      "loss": -0.0101,
+      "num_tokens": 2547545.0,
+      "reward": 0.3399999737739563,
+      "reward_std": 0.554172158241272,
+      "rewards/reward_func/mean": 0.3399999737739563,
+      "rewards/reward_func/std": 0.530336856842041,
+      "sampling/importance_sampling_ratio/max": 1.727379560470581,
+      "sampling/importance_sampling_ratio/mean": 0.9480923414230347,
+      "sampling/importance_sampling_ratio/min": 0.2979666590690613,
+      "sampling/sampling_logp_difference/max": 0.5283234119415283,
+      "sampling/sampling_logp_difference/mean": 0.02785215526819229,
+      "step": 458,
+      "step_time": 67.89937086799182
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.0,
+      "completions/max_terminated_length": 65.0,
+      "completions/mean_length": 48.75,
+      "completions/mean_terminated_length": 48.75,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.33337390422821045,
+      "epoch": 0.918,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1922571659088135,
+      "kl": 0.03265373408794403,
+      "learning_rate": 2.9589056083620902e-06,
+      "loss": -0.1628,
+      "num_tokens": 2552724.0,
+      "reward": 0.4387500286102295,
+      "reward_std": 0.6136727333068848,
+      "rewards/reward_func/mean": 0.4387500286102295,
+      "rewards/reward_func/std": 0.5688695311546326,
+      "sampling/importance_sampling_ratio/max": 1.5377517938613892,
+      "sampling/importance_sampling_ratio/mean": 0.7701914310455322,
+      "sampling/importance_sampling_ratio/min": 0.3763391673564911,
+      "sampling/sampling_logp_difference/max": 0.8605606555938721,
+      "sampling/sampling_logp_difference/mean": 0.026637043803930283,
+      "step": 459,
+      "step_time": 63.45414676400833
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 62.0,
+      "completions/max_terminated_length": 62.0,
+      "completions/mean_length": 48.375,
+      "completions/mean_terminated_length": 48.375,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.3421512842178345,
+      "epoch": 0.92,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.6250663995742798,
+      "kl": 0.02636205032467842,
+      "learning_rate": 2.9509439087491837e-06,
+      "loss": 0.0988,
+      "num_tokens": 2558037.0,
+      "reward": -0.07374999672174454,
+      "reward_std": 0.04552318900823593,
+      "rewards/reward_func/mean": -0.07374999672174454,
+      "rewards/reward_func/std": 0.050691645592451096,
+      "sampling/importance_sampling_ratio/max": 2.0454702377319336,
+      "sampling/importance_sampling_ratio/mean": 1.0612456798553467,
+      "sampling/importance_sampling_ratio/min": 0.6895912885665894,
+      "sampling/sampling_logp_difference/max": 0.5679692029953003,
+      "sampling/sampling_logp_difference/mean": 0.023974724113941193,
+      "step": 460,
+      "step_time": 86.26930091198301
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 62.0,
+      "completions/max_terminated_length": 62.0,
+      "completions/mean_length": 49.125,
+      "completions/mean_terminated_length": 49.125,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.36159491539001465,
+      "epoch": 0.922,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.6231329441070557,
+      "kl": 0.03310780972242355,
+      "learning_rate": 2.9429774789480576e-06,
+      "loss": 0.0836,
+      "num_tokens": 2562984.0,
+      "reward": 0.33000001311302185,
+      "reward_std": 0.5563285946846008,
+      "rewards/reward_func/mean": 0.33000001311302185,
+      "rewards/reward_func/std": 0.5400264263153076,
+      "sampling/importance_sampling_ratio/max": 1.5695173740386963,
+      "sampling/importance_sampling_ratio/mean": 1.1787632703781128,
+      "sampling/importance_sampling_ratio/min": 0.7933380007743835,
+      "sampling/sampling_logp_difference/max": 0.5508012771606445,
+      "sampling/sampling_logp_difference/mean": 0.028630632907152176,
+      "step": 461,
+      "step_time": 44.234594836016186
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 67.0,
+      "completions/max_terminated_length": 67.0,
+      "completions/mean_length": 48.875,
+      "completions/mean_terminated_length": 48.875,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.36595630645751953,
+      "epoch": 0.924,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.5493158102035522,
+      "kl": 0.018796313554048538,
+      "learning_rate": 2.93500640252279e-06,
+      "loss": -0.1754,
+      "num_tokens": 2568343.0,
+      "reward": 0.4675000309944153,
+      "reward_std": 0.6093506813049316,
+      "rewards/reward_func/mean": 0.4675000309944153,
+      "rewards/reward_func/std": 0.564212441444397,
+      "sampling/importance_sampling_ratio/max": 1.9704557657241821,
+      "sampling/importance_sampling_ratio/mean": 1.0828232765197754,
+      "sampling/importance_sampling_ratio/min": 0.3847387135028839,
+      "sampling/sampling_logp_difference/max": 0.30640411376953125,
+      "sampling/sampling_logp_difference/mean": 0.025095216929912567,
+      "step": 462,
+      "step_time": 58.50289387899102
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.0,
+      "completions/max_terminated_length": 61.0,
+      "completions/mean_length": 49.375,
+      "completions/mean_terminated_length": 49.375,
+      "completions/min_length": 42.0,
+      "completions/min_terminated_length": 42.0,
+      "entropy": 0.3116268217563629,
+      "epoch": 0.926,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1552741527557373,
+      "kl": 0.02773866429924965,
+      "learning_rate": 2.927030763086201e-06,
+      "loss": -0.3653,
+      "num_tokens": 2573304.0,
+      "reward": 0.6000000238418579,
+      "reward_std": 0.5449049472808838,
+      "rewards/reward_func/mean": 0.6000000238418579,
+      "rewards/reward_func/std": 0.5248673558235168,
+      "sampling/importance_sampling_ratio/max": 1.798938512802124,
+      "sampling/importance_sampling_ratio/mean": 1.0102436542510986,
+      "sampling/importance_sampling_ratio/min": 0.319669634103775,
+      "sampling/sampling_logp_difference/max": 0.40699052810668945,
+      "sampling/sampling_logp_difference/mean": 0.027081940323114395,
+      "step": 463,
+      "step_time": 57.92807800701121
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.0,
+      "completions/max_terminated_length": 61.0,
+      "completions/mean_length": 53.0,
+      "completions/mean_terminated_length": 53.0,
+      "completions/min_length": 45.0,
+      "completions/min_terminated_length": 45.0,
+      "entropy": 0.3475750684738159,
+      "epoch": 0.928,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0931487083435059,
+      "kl": 0.01362108439207077,
+      "learning_rate": 2.9190506442989753e-06,
+      "loss": 0.0808,
+      "num_tokens": 2578554.0,
+      "reward": 0.08124999701976776,
+      "reward_std": 0.2719267010688782,
+      "rewards/reward_func/mean": 0.08124999701976776,
+      "rewards/reward_func/std": 0.36041396856307983,
+      "sampling/importance_sampling_ratio/max": 1.1853911876678467,
+      "sampling/importance_sampling_ratio/mean": 0.9154686331748962,
+      "sampling/importance_sampling_ratio/min": 0.48412805795669556,
+      "sampling/sampling_logp_difference/max": 0.6382970809936523,
+      "sampling/sampling_logp_difference/mean": 0.022256169468164444,
+      "step": 464,
+      "step_time": 61.422123302007094
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 63.0,
+      "completions/max_terminated_length": 63.0,
+      "completions/mean_length": 42.125,
+      "completions/mean_terminated_length": 42.125,
+      "completions/min_length": 21.0,
+      "completions/min_terminated_length": 21.0,
+      "entropy": 0.307975709438324,
+      "epoch": 0.93,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3115994930267334,
+      "kl": 0.033101074397563934,
+      "learning_rate": 2.9110661298687824e-06,
+      "loss": -0.0603,
+      "num_tokens": 2583778.0,
+      "reward": 0.45875000953674316,
+      "reward_std": 0.6054055690765381,
+      "rewards/reward_func/mean": 0.45875000953674316,
+      "rewards/reward_func/std": 0.5611579418182373,
+      "sampling/importance_sampling_ratio/max": 1.275829792022705,
+      "sampling/importance_sampling_ratio/mean": 0.8946892619132996,
+      "sampling/importance_sampling_ratio/min": 0.5616273283958435,
+      "sampling/sampling_logp_difference/max": 0.654704213142395,
+      "sampling/sampling_logp_difference/mean": 0.02203410118818283,
+      "step": 465,
+      "step_time": 61.31393297199975
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 52.0,
+      "completions/max_terminated_length": 52.0,
+      "completions/mean_length": 40.25,
+      "completions/mean_terminated_length": 40.25,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.35501527786254883,
+      "epoch": 0.932,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.040752649307251,
+      "kl": 0.03077756240963936,
+      "learning_rate": 2.9030773035493997e-06,
+      "loss": 0.2758,
+      "num_tokens": 2589204.0,
+      "reward": 0.3149999976158142,
+      "reward_std": 0.5430054664611816,
+      "rewards/reward_func/mean": 0.3149999976158142,
+      "rewards/reward_func/std": 0.5299056172370911,
+      "sampling/importance_sampling_ratio/max": 2.528179883956909,
+      "sampling/importance_sampling_ratio/mean": 1.2432548999786377,
+      "sampling/importance_sampling_ratio/min": 0.5364408493041992,
+      "sampling/sampling_logp_difference/max": 0.34423089027404785,
+      "sampling/sampling_logp_difference/mean": 0.027653541415929794,
+      "step": 466,
+      "step_time": 61.11274787300499
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 57.0,
+      "completions/max_terminated_length": 57.0,
+      "completions/mean_length": 48.25,
+      "completions/mean_terminated_length": 48.25,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.3300337493419647,
+      "epoch": 0.934,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0090454816818237,
+      "kl": 0.02721918746829033,
+      "learning_rate": 2.8950842491398358e-06,
+      "loss": -0.0327,
+      "num_tokens": 2595236.0,
+      "reward": 0.22374999523162842,
+      "reward_std": 0.5187286734580994,
+      "rewards/reward_func/mean": 0.22374999523162842,
+      "rewards/reward_func/std": 0.4808307886123657,
+      "sampling/importance_sampling_ratio/max": 1.447536587715149,
+      "sampling/importance_sampling_ratio/mean": 0.9794137477874756,
+      "sampling/importance_sampling_ratio/min": 0.46334025263786316,
+      "sampling/sampling_logp_difference/max": 0.3176230192184448,
+      "sampling/sampling_logp_difference/mean": 0.022374983876943588,
+      "step": 467,
+      "step_time": 76.51882786100032
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 80.0,
+      "completions/max_terminated_length": 80.0,
+      "completions/mean_length": 52.375,
+      "completions/mean_terminated_length": 52.375,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.34252166748046875,
+      "epoch": 0.936,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9320221543312073,
+      "kl": 0.018017075955867767,
+      "learning_rate": 2.8870870504834497e-06,
+      "loss": -0.1157,
+      "num_tokens": 2600730.0,
+      "reward": 0.07999999821186066,
+      "reward_std": 0.2839134931564331,
+      "rewards/reward_func/mean": 0.07999999821186066,
+      "rewards/reward_func/std": 0.3744710385799408,
+      "sampling/importance_sampling_ratio/max": 2.2560055255889893,
+      "sampling/importance_sampling_ratio/mean": 0.970880925655365,
+      "sampling/importance_sampling_ratio/min": 0.39924535155296326,
+      "sampling/sampling_logp_difference/max": 0.4781172275543213,
+      "sampling/sampling_logp_difference/mean": 0.025780895724892616,
+      "step": 468,
+      "step_time": 65.44530803800444
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 60.0,
+      "completions/max_terminated_length": 60.0,
+      "completions/mean_length": 48.25,
+      "completions/mean_terminated_length": 48.25,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.3617730140686035,
+      "epoch": 0.938,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8858951926231384,
+      "kl": 0.030386239290237427,
+      "learning_rate": 2.87908579146707e-06,
+      "loss": 0.1291,
+      "num_tokens": 2606113.0,
+      "reward": 0.21875,
+      "reward_std": 0.5210141539573669,
+      "rewards/reward_func/mean": 0.21875,
+      "rewards/reward_func/std": 0.48238804936408997,
+      "sampling/importance_sampling_ratio/max": 1.4669780731201172,
+      "sampling/importance_sampling_ratio/mean": 0.900518536567688,
+      "sampling/importance_sampling_ratio/min": 0.4941990077495575,
+      "sampling/sampling_logp_difference/max": 0.39029061794281006,
+      "sampling/sampling_logp_difference/mean": 0.022767363116145134,
+      "step": 469,
+      "step_time": 64.19338588201208
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 57.0,
+      "completions/max_terminated_length": 57.0,
+      "completions/mean_length": 45.0,
+      "completions/mean_terminated_length": 45.0,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "entropy": 0.34387028217315674,
+      "epoch": 0.94,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0154716968536377,
+      "kl": 0.02230965718626976,
+      "learning_rate": 2.8710805560201184e-06,
+      "loss": -0.1484,
+      "num_tokens": 2611738.0,
+      "reward": 0.6075000166893005,
+      "reward_std": 0.5653331279754639,
+      "rewards/reward_func/mean": 0.6075000166893005,
+      "rewards/reward_func/std": 0.5418421030044556,
+      "sampling/importance_sampling_ratio/max": 1.161827564239502,
+      "sampling/importance_sampling_ratio/mean": 0.8859966397285461,
+      "sampling/importance_sampling_ratio/min": 0.28873908519744873,
+      "sampling/sampling_logp_difference/max": 0.34857702255249023,
+      "sampling/sampling_logp_difference/mean": 0.025210872292518616,
+      "step": 470,
+      "step_time": 60.65404006501194
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 62.0,
+      "completions/max_terminated_length": 62.0,
+      "completions/mean_length": 51.125,
+      "completions/mean_terminated_length": 51.125,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.3458770513534546,
+      "epoch": 0.942,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0485503673553467,
+      "kl": 0.01893254555761814,
+      "learning_rate": 2.8630714281137263e-06,
+      "loss": 0.3028,
+      "num_tokens": 2617938.0,
+      "reward": 0.18000000715255737,
+      "reward_std": 0.3153059482574463,
+      "rewards/reward_func/mean": 0.18000000715255737,
+      "rewards/reward_func/std": 0.49796730279922485,
+      "sampling/importance_sampling_ratio/max": 1.7840207815170288,
+      "sampling/importance_sampling_ratio/mean": 1.1260120868682861,
+      "sampling/importance_sampling_ratio/min": 0.7038984298706055,
+      "sampling/sampling_logp_difference/max": 0.36597251892089844,
+      "sampling/sampling_logp_difference/mean": 0.02206684835255146,
+      "step": 471,
+      "step_time": 64.57444148999639
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 57.0,
+      "completions/max_terminated_length": 57.0,
+      "completions/mean_length": 47.875,
+      "completions/mean_terminated_length": 47.875,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.4065213203430176,
+      "epoch": 0.944,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.7479361891746521,
+      "kl": 0.022909866645932198,
+      "learning_rate": 2.8550584917598558e-06,
+      "loss": 0.0759,
+      "num_tokens": 2624135.0,
+      "reward": 0.07874999940395355,
+      "reward_std": 0.26868927478790283,
+      "rewards/reward_func/mean": 0.07874999940395355,
+      "rewards/reward_func/std": 0.36490458250045776,
+      "sampling/importance_sampling_ratio/max": 1.3143762350082397,
+      "sampling/importance_sampling_ratio/mean": 0.7255112528800964,
+      "sampling/importance_sampling_ratio/min": 0.27511295676231384,
+      "sampling/sampling_logp_difference/max": 0.46601831912994385,
+      "sampling/sampling_logp_difference/mean": 0.031219232827425003,
+      "step": 472,
+      "step_time": 83.27192145001027
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 62.0,
+      "completions/max_terminated_length": 62.0,
+      "completions/mean_length": 45.5,
+      "completions/mean_terminated_length": 45.5,
+      "completions/min_length": 41.0,
+      "completions/min_terminated_length": 41.0,
+      "entropy": 0.3374762535095215,
+      "epoch": 0.946,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2723208665847778,
+      "kl": 0.022902309894561768,
+      "learning_rate": 2.8470418310104175e-06,
+      "loss": -0.2609,
+      "num_tokens": 2629832.0,
+      "reward": 0.0625,
+      "reward_std": 0.24701336026191711,
+      "rewards/reward_func/mean": 0.0625,
+      "rewards/reward_func/std": 0.31998884677886963,
+      "sampling/importance_sampling_ratio/max": 2.4061381816864014,
+      "sampling/importance_sampling_ratio/mean": 1.0160009860992432,
+      "sampling/importance_sampling_ratio/min": 0.5389451384544373,
+      "sampling/sampling_logp_difference/max": 0.5744847059249878,
+      "sampling/sampling_logp_difference/mean": 0.028143033385276794,
+      "step": 473,
+      "step_time": 73.6639021729934
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.0,
+      "completions/max_terminated_length": 65.0,
+      "completions/mean_length": 50.125,
+      "completions/mean_terminated_length": 50.125,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.3563547730445862,
+      "epoch": 0.948,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9397950172424316,
+      "kl": 0.022011034190654755,
+      "learning_rate": 2.839021529956388e-06,
+      "loss": 0.0807,
+      "num_tokens": 2635568.0,
+      "reward": 0.21124999225139618,
+      "reward_std": 0.527900218963623,
+      "rewards/reward_func/mean": 0.21124999225139618,
+      "rewards/reward_func/std": 0.48894748091697693,
+      "sampling/importance_sampling_ratio/max": 1.040662169456482,
+      "sampling/importance_sampling_ratio/mean": 0.7214508652687073,
+      "sampling/importance_sampling_ratio/min": 0.3372233211994171,
+      "sampling/sampling_logp_difference/max": 0.45850083231925964,
+      "sampling/sampling_logp_difference/mean": 0.02489865943789482,
+      "step": 474,
+      "step_time": 75.28077130601741
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 69.0,
+      "completions/max_terminated_length": 69.0,
+      "completions/mean_length": 52.125,
+      "completions/mean_terminated_length": 52.125,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.35087794065475464,
+      "epoch": 0.95,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.5176308155059814,
+      "kl": 0.017775265499949455,
+      "learning_rate": 2.8309976727269335e-06,
+      "loss": 0.2178,
+      "num_tokens": 2641222.0,
+      "reward": 0.06499999761581421,
+      "reward_std": 0.2761574685573578,
+      "rewards/reward_func/mean": 0.06499999761581421,
+      "rewards/reward_func/std": 0.37939804792404175,
+      "sampling/importance_sampling_ratio/max": 1.7761144638061523,
+      "sampling/importance_sampling_ratio/mean": 0.925238847732544,
+      "sampling/importance_sampling_ratio/min": 0.3248174488544464,
+      "sampling/sampling_logp_difference/max": 0.6076414585113525,
+      "sampling/sampling_logp_difference/mean": 0.02674829587340355,
+      "step": 475,
+      "step_time": 72.01986586101702
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 59.0,
+      "completions/max_terminated_length": 59.0,
+      "completions/mean_length": 43.625,
+      "completions/mean_terminated_length": 43.625,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.2991679906845093,
+      "epoch": 0.952,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.390182614326477,
+      "kl": 0.020573535934090614,
+      "learning_rate": 2.8229703434885165e-06,
+      "loss": -0.0348,
+      "num_tokens": 2646859.0,
+      "reward": 0.33250001072883606,
+      "reward_std": 0.5396865606307983,
+      "rewards/reward_func/mean": 0.33250001072883606,
+      "rewards/reward_func/std": 0.517707884311676,
+      "sampling/importance_sampling_ratio/max": 1.602697730064392,
+      "sampling/importance_sampling_ratio/mean": 0.9728833436965942,
+      "sampling/importance_sampling_ratio/min": 0.48104777932167053,
+      "sampling/sampling_logp_difference/max": 0.6165962219238281,
+      "sampling/sampling_logp_difference/mean": 0.023785192519426346,
+      "step": 476,
+      "step_time": 77.24283880199073
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 59.0,
+      "completions/max_terminated_length": 59.0,
+      "completions/mean_length": 47.0,
+      "completions/mean_terminated_length": 47.0,
+      "completions/min_length": 30.0,
+      "completions/min_terminated_length": 30.0,
+      "entropy": 0.3583204448223114,
+      "epoch": 0.954,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.142444133758545,
+      "kl": 0.015169752761721611,
+      "learning_rate": 2.814939626444023e-06,
+      "loss": -0.0124,
+      "num_tokens": 2652207.0,
+      "reward": 0.21375000476837158,
+      "reward_std": 0.5112752914428711,
+      "rewards/reward_func/mean": 0.21375000476837158,
+      "rewards/reward_func/std": 0.473495751619339,
+      "sampling/importance_sampling_ratio/max": 1.9258140325546265,
+      "sampling/importance_sampling_ratio/mean": 1.1217129230499268,
+      "sampling/importance_sampling_ratio/min": 0.8287367820739746,
+      "sampling/sampling_logp_difference/max": 0.3338189125061035,
+      "sampling/sampling_logp_difference/mean": 0.022958340123295784,
+      "step": 477,
+      "step_time": 61.92764704397996
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.0,
+      "completions/max_terminated_length": 61.0,
+      "completions/mean_length": 47.125,
+      "completions/mean_terminated_length": 47.125,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.35365796089172363,
+      "epoch": 0.956,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9897144436836243,
+      "kl": 0.01738031394779682,
+      "learning_rate": 2.8069056058318754e-06,
+      "loss": 0.0097,
+      "num_tokens": 2658227.0,
+      "reward": 0.20500001311302185,
+      "reward_std": 0.5114267468452454,
+      "rewards/reward_func/mean": 0.20500001311302185,
+      "rewards/reward_func/std": 0.47416090965270996,
+      "sampling/importance_sampling_ratio/max": 2.027554750442505,
+      "sampling/importance_sampling_ratio/mean": 1.0578957796096802,
+      "sampling/importance_sampling_ratio/min": 0.6797005534172058,
+      "sampling/sampling_logp_difference/max": 0.5563673973083496,
+      "sampling/sampling_logp_difference/mean": 0.023688018321990967,
+      "step": 478,
+      "step_time": 75.16944676099229
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 63.0,
+      "completions/max_terminated_length": 63.0,
+      "completions/mean_length": 49.125,
+      "completions/mean_terminated_length": 49.125,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.3513268828392029,
+      "epoch": 0.958,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9755890965461731,
+      "kl": 0.017329782247543335,
+      "learning_rate": 2.7988683659251475e-06,
+      "loss": -0.0194,
+      "num_tokens": 2663497.0,
+      "reward": 0.10375000536441803,
+      "reward_std": 0.2672772705554962,
+      "rewards/reward_func/mean": 0.10375000536441803,
+      "rewards/reward_func/std": 0.3627646863460541,
+      "sampling/importance_sampling_ratio/max": 1.2677541971206665,
+      "sampling/importance_sampling_ratio/mean": 0.7190382480621338,
+      "sampling/importance_sampling_ratio/min": 0.0,
+      "sampling/sampling_logp_difference/max": 0.48462724685668945,
+      "sampling/sampling_logp_difference/mean": 0.024744585156440735,
+      "step": 479,
+      "step_time": 76.88298930699239
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.0,
+      "completions/max_terminated_length": 65.0,
+      "completions/mean_length": 45.625,
+      "completions/mean_terminated_length": 45.625,
+      "completions/min_length": 26.0,
+      "completions/min_terminated_length": 26.0,
+      "entropy": 0.3445096015930176,
+      "epoch": 0.96,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1778706312179565,
+      "kl": 0.01838690973818302,
+      "learning_rate": 2.7908279910306834e-06,
+      "loss": 0.0279,
+      "num_tokens": 2669579.0,
+      "reward": 0.33125001192092896,
+      "reward_std": 0.580742359161377,
+      "rewards/reward_func/mean": 0.33125001192092896,
+      "rewards/reward_func/std": 0.5531064867973328,
+      "sampling/importance_sampling_ratio/max": 1.4015132188796997,
+      "sampling/importance_sampling_ratio/mean": 0.9845772385597229,
+      "sampling/importance_sampling_ratio/min": 0.40269726514816284,
+      "sampling/sampling_logp_difference/max": 0.5609352588653564,
+      "sampling/sampling_logp_difference/mean": 0.02638828381896019,
+      "step": 480,
+      "step_time": 77.41213980599423
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 80.0,
+      "completions/max_terminated_length": 80.0,
+      "completions/mean_length": 45.25,
+      "completions/mean_terminated_length": 45.25,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.3905279338359833,
+      "epoch": 0.962,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2462440729141235,
+      "kl": 0.032538220286369324,
+      "learning_rate": 2.7827845654882112e-06,
+      "loss": -0.0404,
+      "num_tokens": 2675067.0,
+      "reward": 0.07124999910593033,
+      "reward_std": 0.2798381745815277,
+      "rewards/reward_func/mean": 0.07124999910593033,
+      "rewards/reward_func/std": 0.3645520806312561,
+      "sampling/importance_sampling_ratio/max": 1.2897956371307373,
+      "sampling/importance_sampling_ratio/mean": 0.8797916173934937,
+      "sampling/importance_sampling_ratio/min": 0.4773842692375183,
+      "sampling/sampling_logp_difference/max": 0.3575262427330017,
+      "sampling/sampling_logp_difference/mean": 0.02661733888089657,
+      "step": 481,
+      "step_time": 87.84593146201223
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 80.0,
+      "completions/max_terminated_length": 80.0,
+      "completions/mean_length": 50.125,
+      "completions/mean_terminated_length": 50.125,
+      "completions/min_length": 26.0,
+      "completions/min_terminated_length": 26.0,
+      "entropy": 0.3507845997810364,
+      "epoch": 0.964,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9909263849258423,
+      "kl": 0.024185102432966232,
+      "learning_rate": 2.7747381736694573e-06,
+      "loss": 0.0312,
+      "num_tokens": 2680053.0,
+      "reward": 0.3400000035762787,
+      "reward_std": 0.5569354891777039,
+      "rewards/reward_func/mean": 0.3400000035762787,
+      "rewards/reward_func/std": 0.5335326790809631,
+      "sampling/importance_sampling_ratio/max": 1.2050838470458984,
+      "sampling/importance_sampling_ratio/mean": 0.8115805387496948,
+      "sampling/importance_sampling_ratio/min": 0.21530668437480927,
+      "sampling/sampling_logp_difference/max": 0.41031479835510254,
+      "sampling/sampling_logp_difference/mean": 0.02810395136475563,
+      "step": 482,
+      "step_time": 71.15641420998145
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 67.0,
+      "completions/max_terminated_length": 67.0,
+      "completions/mean_length": 51.125,
+      "completions/mean_terminated_length": 51.125,
+      "completions/min_length": 43.0,
+      "completions/min_terminated_length": 43.0,
+      "entropy": 0.32739341259002686,
+      "epoch": 0.966,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.7815512418746948,
+      "kl": 0.01184194814413786,
+      "learning_rate": 2.766688899977266e-06,
+      "loss": -0.1201,
+      "num_tokens": 2685381.0,
+      "reward": 0.06624999642372131,
+      "reward_std": 0.29767611622810364,
+      "rewards/reward_func/mean": 0.06624999642372131,
+      "rewards/reward_func/std": 0.38037341833114624,
+      "sampling/importance_sampling_ratio/max": 1.4397385120391846,
+      "sampling/importance_sampling_ratio/mean": 0.828331470489502,
+      "sampling/importance_sampling_ratio/min": 0.38339871168136597,
+      "sampling/sampling_logp_difference/max": 0.5013303756713867,
+      "sampling/sampling_logp_difference/mean": 0.020246436819434166,
+      "step": 483,
+      "step_time": 81.71323890099302
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 67.0,
+      "completions/max_terminated_length": 67.0,
+      "completions/mean_length": 49.125,
+      "completions/mean_terminated_length": 49.125,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.3554234504699707,
+      "epoch": 0.968,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.4028494358062744,
+      "kl": 0.018699366599321365,
+      "learning_rate": 2.7586368288447094e-06,
+      "loss": -0.095,
+      "num_tokens": 2690901.0,
+      "reward": -0.06499999761581421,
+      "reward_std": 0.048902880400419235,
+      "rewards/reward_func/mean": -0.06499999761581421,
+      "rewards/reward_func/std": 0.05554920434951782,
+      "sampling/importance_sampling_ratio/max": 2.3254799842834473,
+      "sampling/importance_sampling_ratio/mean": 1.0947003364562988,
+      "sampling/importance_sampling_ratio/min": 0.5614188313484192,
+      "sampling/sampling_logp_difference/max": 0.3719151020050049,
+      "sampling/sampling_logp_difference/mean": 0.024835357442498207,
+      "step": 484,
+      "step_time": 80.53098407998914
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 58.0,
+      "completions/max_terminated_length": 58.0,
+      "completions/mean_length": 43.875,
+      "completions/mean_terminated_length": 43.875,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "entropy": 0.35123682022094727,
+      "epoch": 0.97,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1409413814544678,
+      "kl": 0.026009801775217056,
+      "learning_rate": 2.750582044734203e-06,
+      "loss": -0.1372,
+      "num_tokens": 2696449.0,
+      "reward": 0.3449999988079071,
+      "reward_std": 0.5669803619384766,
+      "rewards/reward_func/mean": 0.3449999988079071,
+      "rewards/reward_func/std": 0.5428759455680847,
+      "sampling/importance_sampling_ratio/max": 1.3252332210540771,
+      "sampling/importance_sampling_ratio/mean": 0.7124192714691162,
+      "sampling/importance_sampling_ratio/min": 0.3038400709629059,
+      "sampling/sampling_logp_difference/max": 0.3864710330963135,
+      "sampling/sampling_logp_difference/mean": 0.02677079290151596,
+      "step": 485,
+      "step_time": 51.5313537089969
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.0,
+      "completions/max_terminated_length": 65.0,
+      "completions/mean_length": 48.625,
+      "completions/mean_terminated_length": 48.625,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.37189728021621704,
+      "epoch": 0.972,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.553479552268982,
+      "kl": 0.01384771429002285,
+      "learning_rate": 2.7425246321366205e-06,
+      "loss": -0.1355,
+      "num_tokens": 2702672.0,
+      "reward": -0.05000000074505806,
+      "reward_std": 0.03972514346241951,
+      "rewards/reward_func/mean": -0.05000000074505806,
+      "rewards/reward_func/std": 0.04105745255947113,
+      "sampling/importance_sampling_ratio/max": 2.5754904747009277,
+      "sampling/importance_sampling_ratio/mean": 1.1340928077697754,
+      "sampling/importance_sampling_ratio/min": 0.5375442504882812,
+      "sampling/sampling_logp_difference/max": 0.47546517848968506,
+      "sampling/sampling_logp_difference/mean": 0.02835531160235405,
+      "step": 486,
+      "step_time": 90.47422146701138
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 67.0,
+      "completions/max_terminated_length": 67.0,
+      "completions/mean_length": 49.0,
+      "completions/mean_terminated_length": 49.0,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.38735634088516235,
+      "epoch": 0.974,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.343964695930481,
+      "kl": 0.02191627398133278,
+      "learning_rate": 2.7344646755704078e-06,
+      "loss": 0.1007,
+      "num_tokens": 2708209.0,
+      "reward": 0.0637499988079071,
+      "reward_std": 0.3018624186515808,
+      "rewards/reward_func/mean": 0.0637499988079071,
+      "rewards/reward_func/std": 0.3814610242843628,
+      "sampling/importance_sampling_ratio/max": 1.4456323385238647,
+      "sampling/importance_sampling_ratio/mean": 0.9162258505821228,
+      "sampling/importance_sampling_ratio/min": 0.4561156928539276,
+      "sampling/sampling_logp_difference/max": 0.5119402408599854,
+      "sampling/sampling_logp_difference/mean": 0.028758030384778976,
+      "step": 487,
+      "step_time": 92.49751431899494
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 71.0,
+      "completions/max_terminated_length": 71.0,
+      "completions/mean_length": 49.75,
+      "completions/mean_terminated_length": 49.75,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.3179323077201843,
+      "epoch": 0.976,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9897328615188599,
+      "kl": 0.04169601947069168,
+      "learning_rate": 2.726402259580695e-06,
+      "loss": 0.0601,
+      "num_tokens": 2713886.0,
+      "reward": 0.33500000834465027,
+      "reward_std": 0.2701554596424103,
+      "rewards/reward_func/mean": 0.33500000834465027,
+      "rewards/reward_func/std": 0.5461553931236267,
+      "sampling/importance_sampling_ratio/max": 1.5669019222259521,
+      "sampling/importance_sampling_ratio/mean": 0.9279680252075195,
+      "sampling/importance_sampling_ratio/min": 0.5139185786247253,
+      "sampling/sampling_logp_difference/max": 0.6310797929763794,
+      "sampling/sampling_logp_difference/mean": 0.023750916123390198,
+      "step": 488,
+      "step_time": 49.78819806300453
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 71.0,
+      "completions/max_terminated_length": 71.0,
+      "completions/mean_length": 48.75,
+      "completions/mean_terminated_length": 48.75,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.33032259345054626,
+      "epoch": 0.978,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.6407569050788879,
+      "kl": 0.02176561951637268,
+      "learning_rate": 2.71833746873841e-06,
+      "loss": -0.0798,
+      "num_tokens": 2718931.0,
+      "reward": 0.44875001907348633,
+      "reward_std": 0.5220805406570435,
+      "rewards/reward_func/mean": 0.44875001907348633,
+      "rewards/reward_func/std": 0.5664535760879517,
+      "sampling/importance_sampling_ratio/max": 1.1846626996994019,
+      "sampling/importance_sampling_ratio/mean": 0.8170421123504639,
+      "sampling/importance_sampling_ratio/min": 0.0,
+      "sampling/sampling_logp_difference/max": 1.2127480506896973,
+      "sampling/sampling_logp_difference/mean": 0.020459800958633423,
+      "step": 489,
+      "step_time": 71.78667046700139
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 71.0,
+      "completions/max_terminated_length": 71.0,
+      "completions/mean_length": 53.0,
+      "completions/mean_terminated_length": 53.0,
+      "completions/min_length": 35.0,
+      "completions/min_terminated_length": 35.0,
+      "entropy": 0.3335261344909668,
+      "epoch": 0.98,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9051764011383057,
+      "kl": 0.027933314442634583,
+      "learning_rate": 2.7102703876393942e-06,
+      "loss": 0.03,
+      "num_tokens": 2723945.0,
+      "reward": 0.20000000298023224,
+      "reward_std": 0.5354849100112915,
+      "rewards/reward_func/mean": 0.20000000298023224,
+      "rewards/reward_func/std": 0.49638697504997253,
+      "sampling/importance_sampling_ratio/max": 1.6904243230819702,
+      "sampling/importance_sampling_ratio/mean": 0.8453304767608643,
+      "sampling/importance_sampling_ratio/min": 0.358101487159729,
+      "sampling/sampling_logp_difference/max": 0.6200103759765625,
+      "sampling/sampling_logp_difference/mean": 0.019122183322906494,
+      "step": 490,
+      "step_time": 73.55681845199433
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 54.0,
+      "completions/max_terminated_length": 54.0,
+      "completions/mean_length": 48.75,
+      "completions/mean_terminated_length": 48.75,
+      "completions/min_length": 41.0,
+      "completions/min_terminated_length": 41.0,
+      "entropy": 0.34773534536361694,
+      "epoch": 0.982,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.5184320211410522,
+      "kl": 0.029565483331680298,
+      "learning_rate": 2.702201100903511e-06,
+      "loss": 0.2018,
+      "num_tokens": 2730051.0,
+      "reward": 0.36625000834465027,
+      "reward_std": 0.5476330518722534,
+      "rewards/reward_func/mean": 0.36625000834465027,
+      "rewards/reward_func/std": 0.5249200463294983,
+      "sampling/importance_sampling_ratio/max": 1.7158502340316772,
+      "sampling/importance_sampling_ratio/mean": 0.9216998815536499,
+      "sampling/importance_sampling_ratio/min": 0.45285990834236145,
+      "sampling/sampling_logp_difference/max": 0.6381690502166748,
+      "sampling/sampling_logp_difference/mean": 0.027182936668395996,
+      "step": 491,
+      "step_time": 56.38132729998324
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 73.0,
+      "completions/max_terminated_length": 73.0,
+      "completions/mean_length": 45.25,
+      "completions/mean_terminated_length": 45.25,
+      "completions/min_length": 29.0,
+      "completions/min_terminated_length": 29.0,
+      "entropy": 0.46129417419433594,
+      "epoch": 0.984,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9216625690460205,
+      "kl": 0.029165223240852356,
+      "learning_rate": 2.694129693173759e-06,
+      "loss": -0.0598,
+      "num_tokens": 2735276.0,
+      "reward": 0.4675000309944153,
+      "reward_std": 0.5070215463638306,
+      "rewards/reward_func/mean": 0.4675000309944153,
+      "rewards/reward_func/std": 0.5406543612480164,
+      "sampling/importance_sampling_ratio/max": 1.0167001485824585,
+      "sampling/importance_sampling_ratio/mean": 0.7158698439598083,
+      "sampling/importance_sampling_ratio/min": 0.0,
+      "sampling/sampling_logp_difference/max": 0.7142941951751709,
+      "sampling/sampling_logp_difference/mean": 0.027627810835838318,
+      "step": 492,
+      "step_time": 76.63889957600622
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 57.0,
+      "completions/max_terminated_length": 57.0,
+      "completions/mean_length": 48.875,
+      "completions/mean_terminated_length": 48.875,
+      "completions/min_length": 44.0,
+      "completions/min_terminated_length": 44.0,
+      "entropy": 0.3078922629356384,
+      "epoch": 0.986,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0626574754714966,
+      "kl": 0.023861799389123917,
+      "learning_rate": 2.6860562491153854e-06,
+      "loss": -0.11,
+      "num_tokens": 2740801.0,
+      "reward": 0.2199999988079071,
+      "reward_std": 0.5209156274795532,
+      "rewards/reward_func/mean": 0.2199999988079071,
+      "rewards/reward_func/std": 0.4826415479183197,
+      "sampling/importance_sampling_ratio/max": 1.2552741765975952,
+      "sampling/importance_sampling_ratio/mean": 0.95084547996521,
+      "sampling/importance_sampling_ratio/min": 0.46218550205230713,
+      "sampling/sampling_logp_difference/max": 0.9027338027954102,
+      "sampling/sampling_logp_difference/mean": 0.023295089602470398,
+      "step": 493,
+      "step_time": 62.630216120014666
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 67.0,
+      "completions/max_terminated_length": 67.0,
+      "completions/mean_length": 46.5,
+      "completions/mean_terminated_length": 46.5,
+      "completions/min_length": 28.0,
+      "completions/min_terminated_length": 28.0,
+      "entropy": 0.33969372510910034,
+      "epoch": 0.988,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0334094762802124,
+      "kl": 0.021102532744407654,
+      "learning_rate": 2.6779808534149986e-06,
+      "loss": 0.0949,
+      "num_tokens": 2746644.0,
+      "reward": 0.09999999403953552,
+      "reward_std": 0.2607312798500061,
+      "rewards/reward_func/mean": 0.09999999403953552,
+      "rewards/reward_func/std": 0.3642212748527527,
+      "sampling/importance_sampling_ratio/max": 1.5536633729934692,
+      "sampling/importance_sampling_ratio/mean": 0.9165699481964111,
+      "sampling/importance_sampling_ratio/min": 0.5814899802207947,
+      "sampling/sampling_logp_difference/max": 0.7713108062744141,
+      "sampling/sampling_logp_difference/mean": 0.022944262251257896,
+      "step": 494,
+      "step_time": 97.2119018859812
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 79.0,
+      "completions/max_terminated_length": 79.0,
+      "completions/mean_length": 47.0,
+      "completions/mean_terminated_length": 47.0,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "entropy": 0.3434738516807556,
+      "epoch": 0.99,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3791193962097168,
+      "kl": 0.025687772780656815,
+      "learning_rate": 2.6699035907796796e-06,
+      "loss": 0.2039,
+      "num_tokens": 2752279.0,
+      "reward": 0.20499999821186066,
+      "reward_std": 0.5269919633865356,
+      "rewards/reward_func/mean": 0.20499999821186066,
+      "rewards/reward_func/std": 0.4880281090736389,
+      "sampling/importance_sampling_ratio/max": 1.5326544046401978,
+      "sampling/importance_sampling_ratio/mean": 1.1358022689819336,
+      "sampling/importance_sampling_ratio/min": 0.7314006090164185,
+      "sampling/sampling_logp_difference/max": 0.5475611686706543,
+      "sampling/sampling_logp_difference/mean": 0.031097054481506348,
+      "step": 495,
+      "step_time": 91.44340489199385
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 64.0,
+      "completions/max_terminated_length": 64.0,
+      "completions/mean_length": 49.125,
+      "completions/mean_terminated_length": 49.125,
+      "completions/min_length": 39.0,
+      "completions/min_terminated_length": 39.0,
+      "entropy": 0.3790108859539032,
+      "epoch": 0.992,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.1053639650344849,
+      "kl": 0.021480565890669823,
+      "learning_rate": 2.6618245459360896e-06,
+      "loss": -0.2536,
+      "num_tokens": 2757556.0,
+      "reward": 0.0937500074505806,
+      "reward_std": 0.27560853958129883,
+      "rewards/reward_func/mean": 0.0937500074505806,
+      "rewards/reward_func/std": 0.36769309639930725,
+      "sampling/importance_sampling_ratio/max": 1.4687750339508057,
+      "sampling/importance_sampling_ratio/mean": 0.9616619348526001,
+      "sampling/importance_sampling_ratio/min": 0.2960628867149353,
+      "sampling/sampling_logp_difference/max": 0.517666220664978,
+      "sampling/sampling_logp_difference/mean": 0.028408560901880264,
+      "step": 496,
+      "step_time": 87.52318387202104
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 63.0,
+      "completions/max_terminated_length": 63.0,
+      "completions/mean_length": 50.75,
+      "completions/mean_terminated_length": 50.75,
+      "completions/min_length": 41.0,
+      "completions/min_terminated_length": 41.0,
+      "entropy": 0.31511783599853516,
+      "epoch": 0.994,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8182615637779236,
+      "kl": 0.014653578400611877,
+      "learning_rate": 2.6537438036295876e-06,
+      "loss": -0.0539,
+      "num_tokens": 2763537.0,
+      "reward": 0.45750001072883606,
+      "reward_std": 0.5164840221405029,
+      "rewards/reward_func/mean": 0.45750001072883606,
+      "rewards/reward_func/std": 0.5492787957191467,
+      "sampling/importance_sampling_ratio/max": 1.4413000345230103,
+      "sampling/importance_sampling_ratio/mean": 0.7662212252616882,
+      "sampling/importance_sampling_ratio/min": 0.33490437269210815,
+      "sampling/sampling_logp_difference/max": 0.8015744686126709,
+      "sampling/sampling_logp_difference/mean": 0.022109784185886383,
+      "step": 497,
+      "step_time": 83.04217743998743
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 74.0,
+      "completions/max_terminated_length": 74.0,
+      "completions/mean_length": 47.125,
+      "completions/mean_terminated_length": 47.125,
+      "completions/min_length": 37.0,
+      "completions/min_terminated_length": 37.0,
+      "entropy": 0.34117379784584045,
+      "epoch": 0.996,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.383134365081787,
+      "kl": 0.03160976245999336,
+      "learning_rate": 2.6456614486233344e-06,
+      "loss": 0.0937,
+      "num_tokens": 2768283.0,
+      "reward": 0.45125001668930054,
+      "reward_std": 0.611153244972229,
+      "rewards/reward_func/mean": 0.45125001668930054,
+      "rewards/reward_func/std": 0.5658984780311584,
+      "sampling/importance_sampling_ratio/max": 1.6628714799880981,
+      "sampling/importance_sampling_ratio/mean": 1.1422840356826782,
+      "sampling/importance_sampling_ratio/min": 0.6167079210281372,
+      "sampling/sampling_logp_difference/max": 0.4831216335296631,
+      "sampling/sampling_logp_difference/mean": 0.025718016549944878,
+      "step": 498,
+      "step_time": 52.98551483498886
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.0,
+      "completions/max_terminated_length": 65.0,
+      "completions/mean_length": 45.75,
+      "completions/mean_terminated_length": 45.75,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.40990570187568665,
+      "epoch": 0.998,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.3361786603927612,
+      "kl": 0.02863333187997341,
+      "learning_rate": 2.6375775656974124e-06,
+      "loss": 0.1209,
+      "num_tokens": 2773418.0,
+      "reward": 0.33250001072883606,
+      "reward_std": 0.5637004375457764,
+      "rewards/reward_func/mean": 0.33250001072883606,
+      "rewards/reward_func/std": 0.545494556427002,
+      "sampling/importance_sampling_ratio/max": 1.6512422561645508,
+      "sampling/importance_sampling_ratio/mean": 1.0369747877120972,
+      "sampling/importance_sampling_ratio/min": 0.7347527146339417,
+      "sampling/sampling_logp_difference/max": 0.4192899465560913,
+      "sampling/sampling_logp_difference/mean": 0.0260856244713068,
+      "step": 499,
+      "step_time": 81.9041408339981
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 55.0,
+      "completions/max_terminated_length": 55.0,
+      "completions/mean_length": 44.5,
+      "completions/mean_terminated_length": 44.5,
+      "completions/min_length": 34.0,
+      "completions/min_terminated_length": 34.0,
+      "entropy": 0.36693620681762695,
+      "epoch": 1.0,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0463021993637085,
+      "kl": 0.029872596263885498,
+      "learning_rate": 2.6294922396479263e-06,
+      "loss": -0.2292,
+      "num_tokens": 2778968.0,
+      "reward": 0.20874999463558197,
+      "reward_std": 0.3164796531200409,
+      "rewards/reward_func/mean": 0.20874999463558197,
+      "rewards/reward_func/std": 0.4829207956790924,
+      "sampling/importance_sampling_ratio/max": 1.7435824871063232,
+      "sampling/importance_sampling_ratio/mean": 0.9001740217208862,
+      "sampling/importance_sampling_ratio/min": 0.30285191535949707,
+      "sampling/sampling_logp_difference/max": 0.6381608247756958,
+      "sampling/sampling_logp_difference/mean": 0.031203145161271095,
+      "step": 500,
+      "step_time": 110.34948237799108
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 1000,
+  "num_input_tokens_seen": 2778968,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}