Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +2473 -3

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:acdf64def42e1572bdc06113b568c244ef6167922a33696c0ec5a6359a43b7e7
 size 262406656

 version https://git-lfs.github.com/spec/v1
+oid sha256:74a7fbfd1065c7efe650cbe07ca6888be4c9c4026201b6e3d687e19008471a74
 size 262406656

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d25243beeaaedc047d26a393fa91bc655d3d8b4a4cc5ac2a1437fd9806d83b22
 size 122872331

 version https://git-lfs.github.com/spec/v1
+oid sha256:d13ac8ea643c9fa2eb6e074fedbff66a8ad842ec5de19c941bf75cc87d544fb7
 size 122872331

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:00a3c58f409605258dca1eba67fe86653963139155d5e623559aed2ac59fbbfe
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa961fa9e506668d35c6cfd8cf85f9299717888b30062742b0fd9e2da10b1c98
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ad7ed52f7cf794166edbd630e4dd167bc1eeac1c1161193044ffea74ff25123
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:df3eab020225d79fdb69396f30e0ff17b6980870fce2cd29482a57a0b5aad692
 size 1465

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2887788778877888,
   "eval_steps": 500,
-  "global_step": 4200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -10928,11 +10928,2481 @@
       "rewards/quality_reward_func/mean": 0.800000011920929,
       "rewards/quality_reward_func/std": 0.0,
       "step": 4200
     }
   ],
   "logging_steps": 10,
   "max_steps": 14544,
-  "num_input_tokens_seen": 5995408,
   "num_train_epochs": 1,
   "save_steps": 50,
   "stateful_callbacks": {

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.3540979097909791,
   "eval_steps": 500,
+  "global_step": 5150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/quality_reward_func/mean": 0.800000011920929,
       "rewards/quality_reward_func/std": 0.0,
       "step": 4200
+    },
+    {
+      "completion_length": 19.263157894736842,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.263157894736842,
+      "completions/max_terminated_length": 19.263157894736842,
+      "completions/mean_length": 16.842105263157894,
+      "completions/mean_terminated_length": 16.842105263157894,
+      "completions/min_length": 15.0,
+      "completions/min_terminated_length": 15.0,
+      "epoch": 0.2894664466446645,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.231401851302699,
+      "learning_rate": 4.473433060627356e-06,
+      "loss": 0.0,
+      "num_tokens": 6010277.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4210
+    },
+    {
+      "completion_length": 19.4,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.4,
+      "completions/max_terminated_length": 19.4,
+      "completions/mean_length": 16.675,
+      "completions/mean_terminated_length": 16.675,
+      "completions/min_length": 15.4,
+      "completions/min_terminated_length": 15.4,
+      "epoch": 0.2901540154015402,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3109652653336525,
+      "learning_rate": 4.4697436254116876e-06,
+      "loss": 0.0,
+      "num_tokens": 6024628.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4220
+    },
+    {
+      "completion_length": 17.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.3,
+      "completions/max_terminated_length": 17.3,
+      "completions/mean_length": 15.65,
+      "completions/mean_terminated_length": 15.65,
+      "completions/min_length": 14.9,
+      "completions/min_terminated_length": 14.9,
+      "epoch": 0.2908415841584158,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1730713717639447,
+      "learning_rate": 4.4660428427975614e-06,
+      "loss": 0.0,
+      "num_tokens": 6039174.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4230
+    },
+    {
+      "completion_length": 19.4,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.4,
+      "completions/max_terminated_length": 19.4,
+      "completions/mean_length": 16.725,
+      "completions/mean_terminated_length": 16.725,
+      "completions/min_length": 15.2,
+      "completions/min_terminated_length": 15.2,
+      "epoch": 0.2915291529152915,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.115500158071518,
+      "learning_rate": 4.462330734104633e-06,
+      "loss": 0.0,
+      "num_tokens": 6052447.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4240
+    },
+    {
+      "completion_length": 20.7,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.7,
+      "completions/max_terminated_length": 20.7,
+      "completions/mean_length": 17.95,
+      "completions/mean_terminated_length": 17.95,
+      "completions/min_length": 16.0,
+      "completions/min_terminated_length": 16.0,
+      "epoch": 0.2922167216721672,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2464444026350976,
+      "learning_rate": 4.458607320717805e-06,
+      "loss": 0.0,
+      "num_tokens": 6066089.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4250
+    },
+    {
+      "completion_length": 19.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.6,
+      "completions/max_terminated_length": 19.6,
+      "completions/mean_length": 17.95,
+      "completions/mean_terminated_length": 17.95,
+      "completions/min_length": 15.7,
+      "completions/min_terminated_length": 15.7,
+      "epoch": 0.2929042904290429,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0488379423040897,
+      "learning_rate": 4.454872624087105e-06,
+      "loss": 0.0,
+      "num_tokens": 6079355.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4260
+    },
+    {
+      "completion_length": 19.2,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.2,
+      "completions/max_terminated_length": 19.2,
+      "completions/mean_length": 17.55,
+      "completions/mean_terminated_length": 17.55,
+      "completions/min_length": 15.9,
+      "completions/min_terminated_length": 15.9,
+      "epoch": 0.29359185918591857,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.088923167437315,
+      "learning_rate": 4.4511266657275624e-06,
+      "loss": 0.0,
+      "num_tokens": 6094181.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4270
+    },
+    {
+      "completion_length": 20.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.0,
+      "completions/max_terminated_length": 20.0,
+      "completions/mean_length": 18.475,
+      "completions/mean_terminated_length": 18.475,
+      "completions/min_length": 17.2,
+      "completions/min_terminated_length": 17.2,
+      "epoch": 0.29427942794279427,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1366772107779979,
+      "learning_rate": 4.447369467219081e-06,
+      "loss": 0.0,
+      "num_tokens": 6107348.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4280
+    },
+    {
+      "completion_length": 18.1,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.1,
+      "completions/max_terminated_length": 18.1,
+      "completions/mean_length": 16.125,
+      "completions/mean_terminated_length": 16.125,
+      "completions/min_length": 14.6,
+      "completions/min_terminated_length": 14.6,
+      "epoch": 0.29496699669966997,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.187676628679037,
+      "learning_rate": 4.443601050206322e-06,
+      "loss": 0.0,
+      "num_tokens": 6120793.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4290
+    },
+    {
+      "completion_length": 16.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 16.8,
+      "completions/max_terminated_length": 16.8,
+      "completions/mean_length": 15.1,
+      "completions/mean_terminated_length": 15.1,
+      "completions/min_length": 14.1,
+      "completions/min_terminated_length": 14.1,
+      "epoch": 0.29565456545654567,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3925855614244937,
+      "learning_rate": 4.439821436398573e-06,
+      "loss": 0.0,
+      "num_tokens": 6132273.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4300
+    },
+    {
+      "completion_length": 17.7,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.7,
+      "completions/max_terminated_length": 17.7,
+      "completions/mean_length": 16.8,
+      "completions/mean_terminated_length": 16.8,
+      "completions/min_length": 15.7,
+      "completions/min_terminated_length": 15.7,
+      "epoch": 0.2963421342134213,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3798075836151837,
+      "learning_rate": 4.436030647569621e-06,
+      "loss": 0.0,
+      "num_tokens": 6147289.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4310
+    },
+    {
+      "completion_length": 19.7,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.7,
+      "completions/max_terminated_length": 19.7,
+      "completions/mean_length": 17.325,
+      "completions/mean_terminated_length": 17.325,
+      "completions/min_length": 15.9,
+      "completions/min_terminated_length": 15.9,
+      "epoch": 0.297029702970297,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1426802188158036,
+      "learning_rate": 4.432228705557634e-06,
+      "loss": 0.0,
+      "num_tokens": 6161754.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4320
+    },
+    {
+      "completion_length": 19.7,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.7,
+      "completions/max_terminated_length": 19.7,
+      "completions/mean_length": 17.5,
+      "completions/mean_terminated_length": 17.5,
+      "completions/min_length": 16.2,
+      "completions/min_terminated_length": 16.2,
+      "epoch": 0.2977172717271727,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0807349354028701,
+      "learning_rate": 4.428415632265033e-06,
+      "loss": 0.0,
+      "num_tokens": 6174450.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4330
+    },
+    {
+      "completion_length": 17.7,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.7,
+      "completions/max_terminated_length": 17.7,
+      "completions/mean_length": 16.4,
+      "completions/mean_terminated_length": 16.4,
+      "completions/min_length": 15.0,
+      "completions/min_terminated_length": 15.0,
+      "epoch": 0.2984048404840484,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0977762714028358,
+      "learning_rate": 4.424591449658362e-06,
+      "loss": 0.0,
+      "num_tokens": 6188958.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4340
+    },
+    {
+      "completion_length": 18.9,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.9,
+      "completions/max_terminated_length": 18.9,
+      "completions/mean_length": 17.325,
+      "completions/mean_terminated_length": 17.325,
+      "completions/min_length": 15.9,
+      "completions/min_terminated_length": 15.9,
+      "epoch": 0.2990924092409241,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0881227478384972,
+      "learning_rate": 4.420756179768165e-06,
+      "loss": 0.0,
+      "num_tokens": 6204739.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4350
+    },
+    {
+      "completion_length": 18.7,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.7,
+      "completions/max_terminated_length": 18.7,
+      "completions/mean_length": 18.075,
+      "completions/mean_terminated_length": 18.075,
+      "completions/min_length": 17.5,
+      "completions/min_terminated_length": 17.5,
+      "epoch": 0.29977997799779976,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1955605536699294,
+      "learning_rate": 4.4169098446888594e-06,
+      "loss": 0.0,
+      "num_tokens": 6220802.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4360
+    },
+    {
+      "completion_length": 19.5,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.5,
+      "completions/max_terminated_length": 19.5,
+      "completions/mean_length": 16.85,
+      "completions/mean_terminated_length": 16.85,
+      "completions/min_length": 15.2,
+      "completions/min_terminated_length": 15.2,
+      "epoch": 0.30046754675467546,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0562300879508257,
+      "learning_rate": 4.413052466578605e-06,
+      "loss": 0.0,
+      "num_tokens": 6235288.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4370
+    },
+    {
+      "completion_length": 18.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.6,
+      "completions/max_terminated_length": 18.6,
+      "completions/mean_length": 16.625,
+      "completions/mean_terminated_length": 16.625,
+      "completions/min_length": 15.4,
+      "completions/min_terminated_length": 15.4,
+      "epoch": 0.30115511551155116,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2873560920357705,
+      "learning_rate": 4.409184067659181e-06,
+      "loss": 0.0,
+      "num_tokens": 6251829.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4380
+    },
+    {
+      "completion_length": 17.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.3,
+      "completions/max_terminated_length": 17.3,
+      "completions/mean_length": 16.25,
+      "completions/mean_terminated_length": 16.25,
+      "completions/min_length": 15.3,
+      "completions/min_terminated_length": 15.3,
+      "epoch": 0.30184268426842686,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.285911639779806,
+      "learning_rate": 4.4053046702158555e-06,
+      "loss": 0.0,
+      "num_tokens": 6267491.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4390
+    },
+    {
+      "completion_length": 22.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 22.0,
+      "completions/max_terminated_length": 22.0,
+      "completions/mean_length": 20.075,
+      "completions/mean_terminated_length": 20.075,
+      "completions/min_length": 17.9,
+      "completions/min_terminated_length": 17.9,
+      "epoch": 0.3025302530253025,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.6993859726935625,
+      "learning_rate": 4.401414296597256e-06,
+      "loss": 0.0,
+      "num_tokens": 6280378.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4400
+    },
+    {
+      "completion_length": 22.1,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 22.1,
+      "completions/max_terminated_length": 22.1,
+      "completions/mean_length": 18.675,
+      "completions/mean_terminated_length": 18.675,
+      "completions/min_length": 15.9,
+      "completions/min_terminated_length": 15.9,
+      "epoch": 0.3032178217821782,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.113627065718174,
+      "learning_rate": 4.397512969215243e-06,
+      "loss": 0.0,
+      "num_tokens": 6295541.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4410
+    },
+    {
+      "completion_length": 17.1,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.1,
+      "completions/max_terminated_length": 17.1,
+      "completions/mean_length": 15.95,
+      "completions/mean_terminated_length": 15.95,
+      "completions/min_length": 14.7,
+      "completions/min_terminated_length": 14.7,
+      "epoch": 0.3039053905390539,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.4492276966571809,
+      "learning_rate": 4.393600710544781e-06,
+      "loss": 0.0,
+      "num_tokens": 6311123.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4420
+    },
+    {
+      "completion_length": 19.7,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.7,
+      "completions/max_terminated_length": 19.7,
+      "completions/mean_length": 17.675,
+      "completions/mean_terminated_length": 17.675,
+      "completions/min_length": 15.9,
+      "completions/min_terminated_length": 15.9,
+      "epoch": 0.3045929592959296,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1876488611102105,
+      "learning_rate": 4.389677543123807e-06,
+      "loss": 0.0,
+      "num_tokens": 6325982.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4430
+    },
+    {
+      "completion_length": 19.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.8,
+      "completions/max_terminated_length": 19.8,
+      "completions/mean_length": 18.125,
+      "completions/mean_terminated_length": 18.125,
+      "completions/min_length": 15.7,
+      "completions/min_terminated_length": 15.7,
+      "epoch": 0.30528052805280526,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.5164424151182174,
+      "learning_rate": 4.385743489553101e-06,
+      "loss": 0.0001,
+      "num_tokens": 6340319.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4440
+    },
+    {
+      "completion_length": 21.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 21.0,
+      "completions/max_terminated_length": 21.0,
+      "completions/mean_length": 18.3,
+      "completions/mean_terminated_length": 18.3,
+      "completions/min_length": 17.3,
+      "completions/min_terminated_length": 17.3,
+      "epoch": 0.30596809680968096,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.173893976211548,
+      "learning_rate": 4.3817985724961585e-06,
+      "loss": 0.0,
+      "num_tokens": 6356051.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4450
+    },
+    {
+      "completion_length": 18.4,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.4,
+      "completions/max_terminated_length": 18.4,
+      "completions/mean_length": 16.725,
+      "completions/mean_terminated_length": 16.725,
+      "completions/min_length": 15.3,
+      "completions/min_terminated_length": 15.3,
+      "epoch": 0.30665566556655666,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.21855476051569,
+      "learning_rate": 4.3778428146790565e-06,
+      "loss": 0.0,
+      "num_tokens": 6368848.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4460
+    },
+    {
+      "completion_length": 17.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.8,
+      "completions/max_terminated_length": 17.8,
+      "completions/mean_length": 16.675,
+      "completions/mean_terminated_length": 16.675,
+      "completions/min_length": 15.7,
+      "completions/min_terminated_length": 15.7,
+      "epoch": 0.30734323432343236,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3003081649541854,
+      "learning_rate": 4.373876238890322e-06,
+      "loss": 0.0,
+      "num_tokens": 6385515.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4470
+    },
+    {
+      "completion_length": 18.7,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.7,
+      "completions/max_terminated_length": 18.7,
+      "completions/mean_length": 16.4,
+      "completions/mean_terminated_length": 16.4,
+      "completions/min_length": 14.7,
+      "completions/min_terminated_length": 14.7,
+      "epoch": 0.30803080308030806,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3788954310119153,
+      "learning_rate": 4.369898867980809e-06,
+      "loss": 0.0,
+      "num_tokens": 6400035.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4480
+    },
+    {
+      "completion_length": 19.5,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.5,
+      "completions/max_terminated_length": 19.5,
+      "completions/mean_length": 16.75,
+      "completions/mean_terminated_length": 16.75,
+      "completions/min_length": 15.0,
+      "completions/min_terminated_length": 15.0,
+      "epoch": 0.3087183718371837,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0902920335531234,
+      "learning_rate": 4.365910724863554e-06,
+      "loss": 0.0,
+      "num_tokens": 6415169.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4490
+    },
+    {
+      "completion_length": 18.5,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.5,
+      "completions/max_terminated_length": 18.5,
+      "completions/mean_length": 16.9,
+      "completions/mean_terminated_length": 16.9,
+      "completions/min_length": 15.3,
+      "completions/min_terminated_length": 15.3,
+      "epoch": 0.3094059405940594,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2483339451253415,
+      "learning_rate": 4.361911832513652e-06,
+      "loss": 0.0,
+      "num_tokens": 6427085.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4500
+    },
+    {
+      "completion_length": 19.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.3,
+      "completions/max_terminated_length": 19.3,
+      "completions/mean_length": 17.725,
+      "completions/mean_terminated_length": 17.725,
+      "completions/min_length": 15.9,
+      "completions/min_terminated_length": 15.9,
+      "epoch": 0.3100935093509351,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2941459499299526,
+      "learning_rate": 4.357902213968126e-06,
+      "loss": 0.0,
+      "num_tokens": 6442638.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4510
+    },
+    {
+      "completion_length": 18.5,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.5,
+      "completions/max_terminated_length": 18.5,
+      "completions/mean_length": 17.2,
+      "completions/mean_terminated_length": 17.2,
+      "completions/min_length": 16.1,
+      "completions/min_terminated_length": 16.1,
+      "epoch": 0.3107810781078108,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2603263229131698,
+      "learning_rate": 4.353881892325787e-06,
+      "loss": 0.0,
+      "num_tokens": 6456242.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4520
+    },
+    {
+      "completion_length": 19.4,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.4,
+      "completions/max_terminated_length": 19.4,
+      "completions/mean_length": 17.425,
+      "completions/mean_terminated_length": 17.425,
+      "completions/min_length": 15.7,
+      "completions/min_terminated_length": 15.7,
+      "epoch": 0.31146864686468645,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.9698817508295179,
+      "learning_rate": 4.349850890747109e-06,
+      "loss": 0.0,
+      "num_tokens": 6470143.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4530
+    },
+    {
+      "completion_length": 18.9,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.9,
+      "completions/max_terminated_length": 18.9,
+      "completions/mean_length": 16.95,
+      "completions/mean_terminated_length": 16.95,
+      "completions/min_length": 15.7,
+      "completions/min_terminated_length": 15.7,
+      "epoch": 0.31215621562156215,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1165247913450003,
+      "learning_rate": 4.345809232454088e-06,
+      "loss": 0.0,
+      "num_tokens": 6487277.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4540
+    },
+    {
+      "completion_length": 19.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.3,
+      "completions/max_terminated_length": 19.3,
+      "completions/mean_length": 17.325,
+      "completions/mean_terminated_length": 17.325,
+      "completions/min_length": 15.5,
+      "completions/min_terminated_length": 15.5,
+      "epoch": 0.31284378437843785,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2503239408135414,
+      "learning_rate": 4.341756940730113e-06,
+      "loss": 0.0,
+      "num_tokens": 6501746.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4550
+    },
+    {
+      "completion_length": 19.2,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.2,
+      "completions/max_terminated_length": 19.2,
+      "completions/mean_length": 17.325,
+      "completions/mean_terminated_length": 17.325,
+      "completions/min_length": 16.1,
+      "completions/min_terminated_length": 16.1,
+      "epoch": 0.31353135313531355,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2415374740958214,
+      "learning_rate": 4.33769403891983e-06,
+      "loss": 0.0,
+      "num_tokens": 6515103.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4560
+    },
+    {
+      "completion_length": 17.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.6,
+      "completions/max_terminated_length": 17.6,
+      "completions/mean_length": 16.425,
+      "completions/mean_terminated_length": 16.425,
+      "completions/min_length": 15.2,
+      "completions/min_terminated_length": 15.2,
+      "epoch": 0.3142189218921892,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1866839185357094,
+      "learning_rate": 4.33362055042901e-06,
+      "loss": 0.0,
+      "num_tokens": 6527800.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4570
+    },
+    {
+      "completion_length": 17.9,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.9,
+      "completions/max_terminated_length": 17.9,
+      "completions/mean_length": 17.0,
+      "completions/mean_terminated_length": 17.0,
+      "completions/min_length": 15.8,
+      "completions/min_terminated_length": 15.8,
+      "epoch": 0.3149064906490649,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.348712769150734,
+      "learning_rate": 4.32953649872441e-06,
+      "loss": 0.0,
+      "num_tokens": 6542468.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4580
+    },
+    {
+      "completion_length": 20.1,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.1,
+      "completions/max_terminated_length": 20.1,
+      "completions/mean_length": 17.575,
+      "completions/mean_terminated_length": 17.575,
+      "completions/min_length": 15.3,
+      "completions/min_terminated_length": 15.3,
+      "epoch": 0.3155940594059406,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2476600848138333,
+      "learning_rate": 4.325441907333642e-06,
+      "loss": 0.0,
+      "num_tokens": 6556839.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4590
+    },
+    {
+      "completion_length": 18.9,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.9,
+      "completions/max_terminated_length": 18.9,
+      "completions/mean_length": 17.275,
+      "completions/mean_terminated_length": 17.275,
+      "completions/min_length": 15.8,
+      "completions/min_terminated_length": 15.8,
+      "epoch": 0.3162816281628163,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2813825011253357,
+      "learning_rate": 4.321336799845034e-06,
+      "loss": 0.0,
+      "num_tokens": 6570610.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4600
+    },
+    {
+      "completion_length": 19.5,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.5,
+      "completions/max_terminated_length": 19.5,
+      "completions/mean_length": 17.325,
+      "completions/mean_terminated_length": 17.325,
+      "completions/min_length": 15.8,
+      "completions/min_terminated_length": 15.8,
+      "epoch": 0.31696919691969194,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3337368354201318,
+      "learning_rate": 4.317221199907496e-06,
+      "loss": 0.0,
+      "num_tokens": 6583899.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4610
+    },
+    {
+      "completion_length": 18.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.6,
+      "completions/max_terminated_length": 18.6,
+      "completions/mean_length": 16.525,
+      "completions/mean_terminated_length": 16.525,
+      "completions/min_length": 15.5,
+      "completions/min_terminated_length": 15.5,
+      "epoch": 0.31765676567656764,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.158595709502697,
+      "learning_rate": 4.313095131230385e-06,
+      "loss": 0.0,
+      "num_tokens": 6598792.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4620
+    },
+    {
+      "completion_length": 18.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.6,
+      "completions/max_terminated_length": 18.6,
+      "completions/mean_length": 17.2,
+      "completions/mean_terminated_length": 17.2,
+      "completions/min_length": 15.9,
+      "completions/min_terminated_length": 15.9,
+      "epoch": 0.31834433443344334,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.4270890690386295,
+      "learning_rate": 4.308958617583364e-06,
+      "loss": 0.0001,
+      "num_tokens": 6614748.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4630
+    },
+    {
+      "completion_length": 18.1,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.1,
+      "completions/max_terminated_length": 18.1,
+      "completions/mean_length": 16.8,
+      "completions/mean_terminated_length": 16.8,
+      "completions/min_length": 16.2,
+      "completions/min_terminated_length": 16.2,
+      "epoch": 0.31903190319031904,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.9190359987318516,
+      "learning_rate": 4.304811682796271e-06,
+      "loss": 0.0,
+      "num_tokens": 6628996.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4640
+    },
+    {
+      "completion_length": 18.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.6,
+      "completions/max_terminated_length": 18.6,
+      "completions/mean_length": 16.775,
+      "completions/mean_terminated_length": 16.775,
+      "completions/min_length": 14.9,
+      "completions/min_terminated_length": 14.9,
+      "epoch": 0.31971947194719474,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1849085062742233,
+      "learning_rate": 4.300654350758977e-06,
+      "loss": 0.0,
+      "num_tokens": 6645647.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4650
+    },
+    {
+      "completion_length": 17.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.8,
+      "completions/max_terminated_length": 17.8,
+      "completions/mean_length": 16.55,
+      "completions/mean_terminated_length": 16.55,
+      "completions/min_length": 15.7,
+      "completions/min_terminated_length": 15.7,
+      "epoch": 0.3204070407040704,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.494172091037035,
+      "learning_rate": 4.296486645421249e-06,
+      "loss": 0.0,
+      "num_tokens": 6659029.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4660
+    },
+    {
+      "completion_length": 20.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.3,
+      "completions/max_terminated_length": 20.3,
+      "completions/mean_length": 17.575,
+      "completions/mean_terminated_length": 17.575,
+      "completions/min_length": 15.9,
+      "completions/min_terminated_length": 15.9,
+      "epoch": 0.3210946094609461,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.8454300031065941,
+      "learning_rate": 4.292308590792616e-06,
+      "loss": 0.0,
+      "num_tokens": 6675132.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4670
+    },
+    {
+      "completion_length": 19.9,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.9,
+      "completions/max_terminated_length": 19.9,
+      "completions/mean_length": 17.95,
+      "completions/mean_terminated_length": 17.95,
+      "completions/min_length": 16.3,
+      "completions/min_terminated_length": 16.3,
+      "epoch": 0.3217821782178218,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3840799629688263,
+      "learning_rate": 4.288120210942223e-06,
+      "loss": 0.0001,
+      "num_tokens": 6690810.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4680
+    },
+    {
+      "completion_length": 17.4,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.4,
+      "completions/max_terminated_length": 17.4,
+      "completions/mean_length": 17.025,
+      "completions/mean_terminated_length": 17.025,
+      "completions/min_length": 16.6,
+      "completions/min_terminated_length": 16.6,
+      "epoch": 0.3224697469746975,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2411757558584213,
+      "learning_rate": 4.283921529998702e-06,
+      "loss": 0.0,
+      "num_tokens": 6708547.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4690
+    },
+    {
+      "completion_length": 18.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.8,
+      "completions/max_terminated_length": 18.8,
+      "completions/mean_length": 16.7,
+      "completions/mean_terminated_length": 16.7,
+      "completions/min_length": 15.2,
+      "completions/min_terminated_length": 15.2,
+      "epoch": 0.32315731573157314,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.00014543857832904905,
+      "kl": 1.0443045005202294,
+      "learning_rate": 4.2797125721500275e-06,
+      "loss": 0.0,
+      "num_tokens": 6722499.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4700
+    },
+    {
+      "completion_length": 18.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.6,
+      "completions/max_terminated_length": 18.6,
+      "completions/mean_length": 17.1,
+      "completions/mean_terminated_length": 17.1,
+      "completions/min_length": 15.9,
+      "completions/min_terminated_length": 15.9,
+      "epoch": 0.32384488448844884,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3368266090750693,
+      "learning_rate": 4.275493361643374e-06,
+      "loss": 0.0,
+      "num_tokens": 6737003.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4710
+    },
+    {
+      "completion_length": 18.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.8,
+      "completions/max_terminated_length": 18.8,
+      "completions/mean_length": 17.375,
+      "completions/mean_terminated_length": 17.375,
+      "completions/min_length": 15.9,
+      "completions/min_terminated_length": 15.9,
+      "epoch": 0.32453245324532454,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0547638040734455,
+      "learning_rate": 4.271263922784981e-06,
+      "loss": 0.0,
+      "num_tokens": 6750866.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4720
+    },
+    {
+      "completion_length": 19.2,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.2,
+      "completions/max_terminated_length": 19.2,
+      "completions/mean_length": 17.25,
+      "completions/mean_terminated_length": 17.25,
+      "completions/min_length": 15.6,
+      "completions/min_terminated_length": 15.6,
+      "epoch": 0.32522002200220024,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3946014061570167,
+      "learning_rate": 4.267024279940017e-06,
+      "loss": 0.0001,
+      "num_tokens": 6765004.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4730
+    },
+    {
+      "completion_length": 20.5,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.5,
+      "completions/max_terminated_length": 20.5,
+      "completions/mean_length": 18.075,
+      "completions/mean_terminated_length": 18.075,
+      "completions/min_length": 15.9,
+      "completions/min_terminated_length": 15.9,
+      "epoch": 0.3259075907590759,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2133473329246045,
+      "learning_rate": 4.262774457532428e-06,
+      "loss": 0.0,
+      "num_tokens": 6780903.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4740
+    },
+    {
+      "completion_length": 19.2,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.2,
+      "completions/max_terminated_length": 19.2,
+      "completions/mean_length": 16.9,
+      "completions/mean_terminated_length": 16.9,
+      "completions/min_length": 15.5,
+      "completions/min_terminated_length": 15.5,
+      "epoch": 0.3265951595159516,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.9682459566742182,
+      "learning_rate": 4.2585144800448055e-06,
+      "loss": 0.0,
+      "num_tokens": 6794935.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4750
+    },
+    {
+      "completion_length": 19.4,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.4,
+      "completions/max_terminated_length": 19.4,
+      "completions/mean_length": 16.65,
+      "completions/mean_terminated_length": 16.65,
+      "completions/min_length": 15.2,
+      "completions/min_terminated_length": 15.2,
+      "epoch": 0.3272827282728273,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.4514311589300632,
+      "learning_rate": 4.254244372018244e-06,
+      "loss": 0.0001,
+      "num_tokens": 6808745.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4760
+    },
+    {
+      "completion_length": 19.1,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.1,
+      "completions/max_terminated_length": 19.1,
+      "completions/mean_length": 16.875,
+      "completions/mean_terminated_length": 16.875,
+      "completions/min_length": 15.1,
+      "completions/min_terminated_length": 15.1,
+      "epoch": 0.327970297029703,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.065644410997629,
+      "learning_rate": 4.249964158052195e-06,
+      "loss": 0.0,
+      "num_tokens": 6822524.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4770
+    },
+    {
+      "completion_length": 19.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.0,
+      "completions/max_terminated_length": 19.0,
+      "completions/mean_length": 17.625,
+      "completions/mean_terminated_length": 17.625,
+      "completions/min_length": 16.5,
+      "completions/min_terminated_length": 16.5,
+      "epoch": 0.3286578657865787,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3550350315868855,
+      "learning_rate": 4.2456738628043324e-06,
+      "loss": 0.0,
+      "num_tokens": 6838473.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4780
+    },
+    {
+      "completion_length": 19.9,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.9,
+      "completions/max_terminated_length": 19.9,
+      "completions/mean_length": 17.7,
+      "completions/mean_terminated_length": 17.7,
+      "completions/min_length": 15.4,
+      "completions/min_terminated_length": 15.4,
+      "epoch": 0.32934543454345433,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3020609110593795,
+      "learning_rate": 4.241373510990406e-06,
+      "loss": 0.0,
+      "num_tokens": 6852517.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4790
+    },
+    {
+      "completion_length": 18.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.8,
+      "completions/max_terminated_length": 18.8,
+      "completions/mean_length": 17.325,
+      "completions/mean_terminated_length": 17.325,
+      "completions/min_length": 16.4,
+      "completions/min_terminated_length": 16.4,
+      "epoch": 0.33003300330033003,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2051956176757812,
+      "learning_rate": 4.237063127384099e-06,
+      "loss": 0.0,
+      "num_tokens": 6866874.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4800
+    },
+    {
+      "completion_length": 19.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.6,
+      "completions/max_terminated_length": 19.6,
+      "completions/mean_length": 18.325,
+      "completions/mean_terminated_length": 18.325,
+      "completions/min_length": 17.2,
+      "completions/min_terminated_length": 17.2,
+      "epoch": 0.33072057205720573,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2347914427518845,
+      "learning_rate": 4.232742736816887e-06,
+      "loss": 0.0,
+      "num_tokens": 6883619.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4810
+    },
+    {
+      "completion_length": 20.5,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.5,
+      "completions/max_terminated_length": 20.5,
+      "completions/mean_length": 19.25,
+      "completions/mean_terminated_length": 19.25,
+      "completions/min_length": 17.8,
+      "completions/min_terminated_length": 17.8,
+      "epoch": 0.33140814081408143,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.8823791073635221,
+      "learning_rate": 4.228412364177893e-06,
+      "loss": 0.0,
+      "num_tokens": 6897733.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4820
+    },
+    {
+      "completion_length": 19.2,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.2,
+      "completions/max_terminated_length": 19.2,
+      "completions/mean_length": 17.65,
+      "completions/mean_terminated_length": 17.65,
+      "completions/min_length": 15.7,
+      "completions/min_terminated_length": 15.7,
+      "epoch": 0.3320957095709571,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1724223725497722,
+      "learning_rate": 4.2240720344137476e-06,
+      "loss": 0.0,
+      "num_tokens": 6911055.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4830
+    },
+    {
+      "completion_length": 19.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.3,
+      "completions/max_terminated_length": 19.3,
+      "completions/mean_length": 17.575,
+      "completions/mean_terminated_length": 17.575,
+      "completions/min_length": 16.1,
+      "completions/min_terminated_length": 16.1,
+      "epoch": 0.3327832783278328,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.8990753037855029,
+      "learning_rate": 4.21972177252844e-06,
+      "loss": 0.0,
+      "num_tokens": 6923818.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4840
+    },
+    {
+      "completion_length": 21.4,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 21.4,
+      "completions/max_terminated_length": 21.4,
+      "completions/mean_length": 19.175,
+      "completions/mean_terminated_length": 19.175,
+      "completions/min_length": 17.4,
+      "completions/min_terminated_length": 17.4,
+      "epoch": 0.3334708470847085,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.9704873599112034,
+      "learning_rate": 4.2153616035831806e-06,
+      "loss": 0.0,
+      "num_tokens": 6940993.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4850
+    },
+    {
+      "completion_length": 18.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.6,
+      "completions/max_terminated_length": 18.6,
+      "completions/mean_length": 17.375,
+      "completions/mean_terminated_length": 17.375,
+      "completions/min_length": 15.6,
+      "completions/min_terminated_length": 15.6,
+      "epoch": 0.3341584158415842,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0528290897607804,
+      "learning_rate": 4.210991552696247e-06,
+      "loss": 0.0,
+      "num_tokens": 6957752.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4860
+    },
+    {
+      "completion_length": 18.7,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.7,
+      "completions/max_terminated_length": 18.7,
+      "completions/mean_length": 16.925,
+      "completions/mean_terminated_length": 16.925,
+      "completions/min_length": 15.7,
+      "completions/min_terminated_length": 15.7,
+      "epoch": 0.3348459845984598,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.9078183400444686,
+      "learning_rate": 4.2066116450428525e-06,
+      "loss": 0.0,
+      "num_tokens": 6973089.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4870
+    },
+    {
+      "completion_length": 18.1,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.1,
+      "completions/max_terminated_length": 18.1,
+      "completions/mean_length": 16.75,
+      "completions/mean_terminated_length": 16.75,
+      "completions/min_length": 15.5,
+      "completions/min_terminated_length": 15.5,
+      "epoch": 0.3355335533553355,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 2.7470434361021034e-05,
+      "kl": 1.577232411503792,
+      "learning_rate": 4.202221905854989e-06,
+      "loss": 0.0001,
+      "num_tokens": 6989239.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4880
+    },
+    {
+      "completion_length": 16.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 16.0,
+      "completions/max_terminated_length": 16.0,
+      "completions/mean_length": 15.625,
+      "completions/mean_terminated_length": 15.625,
+      "completions/min_length": 15.3,
+      "completions/min_terminated_length": 15.3,
+      "epoch": 0.3362211221122112,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1079448973294348,
+      "learning_rate": 4.197822360421286e-06,
+      "loss": 0.0,
+      "num_tokens": 7003600.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4890
+    },
+    {
+      "completion_length": 18.9,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.9,
+      "completions/max_terminated_length": 18.9,
+      "completions/mean_length": 16.425,
+      "completions/mean_terminated_length": 16.425,
+      "completions/min_length": 14.9,
+      "completions/min_terminated_length": 14.9,
+      "epoch": 0.3369086908690869,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.4668400838971138,
+      "learning_rate": 4.193413034086868e-06,
+      "loss": 0.0001,
+      "num_tokens": 7018585.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4900
+    },
+    {
+      "completion_length": 18.5,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.5,
+      "completions/max_terminated_length": 18.5,
+      "completions/mean_length": 17.475,
+      "completions/mean_terminated_length": 17.475,
+      "completions/min_length": 16.7,
+      "completions/min_terminated_length": 16.7,
+      "epoch": 0.33759625962596257,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.306707089813426,
+      "learning_rate": 4.188993952253205e-06,
+      "loss": 0.0,
+      "num_tokens": 7033004.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4910
+    },
+    {
+      "completion_length": 20.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.0,
+      "completions/max_terminated_length": 20.0,
+      "completions/mean_length": 17.975,
+      "completions/mean_terminated_length": 17.975,
+      "completions/min_length": 16.5,
+      "completions/min_terminated_length": 16.5,
+      "epoch": 0.33828382838283827,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.9754183698445559,
+      "learning_rate": 4.1845651403779655e-06,
+      "loss": 0.0,
+      "num_tokens": 7046931.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4920
+    },
+    {
+      "completion_length": 19.9,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.9,
+      "completions/max_terminated_length": 19.9,
+      "completions/mean_length": 17.925,
+      "completions/mean_terminated_length": 17.925,
+      "completions/min_length": 15.6,
+      "completions/min_terminated_length": 15.6,
+      "epoch": 0.33897139713971397,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.38096314817667,
+      "learning_rate": 4.180126623974874e-06,
+      "loss": 0.0001,
+      "num_tokens": 7061420.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4930
+    },
+    {
+      "completion_length": 18.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.3,
+      "completions/max_terminated_length": 18.3,
+      "completions/mean_length": 17.25,
+      "completions/mean_terminated_length": 17.25,
+      "completions/min_length": 16.2,
+      "completions/min_terminated_length": 16.2,
+      "epoch": 0.33965896589658967,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.9460880151760648,
+      "learning_rate": 4.175678428613557e-06,
+      "loss": 0.0,
+      "num_tokens": 7076598.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4940
+    },
+    {
+      "completion_length": 20.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.3,
+      "completions/max_terminated_length": 20.3,
+      "completions/mean_length": 17.275,
+      "completions/mean_terminated_length": 17.275,
+      "completions/min_length": 15.2,
+      "completions/min_terminated_length": 15.2,
+      "epoch": 0.34034653465346537,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1463233292102815,
+      "learning_rate": 4.171220579919406e-06,
+      "loss": 0.0,
+      "num_tokens": 7091077.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4950
+    },
+    {
+      "completion_length": 16.1,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 16.1,
+      "completions/max_terminated_length": 16.1,
+      "completions/mean_length": 15.5,
+      "completions/mean_terminated_length": 15.5,
+      "completions/min_length": 14.8,
+      "completions/min_terminated_length": 14.8,
+      "epoch": 0.341034103410341,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.9677249977365137,
+      "learning_rate": 4.16675310357342e-06,
+      "loss": 0.0,
+      "num_tokens": 7101725.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4960
+    },
+    {
+      "completion_length": 18.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.8,
+      "completions/max_terminated_length": 18.8,
+      "completions/mean_length": 17.5,
+      "completions/mean_terminated_length": 17.5,
+      "completions/min_length": 15.3,
+      "completions/min_terminated_length": 15.3,
+      "epoch": 0.3417216721672167,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3026058718562126,
+      "learning_rate": 4.162276025312059e-06,
+      "loss": 0.0,
+      "num_tokens": 7117885.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4970
+    },
+    {
+      "completion_length": 21.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 21.8,
+      "completions/max_terminated_length": 21.8,
+      "completions/mean_length": 19.9,
+      "completions/mean_terminated_length": 19.9,
+      "completions/min_length": 17.7,
+      "completions/min_terminated_length": 17.7,
+      "epoch": 0.3424092409240924,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2132138408720494,
+      "learning_rate": 4.157789370927104e-06,
+      "loss": 0.0,
+      "num_tokens": 7132993.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4980
+    },
+    {
+      "completion_length": 17.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.8,
+      "completions/max_terminated_length": 17.8,
+      "completions/mean_length": 16.625,
+      "completions/mean_terminated_length": 16.625,
+      "completions/min_length": 15.8,
+      "completions/min_terminated_length": 15.8,
+      "epoch": 0.3430968096809681,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3136692702770234,
+      "learning_rate": 4.153293166265502e-06,
+      "loss": 0.0,
+      "num_tokens": 7148478.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 4990
+    },
+    {
+      "completion_length": 18.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.0,
+      "completions/max_terminated_length": 18.0,
+      "completions/mean_length": 16.7,
+      "completions/mean_terminated_length": 16.7,
+      "completions/min_length": 15.6,
+      "completions/min_terminated_length": 15.6,
+      "epoch": 0.34378437843784376,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.5792409382760524,
+      "learning_rate": 4.1487874372292106e-06,
+      "loss": 0.0001,
+      "num_tokens": 7163946.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5000
+    },
+    {
+      "completion_length": 21.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 21.3,
+      "completions/max_terminated_length": 21.3,
+      "completions/mean_length": 19.075,
+      "completions/mean_terminated_length": 19.075,
+      "completions/min_length": 17.1,
+      "completions/min_terminated_length": 17.1,
+      "epoch": 0.34447194719471946,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0890948809683323,
+      "learning_rate": 4.1442722097750645e-06,
+      "loss": 0.0,
+      "num_tokens": 7177981.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5010
+    },
+    {
+      "completion_length": 18.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.0,
+      "completions/max_terminated_length": 18.0,
+      "completions/mean_length": 16.075,
+      "completions/mean_terminated_length": 16.075,
+      "completions/min_length": 14.1,
+      "completions/min_terminated_length": 14.1,
+      "epoch": 0.34515951595159516,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2117942936718464,
+      "learning_rate": 4.139747509914613e-06,
+      "loss": 0.0,
+      "num_tokens": 7191344.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5020
+    },
+    {
+      "completion_length": 18.5,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.5,
+      "completions/max_terminated_length": 18.5,
+      "completions/mean_length": 16.925,
+      "completions/mean_terminated_length": 16.925,
+      "completions/min_length": 15.8,
+      "completions/min_terminated_length": 15.8,
+      "epoch": 0.34584708470847086,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3905832149088382,
+      "learning_rate": 4.135213363713976e-06,
+      "loss": 0.0,
+      "num_tokens": 7207557.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5030
+    },
+    {
+      "completion_length": 20.5,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.5,
+      "completions/max_terminated_length": 20.5,
+      "completions/mean_length": 17.575,
+      "completions/mean_terminated_length": 17.575,
+      "completions/min_length": 15.5,
+      "completions/min_terminated_length": 15.5,
+      "epoch": 0.3465346534653465,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.4240806803107262,
+      "learning_rate": 4.13066979729369e-06,
+      "loss": 0.0001,
+      "num_tokens": 7221180.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5040
+    },
+    {
+      "completion_length": 18.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.8,
+      "completions/max_terminated_length": 18.8,
+      "completions/mean_length": 17.125,
+      "completions/mean_terminated_length": 17.125,
+      "completions/min_length": 16.2,
+      "completions/min_terminated_length": 16.2,
+      "epoch": 0.3472222222222222,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0334409718617508,
+      "learning_rate": 4.126116836828563e-06,
+      "loss": 0.0,
+      "num_tokens": 7235709.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5050
+    },
+    {
+      "completion_length": 18.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.8,
+      "completions/max_terminated_length": 18.8,
+      "completions/mean_length": 17.5,
+      "completions/mean_terminated_length": 17.5,
+      "completions/min_length": 16.1,
+      "completions/min_terminated_length": 16.1,
+      "epoch": 0.3479097909790979,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3188940420746804,
+      "learning_rate": 4.121554508547518e-06,
+      "loss": 0.0,
+      "num_tokens": 7248869.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5060
+    },
+    {
+      "completion_length": 17.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.8,
+      "completions/max_terminated_length": 17.8,
+      "completions/mean_length": 16.575,
+      "completions/mean_terminated_length": 16.575,
+      "completions/min_length": 15.5,
+      "completions/min_terminated_length": 15.5,
+      "epoch": 0.3485973597359736,
+      "frac_reward_zero_std": 0.9,
+      "grad_norm": 0.0,
+      "kl": 1.4126264125108718,
+      "learning_rate": 4.116982838733449e-06,
+      "loss": 0.0001,
+      "num_tokens": 7260688.0,
+      "reward": 4.074999904632568,
+      "reward_std": 0.028867512941360474,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.7750000119209289,
+      "rewards/quality_reward_func/std": 0.028867512941360474,
+      "step": 5070
+    },
+    {
+      "completion_length": 20.5,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.5,
+      "completions/max_terminated_length": 20.5,
+      "completions/mean_length": 18.65,
+      "completions/mean_terminated_length": 18.65,
+      "completions/min_length": 16.8,
+      "completions/min_terminated_length": 16.8,
+      "epoch": 0.3492849284928493,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.5038474194705487,
+      "learning_rate": 4.112401853723058e-06,
+      "loss": 0.0001,
+      "num_tokens": 7274190.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5080
+    },
+    {
+      "completion_length": 18.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.6,
+      "completions/max_terminated_length": 18.6,
+      "completions/mean_length": 16.325,
+      "completions/mean_terminated_length": 16.325,
+      "completions/min_length": 15.4,
+      "completions/min_terminated_length": 15.4,
+      "epoch": 0.34997249724972496,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1819006368517875,
+      "learning_rate": 4.107811579906718e-06,
+      "loss": 0.0,
+      "num_tokens": 7289051.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5090
+    },
+    {
+      "completion_length": 18.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.3,
+      "completions/max_terminated_length": 18.3,
+      "completions/mean_length": 16.375,
+      "completions/mean_terminated_length": 16.375,
+      "completions/min_length": 15.3,
+      "completions/min_terminated_length": 15.3,
+      "epoch": 0.35066006600660066,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1194199629127979,
+      "learning_rate": 4.103212043728308e-06,
+      "loss": 0.0,
+      "num_tokens": 7305174.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5100
+    },
+    {
+      "completion_length": 19.4,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.4,
+      "completions/max_terminated_length": 19.4,
+      "completions/mean_length": 17.225,
+      "completions/mean_terminated_length": 17.225,
+      "completions/min_length": 15.2,
+      "completions/min_terminated_length": 15.2,
+      "epoch": 0.35134763476347636,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.9471234813332557,
+      "learning_rate": 4.09860327168507e-06,
+      "loss": 0.0,
+      "num_tokens": 7317111.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5110
+    },
+    {
+      "completion_length": 19.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.8,
+      "completions/max_terminated_length": 19.8,
+      "completions/mean_length": 17.45,
+      "completions/mean_terminated_length": 17.45,
+      "completions/min_length": 15.4,
+      "completions/min_terminated_length": 15.4,
+      "epoch": 0.35203520352035206,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.301464532315731,
+      "learning_rate": 4.093985290327448e-06,
+      "loss": 0.0,
+      "num_tokens": 7332653.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5120
+    },
+    {
+      "completion_length": 17.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.8,
+      "completions/max_terminated_length": 17.8,
+      "completions/mean_length": 16.325,
+      "completions/mean_terminated_length": 16.325,
+      "completions/min_length": 14.9,
+      "completions/min_terminated_length": 14.9,
+      "epoch": 0.3527227722772277,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.5016500294208526,
+      "learning_rate": 4.089358126258943e-06,
+      "loss": 0.0001,
+      "num_tokens": 7347698.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5130
+    },
+    {
+      "completion_length": 19.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.6,
+      "completions/max_terminated_length": 19.6,
+      "completions/mean_length": 17.275,
+      "completions/mean_terminated_length": 17.275,
+      "completions/min_length": 15.4,
+      "completions/min_terminated_length": 15.4,
+      "epoch": 0.3534103410341034,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2618799805641174,
+      "learning_rate": 4.084721806135956e-06,
+      "loss": 0.0,
+      "num_tokens": 7362377.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5140
+    },
+    {
+      "completion_length": 18.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.3,
+      "completions/max_terminated_length": 18.3,
+      "completions/mean_length": 16.775,
+      "completions/mean_terminated_length": 16.775,
+      "completions/min_length": 15.8,
+      "completions/min_terminated_length": 15.8,
+      "epoch": 0.3540979097909791,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2617546994239093,
+      "learning_rate": 4.080076356667633e-06,
+      "loss": 0.0,
+      "num_tokens": 7376940.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5150
     }
   ],
   "logging_steps": 10,
   "max_steps": 14544,
+  "num_input_tokens_seen": 7376940,
   "num_train_epochs": 1,
   "save_steps": 50,
   "stateful_callbacks": {