Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +1173 -3

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93fe08fda954a8d19235305b943a8e691ee131a7294b52f2b5fb23bd46716507
 size 262406656

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd8422397958e38dfc54623833b9c42fbf84c2192234f78716993373edeb9c08
 size 262406656

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2eb3975da2fc0d9c7f4f4e9652c42e390d2d5a328fc9fe84b2a3069c7e905c7b
 size 122872331

 version https://git-lfs.github.com/spec/v1
+oid sha256:f6acdf097a44425d0cb4aa2435e670892fe147410ce2c6c5fefed2de4c9ef796
 size 122872331

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fcfe3a31388de42cdb8e2ba831ae4c3ef355515443e6afb9cf07cb38355f83c0
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:b2e37a8994ae61da6b0a5cbf1dc8a1a1e4ca374128d672206c8b82cbdf6e4192
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:744586c5f7157d9fd0b219ae516b1d5cf715a6af929b7cd570b93b36b3eb4887
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e0184609e0a634a7a19eed294044d17cbbacf15554dec1788c985d57897ec9e
 size 1465

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.360973597359736,
   "eval_steps": 500,
-  "global_step": 5250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -13658,11 +13658,1181 @@
       "rewards/quality_reward_func/mean": 0.800000011920929,
       "rewards/quality_reward_func/std": 0.0,
       "step": 5250
     }
   ],
   "logging_steps": 10,
   "max_steps": 14544,
-  "num_input_tokens_seen": 7525094,
   "num_train_epochs": 1,
   "save_steps": 50,
   "stateful_callbacks": {

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.3919141914191419,
   "eval_steps": 500,
+  "global_step": 5700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/quality_reward_func/mean": 0.800000011920929,
       "rewards/quality_reward_func/std": 0.0,
       "step": 5250
+    },
+    {
+      "completion_length": 18.08955223880597,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.11764705882353,
+      "completions/max_terminated_length": 18.11764705882353,
+      "completions/mean_length": 16.794117647058822,
+      "completions/mean_terminated_length": 16.794117647058822,
+      "completions/min_length": 15.411764705882353,
+      "completions/min_terminated_length": 15.411764705882353,
+      "epoch": 0.36166116611661164,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0812231904979963,
+      "learning_rate": 4.028381566875773e-06,
+      "loss": 0.0,
+      "num_tokens": 7540044.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5260
+    },
+    {
+      "completion_length": 20.15,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.1,
+      "completions/max_terminated_length": 20.1,
+      "completions/mean_length": 18.375,
+      "completions/mean_terminated_length": 18.375,
+      "completions/min_length": 16.6,
+      "completions/min_terminated_length": 16.6,
+      "epoch": 0.36234873487348734,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.9661604385823012,
+      "learning_rate": 4.02362866756573e-06,
+      "loss": 0.0,
+      "num_tokens": 7554587.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5270
+    },
+    {
+      "completion_length": 16.775,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 16.7,
+      "completions/max_terminated_length": 16.7,
+      "completions/mean_length": 16.075,
+      "completions/mean_terminated_length": 16.075,
+      "completions/min_length": 15.4,
+      "completions/min_terminated_length": 15.4,
+      "epoch": 0.36303630363036304,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3903781726956368,
+      "learning_rate": 4.018866990858785e-06,
+      "loss": 0.0,
+      "num_tokens": 7569714.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5280
+    },
+    {
+      "completion_length": 19.675,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.8,
+      "completions/max_terminated_length": 19.8,
+      "completions/mean_length": 18.15,
+      "completions/mean_terminated_length": 18.15,
+      "completions/min_length": 16.6,
+      "completions/min_terminated_length": 16.6,
+      "epoch": 0.36372387238723874,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3349122866988181,
+      "learning_rate": 4.014096564186248e-06,
+      "loss": 0.0,
+      "num_tokens": 7582848.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5290
+    },
+    {
+      "completion_length": 19.425,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.4,
+      "completions/max_terminated_length": 19.4,
+      "completions/mean_length": 17.575,
+      "completions/mean_terminated_length": 17.575,
+      "completions/min_length": 16.3,
+      "completions/min_terminated_length": 16.3,
+      "epoch": 0.3644114411441144,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.8336154259741306,
+      "learning_rate": 4.009317415029832e-06,
+      "loss": 0.0,
+      "num_tokens": 7597619.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5300
+    },
+    {
+      "completion_length": 18.65,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.5,
+      "completions/max_terminated_length": 18.5,
+      "completions/mean_length": 17.85,
+      "completions/mean_terminated_length": 17.85,
+      "completions/min_length": 17.1,
+      "completions/min_terminated_length": 17.1,
+      "epoch": 0.3650990099009901,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0214567624032498,
+      "learning_rate": 4.004529570921501e-06,
+      "loss": 0.0,
+      "num_tokens": 7612549.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5310
+    },
+    {
+      "completion_length": 17.975,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.1,
+      "completions/max_terminated_length": 18.1,
+      "completions/mean_length": 17.15,
+      "completions/mean_terminated_length": 17.15,
+      "completions/min_length": 16.2,
+      "completions/min_terminated_length": 16.2,
+      "epoch": 0.3657865786578658,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2231212853454054,
+      "learning_rate": 3.99973305944331e-06,
+      "loss": 0.0,
+      "num_tokens": 7627539.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5320
+    },
+    {
+      "completion_length": 17.775,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.8,
+      "completions/max_terminated_length": 17.8,
+      "completions/mean_length": 17.175,
+      "completions/mean_terminated_length": 17.175,
+      "completions/min_length": 16.3,
+      "completions/min_terminated_length": 16.3,
+      "epoch": 0.3664741474147415,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.197108805179596,
+      "learning_rate": 3.9949279082272425e-06,
+      "loss": 0.0,
+      "num_tokens": 7643738.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5330
+    },
+    {
+      "completion_length": 17.375,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.4,
+      "completions/max_terminated_length": 17.4,
+      "completions/mean_length": 15.925,
+      "completions/mean_terminated_length": 15.925,
+      "completions/min_length": 13.9,
+      "completions/min_terminated_length": 13.9,
+      "epoch": 0.36716171617161714,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1159055039286614,
+      "learning_rate": 3.9901141449550565e-06,
+      "loss": 0.0,
+      "num_tokens": 7658551.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5340
+    },
+    {
+      "completion_length": 17.075,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 16.9,
+      "completions/max_terminated_length": 16.9,
+      "completions/mean_length": 16.075,
+      "completions/mean_terminated_length": 16.075,
+      "completions/min_length": 15.6,
+      "completions/min_terminated_length": 15.6,
+      "epoch": 0.36784928492849284,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0155922904610635,
+      "learning_rate": 3.985291797358123e-06,
+      "loss": 0.0,
+      "num_tokens": 7671674.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5350
+    },
+    {
+      "completion_length": 16.825,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.0,
+      "completions/max_terminated_length": 17.0,
+      "completions/mean_length": 16.575,
+      "completions/mean_terminated_length": 16.575,
+      "completions/min_length": 16.1,
+      "completions/min_terminated_length": 16.1,
+      "epoch": 0.36853685368536854,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2678054243326187,
+      "learning_rate": 3.980460893217265e-06,
+      "loss": 0.0,
+      "num_tokens": 7684565.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5360
+    },
+    {
+      "completion_length": 17.975,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.8,
+      "completions/max_terminated_length": 17.8,
+      "completions/mean_length": 17.0,
+      "completions/mean_terminated_length": 17.0,
+      "completions/min_length": 16.1,
+      "completions/min_terminated_length": 16.1,
+      "epoch": 0.36922442244224424,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2318198367953301,
+      "learning_rate": 3.9756214603626e-06,
+      "loss": 0.0,
+      "num_tokens": 7698909.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5370
+    },
+    {
+      "completion_length": 18.95,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.0,
+      "completions/max_terminated_length": 19.0,
+      "completions/mean_length": 17.2,
+      "completions/mean_terminated_length": 17.2,
+      "completions/min_length": 15.4,
+      "completions/min_terminated_length": 15.4,
+      "epoch": 0.36991199119911994,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3333981722593307,
+      "learning_rate": 3.9707735266733735e-06,
+      "loss": 0.0,
+      "num_tokens": 7715133.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5380
+    },
+    {
+      "completion_length": 17.425,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.7,
+      "completions/max_terminated_length": 17.7,
+      "completions/mean_length": 16.8,
+      "completions/mean_terminated_length": 16.8,
+      "completions/min_length": 16.0,
+      "completions/min_terminated_length": 16.0,
+      "epoch": 0.3705995599559956,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3391637369990348,
+      "learning_rate": 3.965917120077811e-06,
+      "loss": 0.0,
+      "num_tokens": 7727317.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5390
+    },
+    {
+      "completion_length": 19.15,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.0,
+      "completions/max_terminated_length": 19.0,
+      "completions/mean_length": 16.925,
+      "completions/mean_terminated_length": 16.925,
+      "completions/min_length": 15.6,
+      "completions/min_terminated_length": 15.6,
+      "epoch": 0.3712871287128713,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1109920389950276,
+      "learning_rate": 3.961052268552941e-06,
+      "loss": 0.0,
+      "num_tokens": 7743642.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5400
+    },
+    {
+      "completion_length": 16.95,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 16.9,
+      "completions/max_terminated_length": 16.9,
+      "completions/mean_length": 15.875,
+      "completions/mean_terminated_length": 15.875,
+      "completions/min_length": 14.9,
+      "completions/min_terminated_length": 14.9,
+      "epoch": 0.371974697469747,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 5.6203894928330556e-05,
+      "kl": 1.363871442526579,
+      "learning_rate": 3.956179000124447e-06,
+      "loss": 0.0,
+      "num_tokens": 7758365.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5410
+    },
+    {
+      "completion_length": 17.825,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.7,
+      "completions/max_terminated_length": 17.7,
+      "completions/mean_length": 16.15,
+      "completions/mean_terminated_length": 16.15,
+      "completions/min_length": 15.2,
+      "completions/min_terminated_length": 15.2,
+      "epoch": 0.3726622662266227,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.9931762866675854,
+      "learning_rate": 3.9512973428665e-06,
+      "loss": 0.0,
+      "num_tokens": 7772323.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5420
+    },
+    {
+      "completion_length": 21.425,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 21.6,
+      "completions/max_terminated_length": 21.6,
+      "completions/mean_length": 18.825,
+      "completions/mean_terminated_length": 18.825,
+      "completions/min_length": 16.1,
+      "completions/min_terminated_length": 16.1,
+      "epoch": 0.37334983498349833,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0012955855578185,
+      "learning_rate": 3.946407324901598e-06,
+      "loss": 0.0,
+      "num_tokens": 7785692.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5430
+    },
+    {
+      "completion_length": 21.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 21.2,
+      "completions/max_terminated_length": 21.2,
+      "completions/mean_length": 17.95,
+      "completions/mean_terminated_length": 17.95,
+      "completions/min_length": 16.1,
+      "completions/min_terminated_length": 16.1,
+      "epoch": 0.37403740374037403,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0526311319321393,
+      "learning_rate": 3.941508974400401e-06,
+      "loss": 0.0,
+      "num_tokens": 7802662.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5440
+    },
+    {
+      "completion_length": 17.1,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 16.9,
+      "completions/max_terminated_length": 16.9,
+      "completions/mean_length": 16.575,
+      "completions/mean_terminated_length": 16.575,
+      "completions/min_length": 16.3,
+      "completions/min_terminated_length": 16.3,
+      "epoch": 0.37472497249724973,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1798742283135653,
+      "learning_rate": 3.9366023195815755e-06,
+      "loss": 0.0,
+      "num_tokens": 7817133.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5450
+    },
+    {
+      "completion_length": 19.2,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.3,
+      "completions/max_terminated_length": 19.3,
+      "completions/mean_length": 18.225,
+      "completions/mean_terminated_length": 18.225,
+      "completions/min_length": 16.6,
+      "completions/min_terminated_length": 16.6,
+      "epoch": 0.37541254125412543,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3727002948522569,
+      "learning_rate": 3.931687388711626e-06,
+      "loss": 0.0001,
+      "num_tokens": 7833654.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5460
+    },
+    {
+      "completion_length": 20.15,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.0,
+      "completions/max_terminated_length": 20.0,
+      "completions/mean_length": 17.3,
+      "completions/mean_terminated_length": 17.3,
+      "completions/min_length": 15.6,
+      "completions/min_terminated_length": 15.6,
+      "epoch": 0.3761001100110011,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0240365587174893,
+      "learning_rate": 3.926764210104733e-06,
+      "loss": 0.0,
+      "num_tokens": 7851086.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5470
+    },
+    {
+      "completion_length": 19.075,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.2,
+      "completions/max_terminated_length": 19.2,
+      "completions/mean_length": 17.2,
+      "completions/mean_terminated_length": 17.2,
+      "completions/min_length": 15.3,
+      "completions/min_terminated_length": 15.3,
+      "epoch": 0.3767876787678768,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1240653157234193,
+      "learning_rate": 3.921832812122593e-06,
+      "loss": 0.0,
+      "num_tokens": 7867270.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5480
+    },
+    {
+      "completion_length": 17.975,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.8,
+      "completions/max_terminated_length": 17.8,
+      "completions/mean_length": 16.55,
+      "completions/mean_terminated_length": 16.55,
+      "completions/min_length": 15.8,
+      "completions/min_terminated_length": 15.8,
+      "epoch": 0.3774752475247525,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.4767700091004372,
+      "learning_rate": 3.916893223174254e-06,
+      "loss": 0.0001,
+      "num_tokens": 7882340.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5490
+    },
+    {
+      "completion_length": 18.725,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.8,
+      "completions/max_terminated_length": 18.8,
+      "completions/mean_length": 16.35,
+      "completions/mean_terminated_length": 16.35,
+      "completions/min_length": 14.8,
+      "completions/min_terminated_length": 14.8,
+      "epoch": 0.3781628162816282,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.476631324738264,
+      "learning_rate": 3.911945471715947e-06,
+      "loss": 0.0001,
+      "num_tokens": 7897518.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5500
+    },
+    {
+      "completion_length": 19.825,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.8,
+      "completions/max_terminated_length": 19.8,
+      "completions/mean_length": 18.3,
+      "completions/mean_terminated_length": 18.3,
+      "completions/min_length": 16.8,
+      "completions/min_terminated_length": 16.8,
+      "epoch": 0.3788503850385038,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1571273379027844,
+      "learning_rate": 3.906989586250928e-06,
+      "loss": 0.0,
+      "num_tokens": 7911386.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5510
+    },
+    {
+      "completion_length": 17.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.3,
+      "completions/max_terminated_length": 17.3,
+      "completions/mean_length": 15.575,
+      "completions/mean_terminated_length": 15.575,
+      "completions/min_length": 14.7,
+      "completions/min_terminated_length": 14.7,
+      "epoch": 0.3795379537953795,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3854421511292458,
+      "learning_rate": 3.902025595329314e-06,
+      "loss": 0.0,
+      "num_tokens": 7923165.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5520
+    },
+    {
+      "completion_length": 18.2,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.2,
+      "completions/max_terminated_length": 18.2,
+      "completions/mean_length": 16.75,
+      "completions/mean_terminated_length": 16.75,
+      "completions/min_length": 15.5,
+      "completions/min_terminated_length": 15.5,
+      "epoch": 0.3802255225522552,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2270353332161903,
+      "learning_rate": 3.897053527547912e-06,
+      "loss": 0.0,
+      "num_tokens": 7937471.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5530
+    },
+    {
+      "completion_length": 17.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.7,
+      "completions/max_terminated_length": 17.7,
+      "completions/mean_length": 16.75,
+      "completions/mean_terminated_length": 16.75,
+      "completions/min_length": 16.1,
+      "completions/min_terminated_length": 16.1,
+      "epoch": 0.3809130913091309,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0666535507887602,
+      "learning_rate": 3.892073411550062e-06,
+      "loss": 0.0,
+      "num_tokens": 7951813.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5540
+    },
+    {
+      "completion_length": 17.7,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.9,
+      "completions/max_terminated_length": 17.9,
+      "completions/mean_length": 16.9,
+      "completions/mean_terminated_length": 16.9,
+      "completions/min_length": 15.5,
+      "completions/min_terminated_length": 15.5,
+      "epoch": 0.3816006600660066,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2041775345802308,
+      "learning_rate": 3.887085276025469e-06,
+      "loss": 0.0,
+      "num_tokens": 7968181.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5550
+    },
+    {
+      "completion_length": 16.7,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 16.4,
+      "completions/max_terminated_length": 16.4,
+      "completions/mean_length": 15.75,
+      "completions/mean_terminated_length": 15.75,
+      "completions/min_length": 14.8,
+      "completions/min_terminated_length": 14.8,
+      "epoch": 0.38228822882288227,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1235090486705304,
+      "learning_rate": 3.882089149710035e-06,
+      "loss": 0.0,
+      "num_tokens": 7984055.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5560
+    },
+    {
+      "completion_length": 18.725,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.7,
+      "completions/max_terminated_length": 18.7,
+      "completions/mean_length": 17.3,
+      "completions/mean_terminated_length": 17.3,
+      "completions/min_length": 16.3,
+      "completions/min_terminated_length": 16.3,
+      "epoch": 0.38297579757975797,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 2.725888043642044e-05,
+      "kl": 1.1920234143733979,
+      "learning_rate": 3.877085061385694e-06,
+      "loss": 0.0,
+      "num_tokens": 7997675.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5570
+    },
+    {
+      "completion_length": 18.275,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.4,
+      "completions/max_terminated_length": 18.4,
+      "completions/mean_length": 16.6,
+      "completions/mean_terminated_length": 16.6,
+      "completions/min_length": 14.9,
+      "completions/min_terminated_length": 14.9,
+      "epoch": 0.38366336633663367,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.9494880434125662,
+      "learning_rate": 3.872073039880254e-06,
+      "loss": 0.0,
+      "num_tokens": 8011851.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5580
+    },
+    {
+      "completion_length": 23.25,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 23.2,
+      "completions/max_terminated_length": 23.2,
+      "completions/mean_length": 19.575,
+      "completions/mean_terminated_length": 19.575,
+      "completions/min_length": 16.7,
+      "completions/min_terminated_length": 16.7,
+      "epoch": 0.38435093509350937,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0359878040850163,
+      "learning_rate": 3.8670531140672194e-06,
+      "loss": 0.0,
+      "num_tokens": 8024570.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5590
+    },
+    {
+      "completion_length": 18.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.3,
+      "completions/max_terminated_length": 18.3,
+      "completions/mean_length": 17.25,
+      "completions/mean_terminated_length": 17.25,
+      "completions/min_length": 16.2,
+      "completions/min_terminated_length": 16.2,
+      "epoch": 0.385038503850385,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.4615533858537675,
+      "learning_rate": 3.862025312865633e-06,
+      "loss": 0.0001,
+      "num_tokens": 8039680.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5600
+    },
+    {
+      "completion_length": 17.725,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.6,
+      "completions/max_terminated_length": 17.6,
+      "completions/mean_length": 16.6,
+      "completions/mean_terminated_length": 16.6,
+      "completions/min_length": 16.0,
+      "completions/min_terminated_length": 16.0,
+      "epoch": 0.3857260726072607,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1007069438695907,
+      "learning_rate": 3.856989665239904e-06,
+      "loss": 0.0,
+      "num_tokens": 8054900.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5610
+    },
+    {
+      "completion_length": 19.275,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.4,
+      "completions/max_terminated_length": 19.4,
+      "completions/mean_length": 18.075,
+      "completions/mean_terminated_length": 18.075,
+      "completions/min_length": 16.2,
+      "completions/min_terminated_length": 16.2,
+      "epoch": 0.3864136413641364,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1791205305606127,
+      "learning_rate": 3.851946200199648e-06,
+      "loss": 0.0,
+      "num_tokens": 8070555.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5620
+    },
+    {
+      "completion_length": 19.1,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.3,
+      "completions/max_terminated_length": 19.3,
+      "completions/mean_length": 16.925,
+      "completions/mean_terminated_length": 16.925,
+      "completions/min_length": 15.3,
+      "completions/min_terminated_length": 15.3,
+      "epoch": 0.3871012101210121,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1043142512440682,
+      "learning_rate": 3.846894946799511e-06,
+      "loss": 0.0,
+      "num_tokens": 8083116.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5630
+    },
+    {
+      "completion_length": 17.65,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.4,
+      "completions/max_terminated_length": 17.4,
+      "completions/mean_length": 16.025,
+      "completions/mean_terminated_length": 16.025,
+      "completions/min_length": 15.3,
+      "completions/min_terminated_length": 15.3,
+      "epoch": 0.38778877887788776,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.4466410249471664,
+      "learning_rate": 3.841835934139008e-06,
+      "loss": 0.0,
+      "num_tokens": 8097373.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5640
+    },
+    {
+      "completion_length": 17.175,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.1,
+      "completions/max_terminated_length": 17.1,
+      "completions/mean_length": 15.975,
+      "completions/mean_terminated_length": 15.975,
+      "completions/min_length": 15.2,
+      "completions/min_terminated_length": 15.2,
+      "epoch": 0.38847634763476346,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3932079687714576,
+      "learning_rate": 3.8367691913623565e-06,
+      "loss": 0.0,
+      "num_tokens": 8108796.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5650
+    },
+    {
+      "completion_length": 20.275,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.4,
+      "completions/max_terminated_length": 20.4,
+      "completions/mean_length": 17.525,
+      "completions/mean_terminated_length": 17.525,
+      "completions/min_length": 15.8,
+      "completions/min_terminated_length": 15.8,
+      "epoch": 0.38916391639163916,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1165172673761845,
+      "learning_rate": 3.831694747658301e-06,
+      "loss": 0.0,
+      "num_tokens": 8123245.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5660
+    },
+    {
+      "completion_length": 17.175,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.0,
+      "completions/max_terminated_length": 17.0,
+      "completions/mean_length": 16.2,
+      "completions/mean_terminated_length": 16.2,
+      "completions/min_length": 15.4,
+      "completions/min_terminated_length": 15.4,
+      "epoch": 0.38985148514851486,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.037246273458004,
+      "learning_rate": 3.826612632259955e-06,
+      "loss": 0.0,
+      "num_tokens": 8137105.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5670
+    },
+    {
+      "completion_length": 19.9,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.9,
+      "completions/max_terminated_length": 19.9,
+      "completions/mean_length": 17.65,
+      "completions/mean_terminated_length": 17.65,
+      "completions/min_length": 15.8,
+      "completions/min_terminated_length": 15.8,
+      "epoch": 0.39053905390539057,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.185601119697094,
+      "learning_rate": 3.821522874444626e-06,
+      "loss": 0.0,
+      "num_tokens": 8151835.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5680
+    },
+    {
+      "completion_length": 20.15,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.4,
+      "completions/max_terminated_length": 20.4,
+      "completions/mean_length": 18.2,
+      "completions/mean_terminated_length": 18.2,
+      "completions/min_length": 16.7,
+      "completions/min_terminated_length": 16.7,
+      "epoch": 0.3912266226622662,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.9930311039090156,
+      "learning_rate": 3.8164255035336454e-06,
+      "loss": 0.0,
+      "num_tokens": 8165839.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5690
+    },
+    {
+      "completion_length": 18.85,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.6,
+      "completions/max_terminated_length": 18.6,
+      "completions/mean_length": 16.775,
+      "completions/mean_terminated_length": 16.775,
+      "completions/min_length": 15.5,
+      "completions/min_terminated_length": 15.5,
+      "epoch": 0.3919141914191419,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.4449263490736484,
+      "learning_rate": 3.811320548892205e-06,
+      "loss": 0.0001,
+      "num_tokens": 8177630.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5700
     }
   ],
   "logging_steps": 10,
   "max_steps": 14544,
+  "num_input_tokens_seen": 8177630,
   "num_train_epochs": 1,
   "save_steps": 50,
   "stateful_callbacks": {