Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

adapter_config.json +5 -5
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +1563 -3
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -29,13 +29,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "gate_proj",
-    "up_proj",
-    "o_proj",
     "q_proj",
-    "down_proj",
     "k_proj",
-    "v_proj"
   ],
   "task_type": "CAUSAL_LM",
   "trainable_token_indices": null,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
     "q_proj",
     "k_proj",
+    "down_proj",
+    "gate_proj",
+    "up_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "trainable_token_indices": null,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:152fa5f56cb1824db7e11ba86a3524bd6fa52e5e390f62cccf3cb65d251aa2f8
 size 262406656

 version https://git-lfs.github.com/spec/v1
+oid sha256:f2738bd78dd9fdddc1b66df0f6ec4635109af536dbc363aafed6d322450beb8b
 size 262406656

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3bdd2a8d55ade8743234ae1eb53e4bb2735dd0f20952f8c68c188babe3956e2b
 size 122872331

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba0292821427c451536eef21c12bb5f7bc0a97ab8f847350a83eaae9819255c5
 size 122872331

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fade270bd5aea03ad2ee21fc77c487d756842297b94b550e453d6f16d8ae5879
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c0a5f633aef81c2c2385c3ac3006b6453cc048a5d296f67bd0c5df19b617956
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30591131e8e6f66410c593e632ee259cbfda76932a60127de665fe5e62f8b3c5
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0917f83675af402a7519163c507a3887460b43acf17e8357c7b8ced53c5a092
 size 1465

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.22345984598459845,
   "eval_steps": 500,
-  "global_step": 3250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8458,11 +8458,1571 @@
       "rewards/quality_reward_func/mean": 0.800000011920929,
       "rewards/quality_reward_func/std": 0.0,
       "step": 3250
     }
   ],
   "logging_steps": 10,
   "max_steps": 14544,
-  "num_input_tokens_seen": 4648281,
   "num_train_epochs": 1,
   "save_steps": 50,
   "stateful_callbacks": {

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.2647139713971397,
   "eval_steps": 500,
+  "global_step": 3850,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/quality_reward_func/mean": 0.800000011920929,
       "rewards/quality_reward_func/std": 0.0,
       "step": 3250
+    },
+    {
+      "completion_length": 20.7,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.7,
+      "completions/max_terminated_length": 20.7,
+      "completions/mean_length": 18.425,
+      "completions/mean_terminated_length": 18.425,
+      "completions/min_length": 16.6,
+      "completions/min_terminated_length": 16.6,
+      "epoch": 0.22414741474147415,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1709686018526555,
+      "learning_rate": 4.769285944997953e-06,
+      "loss": 0.0,
+      "num_tokens": 4664606.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3260
+    },
+    {
+      "completion_length": 18.4,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.4,
+      "completions/max_terminated_length": 18.4,
+      "completions/mean_length": 17.45,
+      "completions/mean_terminated_length": 17.45,
+      "completions/min_length": 16.3,
+      "completions/min_terminated_length": 16.3,
+      "epoch": 0.22483498349834982,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3686413869261742,
+      "learning_rate": 4.766761692749586e-06,
+      "loss": 0.0,
+      "num_tokens": 4679528.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3270
+    },
+    {
+      "completion_length": 20.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.3,
+      "completions/max_terminated_length": 20.3,
+      "completions/mean_length": 17.275,
+      "completions/mean_terminated_length": 17.275,
+      "completions/min_length": 15.4,
+      "completions/min_terminated_length": 15.4,
+      "epoch": 0.22552255225522552,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.9682805396616458,
+      "learning_rate": 4.764224382026094e-06,
+      "loss": 0.0,
+      "num_tokens": 4692875.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3280
+    },
+    {
+      "completion_length": 21.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 21.0,
+      "completions/max_terminated_length": 21.0,
+      "completions/mean_length": 18.825,
+      "completions/mean_terminated_length": 18.825,
+      "completions/min_length": 17.0,
+      "completions/min_terminated_length": 17.0,
+      "epoch": 0.22621012101210122,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0991791110485791,
+      "learning_rate": 4.761674027444544e-06,
+      "loss": 0.0,
+      "num_tokens": 4708156.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3290
+    },
+    {
+      "completion_length": 20.2,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.2,
+      "completions/max_terminated_length": 20.2,
+      "completions/mean_length": 18.65,
+      "completions/mean_terminated_length": 18.65,
+      "completions/min_length": 17.0,
+      "completions/min_terminated_length": 17.0,
+      "epoch": 0.2268976897689769,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0455322712659836,
+      "learning_rate": 4.759110643697146e-06,
+      "loss": 0.0,
+      "num_tokens": 4722014.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3300
+    },
+    {
+      "completion_length": 20.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.0,
+      "completions/max_terminated_length": 20.0,
+      "completions/mean_length": 17.925,
+      "completions/mean_terminated_length": 17.925,
+      "completions/min_length": 16.2,
+      "completions/min_terminated_length": 16.2,
+      "epoch": 0.2275852585258526,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2300671976059676,
+      "learning_rate": 4.756534245551172e-06,
+      "loss": 0.0,
+      "num_tokens": 4735443.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3310
+    },
+    {
+      "completion_length": 16.4,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 16.4,
+      "completions/max_terminated_length": 16.4,
+      "completions/mean_length": 15.575,
+      "completions/mean_terminated_length": 15.575,
+      "completions/min_length": 14.8,
+      "completions/min_terminated_length": 14.8,
+      "epoch": 0.22827282728272827,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2536677211523055,
+      "learning_rate": 4.753944847848867e-06,
+      "loss": 0.0,
+      "num_tokens": 4748098.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3320
+    },
+    {
+      "completion_length": 20.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.3,
+      "completions/max_terminated_length": 20.3,
+      "completions/mean_length": 18.8,
+      "completions/mean_terminated_length": 18.8,
+      "completions/min_length": 17.7,
+      "completions/min_terminated_length": 17.7,
+      "epoch": 0.22896039603960397,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3008077703416348,
+      "learning_rate": 4.751342465507362e-06,
+      "loss": 0.0,
+      "num_tokens": 4761274.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3330
+    },
+    {
+      "completion_length": 22.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 22.3,
+      "completions/max_terminated_length": 22.3,
+      "completions/mean_length": 19.325,
+      "completions/mean_terminated_length": 19.325,
+      "completions/min_length": 16.7,
+      "completions/min_terminated_length": 16.7,
+      "epoch": 0.22964796479647964,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0198756888508798,
+      "learning_rate": 4.748727113518594e-06,
+      "loss": 0.0,
+      "num_tokens": 4773463.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3340
+    },
+    {
+      "completion_length": 18.2,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.2,
+      "completions/max_terminated_length": 18.2,
+      "completions/mean_length": 17.35,
+      "completions/mean_terminated_length": 17.35,
+      "completions/min_length": 16.5,
+      "completions/min_terminated_length": 16.5,
+      "epoch": 0.23033553355335534,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0109242379665375,
+      "learning_rate": 4.746098806949213e-06,
+      "loss": 0.0,
+      "num_tokens": 4787017.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3350
+    },
+    {
+      "completion_length": 17.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.8,
+      "completions/max_terminated_length": 17.8,
+      "completions/mean_length": 17.025,
+      "completions/mean_terminated_length": 17.025,
+      "completions/min_length": 15.8,
+      "completions/min_terminated_length": 15.8,
+      "epoch": 0.23102310231023102,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1944296956062317,
+      "learning_rate": 4.743457560940503e-06,
+      "loss": 0.0,
+      "num_tokens": 4800622.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3360
+    },
+    {
+      "completion_length": 21.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 21.3,
+      "completions/max_terminated_length": 21.3,
+      "completions/mean_length": 17.55,
+      "completions/mean_terminated_length": 17.55,
+      "completions/min_length": 15.2,
+      "completions/min_terminated_length": 15.2,
+      "epoch": 0.23171067106710672,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1894298686645925,
+      "learning_rate": 4.740803390708284e-06,
+      "loss": 0.0,
+      "num_tokens": 4815392.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3370
+    },
+    {
+      "completion_length": 17.5,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.5,
+      "completions/max_terminated_length": 17.5,
+      "completions/mean_length": 16.4,
+      "completions/mean_terminated_length": 16.4,
+      "completions/min_length": 15.3,
+      "completions/min_terminated_length": 15.3,
+      "epoch": 0.2323982398239824,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3694863229990006,
+      "learning_rate": 4.738136311542836e-06,
+      "loss": 0.0,
+      "num_tokens": 4831268.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3380
+    },
+    {
+      "completion_length": 19.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.6,
+      "completions/max_terminated_length": 19.6,
+      "completions/mean_length": 18.425,
+      "completions/mean_terminated_length": 18.425,
+      "completions/min_length": 16.7,
+      "completions/min_terminated_length": 16.7,
+      "epoch": 0.2330858085808581,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2427097693085671,
+      "learning_rate": 4.7354563388088026e-06,
+      "loss": 0.0,
+      "num_tokens": 4846697.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3390
+    },
+    {
+      "completion_length": 21.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 21.6,
+      "completions/max_terminated_length": 21.6,
+      "completions/mean_length": 19.075,
+      "completions/mean_terminated_length": 19.075,
+      "completions/min_length": 16.2,
+      "completions/min_terminated_length": 16.2,
+      "epoch": 0.23377337733773376,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0708073504269122,
+      "learning_rate": 4.732763487945106e-06,
+      "loss": 0.0,
+      "num_tokens": 4861028.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3400
+    },
+    {
+      "completion_length": 29.7,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 29.7,
+      "completions/max_terminated_length": 29.7,
+      "completions/mean_length": 19.5,
+      "completions/mean_terminated_length": 19.5,
+      "completions/min_length": 15.5,
+      "completions/min_terminated_length": 15.5,
+      "epoch": 0.23446094609460946,
+      "frac_reward_zero_std": 0.9,
+      "grad_norm": 0.3156428635120392,
+      "kl": 0.9965578641742467,
+      "learning_rate": 4.730057774464856e-06,
+      "loss": 0.0,
+      "num_tokens": 4877352.0,
+      "reward": 4.092499876022339,
+      "reward_std": 0.015000002086162567,
+      "rewards/coherence_reward_func/mean": 1.2924999475479126,
+      "rewards/coherence_reward_func/std": 0.01499999761581421,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3410
+    },
+    {
+      "completion_length": 23.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 23.0,
+      "completions/max_terminated_length": 23.0,
+      "completions/mean_length": 18.875,
+      "completions/mean_terminated_length": 18.875,
+      "completions/min_length": 15.7,
+      "completions/min_terminated_length": 15.7,
+      "epoch": 0.23514851485148514,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0397824190557003,
+      "learning_rate": 4.727339213955265e-06,
+      "loss": 0.0,
+      "num_tokens": 4889631.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3420
+    },
+    {
+      "completion_length": 21.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 21.8,
+      "completions/max_terminated_length": 21.8,
+      "completions/mean_length": 20.225,
+      "completions/mean_terminated_length": 20.225,
+      "completions/min_length": 18.4,
+      "completions/min_terminated_length": 18.4,
+      "epoch": 0.23583608360836084,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.215433156117797,
+      "learning_rate": 4.724607822077554e-06,
+      "loss": 0.0,
+      "num_tokens": 4902888.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3430
+    },
+    {
+      "completion_length": 20.7,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.7,
+      "completions/max_terminated_length": 20.7,
+      "completions/mean_length": 19.05,
+      "completions/mean_terminated_length": 19.05,
+      "completions/min_length": 17.2,
+      "completions/min_terminated_length": 17.2,
+      "epoch": 0.23652365236523654,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1691066682338715,
+      "learning_rate": 4.7218636145668615e-06,
+      "loss": 0.0,
+      "num_tokens": 4916974.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3440
+    },
+    {
+      "completion_length": 19.1,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.1,
+      "completions/max_terminated_length": 19.1,
+      "completions/mean_length": 16.2,
+      "completions/mean_terminated_length": 16.2,
+      "completions/min_length": 14.4,
+      "completions/min_terminated_length": 14.4,
+      "epoch": 0.2372112211221122,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1441729221493007,
+      "learning_rate": 4.7191066072321575e-06,
+      "loss": 0.0,
+      "num_tokens": 4933274.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3450
+    },
+    {
+      "completion_length": 22.4,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 22.4,
+      "completions/max_terminated_length": 22.4,
+      "completions/mean_length": 19.525,
+      "completions/mean_terminated_length": 19.525,
+      "completions/min_length": 16.6,
+      "completions/min_terminated_length": 16.6,
+      "epoch": 0.2378987898789879,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0465805977582932,
+      "learning_rate": 4.716336815956148e-06,
+      "loss": 0.0,
+      "num_tokens": 4946543.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3460
+    },
+    {
+      "completion_length": 21.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 21.6,
+      "completions/max_terminated_length": 21.6,
+      "completions/mean_length": 19.35,
+      "completions/mean_terminated_length": 19.35,
+      "completions/min_length": 18.0,
+      "completions/min_terminated_length": 18.0,
+      "epoch": 0.23858635863586358,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2777705937623978,
+      "learning_rate": 4.713554256695188e-06,
+      "loss": 0.0001,
+      "num_tokens": 4959301.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3470
+    },
+    {
+      "completion_length": 20.9,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.9,
+      "completions/max_terminated_length": 20.9,
+      "completions/mean_length": 20.0,
+      "completions/mean_terminated_length": 20.0,
+      "completions/min_length": 19.0,
+      "completions/min_terminated_length": 19.0,
+      "epoch": 0.23927392739273928,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1782601185142993,
+      "learning_rate": 4.710758945479184e-06,
+      "loss": 0.0,
+      "num_tokens": 4973385.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3480
+    },
+    {
+      "completion_length": 21.4,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 21.4,
+      "completions/max_terminated_length": 21.4,
+      "completions/mean_length": 18.025,
+      "completions/mean_terminated_length": 18.025,
+      "completions/min_length": 16.3,
+      "completions/min_terminated_length": 16.3,
+      "epoch": 0.23996149614961496,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0537080638110639,
+      "learning_rate": 4.7079508984115064e-06,
+      "loss": 0.0,
+      "num_tokens": 4986858.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3490
+    },
+    {
+      "completion_length": 18.2,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.2,
+      "completions/max_terminated_length": 18.2,
+      "completions/mean_length": 16.15,
+      "completions/mean_terminated_length": 16.15,
+      "completions/min_length": 15.0,
+      "completions/min_terminated_length": 15.0,
+      "epoch": 0.24064906490649066,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.129155667871237,
+      "learning_rate": 4.705130131668894e-06,
+      "loss": 0.0,
+      "num_tokens": 5003140.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3500
+    },
+    {
+      "completion_length": 22.9,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 22.9,
+      "completions/max_terminated_length": 22.9,
+      "completions/mean_length": 19.525,
+      "completions/mean_terminated_length": 19.525,
+      "completions/min_length": 16.7,
+      "completions/min_terminated_length": 16.7,
+      "epoch": 0.24133663366336633,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2283895801752807,
+      "learning_rate": 4.702296661501362e-06,
+      "loss": 0.0001,
+      "num_tokens": 5018057.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3510
+    },
+    {
+      "completion_length": 19.5,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.5,
+      "completions/max_terminated_length": 19.5,
+      "completions/mean_length": 18.275,
+      "completions/mean_terminated_length": 18.275,
+      "completions/min_length": 17.1,
+      "completions/min_terminated_length": 17.1,
+      "epoch": 0.24202420242024203,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1926358938217163,
+      "learning_rate": 4.6994505042321096e-06,
+      "loss": 0.0,
+      "num_tokens": 5031064.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3520
+    },
+    {
+      "completion_length": 17.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.8,
+      "completions/max_terminated_length": 17.8,
+      "completions/mean_length": 16.6,
+      "completions/mean_terminated_length": 16.6,
+      "completions/min_length": 15.9,
+      "completions/min_terminated_length": 15.9,
+      "epoch": 0.2427117711771177,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.5111532375216483,
+      "learning_rate": 4.696591676257422e-06,
+      "loss": 0.0,
+      "num_tokens": 5044100.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3530
+    },
+    {
+      "completion_length": 21.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 21.3,
+      "completions/max_terminated_length": 21.3,
+      "completions/mean_length": 19.4,
+      "completions/mean_terminated_length": 19.4,
+      "completions/min_length": 17.8,
+      "completions/min_terminated_length": 17.8,
+      "epoch": 0.2433993399339934,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.169459306448698,
+      "learning_rate": 4.693720194046579e-06,
+      "loss": 0.0,
+      "num_tokens": 5058988.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3540
+    },
+    {
+      "completion_length": 17.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.0,
+      "completions/max_terminated_length": 17.0,
+      "completions/mean_length": 16.35,
+      "completions/mean_terminated_length": 16.35,
+      "completions/min_length": 16.0,
+      "completions/min_terminated_length": 16.0,
+      "epoch": 0.24408690869086908,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.476221612840891,
+      "learning_rate": 4.690836074141762e-06,
+      "loss": 0.0,
+      "num_tokens": 5075874.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3550
+    },
+    {
+      "completion_length": 19.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.3,
+      "completions/max_terminated_length": 19.3,
+      "completions/mean_length": 17.775,
+      "completions/mean_terminated_length": 17.775,
+      "completions/min_length": 16.2,
+      "completions/min_terminated_length": 16.2,
+      "epoch": 0.24477447744774478,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.4168094083666802,
+      "learning_rate": 4.687939333157954e-06,
+      "loss": 0.0001,
+      "num_tokens": 5089925.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3560
+    },
+    {
+      "completion_length": 20.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.3,
+      "completions/max_terminated_length": 20.3,
+      "completions/mean_length": 18.75,
+      "completions/mean_terminated_length": 18.75,
+      "completions/min_length": 17.0,
+      "completions/min_terminated_length": 17.0,
+      "epoch": 0.24546204620462045,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2915988519787789,
+      "learning_rate": 4.685029987782845e-06,
+      "loss": 0.0,
+      "num_tokens": 5104875.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3570
+    },
+    {
+      "completion_length": 20.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.6,
+      "completions/max_terminated_length": 20.6,
+      "completions/mean_length": 17.4,
+      "completions/mean_terminated_length": 17.4,
+      "completions/min_length": 15.7,
+      "completions/min_terminated_length": 15.7,
+      "epoch": 0.24614961496149615,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1931571021676064,
+      "learning_rate": 4.682108054776741e-06,
+      "loss": 0.0,
+      "num_tokens": 5118863.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3580
+    },
+    {
+      "completion_length": 20.5,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.5,
+      "completions/max_terminated_length": 20.5,
+      "completions/mean_length": 18.25,
+      "completions/mean_terminated_length": 18.25,
+      "completions/min_length": 16.4,
+      "completions/min_terminated_length": 16.4,
+      "epoch": 0.24683718371837185,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1943508870899677,
+      "learning_rate": 4.67917355097246e-06,
+      "loss": 0.0,
+      "num_tokens": 5132977.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3590
+    },
+    {
+      "completion_length": 20.2,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.2,
+      "completions/max_terminated_length": 20.2,
+      "completions/mean_length": 17.9,
+      "completions/mean_terminated_length": 17.9,
+      "completions/min_length": 16.0,
+      "completions/min_terminated_length": 16.0,
+      "epoch": 0.24752475247524752,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3834453955292703,
+      "learning_rate": 4.676226493275239e-06,
+      "loss": 0.0001,
+      "num_tokens": 5146825.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3600
+    },
+    {
+      "completion_length": 21.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 21.6,
+      "completions/max_terminated_length": 21.6,
+      "completions/mean_length": 18.975,
+      "completions/mean_terminated_length": 18.975,
+      "completions/min_length": 16.3,
+      "completions/min_terminated_length": 16.3,
+      "epoch": 0.24821232123212322,
+      "frac_reward_zero_std": 0.9,
+      "grad_norm": 0.0,
+      "kl": 1.411560659110546,
+      "learning_rate": 4.673266898662637e-06,
+      "loss": 0.0001,
+      "num_tokens": 5161888.0,
+      "reward": 4.092499876022339,
+      "reward_std": 0.015000002086162567,
+      "rewards/coherence_reward_func/mean": 1.2924999475479126,
+      "rewards/coherence_reward_func/std": 0.01499999761581421,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3610
+    },
+    {
+      "completion_length": 18.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.6,
+      "completions/max_terminated_length": 18.6,
+      "completions/mean_length": 16.7,
+      "completions/mean_terminated_length": 16.7,
+      "completions/min_length": 15.6,
+      "completions/min_terminated_length": 15.6,
+      "epoch": 0.2488998899889989,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.4795636057853698,
+      "learning_rate": 4.670294784184436e-06,
+      "loss": 0.0,
+      "num_tokens": 5176032.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3620
+    },
+    {
+      "completion_length": 18.7,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.7,
+      "completions/max_terminated_length": 18.7,
+      "completions/mean_length": 16.625,
+      "completions/mean_terminated_length": 16.625,
+      "completions/min_length": 15.3,
+      "completions/min_terminated_length": 15.3,
+      "epoch": 0.2495874587458746,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2247574172914029,
+      "learning_rate": 4.6673101669625445e-06,
+      "loss": 0.0,
+      "num_tokens": 5190661.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3630
+    },
+    {
+      "completion_length": 19.5,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.5,
+      "completions/max_terminated_length": 19.5,
+      "completions/mean_length": 17.95,
+      "completions/mean_terminated_length": 17.95,
+      "completions/min_length": 15.9,
+      "completions/min_terminated_length": 15.9,
+      "epoch": 0.25027502750275027,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3278845094144345,
+      "learning_rate": 4.664313064190893e-06,
+      "loss": 0.0,
+      "num_tokens": 5206219.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3640
+    },
+    {
+      "completion_length": 17.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.8,
+      "completions/max_terminated_length": 17.8,
+      "completions/mean_length": 16.575,
+      "completions/mean_terminated_length": 16.575,
+      "completions/min_length": 15.8,
+      "completions/min_terminated_length": 15.8,
+      "epoch": 0.25096259625962597,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3263515307568015,
+      "learning_rate": 4.6613034931353445e-06,
+      "loss": 0.0,
+      "num_tokens": 5217886.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3650
+    },
+    {
+      "completion_length": 17.7,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.7,
+      "completions/max_terminated_length": 17.7,
+      "completions/mean_length": 16.8,
+      "completions/mean_terminated_length": 16.8,
+      "completions/min_length": 16.1,
+      "completions/min_terminated_length": 16.1,
+      "epoch": 0.25165016501650167,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2702551379799842,
+      "learning_rate": 4.6582814711335874e-06,
+      "loss": 0.0,
+      "num_tokens": 5229738.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3660
+    },
+    {
+      "completion_length": 24.7,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 24.7,
+      "completions/max_terminated_length": 24.7,
+      "completions/mean_length": 21.6,
+      "completions/mean_terminated_length": 21.6,
+      "completions/min_length": 19.0,
+      "completions/min_terminated_length": 19.0,
+      "epoch": 0.2523377337733773,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0552857838571073,
+      "learning_rate": 4.655247015595039e-06,
+      "loss": 0.0,
+      "num_tokens": 5244126.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3670
+    },
+    {
+      "completion_length": 18.2,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.2,
+      "completions/max_terminated_length": 18.2,
+      "completions/mean_length": 15.95,
+      "completions/mean_terminated_length": 15.95,
+      "completions/min_length": 13.5,
+      "completions/min_terminated_length": 13.5,
+      "epoch": 0.253025302530253,
+      "frac_reward_zero_std": 0.9,
+      "grad_norm": 0.0,
+      "kl": 41.09145687818527,
+      "learning_rate": 4.652200144000743e-06,
+      "loss": 0.0017,
+      "num_tokens": 5258988.0,
+      "reward": 3.8949999094009398,
+      "reward_std": 0.23671360015869142,
+      "rewards/coherence_reward_func/mean": 1.23499995470047,
+      "rewards/coherence_reward_func/std": 0.07505553364753723,
+      "rewards/formatting_reward_func/mean": 1.9,
+      "rewards/formatting_reward_func/std": 0.1154700517654419,
+      "rewards/quality_reward_func/mean": 0.7600000113248825,
+      "rewards/quality_reward_func/std": 0.046188023686408994,
+      "step": 3680
+    },
+    {
+      "completion_length": 21.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 21.3,
+      "completions/max_terminated_length": 21.3,
+      "completions/mean_length": 19.175,
+      "completions/mean_terminated_length": 19.175,
+      "completions/min_length": 17.4,
+      "completions/min_terminated_length": 17.4,
+      "epoch": 0.2537128712871287,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.4594970896840096,
+      "learning_rate": 4.6491408739032705e-06,
+      "loss": 0.0001,
+      "num_tokens": 5273603.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3690
+    },
+    {
+      "completion_length": 22.5,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 22.5,
+      "completions/max_terminated_length": 22.5,
+      "completions/mean_length": 19.25,
+      "completions/mean_terminated_length": 19.25,
+      "completions/min_length": 17.3,
+      "completions/min_terminated_length": 17.3,
+      "epoch": 0.2544004400440044,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1064071744680404,
+      "learning_rate": 4.64606922292662e-06,
+      "loss": 0.0,
+      "num_tokens": 5288777.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3700
+    },
+    {
+      "completion_length": 17.1,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.1,
+      "completions/max_terminated_length": 17.1,
+      "completions/mean_length": 16.55,
+      "completions/mean_terminated_length": 16.55,
+      "completions/min_length": 15.9,
+      "completions/min_terminated_length": 15.9,
+      "epoch": 0.25508800880088006,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3959959626197815,
+      "learning_rate": 4.642985208766113e-06,
+      "loss": 0.0,
+      "num_tokens": 5300959.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3710
+    },
+    {
+      "completion_length": 17.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.6,
+      "completions/max_terminated_length": 17.6,
+      "completions/mean_length": 16.525,
+      "completions/mean_terminated_length": 16.525,
+      "completions/min_length": 15.4,
+      "completions/min_terminated_length": 15.4,
+      "epoch": 0.25577557755775576,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3369979746639729,
+      "learning_rate": 4.639888849188295e-06,
+      "loss": 0.0,
+      "num_tokens": 5314908.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3720
+    },
+    {
+      "completion_length": 17.5,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.5,
+      "completions/max_terminated_length": 17.5,
+      "completions/mean_length": 16.725,
+      "completions/mean_terminated_length": 16.725,
+      "completions/min_length": 16.2,
+      "completions/min_terminated_length": 16.2,
+      "epoch": 0.25646314631463146,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.4185206890106201,
+      "learning_rate": 4.6367801620308295e-06,
+      "loss": 0.0,
+      "num_tokens": 5327609.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3730
+    },
+    {
+      "completion_length": 19.5,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.5,
+      "completions/max_terminated_length": 19.5,
+      "completions/mean_length": 17.675,
+      "completions/mean_terminated_length": 17.675,
+      "completions/min_length": 15.8,
+      "completions/min_terminated_length": 15.8,
+      "epoch": 0.25715071507150716,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2852225728332995,
+      "learning_rate": 4.633659165202398e-06,
+      "loss": 0.0,
+      "num_tokens": 5341592.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3740
+    },
+    {
+      "completion_length": 19.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.8,
+      "completions/max_terminated_length": 19.8,
+      "completions/mean_length": 16.9,
+      "completions/mean_terminated_length": 16.9,
+      "completions/min_length": 14.8,
+      "completions/min_terminated_length": 14.8,
+      "epoch": 0.25783828382838286,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2239439487457275,
+      "learning_rate": 4.630525876682597e-06,
+      "loss": 0.0,
+      "num_tokens": 5353784.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3750
+    },
+    {
+      "completion_length": 18.2,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.2,
+      "completions/max_terminated_length": 18.2,
+      "completions/mean_length": 16.825,
+      "completions/mean_terminated_length": 16.825,
+      "completions/min_length": 15.7,
+      "completions/min_terminated_length": 15.7,
+      "epoch": 0.2585258525852585,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3233575984835624,
+      "learning_rate": 4.627380314521833e-06,
+      "loss": 0.0,
+      "num_tokens": 5366529.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3760
+    },
+    {
+      "completion_length": 19.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.3,
+      "completions/max_terminated_length": 19.3,
+      "completions/mean_length": 17.6,
+      "completions/mean_terminated_length": 17.6,
+      "completions/min_length": 16.1,
+      "completions/min_terminated_length": 16.1,
+      "epoch": 0.2592134213421342,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.4207659110426902,
+      "learning_rate": 4.624222496841219e-06,
+      "loss": 0.0001,
+      "num_tokens": 5380945.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3770
+    },
+    {
+      "completion_length": 19.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.8,
+      "completions/max_terminated_length": 19.8,
+      "completions/mean_length": 17.35,
+      "completions/mean_terminated_length": 17.35,
+      "completions/min_length": 15.0,
+      "completions/min_terminated_length": 15.0,
+      "epoch": 0.2599009900990099,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.4342102020978929,
+      "learning_rate": 4.621052441832471e-06,
+      "loss": 0.0001,
+      "num_tokens": 5395375.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3780
+    },
+    {
+      "completion_length": 17.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.8,
+      "completions/max_terminated_length": 17.8,
+      "completions/mean_length": 16.8,
+      "completions/mean_terminated_length": 16.8,
+      "completions/min_length": 15.2,
+      "completions/min_terminated_length": 15.2,
+      "epoch": 0.2605885588558856,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3788485825061798,
+      "learning_rate": 4.617870167757801e-06,
+      "loss": 0.0,
+      "num_tokens": 5410043.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3790
+    },
+    {
+      "completion_length": 20.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.0,
+      "completions/max_terminated_length": 20.0,
+      "completions/mean_length": 17.825,
+      "completions/mean_terminated_length": 17.825,
+      "completions/min_length": 16.4,
+      "completions/min_terminated_length": 16.4,
+      "epoch": 0.26127612761276126,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3054631665349006,
+      "learning_rate": 4.614675692949815e-06,
+      "loss": 0.0001,
+      "num_tokens": 5423164.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3800
+    },
+    {
+      "completion_length": 19.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.6,
+      "completions/max_terminated_length": 19.6,
+      "completions/mean_length": 16.875,
+      "completions/mean_terminated_length": 16.875,
+      "completions/min_length": 15.2,
+      "completions/min_terminated_length": 15.2,
+      "epoch": 0.26196369636963696,
+      "frac_reward_zero_std": 0.9,
+      "grad_norm": 0.0,
+      "kl": 1.2541000019758939,
+      "learning_rate": 4.611469035811404e-06,
+      "loss": 0.0,
+      "num_tokens": 5437159.0,
+      "reward": 3.792499911785126,
+      "reward_std": 0.20499999523162843,
+      "rewards/coherence_reward_func/mean": 1.2024999558925629,
+      "rewards/coherence_reward_func/std": 0.06499999761581421,
+      "rewards/formatting_reward_func/mean": 1.85,
+      "rewards/formatting_reward_func/std": 0.1,
+      "rewards/quality_reward_func/mean": 0.7400000110268593,
+      "rewards/quality_reward_func/std": 0.04000000059604645,
+      "step": 3810
+    },
+    {
+      "completion_length": 19.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.6,
+      "completions/max_terminated_length": 19.6,
+      "completions/mean_length": 17.125,
+      "completions/mean_terminated_length": 17.125,
+      "completions/min_length": 15.7,
+      "completions/min_terminated_length": 15.7,
+      "epoch": 0.26265126512651266,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.126739951223135,
+      "learning_rate": 4.60825021481564e-06,
+      "loss": 0.0,
+      "num_tokens": 5451712.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3820
+    },
+    {
+      "completion_length": 19.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.6,
+      "completions/max_terminated_length": 19.6,
+      "completions/mean_length": 17.25,
+      "completions/mean_terminated_length": 17.25,
+      "completions/min_length": 16.2,
+      "completions/min_terminated_length": 16.2,
+      "epoch": 0.26333883388338836,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.021160862594843,
+      "learning_rate": 4.60501924850567e-06,
+      "loss": 0.0,
+      "num_tokens": 5464550.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3830
+    },
+    {
+      "completion_length": 15.9,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 15.9,
+      "completions/max_terminated_length": 15.9,
+      "completions/mean_length": 15.15,
+      "completions/mean_terminated_length": 15.15,
+      "completions/min_length": 14.7,
+      "completions/min_terminated_length": 14.7,
+      "epoch": 0.264026402640264,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.45318810492754,
+      "learning_rate": 4.601776155494607e-06,
+      "loss": 0.0,
+      "num_tokens": 5477840.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3840
+    },
+    {
+      "completion_length": 20.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.6,
+      "completions/max_terminated_length": 20.6,
+      "completions/mean_length": 17.3,
+      "completions/mean_terminated_length": 17.3,
+      "completions/min_length": 15.3,
+      "completions/min_terminated_length": 15.3,
+      "epoch": 0.2647139713971397,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0578694000840188,
+      "learning_rate": 4.5985209544654265e-06,
+      "loss": 0.0,
+      "num_tokens": 5491052.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 3850
     }
   ],
   "logging_steps": 10,
   "max_steps": 14544,
+  "num_input_tokens_seen": 5491052,
   "num_train_epochs": 1,
   "save_steps": 50,
   "stateful_callbacks": {

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df21d5fa3ce640097f53fa1ff1e43994f82e13e3d3dd1a01db2aac8afbf571d9
 size 7057

 version https://git-lfs.github.com/spec/v1
+oid sha256:42b42a64fa29ca47bc2e0aa39c0a6a5f4997b48e715b9026d691d0c0901ff35f
 size 7057