Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

adapter_config.json +4 -4
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +783 -3
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -29,12 +29,12 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "q_proj",
-    "k_proj",
-    "down_proj",
     "gate_proj",
     "up_proj",
     "o_proj"
   ],
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "gate_proj",
+    "down_proj",
     "up_proj",
+    "q_proj",
+    "k_proj",
+    "v_proj",
     "o_proj"
   ],
   "task_type": "CAUSAL_LM",

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd8422397958e38dfc54623833b9c42fbf84c2192234f78716993373edeb9c08
 size 262406656

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f89e75eace1f37a98140d93962ea46e73cba4f4b8e34e368480bf3f2b1e4cdd
 size 262406656

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6acdf097a44425d0cb4aa2435e670892fe147410ce2c6c5fefed2de4c9ef796
 size 122872331

 version https://git-lfs.github.com/spec/v1
+oid sha256:a3eb3d4cf9477e021678068cf544673ad23c71724f09a6af6a000805761f348f
 size 122872331

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2e37a8994ae61da6b0a5cbf1dc8a1a1e4ca374128d672206c8b82cbdf6e4192
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:792b3fee8a1554be314683100df2b980f0bfc2f891874430d77a51ba9880a32f
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6e0184609e0a634a7a19eed294044d17cbbacf15554dec1788c985d57897ec9e
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:74de7329a01fdf8f6ecea853bf84d421d0cc36daa4e1fdfaf82ec5c4e05cf81c
 size 1465

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.3919141914191419,
   "eval_steps": 500,
-  "global_step": 5700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -14828,11 +14828,791 @@
       "rewards/quality_reward_func/mean": 0.800000011920929,
       "rewards/quality_reward_func/std": 0.0,
       "step": 5700
     }
   ],
   "logging_steps": 10,
   "max_steps": 14544,
-  "num_input_tokens_seen": 8177630,
   "num_train_epochs": 1,
   "save_steps": 50,
   "stateful_callbacks": {

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.41254125412541254,
   "eval_steps": 500,
+  "global_step": 6000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/quality_reward_func/mean": 0.800000011920929,
       "rewards/quality_reward_func/std": 0.0,
       "step": 5700
+    },
+    {
+      "completion_length": 17.5,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.5,
+      "completions/max_terminated_length": 17.5,
+      "completions/mean_length": 16.775,
+      "completions/mean_terminated_length": 16.775,
+      "completions/min_length": 16.0,
+      "completions/min_terminated_length": 16.0,
+      "epoch": 0.3926017601760176,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1857761025428772,
+      "learning_rate": 3.8062080399291872e-06,
+      "loss": 0.0,
+      "num_tokens": 8192361.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5710
+    },
+    {
+      "completion_length": 20.1,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.1,
+      "completions/max_terminated_length": 20.1,
+      "completions/mean_length": 18.975,
+      "completions/mean_terminated_length": 18.975,
+      "completions/min_length": 17.4,
+      "completions/min_terminated_length": 17.4,
+      "epoch": 0.3932893289328933,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.346421904861927,
+      "learning_rate": 3.801088006096989e-06,
+      "loss": 0.0001,
+      "num_tokens": 8204804.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5720
+    },
+    {
+      "completion_length": 16.7,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 16.7,
+      "completions/max_terminated_length": 16.7,
+      "completions/mean_length": 15.875,
+      "completions/mean_terminated_length": 15.875,
+      "completions/min_length": 15.4,
+      "completions/min_terminated_length": 15.4,
+      "epoch": 0.39397689768976896,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1227647330611945,
+      "learning_rate": 3.7959604768913615e-06,
+      "loss": 0.0,
+      "num_tokens": 8220067.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5730
+    },
+    {
+      "completion_length": 18.1,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.1,
+      "completions/max_terminated_length": 18.1,
+      "completions/mean_length": 17.1,
+      "completions/mean_terminated_length": 17.1,
+      "completions/min_length": 16.2,
+      "completions/min_terminated_length": 16.2,
+      "epoch": 0.39466446644664466,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3379293769598006,
+      "learning_rate": 3.7908254818512323e-06,
+      "loss": 0.0,
+      "num_tokens": 8235871.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5740
+    },
+    {
+      "completion_length": 20.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.6,
+      "completions/max_terminated_length": 20.6,
+      "completions/mean_length": 18.75,
+      "completions/mean_terminated_length": 18.75,
+      "completions/min_length": 16.7,
+      "completions/min_terminated_length": 16.7,
+      "epoch": 0.39535203520352036,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1466250203549861,
+      "learning_rate": 3.785683050558541e-06,
+      "loss": 0.0,
+      "num_tokens": 8249645.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5750
+    },
+    {
+      "completion_length": 15.5,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 15.5,
+      "completions/max_terminated_length": 15.5,
+      "completions/mean_length": 15.05,
+      "completions/mean_terminated_length": 15.05,
+      "completions/min_length": 14.7,
+      "completions/min_terminated_length": 14.7,
+      "epoch": 0.39603960396039606,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3106171108782292,
+      "learning_rate": 3.7805332126380647e-06,
+      "loss": 0.0,
+      "num_tokens": 8262587.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5760
+    },
+    {
+      "completion_length": 20.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.3,
+      "completions/max_terminated_length": 20.3,
+      "completions/mean_length": 17.925,
+      "completions/mean_terminated_length": 17.925,
+      "completions/min_length": 15.4,
+      "completions/min_terminated_length": 15.4,
+      "epoch": 0.3967271727172717,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1861035495996475,
+      "learning_rate": 3.775375997757249e-06,
+      "loss": 0.0,
+      "num_tokens": 8276160.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5770
+    },
+    {
+      "completion_length": 19.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.8,
+      "completions/max_terminated_length": 19.8,
+      "completions/mean_length": 17.475,
+      "completions/mean_terminated_length": 17.475,
+      "completions/min_length": 15.8,
+      "completions/min_terminated_length": 15.8,
+      "epoch": 0.3974147414741474,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0805307626724243,
+      "learning_rate": 3.7702114356260387e-06,
+      "loss": 0.0,
+      "num_tokens": 8290663.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5780
+    },
+    {
+      "completion_length": 17.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.0,
+      "completions/max_terminated_length": 17.0,
+      "completions/mean_length": 16.075,
+      "completions/mean_terminated_length": 16.075,
+      "completions/min_length": 15.2,
+      "completions/min_terminated_length": 15.2,
+      "epoch": 0.3981023102310231,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2187039345502853,
+      "learning_rate": 3.7650395559967036e-06,
+      "loss": 0.0,
+      "num_tokens": 8301238.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5790
+    },
+    {
+      "completion_length": 18.1,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.1,
+      "completions/max_terminated_length": 18.1,
+      "completions/mean_length": 17.05,
+      "completions/mean_terminated_length": 17.05,
+      "completions/min_length": 16.0,
+      "completions/min_terminated_length": 16.0,
+      "epoch": 0.3987898789878988,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1940217852592467,
+      "learning_rate": 3.759860388663668e-06,
+      "loss": 0.0,
+      "num_tokens": 8313336.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5800
+    },
+    {
+      "completion_length": 17.5,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.5,
+      "completions/max_terminated_length": 17.5,
+      "completions/mean_length": 17.025,
+      "completions/mean_terminated_length": 17.025,
+      "completions/min_length": 16.6,
+      "completions/min_terminated_length": 16.6,
+      "epoch": 0.39947744774477445,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0611320044845343,
+      "learning_rate": 3.754673963463341e-06,
+      "loss": 0.0,
+      "num_tokens": 8327733.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5810
+    },
+    {
+      "completion_length": 18.9,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.9,
+      "completions/max_terminated_length": 18.9,
+      "completions/mean_length": 17.125,
+      "completions/mean_terminated_length": 17.125,
+      "completions/min_length": 16.1,
+      "completions/min_terminated_length": 16.1,
+      "epoch": 0.40016501650165015,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1921575225889682,
+      "learning_rate": 3.749480310273943e-06,
+      "loss": 0.0,
+      "num_tokens": 8341750.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5820
+    },
+    {
+      "completion_length": 17.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.3,
+      "completions/max_terminated_length": 17.3,
+      "completions/mean_length": 16.35,
+      "completions/mean_terminated_length": 16.35,
+      "completions/min_length": 15.6,
+      "completions/min_terminated_length": 15.6,
+      "epoch": 0.40085258525852585,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.9138251326978206,
+      "learning_rate": 3.7442794590153326e-06,
+      "loss": 0.0,
+      "num_tokens": 8356848.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5830
+    },
+    {
+      "completion_length": 20.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.0,
+      "completions/max_terminated_length": 20.0,
+      "completions/mean_length": 18.2,
+      "completions/mean_terminated_length": 18.2,
+      "completions/min_length": 16.3,
+      "completions/min_terminated_length": 16.3,
+      "epoch": 0.40154015401540155,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1536221474409103,
+      "learning_rate": 3.739071439648836e-06,
+      "loss": 0.0,
+      "num_tokens": 8372328.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5840
+    },
+    {
+      "completion_length": 19.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.8,
+      "completions/max_terminated_length": 19.8,
+      "completions/mean_length": 16.325,
+      "completions/mean_terminated_length": 16.325,
+      "completions/min_length": 14.6,
+      "completions/min_terminated_length": 14.6,
+      "epoch": 0.40222772277227725,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0150370292365551,
+      "learning_rate": 3.733856282177074e-06,
+      "loss": 0.0,
+      "num_tokens": 8387829.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5850
+    },
+    {
+      "completion_length": 19.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.6,
+      "completions/max_terminated_length": 19.6,
+      "completions/mean_length": 18.0,
+      "completions/mean_terminated_length": 18.0,
+      "completions/min_length": 16.1,
+      "completions/min_terminated_length": 16.1,
+      "epoch": 0.4029152915291529,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3025204107165336,
+      "learning_rate": 3.7286340166437907e-06,
+      "loss": 0.0,
+      "num_tokens": 8402069.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5860
+    },
+    {
+      "completion_length": 20.2,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.2,
+      "completions/max_terminated_length": 20.2,
+      "completions/mean_length": 17.9,
+      "completions/mean_terminated_length": 17.9,
+      "completions/min_length": 16.3,
+      "completions/min_terminated_length": 16.3,
+      "epoch": 0.4036028602860286,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1302866250276566,
+      "learning_rate": 3.723404673133674e-06,
+      "loss": 0.0,
+      "num_tokens": 8416929.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5870
+    },
+    {
+      "completion_length": 19.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.3,
+      "completions/max_terminated_length": 19.3,
+      "completions/mean_length": 17.15,
+      "completions/mean_terminated_length": 17.15,
+      "completions/min_length": 16.0,
+      "completions/min_terminated_length": 16.0,
+      "epoch": 0.4042904290429043,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0556719139218331,
+      "learning_rate": 3.7181682817721915e-06,
+      "loss": 0.0,
+      "num_tokens": 8433219.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5880
+    },
+    {
+      "completion_length": 20.4,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.4,
+      "completions/max_terminated_length": 20.4,
+      "completions/mean_length": 17.95,
+      "completions/mean_terminated_length": 17.95,
+      "completions/min_length": 15.5,
+      "completions/min_terminated_length": 15.5,
+      "epoch": 0.40497799779978,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1209779269993305,
+      "learning_rate": 3.712924872725411e-06,
+      "loss": 0.0,
+      "num_tokens": 8448301.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5890
+    },
+    {
+      "completion_length": 19.9,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.9,
+      "completions/max_terminated_length": 19.9,
+      "completions/mean_length": 17.45,
+      "completions/mean_terminated_length": 17.45,
+      "completions/min_length": 15.2,
+      "completions/min_terminated_length": 15.2,
+      "epoch": 0.40566556655665564,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1055759094655513,
+      "learning_rate": 3.7076744761998268e-06,
+      "loss": 0.0,
+      "num_tokens": 8461651.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5900
+    },
+    {
+      "completion_length": 18.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.3,
+      "completions/max_terminated_length": 18.3,
+      "completions/mean_length": 16.625,
+      "completions/mean_terminated_length": 16.625,
+      "completions/min_length": 15.4,
+      "completions/min_terminated_length": 15.4,
+      "epoch": 0.40635313531353134,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0736303746700286,
+      "learning_rate": 3.7024171224421884e-06,
+      "loss": 0.0,
+      "num_tokens": 8475424.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5910
+    },
+    {
+      "completion_length": 17.2,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.2,
+      "completions/max_terminated_length": 17.2,
+      "completions/mean_length": 16.425,
+      "completions/mean_terminated_length": 16.425,
+      "completions/min_length": 15.7,
+      "completions/min_terminated_length": 15.7,
+      "epoch": 0.40704070407040704,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2711664289236069,
+      "learning_rate": 3.6971528417393254e-06,
+      "loss": 0.0,
+      "num_tokens": 8490933.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5920
+    },
+    {
+      "completion_length": 21.2,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 21.2,
+      "completions/max_terminated_length": 21.2,
+      "completions/mean_length": 18.575,
+      "completions/mean_terminated_length": 18.575,
+      "completions/min_length": 15.8,
+      "completions/min_terminated_length": 15.8,
+      "epoch": 0.40772827282728275,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.9545292537659407,
+      "learning_rate": 3.6918816644179707e-06,
+      "loss": 0.0,
+      "num_tokens": 8504496.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5930
+    },
+    {
+      "completion_length": 17.7,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.7,
+      "completions/max_terminated_length": 17.7,
+      "completions/mean_length": 16.425,
+      "completions/mean_terminated_length": 16.425,
+      "completions/min_length": 14.7,
+      "completions/min_terminated_length": 14.7,
+      "epoch": 0.4084158415841584,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1604718565940857,
+      "learning_rate": 3.686603620844589e-06,
+      "loss": 0.0,
+      "num_tokens": 8517765.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5940
+    },
+    {
+      "completion_length": 17.5,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.5,
+      "completions/max_terminated_length": 17.5,
+      "completions/mean_length": 16.55,
+      "completions/mean_terminated_length": 16.55,
+      "completions/min_length": 15.5,
+      "completions/min_terminated_length": 15.5,
+      "epoch": 0.4091034103410341,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.387231619283557,
+      "learning_rate": 3.6813187414252e-06,
+      "loss": 0.0,
+      "num_tokens": 8530935.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5950
+    },
+    {
+      "completion_length": 18.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.0,
+      "completions/max_terminated_length": 18.0,
+      "completions/mean_length": 16.7,
+      "completions/mean_terminated_length": 16.7,
+      "completions/min_length": 15.3,
+      "completions/min_terminated_length": 15.3,
+      "epoch": 0.4097909790979098,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3967902317643166,
+      "learning_rate": 3.6760270566052037e-06,
+      "loss": 0.0,
+      "num_tokens": 8544803.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5960
+    },
+    {
+      "completion_length": 17.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.8,
+      "completions/max_terminated_length": 17.8,
+      "completions/mean_length": 16.275,
+      "completions/mean_terminated_length": 16.275,
+      "completions/min_length": 14.7,
+      "completions/min_terminated_length": 14.7,
+      "epoch": 0.4104785478547855,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1969308275729418,
+      "learning_rate": 3.670728596869205e-06,
+      "loss": 0.0,
+      "num_tokens": 8558642.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5970
+    },
+    {
+      "completion_length": 17.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.8,
+      "completions/max_terminated_length": 17.8,
+      "completions/mean_length": 15.625,
+      "completions/mean_terminated_length": 15.625,
+      "completions/min_length": 14.0,
+      "completions/min_terminated_length": 14.0,
+      "epoch": 0.4111661166116612,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0570856800302864,
+      "learning_rate": 3.6654233927408377e-06,
+      "loss": 0.0,
+      "num_tokens": 8572351.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5980
+    },
+    {
+      "completion_length": 19.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.0,
+      "completions/max_terminated_length": 19.0,
+      "completions/mean_length": 17.35,
+      "completions/mean_terminated_length": 17.35,
+      "completions/min_length": 16.4,
+      "completions/min_terminated_length": 16.4,
+      "epoch": 0.41185368536853684,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3443511426448822,
+      "learning_rate": 3.66011147478259e-06,
+      "loss": 0.0,
+      "num_tokens": 8588401.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5990
+    },
+    {
+      "completion_length": 17.9,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.9,
+      "completions/max_terminated_length": 17.9,
+      "completions/mean_length": 16.775,
+      "completions/mean_terminated_length": 16.775,
+      "completions/min_length": 16.4,
+      "completions/min_terminated_length": 16.4,
+      "epoch": 0.41254125412541254,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.286434081196785,
+      "learning_rate": 3.654792873595627e-06,
+      "loss": 0.0,
+      "num_tokens": 8604144.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 6000
     }
   ],
   "logging_steps": 10,
   "max_steps": 14544,
+  "num_input_tokens_seen": 8604144,
   "num_train_epochs": 1,
   "save_steps": 50,
   "stateful_callbacks": {

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:42b42a64fa29ca47bc2e0aa39c0a6a5f4997b48e715b9026d691d0c0901ff35f
 size 7057

 version https://git-lfs.github.com/spec/v1
+oid sha256:b4f3df0c21647ebac4dcd78266f6f25b764a8202748a0b7c0402d7405dc13124
 size 7057