Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

adapter_config.json +4 -4
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +523 -3
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -29,13 +29,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
-    "o_proj",
     "up_proj",
-    "v_proj",
     "k_proj",
     "gate_proj",
-    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "trainable_token_indices": null,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "up_proj",
     "k_proj",
+    "down_proj",
     "gate_proj",
+    "o_proj",
+    "v_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "trainable_token_indices": null,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1a10b47ddcdb322971a51ee26080931f9d895c9369d96e2eec9575465dd8d4c
 size 262406656

 version https://git-lfs.github.com/spec/v1
+oid sha256:34ed7c8122b399a7429458c9bec480cf7e21349f800561dd00ce127f72784813
 size 262406656

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc0655a2bba93259edec89533b0ee6ac4767d92178573b7bdb376f8748e2b6be
 size 122872331

 version https://git-lfs.github.com/spec/v1
+oid sha256:43e14fe59460f9351b2c2c7e068f3daa559d773b943562f9712360bb2d6fcd69
 size 122872331

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c740099c2ad4b86e09f4a66a39e34520b6c5b4af09b4af62b1704c5c352ab67
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:715fa110eff443e5f62845343f8d9c47ba7633ab807289e3e2a72139c5a3dcb5
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6479516a40faee53dfd5a572b83d53f7ef43eb8c5ddb1d3c9c766e863711d9b9
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc8093c5d8958faf7374afb5677c510aef66de9b3b9dfb56763d6e9c1ab23447
 size 1465

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9488448844884488,
   "eval_steps": 500,
-  "global_step": 13800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -35888,11 +35888,531 @@
       "rewards/quality_reward_func/mean": 0.800000011920929,
       "rewards/quality_reward_func/std": 0.0,
       "step": 13800
     }
   ],
   "logging_steps": 10,
   "max_steps": 14544,
-  "num_input_tokens_seen": 19839192,
   "num_train_epochs": 1,
   "save_steps": 50,
   "stateful_callbacks": {

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9625962596259626,
   "eval_steps": 500,
+  "global_step": 14000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/quality_reward_func/mean": 0.800000011920929,
       "rewards/quality_reward_func/std": 0.0,
       "step": 13800
+    },
+    {
+      "completion_length": 18.7,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.7,
+      "completions/max_terminated_length": 18.7,
+      "completions/mean_length": 16.725,
+      "completions/mean_terminated_length": 16.725,
+      "completions/min_length": 15.3,
+      "completions/min_terminated_length": 15.3,
+      "epoch": 0.9495324532453245,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0350565232336522,
+      "learning_rate": 3.8801175392468584e-08,
+      "loss": 0.0,
+      "num_tokens": 19854041.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 13810
+    },
+    {
+      "completion_length": 18.1,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.1,
+      "completions/max_terminated_length": 18.1,
+      "completions/mean_length": 16.9,
+      "completions/mean_terminated_length": 16.9,
+      "completions/min_length": 15.7,
+      "completions/min_terminated_length": 15.7,
+      "epoch": 0.9502200220022002,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2483361944556237,
+      "learning_rate": 3.775519104418812e-08,
+      "loss": 0.0,
+      "num_tokens": 19869149.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 13820
+    },
+    {
+      "completion_length": 18.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.0,
+      "completions/max_terminated_length": 18.0,
+      "completions/mean_length": 16.775,
+      "completions/mean_terminated_length": 16.775,
+      "completions/min_length": 15.7,
+      "completions/min_terminated_length": 15.7,
+      "epoch": 0.9509075907590759,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2970769941806792,
+      "learning_rate": 3.672339132003211e-08,
+      "loss": 0.0,
+      "num_tokens": 19886136.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 13830
+    },
+    {
+      "completion_length": 20.5,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.5,
+      "completions/max_terminated_length": 20.5,
+      "completions/mean_length": 18.35,
+      "completions/mean_terminated_length": 18.35,
+      "completions/min_length": 16.3,
+      "completions/min_terminated_length": 16.3,
+      "epoch": 0.9515951595159516,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3883480228483678,
+      "learning_rate": 3.5705782164044135e-08,
+      "loss": 0.0001,
+      "num_tokens": 19897482.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 13840
+    },
+    {
+      "completion_length": 15.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 15.6,
+      "completions/max_terminated_length": 15.6,
+      "completions/mean_length": 15.25,
+      "completions/mean_terminated_length": 15.25,
+      "completions/min_length": 14.9,
+      "completions/min_terminated_length": 14.9,
+      "epoch": 0.9522827282728272,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.9344463728368282,
+      "learning_rate": 3.470236943851929e-08,
+      "loss": 0.0,
+      "num_tokens": 19910592.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 13850
+    },
+    {
+      "completion_length": 18.2,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.2,
+      "completions/max_terminated_length": 18.2,
+      "completions/mean_length": 16.75,
+      "completions/mean_terminated_length": 16.75,
+      "completions/min_length": 15.6,
+      "completions/min_terminated_length": 15.6,
+      "epoch": 0.9529702970297029,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0786833353340626,
+      "learning_rate": 3.371315892396698e-08,
+      "loss": 0.0,
+      "num_tokens": 19924222.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 13860
+    },
+    {
+      "completion_length": 20.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.6,
+      "completions/max_terminated_length": 20.6,
+      "completions/mean_length": 18.65,
+      "completions/mean_terminated_length": 18.65,
+      "completions/min_length": 16.7,
+      "completions/min_terminated_length": 16.7,
+      "epoch": 0.9536578657865786,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.420877918601036,
+      "learning_rate": 3.2738156319082336e-08,
+      "loss": 0.0001,
+      "num_tokens": 19939312.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 13870
+    },
+    {
+      "completion_length": 18.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.8,
+      "completions/max_terminated_length": 18.8,
+      "completions/mean_length": 17.35,
+      "completions/mean_terminated_length": 17.35,
+      "completions/min_length": 16.0,
+      "completions/min_terminated_length": 16.0,
+      "epoch": 0.9543454345434543,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.182000921666622,
+      "learning_rate": 3.1777367240708455e-08,
+      "loss": 0.0,
+      "num_tokens": 19953590.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 13880
+    },
+    {
+      "completion_length": 18.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.6,
+      "completions/max_terminated_length": 18.6,
+      "completions/mean_length": 17.4,
+      "completions/mean_terminated_length": 17.4,
+      "completions/min_length": 16.1,
+      "completions/min_terminated_length": 16.1,
+      "epoch": 0.95503300330033,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1275596469640732,
+      "learning_rate": 3.0830797223808106e-08,
+      "loss": 0.0,
+      "num_tokens": 19969106.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 13890
+    },
+    {
+      "completion_length": 20.7,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.7,
+      "completions/max_terminated_length": 20.7,
+      "completions/mean_length": 18.1,
+      "completions/mean_terminated_length": 18.1,
+      "completions/min_length": 16.5,
+      "completions/min_terminated_length": 16.5,
+      "epoch": 0.9557205720572057,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.4078487813472749,
+      "learning_rate": 2.989845172142958e-08,
+      "loss": 0.0001,
+      "num_tokens": 19985234.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 13900
+    },
+    {
+      "completion_length": 17.5,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.5,
+      "completions/max_terminated_length": 17.5,
+      "completions/mean_length": 16.625,
+      "completions/mean_terminated_length": 16.625,
+      "completions/min_length": 16.1,
+      "completions/min_terminated_length": 16.1,
+      "epoch": 0.9564081408140814,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.7960809737443924,
+      "learning_rate": 2.89803361046756e-08,
+      "loss": 0.0,
+      "num_tokens": 20002139.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 13910
+    },
+    {
+      "completion_length": 18.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.8,
+      "completions/max_terminated_length": 18.8,
+      "completions/mean_length": 16.975,
+      "completions/mean_terminated_length": 16.975,
+      "completions/min_length": 15.8,
+      "completions/min_terminated_length": 15.8,
+      "epoch": 0.9570957095709571,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.9877739049494266,
+      "learning_rate": 2.8076455662673363e-08,
+      "loss": 0.0,
+      "num_tokens": 20019710.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 13920
+    },
+    {
+      "completion_length": 20.1,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.1,
+      "completions/max_terminated_length": 20.1,
+      "completions/mean_length": 18.55,
+      "completions/mean_terminated_length": 18.55,
+      "completions/min_length": 16.9,
+      "completions/min_terminated_length": 16.9,
+      "epoch": 0.9577832783278328,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1007904268801212,
+      "learning_rate": 2.7186815602542606e-08,
+      "loss": 0.0,
+      "num_tokens": 20035352.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 13930
+    },
+    {
+      "completion_length": 18.4,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.4,
+      "completions/max_terminated_length": 18.4,
+      "completions/mean_length": 15.9,
+      "completions/mean_terminated_length": 15.9,
+      "completions/min_length": 14.8,
+      "completions/min_terminated_length": 14.8,
+      "epoch": 0.9584708470847084,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0643165530636907,
+      "learning_rate": 2.6311421049366736e-08,
+      "loss": 0.0,
+      "num_tokens": 20046580.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 13940
+    },
+    {
+      "completion_length": 19.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.0,
+      "completions/max_terminated_length": 19.0,
+      "completions/mean_length": 16.9,
+      "completions/mean_terminated_length": 16.9,
+      "completions/min_length": 15.5,
+      "completions/min_terminated_length": 15.5,
+      "epoch": 0.9591584158415841,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.126106108725071,
+      "learning_rate": 2.5450277046162874e-08,
+      "loss": 0.0,
+      "num_tokens": 20061356.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 13950
+    },
+    {
+      "completion_length": 19.7,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.7,
+      "completions/max_terminated_length": 19.7,
+      "completions/mean_length": 18.05,
+      "completions/mean_terminated_length": 18.05,
+      "completions/min_length": 17.1,
+      "completions/min_terminated_length": 17.1,
+      "epoch": 0.9598459845984598,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.9622666202485561,
+      "learning_rate": 2.460338855385297e-08,
+      "loss": 0.0,
+      "num_tokens": 20075018.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 13960
+    },
+    {
+      "completion_length": 17.2,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.2,
+      "completions/max_terminated_length": 17.2,
+      "completions/mean_length": 15.55,
+      "completions/mean_terminated_length": 15.55,
+      "completions/min_length": 14.6,
+      "completions/min_terminated_length": 14.6,
+      "epoch": 0.9605335533553355,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.032901889272034,
+      "learning_rate": 2.3770760451234665e-08,
+      "loss": 0.0,
+      "num_tokens": 20089012.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 13970
+    },
+    {
+      "completion_length": 20.5,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.5,
+      "completions/max_terminated_length": 20.5,
+      "completions/mean_length": 18.0,
+      "completions/mean_terminated_length": 18.0,
+      "completions/min_length": 16.0,
+      "completions/min_terminated_length": 16.0,
+      "epoch": 0.9612211221122112,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3917377760633827,
+      "learning_rate": 2.2952397534954097e-08,
+      "loss": 0.0001,
+      "num_tokens": 20102060.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 13980
+    },
+    {
+      "completion_length": 17.1,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.1,
+      "completions/max_terminated_length": 17.1,
+      "completions/mean_length": 15.55,
+      "completions/mean_terminated_length": 15.55,
+      "completions/min_length": 14.3,
+      "completions/min_terminated_length": 14.3,
+      "epoch": 0.9619086908690869,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2739990446716547,
+      "learning_rate": 2.214830451947786e-08,
+      "loss": 0.0,
+      "num_tokens": 20116294.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 13990
+    },
+    {
+      "completion_length": 17.7,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.7,
+      "completions/max_terminated_length": 17.7,
+      "completions/mean_length": 16.875,
+      "completions/mean_terminated_length": 16.875,
+      "completions/min_length": 16.1,
+      "completions/min_terminated_length": 16.1,
+      "epoch": 0.9625962596259626,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1548074826598167,
+      "learning_rate": 2.1358486037065253e-08,
+      "loss": 0.0,
+      "num_tokens": 20130169.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 14000
     }
   ],
   "logging_steps": 10,
   "max_steps": 14544,
+  "num_input_tokens_seen": 20130169,
   "num_train_epochs": 1,
   "save_steps": 50,
   "stateful_callbacks": {

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d555ad97383c64657789e880346a88f8c6b6a63980961fc6011db199d7a6a11d
 size 7057

 version https://git-lfs.github.com/spec/v1
+oid sha256:834eb2c805e6cbc223d894fc25ac7ea495fdb7ae28416408c469f17593a544fc
 size 7057