Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +263 -3

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74a7fbfd1065c7efe650cbe07ca6888be4c9c4026201b6e3d687e19008471a74
 size 262406656

 version https://git-lfs.github.com/spec/v1
+oid sha256:93fe08fda954a8d19235305b943a8e691ee131a7294b52f2b5fb23bd46716507
 size 262406656

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d13ac8ea643c9fa2eb6e074fedbff66a8ad842ec5de19c941bf75cc87d544fb7
 size 122872331

 version https://git-lfs.github.com/spec/v1
+oid sha256:2eb3975da2fc0d9c7f4f4e9652c42e390d2d5a328fc9fe84b2a3069c7e905c7b
 size 122872331

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa961fa9e506668d35c6cfd8cf85f9299717888b30062742b0fd9e2da10b1c98
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:fcfe3a31388de42cdb8e2ba831ae4c3ef355515443e6afb9cf07cb38355f83c0
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df3eab020225d79fdb69396f30e0ff17b6980870fce2cd29482a57a0b5aad692
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:744586c5f7157d9fd0b219ae516b1d5cf715a6af929b7cd570b93b36b3eb4887
 size 1465

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.3540979097909791,
   "eval_steps": 500,
-  "global_step": 5150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -13398,11 +13398,271 @@
       "rewards/quality_reward_func/mean": 0.800000011920929,
       "rewards/quality_reward_func/std": 0.0,
       "step": 5150
     }
   ],
   "logging_steps": 10,
   "max_steps": 14544,
-  "num_input_tokens_seen": 7376940,
   "num_train_epochs": 1,
   "save_steps": 50,
   "stateful_callbacks": {

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.360973597359736,
   "eval_steps": 500,
+  "global_step": 5250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/quality_reward_func/mean": 0.800000011920929,
       "rewards/quality_reward_func/std": 0.0,
       "step": 5150
+    },
+    {
+      "completion_length": 16.57894736842105,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 16.57894736842105,
+      "completions/max_terminated_length": 16.57894736842105,
+      "completions/mean_length": 15.605263157894736,
+      "completions/mean_terminated_length": 15.605263157894736,
+      "completions/min_length": 15.105263157894736,
+      "completions/min_terminated_length": 15.105263157894736,
+      "epoch": 0.3547854785478548,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2172791863742627,
+      "learning_rate": 4.075421804615715e-06,
+      "loss": 0.0,
+      "num_tokens": 7391547.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5160
+    },
+    {
+      "completion_length": 19.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.8,
+      "completions/max_terminated_length": 19.8,
+      "completions/mean_length": 17.15,
+      "completions/mean_terminated_length": 17.15,
+      "completions/min_length": 15.1,
+      "completions/min_terminated_length": 15.1,
+      "epoch": 0.35547304730473045,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.9243504330515862,
+      "learning_rate": 4.070758176794378e-06,
+      "loss": 0.0,
+      "num_tokens": 7406345.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5170
+    },
+    {
+      "completion_length": 20.5,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.5,
+      "completions/max_terminated_length": 20.5,
+      "completions/mean_length": 18.55,
+      "completions/mean_terminated_length": 18.55,
+      "completions/min_length": 16.7,
+      "completions/min_terminated_length": 16.7,
+      "epoch": 0.35616061606160615,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3112298667430877,
+      "learning_rate": 4.066085500070087e-06,
+      "loss": 0.0001,
+      "num_tokens": 7420439.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5180
+    },
+    {
+      "completion_length": 18.2,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.2,
+      "completions/max_terminated_length": 18.2,
+      "completions/mean_length": 16.875,
+      "completions/mean_terminated_length": 16.875,
+      "completions/min_length": 16.0,
+      "completions/min_terminated_length": 16.0,
+      "epoch": 0.35684818481848185,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.347011312842369,
+      "learning_rate": 4.061403801361432e-06,
+      "loss": 0.0,
+      "num_tokens": 7435522.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5190
+    },
+    {
+      "completion_length": 20.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.8,
+      "completions/max_terminated_length": 20.8,
+      "completions/mean_length": 18.325,
+      "completions/mean_terminated_length": 18.325,
+      "completions/min_length": 16.8,
+      "completions/min_terminated_length": 16.8,
+      "epoch": 0.35753575357535755,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2339761398732663,
+      "learning_rate": 4.0567131076389795e-06,
+      "loss": 0.0,
+      "num_tokens": 7451491.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5200
+    },
+    {
+      "completion_length": 18.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.0,
+      "completions/max_terminated_length": 18.0,
+      "completions/mean_length": 16.1,
+      "completions/mean_terminated_length": 16.1,
+      "completions/min_length": 14.3,
+      "completions/min_terminated_length": 14.3,
+      "epoch": 0.3582233223322332,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1732663363218307,
+      "learning_rate": 4.052013445925116e-06,
+      "loss": 0.0,
+      "num_tokens": 7466091.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5210
+    },
+    {
+      "completion_length": 18.8,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.8,
+      "completions/max_terminated_length": 18.8,
+      "completions/mean_length": 17.125,
+      "completions/mean_terminated_length": 17.125,
+      "completions/min_length": 15.7,
+      "completions/min_terminated_length": 15.7,
+      "epoch": 0.3589108910891089,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2563588432967663,
+      "learning_rate": 4.0473048432938875e-06,
+      "loss": 0.0,
+      "num_tokens": 7481236.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5220
+    },
+    {
+      "completion_length": 20.5,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.5,
+      "completions/max_terminated_length": 20.5,
+      "completions/mean_length": 18.2,
+      "completions/mean_terminated_length": 18.2,
+      "completions/min_length": 16.7,
+      "completions/min_terminated_length": 16.7,
+      "epoch": 0.3595984598459846,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.28299700319767,
+      "learning_rate": 4.042587326870851e-06,
+      "loss": 0.0001,
+      "num_tokens": 7495776.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5230
+    },
+    {
+      "completion_length": 22.2,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 22.2,
+      "completions/max_terminated_length": 22.2,
+      "completions/mean_length": 20.35,
+      "completions/mean_terminated_length": 20.35,
+      "completions/min_length": 18.9,
+      "completions/min_terminated_length": 18.9,
+      "epoch": 0.3602860286028603,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.4640183687210082,
+      "learning_rate": 4.037860923832913e-06,
+      "loss": 0.0001,
+      "num_tokens": 7511746.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5240
+    },
+    {
+      "completion_length": 19.1,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.1,
+      "completions/max_terminated_length": 19.1,
+      "completions/mean_length": 16.8,
+      "completions/mean_terminated_length": 16.8,
+      "completions/min_length": 15.6,
+      "completions/min_terminated_length": 15.6,
+      "epoch": 0.360973597359736,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.186241403222084,
+      "learning_rate": 4.0331256614081735e-06,
+      "loss": 0.0,
+      "num_tokens": 7525094.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 5250
     }
   ],
   "logging_steps": 10,
   "max_steps": 14544,
+  "num_input_tokens_seen": 7525094,
   "num_train_epochs": 1,
   "save_steps": 50,
   "stateful_callbacks": {