Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

adapter_config.json +3 -3
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +263 -3
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -29,12 +29,12 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "up_proj",
     "k_proj",
-    "down_proj",
-    "gate_proj",
     "o_proj",
-    "v_proj",
     "q_proj"
   ],
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
+    "gate_proj",
+    "down_proj",
     "up_proj",
     "k_proj",
     "o_proj",
     "q_proj"
   ],
   "task_type": "CAUSAL_LM",

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e72eda942629c3047aa40a8d87716a3ee98493a90889d48e85dd66dac3c06797
 size 262406656

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b02836ae885c9a379cab7d418669e282e39824c3e8442660ff95b5af732c1d3
 size 262406656

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4de02450276a367d03e33824327be68771c8e4800ee949ada9830b28f1a60a46
 size 122872331

 version https://git-lfs.github.com/spec/v1
+oid sha256:a10cc964c60bfde918121f701449487ada51f8d814bd8c940c07460e711c0350
 size 122872331

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8c8c2a4a5365e4d2f815f01c10e4be6327777e8d35b0484332d334eea008ef0
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:b86a856532e9dbe010592bfb956348463afea72b9792aedba460c25c8145b5ae
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6b658c31a612ef44d06fbdd6338f43d25c77380e7f2f9a28a42ad6a24fa1046
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:14a4abf5cec20ca257e82b8cc70b248ece9e4b9d912fb1d104f5f1a77d9ff1ea
 size 1465

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9866611661166117,
   "eval_steps": 500,
-  "global_step": 14350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -37318,11 +37318,271 @@
       "rewards/quality_reward_func/mean": 0.800000011920929,
       "rewards/quality_reward_func/std": 0.0,
       "step": 14350
     }
   ],
   "logging_steps": 10,
   "max_steps": 14544,
-  "num_input_tokens_seen": 20628250,
   "num_train_epochs": 1,
   "save_steps": 50,
   "stateful_callbacks": {

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9935368536853685,
   "eval_steps": 500,
+  "global_step": 14450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/quality_reward_func/mean": 0.800000011920929,
       "rewards/quality_reward_func/std": 0.0,
       "step": 14350
+    },
+    {
+      "completion_length": 18.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.3,
+      "completions/max_terminated_length": 18.3,
+      "completions/mean_length": 16.3,
+      "completions/mean_terminated_length": 16.3,
+      "completions/min_length": 15.1,
+      "completions/min_terminated_length": 15.1,
+      "epoch": 0.9873487348734874,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.2089169837534428,
+      "learning_rate": 2.464160105727642e-09,
+      "loss": 0.0,
+      "num_tokens": 20642162.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 14360
+    },
+    {
+      "completion_length": 19.2,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.2,
+      "completions/max_terminated_length": 19.2,
+      "completions/mean_length": 17.275,
+      "completions/mean_terminated_length": 17.275,
+      "completions/min_length": 16.2,
+      "completions/min_terminated_length": 16.2,
+      "epoch": 0.988036303630363,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3353900104761123,
+      "learning_rate": 2.2050024110001345e-09,
+      "loss": 0.0,
+      "num_tokens": 20656053.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 14370
+    },
+    {
+      "completion_length": 17.4,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.4,
+      "completions/max_terminated_length": 17.4,
+      "completions/mean_length": 16.175,
+      "completions/mean_terminated_length": 16.175,
+      "completions/min_length": 15.6,
+      "completions/min_terminated_length": 15.6,
+      "epoch": 0.9887238723872387,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1925065904855727,
+      "learning_rate": 1.9602341397173542e-09,
+      "loss": 0.0,
+      "num_tokens": 20669724.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 14380
+    },
+    {
+      "completion_length": 16.5,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 16.5,
+      "completions/max_terminated_length": 16.5,
+      "completions/mean_length": 15.575,
+      "completions/mean_terminated_length": 15.575,
+      "completions/min_length": 14.6,
+      "completions/min_terminated_length": 14.6,
+      "epoch": 0.9894114411441144,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.3791985176503658,
+      "learning_rate": 1.7298567019527479e-09,
+      "loss": 0.0,
+      "num_tokens": 20687811.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 14390
+    },
+    {
+      "completion_length": 17.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 17.3,
+      "completions/max_terminated_length": 17.3,
+      "completions/mean_length": 15.5,
+      "completions/mean_terminated_length": 15.5,
+      "completions/min_length": 14.4,
+      "completions/min_terminated_length": 14.4,
+      "epoch": 0.9900990099009901,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.4439594164490699,
+      "learning_rate": 1.513871424876079e-09,
+      "loss": 0.0,
+      "num_tokens": 20703267.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 14400
+    },
+    {
+      "completion_length": 20.4,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.4,
+      "completions/max_terminated_length": 20.4,
+      "completions/mean_length": 18.975,
+      "completions/mean_terminated_length": 18.975,
+      "completions/min_length": 17.6,
+      "completions/min_terminated_length": 17.6,
+      "epoch": 0.9907865786578658,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.0520384900271893,
+      "learning_rate": 1.3122795527467647e-09,
+      "loss": 0.0,
+      "num_tokens": 20715926.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 14410
+    },
+    {
+      "completion_length": 16.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 16.3,
+      "completions/max_terminated_length": 16.3,
+      "completions/mean_length": 15.575,
+      "completions/mean_terminated_length": 15.575,
+      "completions/min_length": 14.8,
+      "completions/min_terminated_length": 14.8,
+      "epoch": 0.9914741474147415,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.1841505281394347,
+      "learning_rate": 1.125082246904996e-09,
+      "loss": 0.0,
+      "num_tokens": 20729649.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 14420
+    },
+    {
+      "completion_length": 18.1,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.1,
+      "completions/max_terminated_length": 18.1,
+      "completions/mean_length": 17.3,
+      "completions/mean_terminated_length": 17.3,
+      "completions/min_length": 16.4,
+      "completions/min_terminated_length": 16.4,
+      "epoch": 0.9921617161716172,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.377218122780323,
+      "learning_rate": 9.52280585766463e-10,
+      "loss": 0.0,
+      "num_tokens": 20747045.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 14430
+    },
+    {
+      "completion_length": 16.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 16.3,
+      "completions/max_terminated_length": 16.3,
+      "completions/mean_length": 15.275,
+      "completions/mean_terminated_length": 15.275,
+      "completions/min_length": 14.4,
+      "completions/min_terminated_length": 14.4,
+      "epoch": 0.9928492849284929,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.112162598967552,
+      "learning_rate": 7.938755648156938e-10,
+      "loss": 0.0,
+      "num_tokens": 20758908.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 14440
+    },
+    {
+      "completion_length": 19.2,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 19.2,
+      "completions/max_terminated_length": 19.2,
+      "completions/mean_length": 16.7,
+      "completions/mean_terminated_length": 16.7,
+      "completions/min_length": 14.4,
+      "completions/min_terminated_length": 14.4,
+      "epoch": 0.9935368536853685,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.9231208987534046,
+      "learning_rate": 6.498680966007809e-10,
+      "loss": 0.0,
+      "num_tokens": 20774668.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 14450
     }
   ],
   "logging_steps": 10,
   "max_steps": 14544,
+  "num_input_tokens_seen": 20774668,
   "num_train_epochs": 1,
   "save_steps": 50,
   "stateful_callbacks": {

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:834eb2c805e6cbc223d894fc25ac7ea495fdb7ae28416408c469f17593a544fc
 size 7057

 version https://git-lfs.github.com/spec/v1
+oid sha256:88b07759f83baf72651a5497140bc0ce24b06811a14c3e8fba0534eb4ac791ea
 size 7057