Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

adapter_config.json +5 -5
adapter_model.safetensors +1 -1
optimizer.pt +2 -2
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +394 -4
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -29,13 +29,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
     "v_proj",
-    "down_proj",
     "k_proj",
-    "up_proj",
-    "o_proj",
-    "gate_proj"
   ],
   "task_type": "CAUSAL_LM",
   "trainable_token_indices": null,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "up_proj",
     "v_proj",
+    "q_proj",
     "k_proj",
+    "gate_proj",
+    "down_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "trainable_token_indices": null,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b8863a08a9e03e1385b1d8e43d6ceb78d559e59c3fd560051dd6c4ffea5ef01
 size 262406656

 version https://git-lfs.github.com/spec/v1
+oid sha256:aac9ea0e9492c5121969cb8cd1243a9cbd537758d4beee2498d08aa1bfc7fb3b
 size 262406656

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3fd8fb0b9919222682bea835ce2ae0481fc1b0de959a33d4abb353b639eca7b1
-size 121633045

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c1849c8173db31fb56cd75df79edfbc60942ddcc33bec2fbe2f50157adaf37e
+size 122871883

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7f558d8446482efa60b14ceb530782da57f6ab2cf1d67c09fd1e5605f003a25
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:81888abba6fcb84e8644e14930eab357fa25630389fc14dcfeecc975e067404d
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:427c0c946dd9504d04f599e31438298f1906271364d5cb9e0d7a9a8880940c29
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:2fb49e328593b94208faae32bb0c92c92ac86ee6160811712359ffbd888f082c
 size 1465

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.003819126183929117,
   "eval_steps": 500,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -138,11 +138,401 @@
       "rewards/quality_reward_func/mean": 0.020000000298023225,
       "rewards/quality_reward_func/std": 0.04000000059604645,
       "step": 50
     }
   ],
   "logging_steps": 10,
-  "max_steps": 13092,
-  "num_input_tokens_seen": 67990,
   "num_train_epochs": 1,
   "save_steps": 50,
   "stateful_callbacks": {

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.013751375137513752,
   "eval_steps": 500,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/quality_reward_func/mean": 0.020000000298023225,
       "rewards/quality_reward_func/std": 0.04000000059604645,
       "step": 50
+    },
+    {
+      "completion_length": 1.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.004125412541254125,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.6421079635620118e-06,
+      "learning_rate": 1.9666666666666668e-06,
+      "loss": 0.0,
+      "num_tokens": 79438.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 0.0,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 0.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.0,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 60
+    },
+    {
+      "completion_length": 1.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.6,
+      "completions/max_terminated_length": 1.6,
+      "completions/mean_length": 1.6,
+      "completions/mean_terminated_length": 1.6,
+      "completions/min_length": 1.6,
+      "completions/min_terminated_length": 1.6,
+      "epoch": 0.004812981298129813,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.8922347294392238e-06,
+      "learning_rate": 2.3000000000000004e-06,
+      "loss": 0.0,
+      "num_tokens": 92538.0,
+      "reward": 0.1100000023841858,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 0.06000000238418579,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 0.05,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.0,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 70
+    },
+    {
+      "completion_length": 1.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.005500550055005501,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 1.56402587890625e-05,
+      "learning_rate": 2.6333333333333332e-06,
+      "loss": 0.0,
+      "num_tokens": 106926.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 0.0,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 0.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.0,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 80
+    },
+    {
+      "completion_length": 1.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.006188118811881188,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 2.9624998569488524e-05,
+      "learning_rate": 2.9666666666666673e-06,
+      "loss": 0.0,
+      "num_tokens": 120118.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 0.0,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 0.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.0,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 90
+    },
+    {
+      "completion_length": 2.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 2.0,
+      "completions/max_terminated_length": 2.0,
+      "completions/mean_length": 1.25,
+      "completions/mean_terminated_length": 1.25,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.006875687568756876,
+      "frac_reward_zero_std": 0.9,
+      "grad_norm": 0.0,
+      "kl": 0.0018734597397269681,
+      "learning_rate": 3.3000000000000006e-06,
+      "loss": 0.0,
+      "num_tokens": 134128.0,
+      "reward": 0.0899999976158142,
+      "reward_std": 0.1799999952316284,
+      "rewards/coherence_reward_func/mean": 0.032499998807907104,
+      "rewards/coherence_reward_func/std": 0.06499999761581421,
+      "rewards/formatting_reward_func/mean": 0.05,
+      "rewards/formatting_reward_func/std": 0.1,
+      "rewards/quality_reward_func/mean": 0.007500000298023224,
+      "rewards/quality_reward_func/std": 0.015000002086162567,
+      "step": 100
+    },
+    {
+      "completion_length": 5.9,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 5.9,
+      "completions/max_terminated_length": 5.9,
+      "completions/mean_length": 3.5,
+      "completions/mean_terminated_length": 3.5,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.007563256325632563,
+      "frac_reward_zero_std": 0.7,
+      "grad_norm": 0.5969054698944092,
+      "kl": 0.3142867418937385,
+      "learning_rate": 3.633333333333334e-06,
+      "loss": 0.0,
+      "num_tokens": 149936.0,
+      "reward": 0.6974999606609344,
+      "reward_std": 0.574999988079071,
+      "rewards/coherence_reward_func/mean": 0.21999999284744262,
+      "rewards/coherence_reward_func/std": 0.1799999952316284,
+      "rewards/formatting_reward_func/mean": 0.3375,
+      "rewards/formatting_reward_func/std": 0.275,
+      "rewards/quality_reward_func/mean": 0.14000000506639482,
+      "rewards/quality_reward_func/std": 0.12000000178813934,
+      "step": 110
+    },
+    {
+      "completion_length": 10.3,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 10.3,
+      "completions/max_terminated_length": 10.3,
+      "completions/mean_length": 7.55,
+      "completions/mean_terminated_length": 7.55,
+      "completions/min_length": 6.0,
+      "completions/min_terminated_length": 6.0,
+      "epoch": 0.00825082508250825,
+      "frac_reward_zero_std": 0.7,
+      "grad_norm": 0.0026277885772287846,
+      "kl": 470.12245586041826,
+      "learning_rate": 3.966666666666667e-06,
+      "loss": 0.0119,
+      "num_tokens": 164358.0,
+      "reward": 1.6574999570846558,
+      "reward_std": 0.27903410643339155,
+      "rewards/coherence_reward_func/mean": 0.5399999856948853,
+      "rewards/coherence_reward_func/std": 0.09237603992223739,
+      "rewards/formatting_reward_func/mean": 0.8375,
+      "rewards/formatting_reward_func/std": 0.1404700517654419,
+      "rewards/quality_reward_func/mean": 0.2800000041723251,
+      "rewards/quality_reward_func/std": 0.046188023686408994,
+      "step": 120
+    },
+    {
+      "completion_length": 18.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 18.6,
+      "completions/max_terminated_length": 18.6,
+      "completions/mean_length": 15.8,
+      "completions/mean_terminated_length": 15.8,
+      "completions/min_length": 11.9,
+      "completions/min_terminated_length": 11.9,
+      "epoch": 0.008938393839383938,
+      "frac_reward_zero_std": 0.8,
+      "grad_norm": 0.0,
+      "kl": 0.46882193982601167,
+      "learning_rate": 4.3e-06,
+      "loss": 0.0,
+      "num_tokens": 178634.0,
+      "reward": 3.5749999046325684,
+      "reward_std": 0.22999999523162842,
+      "rewards/coherence_reward_func/mean": 1.1374999582767487,
+      "rewards/coherence_reward_func/std": 0.06499999761581421,
+      "rewards/formatting_reward_func/mean": 1.75,
+      "rewards/formatting_reward_func/std": 0.1,
+      "rewards/quality_reward_func/mean": 0.6875000119209289,
+      "rewards/quality_reward_func/std": 0.06500000059604645,
+      "step": 130
+    },
+    {
+      "completion_length": 20.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 20.6,
+      "completions/max_terminated_length": 20.6,
+      "completions/mean_length": 16.4,
+      "completions/mean_terminated_length": 16.4,
+      "completions/min_length": 11.8,
+      "completions/min_terminated_length": 11.8,
+      "epoch": 0.009625962596259627,
+      "frac_reward_zero_std": 0.7,
+      "grad_norm": 0.0,
+      "kl": 0.4925146855413914,
+      "learning_rate": 4.633333333333334e-06,
+      "loss": 0.0,
+      "num_tokens": 192926.0,
+      "reward": 3.2499999046325683,
+      "reward_std": 0.44126754999160767,
+      "rewards/coherence_reward_func/mean": 1.0424999654293061,
+      "rewards/coherence_reward_func/std": 0.14356523752212524,
+      "rewards/formatting_reward_func/mean": 1.6125,
+      "rewards/formatting_reward_func/std": 0.21160253882408142,
+      "rewards/quality_reward_func/mean": 0.595000010728836,
+      "rewards/quality_reward_func/std": 0.10350853204727173,
+      "step": 140
+    },
+    {
+      "completion_length": 23.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 23.0,
+      "completions/max_terminated_length": 23.0,
+      "completions/mean_length": 17.825,
+      "completions/mean_terminated_length": 17.825,
+      "completions/min_length": 13.0,
+      "completions/min_terminated_length": 13.0,
+      "epoch": 0.010313531353135313,
+      "frac_reward_zero_std": 0.9,
+      "grad_norm": 0.0,
+      "kl": 1.0868607074022294,
+      "learning_rate": 4.966666666666667e-06,
+      "loss": 0.0,
+      "num_tokens": 206363.0,
+      "reward": 4.059999895095825,
+      "reward_std": 0.07999999523162842,
+      "rewards/coherence_reward_func/mean": 1.2924999475479126,
+      "rewards/coherence_reward_func/std": 0.01499999761581421,
+      "rewards/formatting_reward_func/mean": 1.9875,
+      "rewards/formatting_reward_func/std": 0.025,
+      "rewards/quality_reward_func/mean": 0.7800000131130218,
+      "rewards/quality_reward_func/std": 0.04000000059604645,
+      "step": 150
+    },
+    {
+      "completion_length": 31.1,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 31.1,
+      "completions/max_terminated_length": 31.1,
+      "completions/mean_length": 20.3,
+      "completions/mean_terminated_length": 20.3,
+      "completions/min_length": 14.3,
+      "completions/min_terminated_length": 14.3,
+      "epoch": 0.011001100110011002,
+      "frac_reward_zero_std": 0.9,
+      "grad_norm": 0.0007889735861681402,
+      "kl": 0.7975522613618523,
+      "learning_rate": 4.999451708687114e-06,
+      "loss": 0.0,
+      "num_tokens": 219259.0,
+      "reward": 4.079999899864196,
+      "reward_std": 0.04000000059604645,
+      "rewards/coherence_reward_func/mean": 1.2924999475479126,
+      "rewards/coherence_reward_func/std": 0.01499999761581421,
+      "rewards/formatting_reward_func/mean": 1.9875,
+      "rewards/formatting_reward_func/std": 0.025,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 160
+    },
+    {
+      "completion_length": 34.6,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 34.6,
+      "completions/max_terminated_length": 34.6,
+      "completions/mean_length": 23.1,
+      "completions/mean_terminated_length": 23.1,
+      "completions/min_length": 17.5,
+      "completions/min_terminated_length": 17.5,
+      "epoch": 0.011688668866886688,
+      "frac_reward_zero_std": 0.8,
+      "grad_norm": 0.419414222240448,
+      "kl": 0.7056910984218121,
+      "learning_rate": 4.9975566894538954e-06,
+      "loss": 0.0,
+      "num_tokens": 235091.0,
+      "reward": 4.077499866485596,
+      "reward_std": 0.03232050836086273,
+      "rewards/coherence_reward_func/mean": 1.2774999499320985,
+      "rewards/coherence_reward_func/std": 0.03232050389051437,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 170
+    },
+    {
+      "completion_length": 22.9,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 22.9,
+      "completions/max_terminated_length": 22.9,
+      "completions/mean_length": 18.05,
+      "completions/mean_terminated_length": 18.05,
+      "completions/min_length": 14.7,
+      "completions/min_terminated_length": 14.7,
+      "epoch": 0.012376237623762377,
+      "frac_reward_zero_std": 0.9,
+      "grad_norm": 0.0,
+      "kl": 1124.961197933089,
+      "learning_rate": 4.994309199213748e-06,
+      "loss": 0.0461,
+      "num_tokens": 247253.0,
+      "reward": 4.074999904632568,
+      "reward_std": 0.028867512941360474,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.7750000119209289,
+      "rewards/quality_reward_func/std": 0.028867512941360474,
+      "step": 180
+    },
+    {
+      "completion_length": 22.5,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 22.5,
+      "completions/max_terminated_length": 22.5,
+      "completions/mean_length": 20.05,
+      "completions/mean_terminated_length": 20.05,
+      "completions/min_length": 17.4,
+      "completions/min_terminated_length": 17.4,
+      "epoch": 0.013063806380638063,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.693901395983994,
+      "learning_rate": 4.989710996539926e-06,
+      "loss": 0.0,
+      "num_tokens": 261675.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 190
+    },
+    {
+      "completion_length": 25.2,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 25.2,
+      "completions/max_terminated_length": 25.2,
+      "completions/mean_length": 21.575,
+      "completions/mean_terminated_length": 21.575,
+      "completions/min_length": 17.8,
+      "completions/min_terminated_length": 17.8,
+      "epoch": 0.013751375137513752,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "kl": 0.7635734604671598,
+      "learning_rate": 4.983764571440296e-06,
+      "loss": 0.0,
+      "num_tokens": 277602.0,
+      "reward": 4.099999904632568,
+      "reward_std": 0.0,
+      "rewards/coherence_reward_func/mean": 1.2999999523162842,
+      "rewards/coherence_reward_func/std": 0.0,
+      "rewards/formatting_reward_func/mean": 2.0,
+      "rewards/formatting_reward_func/std": 0.0,
+      "rewards/quality_reward_func/mean": 0.800000011920929,
+      "rewards/quality_reward_func/std": 0.0,
+      "step": 200
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1500,
+  "num_input_tokens_seen": 277602,
   "num_train_epochs": 1,
   "save_steps": 50,
   "stateful_callbacks": {

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ddb04574f7b9ade574879398471f2f78cd542b3e6ae301dc53991b01c8eb01df
 size 7057

 version https://git-lfs.github.com/spec/v1
+oid sha256:517ca74ddbfa64fa78f010d3585be0b071bd656ca06cca4c198fbdfb003305e6
 size 7057