radna commited on Mar 31, 2025

Commit

f54d429

verified ·

1 Parent(s): 63ad338

Upload folder using huggingface_hub

Browse files

Files changed (42) hide show

checkpoint-10/adapter_config.json +4 -4
checkpoint-10/trainer_state.json +12 -12
checkpoint-10/training_args.bin +1 -1
checkpoint-12/adapter_config.json +4 -4
checkpoint-12/trainer_state.json +15 -15
checkpoint-12/training_args.bin +1 -1
checkpoint-14/adapter_config.json +4 -4
checkpoint-14/trainer_state.json +17 -17
checkpoint-14/training_args.bin +1 -1
checkpoint-16/adapter_config.json +4 -4
checkpoint-16/trainer_state.json +19 -19
checkpoint-16/training_args.bin +1 -1
checkpoint-18/adapter_config.json +4 -4
checkpoint-18/trainer_state.json +22 -22
checkpoint-18/training_args.bin +1 -1
checkpoint-2/adapter_config.json +4 -4
checkpoint-2/trainer_state.json +2 -2
checkpoint-2/training_args.bin +1 -1
checkpoint-20/adapter_config.json +4 -4
checkpoint-20/trainer_state.json +24 -24
checkpoint-20/training_args.bin +1 -1
checkpoint-22/adapter_config.json +4 -4
checkpoint-22/trainer_state.json +26 -26
checkpoint-22/training_args.bin +1 -1
checkpoint-24/adapter_config.json +4 -4
checkpoint-24/trainer_state.json +29 -29
checkpoint-24/training_args.bin +1 -1
checkpoint-26/adapter_config.json +4 -4
checkpoint-26/trainer_state.json +31 -31
checkpoint-26/training_args.bin +1 -1
checkpoint-28/adapter_config.json +4 -4
checkpoint-28/trainer_state.json +33 -33
checkpoint-28/training_args.bin +1 -1
checkpoint-4/adapter_config.json +4 -4
checkpoint-4/trainer_state.json +4 -4
checkpoint-4/training_args.bin +1 -1
checkpoint-6/adapter_config.json +4 -4
checkpoint-6/trainer_state.json +8 -8
checkpoint-6/training_args.bin +1 -1
checkpoint-8/adapter_config.json +4 -4
checkpoint-8/trainer_state.json +10 -10
checkpoint-8/training_args.bin +1 -1

checkpoint-10/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
-    "gate_proj",
     "v_proj",
-    "k_proj",
     "up_proj",
-    "down_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "down_proj",
     "o_proj",
+    "q_proj",
     "v_proj",
     "up_proj",
+    "gate_proj",
+    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-10/trainer_state.json CHANGED Viewed

@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 186.69,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     }

       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 180.29,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 180.29,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 180.29,
       "step": 6,
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1223,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 180.29,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 180.29,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     }

checkpoint-10/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
 size 9809

checkpoint-12/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
-    "gate_proj",
     "v_proj",
-    "k_proj",
     "up_proj",
-    "down_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "down_proj",
     "o_proj",
+    "q_proj",
     "v_proj",
     "up_proj",
+    "gate_proj",
+    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-12/trainer_state.json CHANGED Viewed

@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 186.69,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -171,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -185,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 186.69,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -200,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9053,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12

       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 180.29,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 180.29,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 180.29,
       "step": 6,
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1223,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 180.29,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 180.29,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
+      "memory(GiB)": 180.29,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1025.9045,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12

checkpoint-12/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
 size 9809

checkpoint-14/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
-    "gate_proj",
     "v_proj",
-    "k_proj",
     "up_proj",
-    "down_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "down_proj",
     "o_proj",
+    "q_proj",
     "v_proj",
     "up_proj",
+    "gate_proj",
+    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-14/trainer_state.json CHANGED Viewed

@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 186.69,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -171,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -185,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 186.69,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -200,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9053,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -213,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -229,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 186.69,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     }

       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 180.29,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 180.29,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 180.29,
       "step": 6,
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1223,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 180.29,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 180.29,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
+      "memory(GiB)": 180.29,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1025.9045,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
+      "memory(GiB)": 180.29,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     }

checkpoint-14/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
 size 9809

checkpoint-16/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
-    "gate_proj",
     "v_proj",
-    "k_proj",
     "up_proj",
-    "down_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "down_proj",
     "o_proj",
+    "q_proj",
     "v_proj",
     "up_proj",
+    "gate_proj",
+    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-16/trainer_state.json CHANGED Viewed

@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 186.69,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -171,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -185,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 186.69,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -200,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9053,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -213,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -229,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 186.69,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -241,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -257,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 186.69,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     }

       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 180.29,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 180.29,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 180.29,
       "step": 6,
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1223,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 180.29,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 180.29,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
+      "memory(GiB)": 180.29,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1025.9045,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
+      "memory(GiB)": 180.29,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
+      "memory(GiB)": 180.29,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     }

checkpoint-16/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
 size 9809

checkpoint-18/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
-    "gate_proj",
     "v_proj",
-    "k_proj",
     "up_proj",
-    "down_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "down_proj",
     "o_proj",
+    "q_proj",
     "v_proj",
     "up_proj",
+    "gate_proj",
+    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-18/trainer_state.json CHANGED Viewed

@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 186.69,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -171,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -185,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 186.69,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -200,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9053,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -213,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -229,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 186.69,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -241,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -257,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 186.69,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -269,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -283,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 186.69,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -298,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.2277,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18

       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 180.29,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 180.29,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 180.29,
       "step": 6,
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1223,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 180.29,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 180.29,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
+      "memory(GiB)": 180.29,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1025.9045,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
+      "memory(GiB)": 180.29,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
+      "memory(GiB)": 180.29,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
+      "memory(GiB)": 180.29,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1041.2321,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18

checkpoint-18/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
 size 9809

checkpoint-2/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
-    "gate_proj",
     "v_proj",
-    "k_proj",
     "up_proj",
-    "down_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "down_proj",
     "o_proj",
+    "q_proj",
     "v_proj",
     "up_proj",
+    "gate_proj",
+    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-2/trainer_state.json CHANGED Viewed

@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     }

       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 180.29,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     }

checkpoint-2/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
 size 9809

checkpoint-20/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
-    "gate_proj",
     "v_proj",
-    "k_proj",
     "up_proj",
-    "down_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "down_proj",
     "o_proj",
+    "q_proj",
     "v_proj",
     "up_proj",
+    "gate_proj",
+    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-20/trainer_state.json CHANGED Viewed

@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 186.69,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -171,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -185,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 186.69,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -200,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9053,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -213,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -229,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 186.69,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -241,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -257,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 186.69,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -269,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -283,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 186.69,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -298,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.2277,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
@@ -311,7 +311,7 @@
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
@@ -327,7 +327,7 @@
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
-      "memory(GiB)": 186.69,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     }

       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 180.29,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 180.29,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 180.29,
       "step": 6,
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1223,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 180.29,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 180.29,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
+      "memory(GiB)": 180.29,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1025.9045,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
+      "memory(GiB)": 180.29,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
+      "memory(GiB)": 180.29,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
+      "memory(GiB)": 180.29,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1041.2321,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
+      "memory(GiB)": 180.29,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     }

checkpoint-20/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
 size 9809

checkpoint-22/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
-    "gate_proj",
     "v_proj",
-    "k_proj",
     "up_proj",
-    "down_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "down_proj",
     "o_proj",
+    "q_proj",
     "v_proj",
     "up_proj",
+    "gate_proj",
+    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-22/trainer_state.json CHANGED Viewed

@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 186.69,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -171,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -185,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 186.69,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -200,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9053,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -213,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -229,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 186.69,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -241,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -257,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 186.69,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -269,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -283,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 186.69,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -298,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.2277,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
@@ -311,7 +311,7 @@
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
@@ -327,7 +327,7 @@
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
-      "memory(GiB)": 186.69,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
@@ -339,7 +339,7 @@
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
@@ -355,7 +355,7 @@
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
-      "memory(GiB)": 186.69,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     }

       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 180.29,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 180.29,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 180.29,
       "step": 6,
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1223,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 180.29,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 180.29,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
+      "memory(GiB)": 180.29,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1025.9045,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
+      "memory(GiB)": 180.29,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
+      "memory(GiB)": 180.29,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
+      "memory(GiB)": 180.29,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1041.2321,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
+      "memory(GiB)": 180.29,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
+      "memory(GiB)": 180.29,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     }

checkpoint-22/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
 size 9809

checkpoint-24/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
-    "gate_proj",
     "v_proj",
-    "k_proj",
     "up_proj",
-    "down_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "down_proj",
     "o_proj",
+    "q_proj",
     "v_proj",
     "up_proj",
+    "gate_proj",
+    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-24/trainer_state.json CHANGED Viewed

@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 186.69,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -171,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -185,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 186.69,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -200,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9053,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -213,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -229,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 186.69,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -241,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -257,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 186.69,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -269,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -283,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 186.69,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -298,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.2277,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
@@ -311,7 +311,7 @@
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
@@ -327,7 +327,7 @@
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
-      "memory(GiB)": 186.69,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
@@ -339,7 +339,7 @@
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
@@ -355,7 +355,7 @@
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
-      "memory(GiB)": 186.69,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     },
@@ -367,7 +367,7 @@
       "kl": 0.1796875,
       "learning_rate": 7.74754489035403e-05,
       "loss": -0.03423420712351799,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.583984375,
       "reward": 0.034468831261619925,
       "reward_std": 0.11841745302081108,
@@ -381,7 +381,7 @@
       "grad_norm": 0.014131724834442139,
       "learning_rate": 7.500000000000001e-05,
       "loss": -0.03426633030176163,
-      "memory(GiB)": 186.69,
       "step": 24,
       "train_speed(iter/s)": 0.000427
     },
@@ -396,7 +396,7 @@
       "eval_reward_std": 0.10456253588199615,
       "eval_rewards/CosineReward": 0.04339282959699631,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1045.0653,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 24

       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 180.29,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 180.29,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 180.29,
       "step": 6,
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1223,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 180.29,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 180.29,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
+      "memory(GiB)": 180.29,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1025.9045,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
+      "memory(GiB)": 180.29,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
+      "memory(GiB)": 180.29,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
+      "memory(GiB)": 180.29,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1041.2321,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
+      "memory(GiB)": 180.29,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
+      "memory(GiB)": 180.29,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     },
       "kl": 0.1796875,
       "learning_rate": 7.74754489035403e-05,
       "loss": -0.03423420712351799,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.583984375,
       "reward": 0.034468831261619925,
       "reward_std": 0.11841745302081108,
       "grad_norm": 0.014131724834442139,
       "learning_rate": 7.500000000000001e-05,
       "loss": -0.03426633030176163,
+      "memory(GiB)": 180.29,
       "step": 24,
       "train_speed(iter/s)": 0.000427
     },
       "eval_reward_std": 0.10456253588199615,
       "eval_rewards/CosineReward": 0.04339282959699631,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1045.0616,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 24

checkpoint-24/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
 size 9809

checkpoint-26/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
-    "gate_proj",
     "v_proj",
-    "k_proj",
     "up_proj",
-    "down_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "down_proj",
     "o_proj",
+    "q_proj",
     "v_proj",
     "up_proj",
+    "gate_proj",
+    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-26/trainer_state.json CHANGED Viewed

@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 186.69,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -171,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -185,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 186.69,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -200,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9053,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -213,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -229,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 186.69,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -241,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -257,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 186.69,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -269,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -283,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 186.69,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -298,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.2277,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
@@ -311,7 +311,7 @@
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
@@ -327,7 +327,7 @@
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
-      "memory(GiB)": 186.69,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
@@ -339,7 +339,7 @@
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
@@ -355,7 +355,7 @@
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
-      "memory(GiB)": 186.69,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     },
@@ -367,7 +367,7 @@
       "kl": 0.1796875,
       "learning_rate": 7.74754489035403e-05,
       "loss": -0.03423420712351799,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.583984375,
       "reward": 0.034468831261619925,
       "reward_std": 0.11841745302081108,
@@ -381,7 +381,7 @@
       "grad_norm": 0.014131724834442139,
       "learning_rate": 7.500000000000001e-05,
       "loss": -0.03426633030176163,
-      "memory(GiB)": 186.69,
       "step": 24,
       "train_speed(iter/s)": 0.000427
     },
@@ -396,7 +396,7 @@
       "eval_reward_std": 0.10456253588199615,
       "eval_rewards/CosineReward": 0.04339282959699631,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1045.0653,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 24
@@ -409,7 +409,7 @@
       "kl": 0.1800537109375,
       "learning_rate": 7.243995901002312e-05,
       "loss": -0.02097315341234207,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.6171875,
       "reward": 0.03010205877944827,
       "reward_std": 0.10742511600255966,
@@ -425,7 +425,7 @@
       "kl": 0.18408203125,
       "learning_rate": 6.980398830195785e-05,
       "loss": -0.02103913575410843,
-      "memory(GiB)": 186.69,
       "step": 26,
       "train_speed(iter/s)": 0.000421
     }

       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 180.29,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 180.29,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 180.29,
       "step": 6,
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1223,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 180.29,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 180.29,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
+      "memory(GiB)": 180.29,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1025.9045,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
+      "memory(GiB)": 180.29,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
+      "memory(GiB)": 180.29,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
+      "memory(GiB)": 180.29,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1041.2321,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
+      "memory(GiB)": 180.29,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
+      "memory(GiB)": 180.29,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     },
       "kl": 0.1796875,
       "learning_rate": 7.74754489035403e-05,
       "loss": -0.03423420712351799,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.583984375,
       "reward": 0.034468831261619925,
       "reward_std": 0.11841745302081108,
       "grad_norm": 0.014131724834442139,
       "learning_rate": 7.500000000000001e-05,
       "loss": -0.03426633030176163,
+      "memory(GiB)": 180.29,
       "step": 24,
       "train_speed(iter/s)": 0.000427
     },
       "eval_reward_std": 0.10456253588199615,
       "eval_rewards/CosineReward": 0.04339282959699631,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1045.0616,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 24
       "kl": 0.1800537109375,
       "learning_rate": 7.243995901002312e-05,
       "loss": -0.02097315341234207,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.6171875,
       "reward": 0.03010205877944827,
       "reward_std": 0.10742511600255966,
       "kl": 0.18408203125,
       "learning_rate": 6.980398830195785e-05,
       "loss": -0.02103913575410843,
+      "memory(GiB)": 180.29,
       "step": 26,
       "train_speed(iter/s)": 0.000421
     }

checkpoint-26/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
 size 9809

checkpoint-28/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
-    "gate_proj",
     "v_proj",
-    "k_proj",
     "up_proj",
-    "down_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "down_proj",
     "o_proj",
+    "q_proj",
     "v_proj",
     "up_proj",
+    "gate_proj",
+    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-28/trainer_state.json CHANGED Viewed

@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 186.69,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -171,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -185,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 186.69,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -200,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9053,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -213,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -229,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 186.69,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -241,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -257,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 186.69,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -269,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -283,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 186.69,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -298,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.2277,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
@@ -311,7 +311,7 @@
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
@@ -327,7 +327,7 @@
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
-      "memory(GiB)": 186.69,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
@@ -339,7 +339,7 @@
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
@@ -355,7 +355,7 @@
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
-      "memory(GiB)": 186.69,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     },
@@ -367,7 +367,7 @@
       "kl": 0.1796875,
       "learning_rate": 7.74754489035403e-05,
       "loss": -0.03423420712351799,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.583984375,
       "reward": 0.034468831261619925,
       "reward_std": 0.11841745302081108,
@@ -381,7 +381,7 @@
       "grad_norm": 0.014131724834442139,
       "learning_rate": 7.500000000000001e-05,
       "loss": -0.03426633030176163,
-      "memory(GiB)": 186.69,
       "step": 24,
       "train_speed(iter/s)": 0.000427
     },
@@ -396,7 +396,7 @@
       "eval_reward_std": 0.10456253588199615,
       "eval_rewards/CosineReward": 0.04339282959699631,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1045.0653,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 24
@@ -409,7 +409,7 @@
       "kl": 0.1800537109375,
       "learning_rate": 7.243995901002312e-05,
       "loss": -0.02097315341234207,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.6171875,
       "reward": 0.03010205877944827,
       "reward_std": 0.10742511600255966,
@@ -425,7 +425,7 @@
       "kl": 0.18408203125,
       "learning_rate": 6.980398830195785e-05,
       "loss": -0.02103913575410843,
-      "memory(GiB)": 186.69,
       "step": 26,
       "train_speed(iter/s)": 0.000421
     },
@@ -437,7 +437,7 @@
       "kl": 0.174560546875,
       "learning_rate": 6.710100716628344e-05,
       "loss": -0.03593946248292923,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.513671875,
       "reward": 0.04752760287374258,
       "reward_std": 0.14935147762298584,
@@ -453,7 +453,7 @@
       "kl": 0.182373046875,
       "learning_rate": 6.434016163555452e-05,
       "loss": -0.03595500811934471,
-      "memory(GiB)": 186.69,
       "step": 28,
       "train_speed(iter/s)": 0.000422
     }

       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 180.29,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 180.29,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 180.29,
       "step": 6,
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1223,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 180.29,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 180.29,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
+      "memory(GiB)": 180.29,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1025.9045,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
+      "memory(GiB)": 180.29,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
+      "memory(GiB)": 180.29,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
+      "memory(GiB)": 180.29,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1041.2321,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
+      "memory(GiB)": 180.29,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
+      "memory(GiB)": 180.29,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     },
       "kl": 0.1796875,
       "learning_rate": 7.74754489035403e-05,
       "loss": -0.03423420712351799,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.583984375,
       "reward": 0.034468831261619925,
       "reward_std": 0.11841745302081108,
       "grad_norm": 0.014131724834442139,
       "learning_rate": 7.500000000000001e-05,
       "loss": -0.03426633030176163,
+      "memory(GiB)": 180.29,
       "step": 24,
       "train_speed(iter/s)": 0.000427
     },
       "eval_reward_std": 0.10456253588199615,
       "eval_rewards/CosineReward": 0.04339282959699631,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1045.0616,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 24
       "kl": 0.1800537109375,
       "learning_rate": 7.243995901002312e-05,
       "loss": -0.02097315341234207,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.6171875,
       "reward": 0.03010205877944827,
       "reward_std": 0.10742511600255966,
       "kl": 0.18408203125,
       "learning_rate": 6.980398830195785e-05,
       "loss": -0.02103913575410843,
+      "memory(GiB)": 180.29,
       "step": 26,
       "train_speed(iter/s)": 0.000421
     },
       "kl": 0.174560546875,
       "learning_rate": 6.710100716628344e-05,
       "loss": -0.03593946248292923,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.513671875,
       "reward": 0.04752760287374258,
       "reward_std": 0.14935147762298584,
       "kl": 0.182373046875,
       "learning_rate": 6.434016163555452e-05,
       "loss": -0.03595500811934471,
+      "memory(GiB)": 180.29,
       "step": 28,
       "train_speed(iter/s)": 0.000422
     }

checkpoint-28/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
 size 9809

checkpoint-4/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
-    "gate_proj",
     "v_proj",
-    "k_proj",
     "up_proj",
-    "down_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "down_proj",
     "o_proj",
+    "q_proj",
     "v_proj",
     "up_proj",
+    "gate_proj",
+    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-4/trainer_state.json CHANGED Viewed

@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     }

       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 180.29,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 180.29,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     }

checkpoint-4/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
 size 9809

checkpoint-6/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
-    "gate_proj",
     "v_proj",
-    "k_proj",
     "up_proj",
-    "down_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "down_proj",
     "o_proj",
+    "q_proj",
     "v_proj",
     "up_proj",
+    "gate_proj",
+    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-6/trainer_state.json CHANGED Viewed

@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 186.69,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6

       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 180.29,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 180.29,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 180.29,
       "step": 6,
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1223,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6

checkpoint-6/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
 size 9809

checkpoint-8/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
-    "gate_proj",
     "v_proj",
-    "k_proj",
     "up_proj",
-    "down_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "down_proj",
     "o_proj",
+    "q_proj",
     "v_proj",
     "up_proj",
+    "gate_proj",
+    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-8/trainer_state.json CHANGED Viewed

@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 186.69,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     }

       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 180.29,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 180.29,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 180.29,
       "step": 6,
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1223,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 180.29,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     }

checkpoint-8/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
 size 9809