radna commited on Mar 31, 2025

Commit

c75c2b6

verified ·

1 Parent(s): 3b99bba

Upload folder using huggingface_hub

Browse files

Files changed (42) hide show

checkpoint-10/adapter_config.json +2 -2
checkpoint-10/trainer_state.json +16 -15
checkpoint-10/training_args.bin +1 -1
checkpoint-12/adapter_config.json +2 -2
checkpoint-12/trainer_state.json +19 -18
checkpoint-12/training_args.bin +1 -1
checkpoint-14/adapter_config.json +2 -2
checkpoint-14/trainer_state.json +21 -20
checkpoint-14/training_args.bin +1 -1
checkpoint-16/adapter_config.json +2 -2
checkpoint-16/trainer_state.json +23 -22
checkpoint-16/training_args.bin +1 -1
checkpoint-18/adapter_config.json +2 -2
checkpoint-18/trainer_state.json +26 -25
checkpoint-18/training_args.bin +1 -1
checkpoint-2/adapter_config.json +2 -2
checkpoint-2/trainer_state.json +6 -5
checkpoint-2/training_args.bin +1 -1
checkpoint-20/adapter_config.json +2 -2
checkpoint-20/trainer_state.json +28 -27
checkpoint-20/training_args.bin +1 -1
checkpoint-22/adapter_config.json +2 -2
checkpoint-22/trainer_state.json +31 -30
checkpoint-22/training_args.bin +1 -1
checkpoint-24/adapter_config.json +2 -2
checkpoint-24/trainer_state.json +34 -33
checkpoint-24/training_args.bin +1 -1
checkpoint-26/adapter_config.json +2 -2
checkpoint-26/trainer_state.json +36 -35
checkpoint-26/training_args.bin +1 -1
checkpoint-28/adapter_config.json +2 -2
checkpoint-28/trainer_state.json +38 -37
checkpoint-28/training_args.bin +1 -1
checkpoint-4/adapter_config.json +2 -2
checkpoint-4/trainer_state.json +8 -7
checkpoint-4/training_args.bin +1 -1
checkpoint-6/adapter_config.json +2 -2
checkpoint-6/trainer_state.json +12 -11
checkpoint-6/training_args.bin +1 -1
checkpoint-8/adapter_config.json +2 -2
checkpoint-8/trainer_state.json +14 -13
checkpoint-8/training_args.bin +1 -1

checkpoint-10/adapter_config.json CHANGED Viewed

@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
     "k_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],

   "revision": null,
   "target_modules": [
     "v_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
     "q_proj",
     "down_proj"
   ],

checkpoint-10/trainer_state.json CHANGED Viewed

@@ -1,4 +1,5 @@
 {
   "best_metric": 0.012996690347790718,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-6",
   "epoch": 2.4210526315789473,
@@ -6,7 +7,7 @@
   "global_step": 10,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
@@ -44,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -60,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 182.91,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -72,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -86,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 182.91,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -101,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1127,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -114,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -130,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 182.91,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -142,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -158,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 182.91,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     }

 {
+  "best_global_step": 6,
   "best_metric": 0.012996690347790718,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-6",
   "epoch": 2.4210526315789473,
   "global_step": 10,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "step": 2,
+      "train_speed(iter/s)": 0.000466
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 176.98,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 176.98,
       "step": 6,
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1126,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 176.98,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 176.98,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     }

checkpoint-10/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809

checkpoint-12/adapter_config.json CHANGED Viewed

@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
     "k_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],

   "revision": null,
   "target_modules": [
     "v_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
     "q_proj",
     "down_proj"
   ],

checkpoint-12/trainer_state.json CHANGED Viewed

@@ -1,4 +1,5 @@
 {
   "best_metric": 0.03234308212995529,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-12",
   "epoch": 2.8421052631578947,
@@ -6,7 +7,7 @@
   "global_step": 12,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
@@ -44,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -60,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 182.91,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -72,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -86,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 182.91,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -101,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1127,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -114,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -130,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 182.91,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -142,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -158,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 182.91,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -170,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -184,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 182.91,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -199,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9041,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12

 {
+  "best_global_step": 12,
   "best_metric": 0.03234308212995529,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-12",
   "epoch": 2.8421052631578947,
   "global_step": 12,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "step": 2,
+      "train_speed(iter/s)": 0.000466
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 176.98,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 176.98,
       "step": 6,
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1126,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 176.98,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 176.98,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
+      "memory(GiB)": 187.02,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1025.9048,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12

checkpoint-12/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809

checkpoint-14/adapter_config.json CHANGED Viewed

@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
     "k_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],

   "revision": null,
   "target_modules": [
     "v_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
     "q_proj",
     "down_proj"
   ],

checkpoint-14/trainer_state.json CHANGED Viewed

@@ -1,4 +1,5 @@
 {
   "best_metric": 0.03234308212995529,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-12",
   "epoch": 3.4210526315789473,
@@ -6,7 +7,7 @@
   "global_step": 14,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
@@ -44,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -60,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 182.91,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -72,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -86,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 182.91,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -101,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1127,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -114,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -130,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 182.91,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -142,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -158,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 182.91,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -170,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -184,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 182.91,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -199,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9041,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -212,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -228,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 182.91,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     }

 {
+  "best_global_step": 12,
   "best_metric": 0.03234308212995529,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-12",
   "epoch": 3.4210526315789473,
   "global_step": 14,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "step": 2,
+      "train_speed(iter/s)": 0.000466
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 176.98,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 176.98,
       "step": 6,
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1126,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 176.98,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 176.98,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
+      "memory(GiB)": 187.02,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1025.9048,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
+      "memory(GiB)": 187.02,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     }

checkpoint-14/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809

checkpoint-16/adapter_config.json CHANGED Viewed

@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
     "k_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],

   "revision": null,
   "target_modules": [
     "v_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
     "q_proj",
     "down_proj"
   ],

checkpoint-16/trainer_state.json CHANGED Viewed

@@ -1,4 +1,5 @@
 {
   "best_metric": 0.03234308212995529,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-12",
   "epoch": 3.8421052631578947,
@@ -6,7 +7,7 @@
   "global_step": 16,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
@@ -44,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -60,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 182.91,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -72,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -86,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 182.91,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -101,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1127,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -114,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -130,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 182.91,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -142,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -158,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 182.91,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -170,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -184,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 182.91,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -199,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9041,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -212,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -228,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 182.91,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -240,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -256,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 182.91,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     }

 {
+  "best_global_step": 12,
   "best_metric": 0.03234308212995529,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-12",
   "epoch": 3.8421052631578947,
   "global_step": 16,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "step": 2,
+      "train_speed(iter/s)": 0.000466
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 176.98,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 176.98,
       "step": 6,
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1126,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 176.98,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 176.98,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
+      "memory(GiB)": 187.02,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1025.9048,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
+      "memory(GiB)": 187.02,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
+      "memory(GiB)": 187.02,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     }

checkpoint-16/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809

checkpoint-18/adapter_config.json CHANGED Viewed

@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
     "k_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],

   "revision": null,
   "target_modules": [
     "v_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
     "q_proj",
     "down_proj"
   ],

checkpoint-18/trainer_state.json CHANGED Viewed

@@ -1,4 +1,5 @@
 {
   "best_metric": 0.03729328140616417,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-18",
   "epoch": 4.421052631578947,
@@ -6,7 +7,7 @@
   "global_step": 18,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
@@ -44,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -60,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 182.91,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -72,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -86,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 182.91,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -101,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1127,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -114,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -130,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 182.91,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -142,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -158,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 182.91,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -170,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -184,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 182.91,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -199,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9041,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -212,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -228,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 182.91,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -240,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -256,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 182.91,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -268,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -282,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 182.91,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -297,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.231,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18

 {
+  "best_global_step": 18,
   "best_metric": 0.03729328140616417,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-18",
   "epoch": 4.421052631578947,
   "global_step": 18,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "step": 2,
+      "train_speed(iter/s)": 0.000466
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 176.98,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 176.98,
       "step": 6,
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1126,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 176.98,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 176.98,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
+      "memory(GiB)": 187.02,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1025.9048,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
+      "memory(GiB)": 187.02,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
+      "memory(GiB)": 187.02,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
+      "memory(GiB)": 187.02,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1041.2321,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18

checkpoint-18/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809

checkpoint-2/adapter_config.json CHANGED Viewed

@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
     "k_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],

   "revision": null,
   "target_modules": [
     "v_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
     "q_proj",
     "down_proj"
   ],

checkpoint-2/trainer_state.json CHANGED Viewed

@@ -1,4 +1,5 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 0.42105263157894735,
@@ -6,7 +7,7 @@
   "global_step": 2,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
     }
   ],
   "logging_steps": 1,

 {
+  "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 0.42105263157894735,
   "global_step": 2,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "step": 2,
+      "train_speed(iter/s)": 0.000466
     }
   ],
   "logging_steps": 1,

checkpoint-2/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809

checkpoint-20/adapter_config.json CHANGED Viewed

@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
     "k_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],

   "revision": null,
   "target_modules": [
     "v_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
     "q_proj",
     "down_proj"
   ],

checkpoint-20/trainer_state.json CHANGED Viewed

@@ -1,4 +1,5 @@
 {
   "best_metric": 0.03729328140616417,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-18",
   "epoch": 4.842105263157895,
@@ -6,7 +7,7 @@
   "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
@@ -44,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -60,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 182.91,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -72,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -86,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 182.91,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -101,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1127,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -114,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -130,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 182.91,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -142,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -158,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 182.91,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -170,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -184,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 182.91,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -199,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9041,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -212,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -228,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 182.91,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -240,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -256,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 182.91,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -268,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -282,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 182.91,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -297,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.231,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
@@ -310,7 +311,7 @@
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
@@ -326,7 +327,7 @@
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
-      "memory(GiB)": 182.91,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     }

 {
+  "best_global_step": 18,
   "best_metric": 0.03729328140616417,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-18",
   "epoch": 4.842105263157895,
   "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "step": 2,
+      "train_speed(iter/s)": 0.000466
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 176.98,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 176.98,
       "step": 6,
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1126,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 176.98,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 176.98,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
+      "memory(GiB)": 187.02,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1025.9048,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
+      "memory(GiB)": 187.02,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
+      "memory(GiB)": 187.02,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
+      "memory(GiB)": 187.02,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1041.2321,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
+      "memory(GiB)": 187.02,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     }

checkpoint-20/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809

checkpoint-22/adapter_config.json CHANGED Viewed

@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
     "k_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],

   "revision": null,
   "target_modules": [
     "v_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
     "q_proj",
     "down_proj"
   ],

checkpoint-22/trainer_state.json CHANGED Viewed

@@ -1,4 +1,5 @@
 {
   "best_metric": 0.03729328140616417,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-18",
   "epoch": 5.421052631578947,
@@ -6,7 +7,7 @@
   "global_step": 22,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
@@ -44,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -60,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 182.91,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -72,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -86,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 182.91,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -101,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1127,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -114,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -130,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 182.91,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -142,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -158,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 182.91,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -170,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -184,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 182.91,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -199,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9041,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -212,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -228,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 182.91,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -240,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -256,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 182.91,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -268,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -282,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 182.91,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -297,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.231,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
@@ -310,7 +311,7 @@
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
@@ -326,7 +327,7 @@
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
-      "memory(GiB)": 182.91,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
@@ -338,14 +339,14 @@
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
       "rewards/CosineReward": 0.049969930201768875,
       "rewards/RepetitionPenalty": -1.1864573679076784e-07,
       "step": 21,
-      "train_speed(iter/s)": 0.000408
     },
     {
       "clip_ratio": 5.869188044016482e-05,
@@ -354,7 +355,7 @@
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
-      "memory(GiB)": 182.91,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     }

 {
+  "best_global_step": 18,
   "best_metric": 0.03729328140616417,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-18",
   "epoch": 5.421052631578947,
   "global_step": 22,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "step": 2,
+      "train_speed(iter/s)": 0.000466
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 176.98,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 176.98,
       "step": 6,
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1126,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 176.98,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 176.98,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
+      "memory(GiB)": 187.02,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1025.9048,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
+      "memory(GiB)": 187.02,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
+      "memory(GiB)": 187.02,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
+      "memory(GiB)": 187.02,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1041.2321,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
+      "memory(GiB)": 187.02,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
       "rewards/CosineReward": 0.049969930201768875,
       "rewards/RepetitionPenalty": -1.1864573679076784e-07,
       "step": 21,
+      "train_speed(iter/s)": 0.000407
     },
     {
       "clip_ratio": 5.869188044016482e-05,
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
+      "memory(GiB)": 187.02,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     }

checkpoint-22/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809

checkpoint-24/adapter_config.json CHANGED Viewed

@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
     "k_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],

   "revision": null,
   "target_modules": [
     "v_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
     "q_proj",
     "down_proj"
   ],

checkpoint-24/trainer_state.json CHANGED Viewed

@@ -1,4 +1,5 @@
 {
   "best_metric": 0.04339282959699631,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-24",
   "epoch": 5.842105263157895,
@@ -6,7 +7,7 @@
   "global_step": 24,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
@@ -44,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -60,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 182.91,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -72,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -86,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 182.91,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -101,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1127,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -114,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -130,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 182.91,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -142,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -158,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 182.91,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -170,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -184,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 182.91,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -199,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9041,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -212,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -228,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 182.91,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -240,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -256,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 182.91,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -268,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -282,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 182.91,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -297,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.231,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
@@ -310,7 +311,7 @@
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
@@ -326,7 +327,7 @@
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
-      "memory(GiB)": 182.91,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
@@ -338,14 +339,14 @@
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
       "rewards/CosineReward": 0.049969930201768875,
       "rewards/RepetitionPenalty": -1.1864573679076784e-07,
       "step": 21,
-      "train_speed(iter/s)": 0.000408
     },
     {
       "clip_ratio": 5.869188044016482e-05,
@@ -354,7 +355,7 @@
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
-      "memory(GiB)": 182.91,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     },
@@ -366,7 +367,7 @@
       "kl": 0.1796875,
       "learning_rate": 7.74754489035403e-05,
       "loss": -0.03423420712351799,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.583984375,
       "reward": 0.034468831261619925,
       "reward_std": 0.11841745302081108,
@@ -380,7 +381,7 @@
       "grad_norm": 0.014131724834442139,
       "learning_rate": 7.500000000000001e-05,
       "loss": -0.03426633030176163,
-      "memory(GiB)": 182.91,
       "step": 24,
       "train_speed(iter/s)": 0.000427
     },
@@ -395,7 +396,7 @@
       "eval_reward_std": 0.10456253588199615,
       "eval_rewards/CosineReward": 0.04339282959699631,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1045.0632,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 24

 {
+  "best_global_step": 24,
   "best_metric": 0.04339282959699631,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-24",
   "epoch": 5.842105263157895,
   "global_step": 24,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "step": 2,
+      "train_speed(iter/s)": 0.000466
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 176.98,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 176.98,
       "step": 6,
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1126,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 176.98,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 176.98,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
+      "memory(GiB)": 187.02,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1025.9048,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
+      "memory(GiB)": 187.02,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
+      "memory(GiB)": 187.02,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
+      "memory(GiB)": 187.02,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1041.2321,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
+      "memory(GiB)": 187.02,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
       "rewards/CosineReward": 0.049969930201768875,
       "rewards/RepetitionPenalty": -1.1864573679076784e-07,
       "step": 21,
+      "train_speed(iter/s)": 0.000407
     },
     {
       "clip_ratio": 5.869188044016482e-05,
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
+      "memory(GiB)": 187.02,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     },
       "kl": 0.1796875,
       "learning_rate": 7.74754489035403e-05,
       "loss": -0.03423420712351799,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.583984375,
       "reward": 0.034468831261619925,
       "reward_std": 0.11841745302081108,
       "grad_norm": 0.014131724834442139,
       "learning_rate": 7.500000000000001e-05,
       "loss": -0.03426633030176163,
+      "memory(GiB)": 187.02,
       "step": 24,
       "train_speed(iter/s)": 0.000427
     },
       "eval_reward_std": 0.10456253588199615,
       "eval_rewards/CosineReward": 0.04339282959699631,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1045.0642,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 24

checkpoint-24/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809

checkpoint-26/adapter_config.json CHANGED Viewed

@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
     "k_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],

   "revision": null,
   "target_modules": [
     "v_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
     "q_proj",
     "down_proj"
   ],

checkpoint-26/trainer_state.json CHANGED Viewed

@@ -1,4 +1,5 @@
 {
   "best_metric": 0.04339282959699631,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-24",
   "epoch": 6.421052631578947,
@@ -6,7 +7,7 @@
   "global_step": 26,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
@@ -44,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -60,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 182.91,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -72,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -86,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 182.91,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -101,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1127,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -114,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -130,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 182.91,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -142,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -158,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 182.91,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -170,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -184,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 182.91,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -199,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9041,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -212,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -228,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 182.91,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -240,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -256,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 182.91,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -268,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -282,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 182.91,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -297,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.231,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
@@ -310,7 +311,7 @@
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
@@ -326,7 +327,7 @@
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
-      "memory(GiB)": 182.91,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
@@ -338,14 +339,14 @@
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
       "rewards/CosineReward": 0.049969930201768875,
       "rewards/RepetitionPenalty": -1.1864573679076784e-07,
       "step": 21,
-      "train_speed(iter/s)": 0.000408
     },
     {
       "clip_ratio": 5.869188044016482e-05,
@@ -354,7 +355,7 @@
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
-      "memory(GiB)": 182.91,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     },
@@ -366,7 +367,7 @@
       "kl": 0.1796875,
       "learning_rate": 7.74754489035403e-05,
       "loss": -0.03423420712351799,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.583984375,
       "reward": 0.034468831261619925,
       "reward_std": 0.11841745302081108,
@@ -380,7 +381,7 @@
       "grad_norm": 0.014131724834442139,
       "learning_rate": 7.500000000000001e-05,
       "loss": -0.03426633030176163,
-      "memory(GiB)": 182.91,
       "step": 24,
       "train_speed(iter/s)": 0.000427
     },
@@ -395,7 +396,7 @@
       "eval_reward_std": 0.10456253588199615,
       "eval_rewards/CosineReward": 0.04339282959699631,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1045.0632,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 24
@@ -408,7 +409,7 @@
       "kl": 0.1800537109375,
       "learning_rate": 7.243995901002312e-05,
       "loss": -0.02097315341234207,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.6171875,
       "reward": 0.03010205877944827,
       "reward_std": 0.10742511600255966,
@@ -424,7 +425,7 @@
       "kl": 0.18408203125,
       "learning_rate": 6.980398830195785e-05,
       "loss": -0.02103913575410843,
-      "memory(GiB)": 182.91,
       "step": 26,
       "train_speed(iter/s)": 0.000421
     }

 {
+  "best_global_step": 24,
   "best_metric": 0.04339282959699631,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-24",
   "epoch": 6.421052631578947,
   "global_step": 26,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "step": 2,
+      "train_speed(iter/s)": 0.000466
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 176.98,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 176.98,
       "step": 6,
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1126,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 176.98,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 176.98,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
+      "memory(GiB)": 187.02,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1025.9048,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
+      "memory(GiB)": 187.02,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
+      "memory(GiB)": 187.02,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
+      "memory(GiB)": 187.02,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1041.2321,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
+      "memory(GiB)": 187.02,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
       "rewards/CosineReward": 0.049969930201768875,
       "rewards/RepetitionPenalty": -1.1864573679076784e-07,
       "step": 21,
+      "train_speed(iter/s)": 0.000407
     },
     {
       "clip_ratio": 5.869188044016482e-05,
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
+      "memory(GiB)": 187.02,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     },
       "kl": 0.1796875,
       "learning_rate": 7.74754489035403e-05,
       "loss": -0.03423420712351799,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.583984375,
       "reward": 0.034468831261619925,
       "reward_std": 0.11841745302081108,
       "grad_norm": 0.014131724834442139,
       "learning_rate": 7.500000000000001e-05,
       "loss": -0.03426633030176163,
+      "memory(GiB)": 187.02,
       "step": 24,
       "train_speed(iter/s)": 0.000427
     },
       "eval_reward_std": 0.10456253588199615,
       "eval_rewards/CosineReward": 0.04339282959699631,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1045.0642,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 24
       "kl": 0.1800537109375,
       "learning_rate": 7.243995901002312e-05,
       "loss": -0.02097315341234207,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.6171875,
       "reward": 0.03010205877944827,
       "reward_std": 0.10742511600255966,
       "kl": 0.18408203125,
       "learning_rate": 6.980398830195785e-05,
       "loss": -0.02103913575410843,
+      "memory(GiB)": 187.02,
       "step": 26,
       "train_speed(iter/s)": 0.000421
     }

checkpoint-26/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809

checkpoint-28/adapter_config.json CHANGED Viewed

@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
     "k_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],

   "revision": null,
   "target_modules": [
     "v_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
     "q_proj",
     "down_proj"
   ],

checkpoint-28/trainer_state.json CHANGED Viewed

@@ -1,4 +1,5 @@
 {
   "best_metric": 0.04339282959699631,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-24",
   "epoch": 6.842105263157895,
@@ -6,7 +7,7 @@
   "global_step": 28,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
@@ -44,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -60,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 182.91,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -72,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -86,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 182.91,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -101,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1127,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -114,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -130,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 182.91,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -142,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -158,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 182.91,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -170,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -184,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 182.91,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -199,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9041,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -212,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -228,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 182.91,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -240,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -256,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 182.91,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -268,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -282,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 182.91,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -297,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.231,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
@@ -310,7 +311,7 @@
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
@@ -326,7 +327,7 @@
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
-      "memory(GiB)": 182.91,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
@@ -338,14 +339,14 @@
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
       "rewards/CosineReward": 0.049969930201768875,
       "rewards/RepetitionPenalty": -1.1864573679076784e-07,
       "step": 21,
-      "train_speed(iter/s)": 0.000408
     },
     {
       "clip_ratio": 5.869188044016482e-05,
@@ -354,7 +355,7 @@
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
-      "memory(GiB)": 182.91,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     },
@@ -366,7 +367,7 @@
       "kl": 0.1796875,
       "learning_rate": 7.74754489035403e-05,
       "loss": -0.03423420712351799,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.583984375,
       "reward": 0.034468831261619925,
       "reward_std": 0.11841745302081108,
@@ -380,7 +381,7 @@
       "grad_norm": 0.014131724834442139,
       "learning_rate": 7.500000000000001e-05,
       "loss": -0.03426633030176163,
-      "memory(GiB)": 182.91,
       "step": 24,
       "train_speed(iter/s)": 0.000427
     },
@@ -395,7 +396,7 @@
       "eval_reward_std": 0.10456253588199615,
       "eval_rewards/CosineReward": 0.04339282959699631,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1045.0632,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 24
@@ -408,7 +409,7 @@
       "kl": 0.1800537109375,
       "learning_rate": 7.243995901002312e-05,
       "loss": -0.02097315341234207,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.6171875,
       "reward": 0.03010205877944827,
       "reward_std": 0.10742511600255966,
@@ -424,7 +425,7 @@
       "kl": 0.18408203125,
       "learning_rate": 6.980398830195785e-05,
       "loss": -0.02103913575410843,
-      "memory(GiB)": 182.91,
       "step": 26,
       "train_speed(iter/s)": 0.000421
     },
@@ -436,7 +437,7 @@
       "kl": 0.174560546875,
       "learning_rate": 6.710100716628344e-05,
       "loss": -0.03593946248292923,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.513671875,
       "reward": 0.04752760287374258,
       "reward_std": 0.14935147762298584,
@@ -452,7 +453,7 @@
       "kl": 0.182373046875,
       "learning_rate": 6.434016163555452e-05,
       "loss": -0.03595500811934471,
-      "memory(GiB)": 182.91,
       "step": 28,
       "train_speed(iter/s)": 0.000422
     }

 {
+  "best_global_step": 24,
   "best_metric": 0.04339282959699631,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-24",
   "epoch": 6.842105263157895,
   "global_step": 28,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "step": 2,
+      "train_speed(iter/s)": 0.000466
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 176.98,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 176.98,
       "step": 6,
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1126,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 176.98,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 176.98,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
+      "memory(GiB)": 187.02,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1025.9048,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
+      "memory(GiB)": 187.02,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
+      "memory(GiB)": 187.02,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
+      "memory(GiB)": 187.02,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1041.2321,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
+      "memory(GiB)": 187.02,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
       "rewards/CosineReward": 0.049969930201768875,
       "rewards/RepetitionPenalty": -1.1864573679076784e-07,
       "step": 21,
+      "train_speed(iter/s)": 0.000407
     },
     {
       "clip_ratio": 5.869188044016482e-05,
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
+      "memory(GiB)": 187.02,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     },
       "kl": 0.1796875,
       "learning_rate": 7.74754489035403e-05,
       "loss": -0.03423420712351799,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.583984375,
       "reward": 0.034468831261619925,
       "reward_std": 0.11841745302081108,
       "grad_norm": 0.014131724834442139,
       "learning_rate": 7.500000000000001e-05,
       "loss": -0.03426633030176163,
+      "memory(GiB)": 187.02,
       "step": 24,
       "train_speed(iter/s)": 0.000427
     },
       "eval_reward_std": 0.10456253588199615,
       "eval_rewards/CosineReward": 0.04339282959699631,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1045.0642,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 24
       "kl": 0.1800537109375,
       "learning_rate": 7.243995901002312e-05,
       "loss": -0.02097315341234207,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.6171875,
       "reward": 0.03010205877944827,
       "reward_std": 0.10742511600255966,
       "kl": 0.18408203125,
       "learning_rate": 6.980398830195785e-05,
       "loss": -0.02103913575410843,
+      "memory(GiB)": 187.02,
       "step": 26,
       "train_speed(iter/s)": 0.000421
     },
       "kl": 0.174560546875,
       "learning_rate": 6.710100716628344e-05,
       "loss": -0.03593946248292923,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.513671875,
       "reward": 0.04752760287374258,
       "reward_std": 0.14935147762298584,
       "kl": 0.182373046875,
       "learning_rate": 6.434016163555452e-05,
       "loss": -0.03595500811934471,
+      "memory(GiB)": 187.02,
       "step": 28,
       "train_speed(iter/s)": 0.000422
     }

checkpoint-28/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809

checkpoint-4/adapter_config.json CHANGED Viewed

@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
     "k_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],

   "revision": null,
   "target_modules": [
     "v_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
     "q_proj",
     "down_proj"
   ],

checkpoint-4/trainer_state.json CHANGED Viewed

@@ -1,4 +1,5 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 0.8421052631578947,
@@ -6,7 +7,7 @@
   "global_step": 4,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
@@ -44,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -60,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 182.91,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     }

 {
+  "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 0.8421052631578947,
   "global_step": 4,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "step": 2,
+      "train_speed(iter/s)": 0.000466
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 176.98,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     }

checkpoint-4/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809

checkpoint-6/adapter_config.json CHANGED Viewed

@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
     "k_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],

   "revision": null,
   "target_modules": [
     "v_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
     "q_proj",
     "down_proj"
   ],

checkpoint-6/trainer_state.json CHANGED Viewed

@@ -1,4 +1,5 @@
 {
   "best_metric": 0.012996690347790718,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-6",
   "epoch": 1.4210526315789473,
@@ -6,7 +7,7 @@
   "global_step": 6,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
@@ -44,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -60,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 182.91,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -72,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -86,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 182.91,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -101,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1127,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6

 {
+  "best_global_step": 6,
   "best_metric": 0.012996690347790718,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-6",
   "epoch": 1.4210526315789473,
   "global_step": 6,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "step": 2,
+      "train_speed(iter/s)": 0.000466
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 176.98,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 176.98,
       "step": 6,
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1126,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6

checkpoint-6/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809

checkpoint-8/adapter_config.json CHANGED Viewed

@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
     "k_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],

   "revision": null,
   "target_modules": [
     "v_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
     "q_proj",
     "down_proj"
   ],

checkpoint-8/trainer_state.json CHANGED Viewed

@@ -1,4 +1,5 @@
 {
   "best_metric": 0.012996690347790718,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-6",
   "epoch": 1.8421052631578947,
@@ -6,7 +7,7 @@
   "global_step": 8,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
@@ -44,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -60,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 182.91,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -72,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -86,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 182.91,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -101,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1127,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -114,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -130,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 182.91,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     }

 {
+  "best_global_step": 6,
   "best_metric": 0.012996690347790718,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-6",
   "epoch": 1.8421052631578947,
   "global_step": 8,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "step": 2,
+      "train_speed(iter/s)": 0.000466
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 176.98,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 176.98,
       "step": 6,
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1126,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 176.98,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     }

checkpoint-8/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809