diff --git a/checkpoint-10/adapter_config.json b/checkpoint-10/adapter_config.json
index 3f8d06e83be137d4af154849ed1686625c42e280..9a6753254d3cb15865ffb290b9553d85b57dac9a 100644
--- a/checkpoint-10/adapter_config.json
+++ b/checkpoint-10/adapter_config.json
@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],
diff --git a/checkpoint-10/global_step10/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt b/checkpoint-10/global_step10/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..32a9f1798bb7ffbf8bb2f677ea352bbf4033fc48
--- /dev/null
+++ b/checkpoint-10/global_step10/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b5e0c4d0d8ca773e1777b1c1e16af020993d22551ebcb2adf7ea67ef8f375907
+size 51616527
diff --git a/checkpoint-10/global_step10/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt b/checkpoint-10/global_step10/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..54a78c85d5d9a01e3cc0bbede088cec056970bdd
--- /dev/null
+++ b/checkpoint-10/global_step10/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f47b10f14b06374d68fb3756cc8b6cd77dffb1391fc04529515fd4d49deb3bf7
+size 51616015
diff --git a/checkpoint-10/global_step10/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt b/checkpoint-10/global_step10/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..29498bcfdb6f19e63b726fb5dadcacd06bef3a40
--- /dev/null
+++ b/checkpoint-10/global_step10/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7f1e86a3a53100c463ed130b6a93ce58e45e73d7d9fbfa2a7af6b26c8c5fa6c2
+size 51616527
diff --git a/checkpoint-10/global_step10/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt b/checkpoint-10/global_step10/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..69ec1832def223b1c8d4e9057d60253597f6ea59
--- /dev/null
+++ b/checkpoint-10/global_step10/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f4d1d7f35387b368824418346713afcf0a735451c94078768eafb567f9875bfc
+size 51616015
diff --git a/checkpoint-10/global_step10/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt b/checkpoint-10/global_step10/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..1e61719a1f3065cfaeabd97862e081bad4abaedb
--- /dev/null
+++ b/checkpoint-10/global_step10/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2b916d2e992e1c8b8c1742bb867ae3c769323ba0e94c43c22fcd66fb0c079b96
+size 51616527
diff --git a/checkpoint-10/global_step10/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt b/checkpoint-10/global_step10/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..175aa41aad784d88c76112cdd14a7c24bdf2e7e1
--- /dev/null
+++ b/checkpoint-10/global_step10/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f4ac51130567df50a5fa8c77c89e0d2ca250bfee52edd2b2f5719efb2ff36025
+size 51616015
diff --git a/checkpoint-10/global_step10/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt b/checkpoint-10/global_step10/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..07f56b9334491451f48fe24efde81676218d7f53
--- /dev/null
+++ b/checkpoint-10/global_step10/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6c62c5fb4b96163a311d4179e475297fe6ec1cf43cab95fd8d3c518d26357ac6
+size 51616527
diff --git a/checkpoint-10/global_step10/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt b/checkpoint-10/global_step10/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..7f7bcda64168fa160fb586f46162626dda690ebf
--- /dev/null
+++ b/checkpoint-10/global_step10/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:92df35f58ecc684b528fa303509abfbed79e2846e9d2b9fb16276adb90774df8
+size 51616015
diff --git a/checkpoint-10/rng_state_16.pth b/checkpoint-10/rng_state_16.pth
new file mode 100644
index 0000000000000000000000000000000000000000..9630dbfef8fe32dc35e4e4aca235d9e088f72783
--- /dev/null
+++ b/checkpoint-10/rng_state_16.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c1b407998b525b66bd58428611f35c2bcee3839aa1591cad9eb396102a75d9a3
+size 16404
diff --git a/checkpoint-10/rng_state_17.pth b/checkpoint-10/rng_state_17.pth
new file mode 100644
index 0000000000000000000000000000000000000000..e06580514326ac62bfb0de7bc683eea69fea945e
--- /dev/null
+++ b/checkpoint-10/rng_state_17.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a3f1ee09d6bd6278d3475a8d7f654e2e7ab24e0f4347cea12b35fde685694d11
+size 16404
diff --git a/checkpoint-10/rng_state_18.pth b/checkpoint-10/rng_state_18.pth
new file mode 100644
index 0000000000000000000000000000000000000000..bea13d86e5316f1268c51eafc55967fedd2b9f00
--- /dev/null
+++ b/checkpoint-10/rng_state_18.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:832de3be768fb57af62af75a77169dac73e185fb164da68db43d911b80b993e2
+size 16404
diff --git a/checkpoint-10/rng_state_19.pth b/checkpoint-10/rng_state_19.pth
new file mode 100644
index 0000000000000000000000000000000000000000..541744faae51ab32511ebf68c1d5aac2916e3bac
--- /dev/null
+++ b/checkpoint-10/rng_state_19.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7244b45e8524a60c2b661a2b80e2222715b34db86bc6e26e52ebf2f73ba9ab3f
+size 16340
diff --git a/checkpoint-10/rng_state_20.pth b/checkpoint-10/rng_state_20.pth
new file mode 100644
index 0000000000000000000000000000000000000000..4e3220acc1a3ce59f1f27c9e8cc2a944e2081b40
--- /dev/null
+++ b/checkpoint-10/rng_state_20.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:da62553da56900d0a290bd3696bb3510f07ae2c803a5bbe8e38a1d1a9af68f9b
+size 16340
diff --git a/checkpoint-10/rng_state_21.pth b/checkpoint-10/rng_state_21.pth
new file mode 100644
index 0000000000000000000000000000000000000000..457be0db9ce327a0a053cbce6ea3d9b2b9b0edd4
--- /dev/null
+++ b/checkpoint-10/rng_state_21.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8c7be6022296f7fe848e5c9739de0e948e47c94c2fd582920669a74a3f417f61
+size 16340
diff --git a/checkpoint-10/rng_state_22.pth b/checkpoint-10/rng_state_22.pth
new file mode 100644
index 0000000000000000000000000000000000000000..272f3656114d7de88ae61aef0271c286ef418f28
--- /dev/null
+++ b/checkpoint-10/rng_state_22.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:45c2624e1cb099cd6788d65dd85a009386b8943d056ecafae70be7e564b94b66
+size 16468
diff --git a/checkpoint-10/rng_state_23.pth b/checkpoint-10/rng_state_23.pth
new file mode 100644
index 0000000000000000000000000000000000000000..471447190822b32843e2e9aff8d5cb509b850af9
--- /dev/null
+++ b/checkpoint-10/rng_state_23.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2ae46f07c7c82831665b01e967d9f53c4263d35b0043e55d0abecab6d18fb581
+size 16468
diff --git a/checkpoint-10/trainer_state.json b/checkpoint-10/trainer_state.json
index d9543360277532e9321b29edfc3279b65f6493cb..f3bc7a6c7a8e7a542613193645c83c0135cfaace 100644
--- a/checkpoint-10/trainer_state.json
+++ b/checkpoint-10/trainer_state.json
@@ -1,4 +1,5 @@
 {
+  "best_global_step": 6,
   "best_metric": 0.012996690347790718,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-6",
   "epoch": 2.4210526315789473,
@@ -6,7 +7,7 @@
   "global_step": 10,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
+      "train_speed(iter/s)": 0.000466
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
@@ -44,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -60,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -72,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -86,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
@@ -101,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1127,
+      "eval_runtime": 1030.1126,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -114,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -130,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -142,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -158,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     }
diff --git a/checkpoint-10/training_args.bin b/checkpoint-10/training_args.bin
index a5c75ad76398d7f403ccc1a74c463d2dab6465ca..db6dc02fc187938d09e0a6626a08092ad8f42c54 100644
--- a/checkpoint-10/training_args.bin
+++ b/checkpoint-10/training_args.bin
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809
diff --git a/checkpoint-12/adapter_config.json b/checkpoint-12/adapter_config.json
index 3f8d06e83be137d4af154849ed1686625c42e280..9a6753254d3cb15865ffb290b9553d85b57dac9a 100644
--- a/checkpoint-12/adapter_config.json
+++ b/checkpoint-12/adapter_config.json
@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],
diff --git a/checkpoint-12/global_step12/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt b/checkpoint-12/global_step12/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..9cad1f3553f4aecada044642d305cd2776249ffd
--- /dev/null
+++ b/checkpoint-12/global_step12/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2bd0227e86cfa3a81c73db4156871e17a6b1c24313e6d6ffbcc435aef76b65fb
+size 51616527
diff --git a/checkpoint-12/global_step12/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt b/checkpoint-12/global_step12/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..5de1430a6b4a7d55c7c5affb9a40ee99e142fedb
--- /dev/null
+++ b/checkpoint-12/global_step12/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:00fee1025300c4be32a71428d645d217dd877f4c4e2025f4d8dc86dfde602a11
+size 51616015
diff --git a/checkpoint-12/global_step12/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt b/checkpoint-12/global_step12/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..2411a1f977ae9761f010049574844272904c9a4b
--- /dev/null
+++ b/checkpoint-12/global_step12/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5e312e427ff6bd3b12f7c96cbe20aa4ad739c91ce076c0df6f0bbfcc2a6f5b29
+size 51616527
diff --git a/checkpoint-12/global_step12/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt b/checkpoint-12/global_step12/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..8097b8932725f4b8fc3a63fdddc70a6175bf2b39
--- /dev/null
+++ b/checkpoint-12/global_step12/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:907c8fe038878cb9bc36c90b9f84b55ad238879a85caa93b684f850861b26720
+size 51616015
diff --git a/checkpoint-12/global_step12/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt b/checkpoint-12/global_step12/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..e3ec83d9dc0716ba908ea8f429b9559ae4569c95
--- /dev/null
+++ b/checkpoint-12/global_step12/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4f96b95334ab00b824837fe37b1c856d308d6de83bdb23904228ea1806e606e2
+size 51616527
diff --git a/checkpoint-12/global_step12/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt b/checkpoint-12/global_step12/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..3630d999d265f2d972b74c1624e053844cc7c0e8
--- /dev/null
+++ b/checkpoint-12/global_step12/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e122318d8256d9c002d012f93d137ee3776de45e41053b5a5c708b6713c7db26
+size 51616015
diff --git a/checkpoint-12/global_step12/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt b/checkpoint-12/global_step12/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..8dbdc0fe517f6d0082878b4e2dceb343907087cc
--- /dev/null
+++ b/checkpoint-12/global_step12/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c343402a0e9b88311d79d2662bbf9309541944289b864369f9c50b8f422266ba
+size 51616527
diff --git a/checkpoint-12/global_step12/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt b/checkpoint-12/global_step12/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..44570641876aab81288c847905bc875804f67823
--- /dev/null
+++ b/checkpoint-12/global_step12/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:75b0fa393d6387a17fba2b052c770f27c183d6c94b5e9986a0a06aba0d5f34a8
+size 51616015
diff --git a/checkpoint-12/rng_state_16.pth b/checkpoint-12/rng_state_16.pth
new file mode 100644
index 0000000000000000000000000000000000000000..38e4080943a078d77205d8345eaa0bc83aa9a8ea
--- /dev/null
+++ b/checkpoint-12/rng_state_16.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:62801652da7bb7998504dee1271843df4ed71ed6d734848c4f9b907228445fb8
+size 16404
diff --git a/checkpoint-12/rng_state_17.pth b/checkpoint-12/rng_state_17.pth
new file mode 100644
index 0000000000000000000000000000000000000000..ccc1a01577ca97d9ebec295296d0a228f3c9458d
--- /dev/null
+++ b/checkpoint-12/rng_state_17.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:18cd9119c5d34b9ee7e516544a59dd814b9a3256d261250524ec75c9cadc31a3
+size 16404
diff --git a/checkpoint-12/rng_state_18.pth b/checkpoint-12/rng_state_18.pth
new file mode 100644
index 0000000000000000000000000000000000000000..fc1156d4a00f4c6d6ea0dc4a4c964c178615ed7b
--- /dev/null
+++ b/checkpoint-12/rng_state_18.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cc2c3f80c6accb5324f8f6fc70ceda29815877d430783249b05dfef8a4de0082
+size 16404
diff --git a/checkpoint-12/rng_state_19.pth b/checkpoint-12/rng_state_19.pth
new file mode 100644
index 0000000000000000000000000000000000000000..56836eae751cdb8169028c5b173a45b9ff30dffc
--- /dev/null
+++ b/checkpoint-12/rng_state_19.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:13ed3ef9748edd204f4c0f8c55f7183358e3201779080ed05d1776ec253d9d6e
+size 16340
diff --git a/checkpoint-12/rng_state_20.pth b/checkpoint-12/rng_state_20.pth
new file mode 100644
index 0000000000000000000000000000000000000000..2d38fd1443e2a10bd6c17d53ccb4f998f4a384d4
--- /dev/null
+++ b/checkpoint-12/rng_state_20.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:df2446d98b74607d5086a9337f99092c7637cc524dd36756c24a17112a02afc0
+size 16340
diff --git a/checkpoint-12/rng_state_21.pth b/checkpoint-12/rng_state_21.pth
new file mode 100644
index 0000000000000000000000000000000000000000..5b40afe6151ce38315180a54a0dfb8743edcf6d2
--- /dev/null
+++ b/checkpoint-12/rng_state_21.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7cbf14b3f1cda4c5d327abe5858e749c8e3e7539654f891bfa98dae142e2a5f1
+size 16340
diff --git a/checkpoint-12/rng_state_22.pth b/checkpoint-12/rng_state_22.pth
new file mode 100644
index 0000000000000000000000000000000000000000..0e62e1d29c0b53d3e47057049c8125c7afe167f6
--- /dev/null
+++ b/checkpoint-12/rng_state_22.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:74629e3ba1b24c62a30a12c5d18c1f67e3f6a52d02e45bfd5625c3db5cd3ee98
+size 16468
diff --git a/checkpoint-12/rng_state_23.pth b/checkpoint-12/rng_state_23.pth
new file mode 100644
index 0000000000000000000000000000000000000000..f1e459e8ddaefac64a02bd93c997d14ed6dcba6c
--- /dev/null
+++ b/checkpoint-12/rng_state_23.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c1660fe1c86d36b187818def78122b1c82cd7b56b1b91b35897e6214503f7dc8
+size 16468
diff --git a/checkpoint-12/trainer_state.json b/checkpoint-12/trainer_state.json
index 63af88b38df0307c22be3faf58351ed68fccbb37..8d028d3771c94b5ea13dd49451668c8949834618 100644
--- a/checkpoint-12/trainer_state.json
+++ b/checkpoint-12/trainer_state.json
@@ -1,4 +1,5 @@
 {
+  "best_global_step": 12,
   "best_metric": 0.03234308212995529,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-12",
   "epoch": 2.8421052631578947,
@@ -6,7 +7,7 @@
   "global_step": 12,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
+      "train_speed(iter/s)": 0.000466
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
@@ -44,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -60,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -72,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -86,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
@@ -101,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1127,
+      "eval_runtime": 1030.1126,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -114,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -130,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -142,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -158,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -170,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -184,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -199,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9041,
+      "eval_runtime": 1025.9048,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
diff --git a/checkpoint-12/training_args.bin b/checkpoint-12/training_args.bin
index a5c75ad76398d7f403ccc1a74c463d2dab6465ca..db6dc02fc187938d09e0a6626a08092ad8f42c54 100644
--- a/checkpoint-12/training_args.bin
+++ b/checkpoint-12/training_args.bin
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809
diff --git a/checkpoint-14/adapter_config.json b/checkpoint-14/adapter_config.json
index 3f8d06e83be137d4af154849ed1686625c42e280..9a6753254d3cb15865ffb290b9553d85b57dac9a 100644
--- a/checkpoint-14/adapter_config.json
+++ b/checkpoint-14/adapter_config.json
@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],
diff --git a/checkpoint-14/global_step14/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt b/checkpoint-14/global_step14/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..4385c6789dd1c1051216d37408fdd3907be52d6a
--- /dev/null
+++ b/checkpoint-14/global_step14/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d0582b13ce2bea3a18df7b26c719cd0004488f486d8ae9583d5daf80d4ed897b
+size 51616527
diff --git a/checkpoint-14/global_step14/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt b/checkpoint-14/global_step14/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..85a2fc516792a51ae53c89f4d95130294cb2e7fa
--- /dev/null
+++ b/checkpoint-14/global_step14/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ba0ff89afd35d3229ab9baf52fbe54c6eb8d2a060490c99679294172d1b398be
+size 51616015
diff --git a/checkpoint-14/global_step14/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt b/checkpoint-14/global_step14/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..2a8a5b6d6d8a8582420fdee1728722776abdba37
--- /dev/null
+++ b/checkpoint-14/global_step14/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:062c8b969c5bf45384e64ab7c7075d2e2c3f94c9033f685ab032c794db7df520
+size 51616527
diff --git a/checkpoint-14/global_step14/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt b/checkpoint-14/global_step14/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..0c1d82d6b0c7bfcc676970a8c2e3112bb6989fd8
--- /dev/null
+++ b/checkpoint-14/global_step14/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9997949f600b69ead3be0acb5766b9a57f987e0637153446bebf5afe99ccf24b
+size 51616015
diff --git a/checkpoint-14/global_step14/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt b/checkpoint-14/global_step14/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..511b6ee5e08fa3e810818874ddb552b1e4f31346
--- /dev/null
+++ b/checkpoint-14/global_step14/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8c840ea51b03be2c2807a3fff2f59fe9ff212f79551e415314348227714ca42d
+size 51616527
diff --git a/checkpoint-14/global_step14/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt b/checkpoint-14/global_step14/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..b8e0cca6fb078177b0cd3963e295807fde81aaab
--- /dev/null
+++ b/checkpoint-14/global_step14/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6f165f270b45fc392a56019942ff0090f901eacb197b225db74fc2c0a943122a
+size 51616015
diff --git a/checkpoint-14/global_step14/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt b/checkpoint-14/global_step14/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..80ac72015c688ff210a695cbceb106a6567c6970
--- /dev/null
+++ b/checkpoint-14/global_step14/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7392ded59260dfd58da3dd886ff43616633625a757815568c03deab0b9f2cb76
+size 51616527
diff --git a/checkpoint-14/global_step14/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt b/checkpoint-14/global_step14/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..2fefefb41219e684b92579d5112aefa8a329763d
--- /dev/null
+++ b/checkpoint-14/global_step14/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8a132cb9ca836ba4cca2f97c715e34ad55464f19ca87edc3da52d092cc975bf5
+size 51616015
diff --git a/checkpoint-14/rng_state_16.pth b/checkpoint-14/rng_state_16.pth
new file mode 100644
index 0000000000000000000000000000000000000000..eb64dbec2b82aedb6074a084d2b4dc7e90f236ff
--- /dev/null
+++ b/checkpoint-14/rng_state_16.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3d840b0364c1a570779728649f1039d445383c4edac5486e3a66c94317e1916b
+size 16404
diff --git a/checkpoint-14/rng_state_17.pth b/checkpoint-14/rng_state_17.pth
new file mode 100644
index 0000000000000000000000000000000000000000..21d33486dee5fd95dc58f7ae01eb082b05b63441
--- /dev/null
+++ b/checkpoint-14/rng_state_17.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:510dc95c4f2633cbc2b86c5ed1c9c1d7e471489f547625ceb3669eb644d31848
+size 16404
diff --git a/checkpoint-14/rng_state_18.pth b/checkpoint-14/rng_state_18.pth
new file mode 100644
index 0000000000000000000000000000000000000000..0520b44779d3054b186e64904fd71608921fb8c2
--- /dev/null
+++ b/checkpoint-14/rng_state_18.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:93bdcb0f7609107d8eb7565bedf4a35aec622814b359b9877dff7cad7e714b95
+size 16404
diff --git a/checkpoint-14/rng_state_19.pth b/checkpoint-14/rng_state_19.pth
new file mode 100644
index 0000000000000000000000000000000000000000..f1baea91653eb6f53c3c5cce045ffaac4c018052
--- /dev/null
+++ b/checkpoint-14/rng_state_19.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0d684773fb4d8765cd6360596871a3694e20884ab2abec4c4d6fe14889f2c4d5
+size 16340
diff --git a/checkpoint-14/rng_state_20.pth b/checkpoint-14/rng_state_20.pth
new file mode 100644
index 0000000000000000000000000000000000000000..edb3200b19ef590c975f8b813413fdba846cf052
--- /dev/null
+++ b/checkpoint-14/rng_state_20.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:78e6ae3512ec6b8a2271e7f20976d65e499cc973b6e391c101203b96b4224bc5
+size 16340
diff --git a/checkpoint-14/rng_state_21.pth b/checkpoint-14/rng_state_21.pth
new file mode 100644
index 0000000000000000000000000000000000000000..c1e02d16f2aa1187de698ef132b19738963ad047
--- /dev/null
+++ b/checkpoint-14/rng_state_21.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:df1c00bfe5d65bd4d48cd0aa17bbe7d720a374a0ca2bbf2bbbdcadb17a6104fd
+size 16340
diff --git a/checkpoint-14/rng_state_22.pth b/checkpoint-14/rng_state_22.pth
new file mode 100644
index 0000000000000000000000000000000000000000..99b2ecaf99218719d0f1aca9543c01efc933c0c0
--- /dev/null
+++ b/checkpoint-14/rng_state_22.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:44192e7d9e9053f2df8c4aabe823801302f0f2b60087196f6e9014b0923cd457
+size 16468
diff --git a/checkpoint-14/rng_state_23.pth b/checkpoint-14/rng_state_23.pth
new file mode 100644
index 0000000000000000000000000000000000000000..6269b68a2d17e4ffaeb55c4d3ddea5ddb96fa07f
--- /dev/null
+++ b/checkpoint-14/rng_state_23.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1dc957cd75246c732066794333a430f669b3381f2ac15aa94401f13afcfb8bea
+size 16468
diff --git a/checkpoint-14/trainer_state.json b/checkpoint-14/trainer_state.json
index 0283ff9c783b7aa5ca912544b2dd35fcf23f9a99..4f77c8cd47b58975e4fc2300556d90007758118f 100644
--- a/checkpoint-14/trainer_state.json
+++ b/checkpoint-14/trainer_state.json
@@ -1,4 +1,5 @@
 {
+  "best_global_step": 12,
   "best_metric": 0.03234308212995529,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-12",
   "epoch": 3.4210526315789473,
@@ -6,7 +7,7 @@
   "global_step": 14,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
+      "train_speed(iter/s)": 0.000466
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
@@ -44,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -60,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -72,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -86,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
@@ -101,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1127,
+      "eval_runtime": 1030.1126,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -114,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -130,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -142,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -158,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -170,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -184,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -199,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9041,
+      "eval_runtime": 1025.9048,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -212,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -228,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     }
diff --git a/checkpoint-14/training_args.bin b/checkpoint-14/training_args.bin
index a5c75ad76398d7f403ccc1a74c463d2dab6465ca..db6dc02fc187938d09e0a6626a08092ad8f42c54 100644
--- a/checkpoint-14/training_args.bin
+++ b/checkpoint-14/training_args.bin
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809
diff --git a/checkpoint-16/adapter_config.json b/checkpoint-16/adapter_config.json
index 3f8d06e83be137d4af154849ed1686625c42e280..9a6753254d3cb15865ffb290b9553d85b57dac9a 100644
--- a/checkpoint-16/adapter_config.json
+++ b/checkpoint-16/adapter_config.json
@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],
diff --git a/checkpoint-16/global_step16/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt b/checkpoint-16/global_step16/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..104fb2dfd60405322d7a4f6223037cf2f7a263f6
--- /dev/null
+++ b/checkpoint-16/global_step16/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:08e0ad72c87bebd0d1f4e3087bd92400db87221f591e71795577e309742f09cf
+size 51616527
diff --git a/checkpoint-16/global_step16/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt b/checkpoint-16/global_step16/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..a6f8ada3e88a0ccbd4ab1ac91b1e1741ec5d5189
--- /dev/null
+++ b/checkpoint-16/global_step16/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bae8e8909d555fa65860f13ae01e5d74e547ca6fd0ea05e2bd959c81b6cc0c6f
+size 51616015
diff --git a/checkpoint-16/global_step16/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt b/checkpoint-16/global_step16/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..56439aba0990e823f69a050d5b7e37ff5adde7ad
--- /dev/null
+++ b/checkpoint-16/global_step16/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0a089d2566245eeeae9b9b48f5f138e69b3bb36352412698b1b03b141d610fd7
+size 51616527
diff --git a/checkpoint-16/global_step16/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt b/checkpoint-16/global_step16/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..ffd7b6d7fe28c1b0d564e82dc44a4bf8b2498195
--- /dev/null
+++ b/checkpoint-16/global_step16/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:176cca2e74bfa707f74720a58fe73eeeab7c6702da98517ac18f6fd00743da86
+size 51616015
diff --git a/checkpoint-16/global_step16/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt b/checkpoint-16/global_step16/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..3ba392fbe21d7e07506ce7e1f9e99b5988289ef5
--- /dev/null
+++ b/checkpoint-16/global_step16/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:be2f2d10ebad3193a5fb2bc411996c3a7b4e7c6fd835645daf8ba2ca3194a6b9
+size 51616527
diff --git a/checkpoint-16/global_step16/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt b/checkpoint-16/global_step16/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..83da26eef4ae76877cc66328772f1939e8742463
--- /dev/null
+++ b/checkpoint-16/global_step16/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:deec39e4a0f69f2463f708d7c022630d2bfb1bebb7b187a8ba1cf95fcc9a0243
+size 51616015
diff --git a/checkpoint-16/global_step16/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt b/checkpoint-16/global_step16/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..e82c65770f45e1df5e126df99b9768fc1e700c94
--- /dev/null
+++ b/checkpoint-16/global_step16/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6f826ddda16b1cbbf446bb74b142bf7500070f551347eb2120ebc58d7e72a777
+size 51616527
diff --git a/checkpoint-16/global_step16/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt b/checkpoint-16/global_step16/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..a59e046054a42ee7ad7107aaecbbaa69b45f3cd7
--- /dev/null
+++ b/checkpoint-16/global_step16/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:20073cc4391b982995a1da7bea3196922050d5307a48f40d5d9ce891f8e87abb
+size 51616015
diff --git a/checkpoint-16/rng_state_16.pth b/checkpoint-16/rng_state_16.pth
new file mode 100644
index 0000000000000000000000000000000000000000..d03a979869eccae0ff5139e6d61bd873fef9a5f4
--- /dev/null
+++ b/checkpoint-16/rng_state_16.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cc6be05a89ce35efba865d92d826443ac82aa1b41dcd56edfd275fcd4450ece5
+size 16404
diff --git a/checkpoint-16/rng_state_17.pth b/checkpoint-16/rng_state_17.pth
new file mode 100644
index 0000000000000000000000000000000000000000..594c3c2e602477d6b91a94fa6335a243d27d88f0
--- /dev/null
+++ b/checkpoint-16/rng_state_17.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cce2374d0e5c7ddd26d387a7b1e23cac2b64d5d377a2c712069b87d410f589d1
+size 16404
diff --git a/checkpoint-16/rng_state_18.pth b/checkpoint-16/rng_state_18.pth
new file mode 100644
index 0000000000000000000000000000000000000000..db57d64f0dfb9306bba9fb21380f634639278f91
--- /dev/null
+++ b/checkpoint-16/rng_state_18.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0b65404abb9819e07b5d57056448842d406da101f805af2b4db1824754cebb0f
+size 16404
diff --git a/checkpoint-16/rng_state_19.pth b/checkpoint-16/rng_state_19.pth
new file mode 100644
index 0000000000000000000000000000000000000000..4ccf8dac4ae535f8989d10a9665b01c42519fa0a
--- /dev/null
+++ b/checkpoint-16/rng_state_19.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0d0436adb98c0768db76064795f33855608fbab926fb4a8568310af81db03e83
+size 16340
diff --git a/checkpoint-16/rng_state_20.pth b/checkpoint-16/rng_state_20.pth
new file mode 100644
index 0000000000000000000000000000000000000000..edd2f7f6edec4e94a731b01efce728a8ec73af40
--- /dev/null
+++ b/checkpoint-16/rng_state_20.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a45a723026cb65c93c885b64a690755d6af79b12ec0be910ceac68ebbde7f020
+size 16340
diff --git a/checkpoint-16/rng_state_21.pth b/checkpoint-16/rng_state_21.pth
new file mode 100644
index 0000000000000000000000000000000000000000..23529fc5ad12d3a2ab1b07bf66b0bd8d28f3ef04
--- /dev/null
+++ b/checkpoint-16/rng_state_21.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7613b5b93714a2d3981be07476db40bc949ebd2fe6fb6aba016d6b3fd8b416a3
+size 16340
diff --git a/checkpoint-16/rng_state_22.pth b/checkpoint-16/rng_state_22.pth
new file mode 100644
index 0000000000000000000000000000000000000000..3164fb445803cde8fc7f2a7c03a5f13ca27a4ad7
--- /dev/null
+++ b/checkpoint-16/rng_state_22.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e44c081b84d8c0fe70378b2875f4037c5ffbd28a9831c10a36f9b323ee161ab2
+size 16468
diff --git a/checkpoint-16/rng_state_23.pth b/checkpoint-16/rng_state_23.pth
new file mode 100644
index 0000000000000000000000000000000000000000..d731fcd7633c0c5998947558f261b1c4f39e8a07
--- /dev/null
+++ b/checkpoint-16/rng_state_23.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c8f8b006d6869eedae32457af81616a309b1d41683129c9802bedb4288501e4a
+size 16468
diff --git a/checkpoint-16/trainer_state.json b/checkpoint-16/trainer_state.json
index 9227c90abf65fb0517b0d1c7eb78e18f0426365e..5e83c92bde4761577fc169c57fbd06c509552cad 100644
--- a/checkpoint-16/trainer_state.json
+++ b/checkpoint-16/trainer_state.json
@@ -1,4 +1,5 @@
 {
+  "best_global_step": 12,
   "best_metric": 0.03234308212995529,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-12",
   "epoch": 3.8421052631578947,
@@ -6,7 +7,7 @@
   "global_step": 16,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
+      "train_speed(iter/s)": 0.000466
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
@@ -44,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -60,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -72,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -86,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
@@ -101,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1127,
+      "eval_runtime": 1030.1126,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -114,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -130,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -142,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -158,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -170,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -184,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -199,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9041,
+      "eval_runtime": 1025.9048,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -212,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -228,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -240,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -256,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     }
diff --git a/checkpoint-16/training_args.bin b/checkpoint-16/training_args.bin
index a5c75ad76398d7f403ccc1a74c463d2dab6465ca..db6dc02fc187938d09e0a6626a08092ad8f42c54 100644
--- a/checkpoint-16/training_args.bin
+++ b/checkpoint-16/training_args.bin
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809
diff --git a/checkpoint-18/adapter_config.json b/checkpoint-18/adapter_config.json
index 3f8d06e83be137d4af154849ed1686625c42e280..9a6753254d3cb15865ffb290b9553d85b57dac9a 100644
--- a/checkpoint-18/adapter_config.json
+++ b/checkpoint-18/adapter_config.json
@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],
diff --git a/checkpoint-18/global_step18/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt b/checkpoint-18/global_step18/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..15b6774479fcf2dbf4aa35cfa68158be823cf4ff
--- /dev/null
+++ b/checkpoint-18/global_step18/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b6061f530a138505184f111d76d93d817eb9e15ed5f8668f20415b526630c9e0
+size 51616527
diff --git a/checkpoint-18/global_step18/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt b/checkpoint-18/global_step18/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..7f6dc74ee2999d395befd72c3f8845eb6198f091
--- /dev/null
+++ b/checkpoint-18/global_step18/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d63cbf79e955864fa5eebfef272b3f1c087294bdfa74b80fcabc98f05adba2f5
+size 51616015
diff --git a/checkpoint-18/global_step18/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt b/checkpoint-18/global_step18/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..520dea1e550dbe995a1fa40f82a82a346b6dcd08
--- /dev/null
+++ b/checkpoint-18/global_step18/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:506402d5a274095d1f2f709b597e59228d54c82abd765fdc4fa5af7d50d830d9
+size 51616527
diff --git a/checkpoint-18/global_step18/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt b/checkpoint-18/global_step18/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..6e100e6834f6b018549226b1c71e4bc60f788b56
--- /dev/null
+++ b/checkpoint-18/global_step18/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:41e19833abe0e5111b238836cf8e4c22a4aa21d07c5663a3301dc2c5e36bb3c8
+size 51616015
diff --git a/checkpoint-18/global_step18/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt b/checkpoint-18/global_step18/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..b15d6a179a5c1511ef7991e87dd0aa7ae310b1c1
--- /dev/null
+++ b/checkpoint-18/global_step18/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2dc7e24fb93cb34937a7f8ef0c00582e9a328adcfa913cbcd62e75d735273117
+size 51616527
diff --git a/checkpoint-18/global_step18/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt b/checkpoint-18/global_step18/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..0bdfc608a8892572291c9bd634f98b169cf2b8b0
--- /dev/null
+++ b/checkpoint-18/global_step18/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:617dcaed51ad23b9214e7e968c74e940c0286b80867123504bc2229108ca5d2a
+size 51616015
diff --git a/checkpoint-18/global_step18/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt b/checkpoint-18/global_step18/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..71d23f46fba6f78f8527bc6651c0b8f3f996da6e
--- /dev/null
+++ b/checkpoint-18/global_step18/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5eaafce93d444905119203dd9b98a074f82b246c8e6837fb5774244e7a8d3b80
+size 51616527
diff --git a/checkpoint-18/global_step18/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt b/checkpoint-18/global_step18/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..c428639b1795b69af63f7f30d74c0353d5052cb6
--- /dev/null
+++ b/checkpoint-18/global_step18/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6624d0e2961f055371af5ba1b6800d14e65eabd28e154f6dc17451b7925dd91d
+size 51616015
diff --git a/checkpoint-18/rng_state_16.pth b/checkpoint-18/rng_state_16.pth
new file mode 100644
index 0000000000000000000000000000000000000000..8ec1ec4de4e8afefe8f9515a2d94807d6d90da51
--- /dev/null
+++ b/checkpoint-18/rng_state_16.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3541f9d82ede0a540e823e82da68cbe762fb1d52103c01b2805367b3a697252f
+size 16404
diff --git a/checkpoint-18/rng_state_17.pth b/checkpoint-18/rng_state_17.pth
new file mode 100644
index 0000000000000000000000000000000000000000..909f65d31cd9a7a5e8176766547becb37404dd2b
--- /dev/null
+++ b/checkpoint-18/rng_state_17.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:79a6ddfec0557c2de75e996f52c168ef214802e3ccb9e6050b4b14eb8f4693e5
+size 16404
diff --git a/checkpoint-18/rng_state_18.pth b/checkpoint-18/rng_state_18.pth
new file mode 100644
index 0000000000000000000000000000000000000000..b84641d078968d05362fa05a7e3c19c8a99cd139
--- /dev/null
+++ b/checkpoint-18/rng_state_18.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2fcff18e9e596b2b13bc723d080af013753f68af59797da763fdd982af2388c7
+size 16404
diff --git a/checkpoint-18/rng_state_19.pth b/checkpoint-18/rng_state_19.pth
new file mode 100644
index 0000000000000000000000000000000000000000..fa1be5cc584d249971069f2d8df17ae7dd777651
--- /dev/null
+++ b/checkpoint-18/rng_state_19.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b9b686d4aea16a525c1901708e976496176972df1fe90dce790fb06a69223262
+size 16340
diff --git a/checkpoint-18/rng_state_20.pth b/checkpoint-18/rng_state_20.pth
new file mode 100644
index 0000000000000000000000000000000000000000..6597bb52c598f3101c5b2066f297937f7ce63aca
--- /dev/null
+++ b/checkpoint-18/rng_state_20.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:639c697d641666838dea57c752d2dda913d934c927ee964f187082728ae3edb9
+size 16340
diff --git a/checkpoint-18/rng_state_21.pth b/checkpoint-18/rng_state_21.pth
new file mode 100644
index 0000000000000000000000000000000000000000..9a7ec53581143079a290dac8f86208673361efe6
--- /dev/null
+++ b/checkpoint-18/rng_state_21.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8f56908454f19b0b972ab88e025468dc693b3f3d2e186d7b960e34edd5508c4f
+size 16340
diff --git a/checkpoint-18/rng_state_22.pth b/checkpoint-18/rng_state_22.pth
new file mode 100644
index 0000000000000000000000000000000000000000..aa14df502578448a08860f4c1d6c0dfd62cc1cf2
--- /dev/null
+++ b/checkpoint-18/rng_state_22.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3e5cc01be54944f676220d3a887de8471999e58f6be1df2d51618c4a91726d3f
+size 16468
diff --git a/checkpoint-18/rng_state_23.pth b/checkpoint-18/rng_state_23.pth
new file mode 100644
index 0000000000000000000000000000000000000000..1fe5061b16d723fc844366b32910526f3bfe2908
--- /dev/null
+++ b/checkpoint-18/rng_state_23.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a9d5f2efc1122ffbadd56428e706361bf8f4afa6b4329fce4f1f2c035b4928ad
+size 16468
diff --git a/checkpoint-18/trainer_state.json b/checkpoint-18/trainer_state.json
index 5e552ea3183048034e8097ff86a4f6d1c899830d..a1c1a4655ab577f58a2feda407b25c2a37f8a847 100644
--- a/checkpoint-18/trainer_state.json
+++ b/checkpoint-18/trainer_state.json
@@ -1,4 +1,5 @@
 {
+  "best_global_step": 18,
   "best_metric": 0.03729328140616417,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-18",
   "epoch": 4.421052631578947,
@@ -6,7 +7,7 @@
   "global_step": 18,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
+      "train_speed(iter/s)": 0.000466
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
@@ -44,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -60,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -72,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -86,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
@@ -101,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1127,
+      "eval_runtime": 1030.1126,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -114,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -130,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -142,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -158,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -170,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -184,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -199,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9041,
+      "eval_runtime": 1025.9048,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -212,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -228,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -240,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -256,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -268,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -282,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -297,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.231,
+      "eval_runtime": 1041.2321,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
diff --git a/checkpoint-18/training_args.bin b/checkpoint-18/training_args.bin
index a5c75ad76398d7f403ccc1a74c463d2dab6465ca..db6dc02fc187938d09e0a6626a08092ad8f42c54 100644
--- a/checkpoint-18/training_args.bin
+++ b/checkpoint-18/training_args.bin
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809
diff --git a/checkpoint-2/adapter_config.json b/checkpoint-2/adapter_config.json
index 3f8d06e83be137d4af154849ed1686625c42e280..9a6753254d3cb15865ffb290b9553d85b57dac9a 100644
--- a/checkpoint-2/adapter_config.json
+++ b/checkpoint-2/adapter_config.json
@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],
diff --git a/checkpoint-2/global_step2/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt b/checkpoint-2/global_step2/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..7dcd477f743dc4beb6d0dcd7c0d76cba2c2f8a97
--- /dev/null
+++ b/checkpoint-2/global_step2/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:367c2855f7e6d25d495d396ebcad952202a202b8e88ec4f5bfa3f5f294b9aaf4
+size 51616527
diff --git a/checkpoint-2/global_step2/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt b/checkpoint-2/global_step2/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..c573e6a15f80091102b325962724abe488504a2f
--- /dev/null
+++ b/checkpoint-2/global_step2/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:befa59aac976cd5df7c5efeb673ba1a125f100a0c37b4cd35837c4face730fc8
+size 51616015
diff --git a/checkpoint-2/global_step2/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt b/checkpoint-2/global_step2/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..1f9f99bdebc4375a9f5eb9c66da5d981cd959470
--- /dev/null
+++ b/checkpoint-2/global_step2/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:83bdea2632aee3af08812a1a8d4ec769b80dbb2ca00a8a99ca31ff0cc02bda86
+size 51616527
diff --git a/checkpoint-2/global_step2/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt b/checkpoint-2/global_step2/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..0280a7b1cfbcdcb85b38e67429a22a7ccd02b75a
--- /dev/null
+++ b/checkpoint-2/global_step2/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0797830e7383159bc752a8ad52f30c392ec0f66bd101eb87e11616464cd0b6de
+size 51616015
diff --git a/checkpoint-2/global_step2/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt b/checkpoint-2/global_step2/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..31a04ef4f5de8b3df88af7d34384ca6dbb493058
--- /dev/null
+++ b/checkpoint-2/global_step2/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9ae1a8c2d0d5f1bef6349927cde78e280e478af29413a3c5df474572f2ddea24
+size 51616527
diff --git a/checkpoint-2/global_step2/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt b/checkpoint-2/global_step2/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..23fa807486b0537cc767077dd835c50fdf86ef07
--- /dev/null
+++ b/checkpoint-2/global_step2/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:98b247c8000ced89361877b96054780ea5a87d32333a1c5a6eb2f504ce821af0
+size 51616015
diff --git a/checkpoint-2/global_step2/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt b/checkpoint-2/global_step2/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..0996074c41dadbf7dbaf7dcb61b78192eab1df9f
--- /dev/null
+++ b/checkpoint-2/global_step2/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3da0215a4931405c7cfa7e2bf9cdfef72fdcc6ba6f7a6e872717e9b4f920cc51
+size 51616527
diff --git a/checkpoint-2/global_step2/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt b/checkpoint-2/global_step2/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..c642c4177794c0dbf566d6162d4a646c27f70a96
--- /dev/null
+++ b/checkpoint-2/global_step2/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5d0fd41c376d60e5edb5b16ad758376bedfe6a86ef845271d695323dc14e7f5c
+size 51616015
diff --git a/checkpoint-2/rng_state_16.pth b/checkpoint-2/rng_state_16.pth
new file mode 100644
index 0000000000000000000000000000000000000000..d97feffc16c355fdb0f360d9f32bbe11725e3d49
--- /dev/null
+++ b/checkpoint-2/rng_state_16.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d88fc85ba52c9f6e7c59c2d5709568214ed2bcfe576317a089c6927dfb10026f
+size 16404
diff --git a/checkpoint-2/rng_state_17.pth b/checkpoint-2/rng_state_17.pth
new file mode 100644
index 0000000000000000000000000000000000000000..c84c6e805e87841d0344804e026aa1970e2dc890
--- /dev/null
+++ b/checkpoint-2/rng_state_17.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4a6b493bc17182aaf40ad053f53a22b17d39b2163ec31211f6cee7d9360f89e7
+size 16404
diff --git a/checkpoint-2/rng_state_18.pth b/checkpoint-2/rng_state_18.pth
new file mode 100644
index 0000000000000000000000000000000000000000..030416a5ab54167f8d265ba0b791071bf150c78e
--- /dev/null
+++ b/checkpoint-2/rng_state_18.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a5a40e21ba96c85dd166d27f15a21bf2f5ae0e087680fb6f6ad36f8e2b42b2ae
+size 16404
diff --git a/checkpoint-2/rng_state_19.pth b/checkpoint-2/rng_state_19.pth
new file mode 100644
index 0000000000000000000000000000000000000000..0afba3ed38cf9356dbf8bb8851bc19204e1fdcd1
--- /dev/null
+++ b/checkpoint-2/rng_state_19.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:940f1f31b8ff86f99281e7014dd0f47d1e9611e638ddd2eda6190f81c1fdcc8c
+size 16340
diff --git a/checkpoint-2/rng_state_20.pth b/checkpoint-2/rng_state_20.pth
new file mode 100644
index 0000000000000000000000000000000000000000..782adbf3a866e03f26c22071634837650761553c
--- /dev/null
+++ b/checkpoint-2/rng_state_20.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d2cb4f7140e1bdd187a174d50823bf0e9933aaa125de8b79a6285b9f75362f8d
+size 16340
diff --git a/checkpoint-2/rng_state_21.pth b/checkpoint-2/rng_state_21.pth
new file mode 100644
index 0000000000000000000000000000000000000000..cc61e4aec10929563b6b4ad00c2c9db2f5b4cee8
--- /dev/null
+++ b/checkpoint-2/rng_state_21.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9aab6c301ead7f1dc51058e06b373c8b4804575d7db0a4c7a11d12ee128cadcf
+size 16340
diff --git a/checkpoint-2/rng_state_22.pth b/checkpoint-2/rng_state_22.pth
new file mode 100644
index 0000000000000000000000000000000000000000..eea319535e65e8226fecf62d783950e95badc796
--- /dev/null
+++ b/checkpoint-2/rng_state_22.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:37b7848cba5ed2b2271dd8040b16ebbbfd22f1e056ba894dbb296c718bc5d01a
+size 16468
diff --git a/checkpoint-2/rng_state_23.pth b/checkpoint-2/rng_state_23.pth
new file mode 100644
index 0000000000000000000000000000000000000000..3a479e221f8b641ba8c6b79c6acd82ee8e68a5c9
--- /dev/null
+++ b/checkpoint-2/rng_state_23.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3c94c2b1471caf128eec67301d24a8499131627b69fb46399526985fa83e074d
+size 16468
diff --git a/checkpoint-2/trainer_state.json b/checkpoint-2/trainer_state.json
index abb60dd05407f920c1cb0c23f346741d8e8e4205..f1eb74f328226054adf4f3fb18e6428f343d668d 100644
--- a/checkpoint-2/trainer_state.json
+++ b/checkpoint-2/trainer_state.json
@@ -1,4 +1,5 @@
 {
+  "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 0.42105263157894735,
@@ -6,7 +7,7 @@
   "global_step": 2,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
+      "train_speed(iter/s)": 0.000466
     }
   ],
   "logging_steps": 1,
diff --git a/checkpoint-2/training_args.bin b/checkpoint-2/training_args.bin
index a5c75ad76398d7f403ccc1a74c463d2dab6465ca..db6dc02fc187938d09e0a6626a08092ad8f42c54 100644
--- a/checkpoint-2/training_args.bin
+++ b/checkpoint-2/training_args.bin
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809
diff --git a/checkpoint-20/adapter_config.json b/checkpoint-20/adapter_config.json
index 3f8d06e83be137d4af154849ed1686625c42e280..9a6753254d3cb15865ffb290b9553d85b57dac9a 100644
--- a/checkpoint-20/adapter_config.json
+++ b/checkpoint-20/adapter_config.json
@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],
diff --git a/checkpoint-20/global_step20/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt b/checkpoint-20/global_step20/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..132e6716031c5087a45828b788f2d0ccafc8164b
--- /dev/null
+++ b/checkpoint-20/global_step20/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e56bd303f020845f1f105f1f700bc561d41a5f6d39be2e1d4f138f471638a96e
+size 51616527
diff --git a/checkpoint-20/global_step20/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt b/checkpoint-20/global_step20/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..c043def809f8690fd2b49bdfe19d00d5c041e78e
--- /dev/null
+++ b/checkpoint-20/global_step20/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:078f1388808d82cf4cd0369be4667d6b7b0bbcf0ac11a18c793f62351daafece
+size 51616015
diff --git a/checkpoint-20/global_step20/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt b/checkpoint-20/global_step20/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..7612d027b5a7ad142ea70d521dc8f02d2af2092d
--- /dev/null
+++ b/checkpoint-20/global_step20/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e6c7c05d46b23bc4beba842ec6ecfd6c47ef34282d1fc4be07e1c55a6a1abe73
+size 51616527
diff --git a/checkpoint-20/global_step20/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt b/checkpoint-20/global_step20/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..f0523891e4b51c9a20d78fbef74fe940579c98a5
--- /dev/null
+++ b/checkpoint-20/global_step20/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a48d01bd0974d07bba3866f5e9487c6632aff1f54f4c8be79747a5ff4046db61
+size 51616015
diff --git a/checkpoint-20/global_step20/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt b/checkpoint-20/global_step20/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..47057fc558f32187ac45d53ea0aabb0fe544a21f
--- /dev/null
+++ b/checkpoint-20/global_step20/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b666ee7bd1425d33cb4fa733b478a4467f3a9a91616f25f9f916ceb3a3513f34
+size 51616527
diff --git a/checkpoint-20/global_step20/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt b/checkpoint-20/global_step20/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..b7d4f2d2493a90fb06a0f577c081cb1899da7bda
--- /dev/null
+++ b/checkpoint-20/global_step20/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b325b8d1e5988076842d5a33f83545c61f527d20ac1abbcf85e718fa2a7f3b56
+size 51616015
diff --git a/checkpoint-20/global_step20/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt b/checkpoint-20/global_step20/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..6144bb5dd3b5d7d42cd661ea878cd85b755956af
--- /dev/null
+++ b/checkpoint-20/global_step20/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:be385af59e9fc6a805d1185b3c87e7fa443bd58bf2e71acf58fb56e5dc80b954
+size 51616527
diff --git a/checkpoint-20/global_step20/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt b/checkpoint-20/global_step20/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..e3921c80d5d865ae92a9ed83519efcc98672f766
--- /dev/null
+++ b/checkpoint-20/global_step20/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b9f0a4820a3522b48bd7465253fc795fcfcc998aef98b03324d88ee06b02a1a0
+size 51616015
diff --git a/checkpoint-20/rng_state_16.pth b/checkpoint-20/rng_state_16.pth
new file mode 100644
index 0000000000000000000000000000000000000000..5771d3489b1bca6ed9c5ab5389f9594026fd79c6
--- /dev/null
+++ b/checkpoint-20/rng_state_16.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:33fda0ca86855dea7b186a2d2ef9f28aa95d1de462b685ae381300dc0272911a
+size 16404
diff --git a/checkpoint-20/rng_state_17.pth b/checkpoint-20/rng_state_17.pth
new file mode 100644
index 0000000000000000000000000000000000000000..f3fe409f05a514b3953a9fcde95fda25be08ca5d
--- /dev/null
+++ b/checkpoint-20/rng_state_17.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2f5aba9b7981f3d3fd648590d7c72ccae5c973d92432d2bf7eeca09383297501
+size 16404
diff --git a/checkpoint-20/rng_state_18.pth b/checkpoint-20/rng_state_18.pth
new file mode 100644
index 0000000000000000000000000000000000000000..fa522853b93b46eac587329e5851c14e23fbab34
--- /dev/null
+++ b/checkpoint-20/rng_state_18.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b492de9dcb080feaa32154a679037b845d9738355aad18dfc1bb8f75de26c527
+size 16404
diff --git a/checkpoint-20/rng_state_19.pth b/checkpoint-20/rng_state_19.pth
new file mode 100644
index 0000000000000000000000000000000000000000..51149f44b6941f09666602cfd966b07bb75b9c52
--- /dev/null
+++ b/checkpoint-20/rng_state_19.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:478a6106ff333062b988421a767f664be4fed2405a19975456afbcf973e9c25f
+size 16340
diff --git a/checkpoint-20/rng_state_20.pth b/checkpoint-20/rng_state_20.pth
new file mode 100644
index 0000000000000000000000000000000000000000..3ae3587d44bbffb20bb9686a018983c061984a18
--- /dev/null
+++ b/checkpoint-20/rng_state_20.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4f0d9aaee7774585fd4f01ee2389b6ca1f5b021b01401bfdf743187f89ee9950
+size 16340
diff --git a/checkpoint-20/rng_state_21.pth b/checkpoint-20/rng_state_21.pth
new file mode 100644
index 0000000000000000000000000000000000000000..ebb7eac99d1c63dca70da367f24d228e8773b7ec
--- /dev/null
+++ b/checkpoint-20/rng_state_21.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:91c740ed8b8ed43eebda243449323dee9bdedbf947c2c5d31fe527c59faab1f8
+size 16340
diff --git a/checkpoint-20/rng_state_22.pth b/checkpoint-20/rng_state_22.pth
new file mode 100644
index 0000000000000000000000000000000000000000..bf46647b6024626655af1af78e604e2bf28e6f4d
--- /dev/null
+++ b/checkpoint-20/rng_state_22.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6948c62fbd3eec988d3a7688d14a4ba21e05e6d23722cebd669be3b1439b3a4c
+size 16468
diff --git a/checkpoint-20/rng_state_23.pth b/checkpoint-20/rng_state_23.pth
new file mode 100644
index 0000000000000000000000000000000000000000..2eb4a2a46c3a6cb535d620c92cde657631343c5b
--- /dev/null
+++ b/checkpoint-20/rng_state_23.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1a7abfa20805143da800edddf6a5e42e48bbb7faa666b527994bdc0f12f24bf0
+size 16468
diff --git a/checkpoint-20/trainer_state.json b/checkpoint-20/trainer_state.json
index 939e242f4ac78f4a828aaf48a8eafdabdd7268dd..799cd565c5d6a9d014372dae066e8e90a4c1adf3 100644
--- a/checkpoint-20/trainer_state.json
+++ b/checkpoint-20/trainer_state.json
@@ -1,4 +1,5 @@
 {
+  "best_global_step": 18,
   "best_metric": 0.03729328140616417,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-18",
   "epoch": 4.842105263157895,
@@ -6,7 +7,7 @@
   "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
+      "train_speed(iter/s)": 0.000466
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
@@ -44,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -60,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -72,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -86,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
@@ -101,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1127,
+      "eval_runtime": 1030.1126,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -114,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -130,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -142,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -158,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -170,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -184,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -199,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9041,
+      "eval_runtime": 1025.9048,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -212,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -228,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -240,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -256,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -268,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -282,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -297,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.231,
+      "eval_runtime": 1041.2321,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
@@ -310,7 +311,7 @@
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
@@ -326,7 +327,7 @@
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     }
diff --git a/checkpoint-20/training_args.bin b/checkpoint-20/training_args.bin
index a5c75ad76398d7f403ccc1a74c463d2dab6465ca..db6dc02fc187938d09e0a6626a08092ad8f42c54 100644
--- a/checkpoint-20/training_args.bin
+++ b/checkpoint-20/training_args.bin
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809
diff --git a/checkpoint-22/adapter_config.json b/checkpoint-22/adapter_config.json
index 3f8d06e83be137d4af154849ed1686625c42e280..9a6753254d3cb15865ffb290b9553d85b57dac9a 100644
--- a/checkpoint-22/adapter_config.json
+++ b/checkpoint-22/adapter_config.json
@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],
diff --git a/checkpoint-22/global_step22/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt b/checkpoint-22/global_step22/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..f3459496adaa6422abc2bd8f7eacb11ba6336aa9
--- /dev/null
+++ b/checkpoint-22/global_step22/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e893838774f1fe4d38802354789c93b38acf17ea048ce5104246a4ce43567eae
+size 51616527
diff --git a/checkpoint-22/global_step22/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt b/checkpoint-22/global_step22/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..9d73609f7c029fef6d7154ef903907faeb6e2fca
--- /dev/null
+++ b/checkpoint-22/global_step22/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0f20a0800f7f064794bdc30f207f5802ac1911bd8923542b3ebfb1755ad8912f
+size 51616015
diff --git a/checkpoint-22/global_step22/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt b/checkpoint-22/global_step22/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..577638de633af460981658e05d9b74166a443a9c
--- /dev/null
+++ b/checkpoint-22/global_step22/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e1b7245d970fc44cba019c47a6d987922db7e2dbd52e24dbece3d40ac9246180
+size 51616527
diff --git a/checkpoint-22/global_step22/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt b/checkpoint-22/global_step22/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..15b52804b33899ef43ed0671c92e07655eb78d07
--- /dev/null
+++ b/checkpoint-22/global_step22/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:71ba35f6c8c8dff0d7c496c257f3361c527322d6734097334e022b84c5957e8d
+size 51616015
diff --git a/checkpoint-22/global_step22/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt b/checkpoint-22/global_step22/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..aa3d1fcf813f1b23e3162439e0c0440c1ed461fa
--- /dev/null
+++ b/checkpoint-22/global_step22/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:21163d3a44ea42c2728e9e086f20687f6236cffdce50e74b5d10981202d71307
+size 51616527
diff --git a/checkpoint-22/global_step22/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt b/checkpoint-22/global_step22/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..68a4118bdcc3912c377485d7d2a4278971d9fa76
--- /dev/null
+++ b/checkpoint-22/global_step22/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:41ff294ce2cd99f22e8d0a3dfa990941650590b217ac0e0a7b22ce5b54c33d99
+size 51616015
diff --git a/checkpoint-22/global_step22/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt b/checkpoint-22/global_step22/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..f0e542e5b14e3628ce1175997c96dc05b74f3b59
--- /dev/null
+++ b/checkpoint-22/global_step22/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:480a55fe99188aba2d51aefb66c1a3689bb1a80dca485988f00982aff6d49b6d
+size 51616527
diff --git a/checkpoint-22/global_step22/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt b/checkpoint-22/global_step22/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..e3970e6ac70ef046d3ec07d4f80968aabce0fdf7
--- /dev/null
+++ b/checkpoint-22/global_step22/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7f94b1a38c77f24122650c2ca4e4599878fd3fd4d28d65069a81c58d78d9ec5a
+size 51616015
diff --git a/checkpoint-22/rng_state_16.pth b/checkpoint-22/rng_state_16.pth
new file mode 100644
index 0000000000000000000000000000000000000000..c5b4d1a335143d3a368de5da0a332f5082e026ba
--- /dev/null
+++ b/checkpoint-22/rng_state_16.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e028653dd415875713889a1f71d8d2e2c7bda4428da8a450749c19ec60561cf8
+size 16404
diff --git a/checkpoint-22/rng_state_17.pth b/checkpoint-22/rng_state_17.pth
new file mode 100644
index 0000000000000000000000000000000000000000..bd96e1eebaef372e8e9ba49dda0f2e9474c45ac6
--- /dev/null
+++ b/checkpoint-22/rng_state_17.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:390e1d73f7c7480a51d75dbabfe1143c15da48883797a278a41186065785679c
+size 16404
diff --git a/checkpoint-22/rng_state_18.pth b/checkpoint-22/rng_state_18.pth
new file mode 100644
index 0000000000000000000000000000000000000000..a93d0079b4f5eb024159745ca38e76a8999f7bab
--- /dev/null
+++ b/checkpoint-22/rng_state_18.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:59d4d60c74cf3d8fd9b2c562aa9ca7a7b09728fadc6ba80e871099c7cd972bf0
+size 16404
diff --git a/checkpoint-22/rng_state_19.pth b/checkpoint-22/rng_state_19.pth
new file mode 100644
index 0000000000000000000000000000000000000000..ff2bddfe4d0ce72648b599699ad4850856b4dcc5
--- /dev/null
+++ b/checkpoint-22/rng_state_19.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e63d31e5e590fced0356c46c4e6c3ed1ef5494d6a40ca171eee5d122bbea8121
+size 16340
diff --git a/checkpoint-22/rng_state_20.pth b/checkpoint-22/rng_state_20.pth
new file mode 100644
index 0000000000000000000000000000000000000000..06101616377dc206d1a27269b6cdd9beb8186571
--- /dev/null
+++ b/checkpoint-22/rng_state_20.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ad4bd8081117f6652b3e723527a7be8c0d800e4d99ea4d7024592483698d98f6
+size 16340
diff --git a/checkpoint-22/rng_state_21.pth b/checkpoint-22/rng_state_21.pth
new file mode 100644
index 0000000000000000000000000000000000000000..5e31d49434357941f1523aee3987dc57948c9639
--- /dev/null
+++ b/checkpoint-22/rng_state_21.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a391f81e3fbd5cc395db0f2c661f6f6539fcb1935aab2e63fa9e19b8737c84c8
+size 16340
diff --git a/checkpoint-22/rng_state_22.pth b/checkpoint-22/rng_state_22.pth
new file mode 100644
index 0000000000000000000000000000000000000000..62f8d2f18310f9af5489928cd79b22e78a05957a
--- /dev/null
+++ b/checkpoint-22/rng_state_22.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ce42eb536440ee439437aea6bafcad1ce7d09d9742c5b500fe0c0e3567dc2aee
+size 16468
diff --git a/checkpoint-22/rng_state_23.pth b/checkpoint-22/rng_state_23.pth
new file mode 100644
index 0000000000000000000000000000000000000000..56e2f81a8632bce08e8d485c30b6e8818b474393
--- /dev/null
+++ b/checkpoint-22/rng_state_23.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8d348d29c2c6191ee00a45300d164accbee653a746a3b13a67ded6c094fa4732
+size 16468
diff --git a/checkpoint-22/trainer_state.json b/checkpoint-22/trainer_state.json
index f25a50fd2117664a679744f3e1068c255dd295e1..38dfc6c5cc5295ebde051bb509900e4bfe319f90 100644
--- a/checkpoint-22/trainer_state.json
+++ b/checkpoint-22/trainer_state.json
@@ -1,4 +1,5 @@
 {
+  "best_global_step": 18,
   "best_metric": 0.03729328140616417,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-18",
   "epoch": 5.421052631578947,
@@ -6,7 +7,7 @@
   "global_step": 22,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
+      "train_speed(iter/s)": 0.000466
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
@@ -44,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -60,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -72,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -86,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
@@ -101,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1127,
+      "eval_runtime": 1030.1126,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -114,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -130,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -142,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -158,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -170,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -184,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -199,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9041,
+      "eval_runtime": 1025.9048,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -212,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -228,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -240,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -256,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -268,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -282,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -297,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.231,
+      "eval_runtime": 1041.2321,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
@@ -310,7 +311,7 @@
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
@@ -326,7 +327,7 @@
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
@@ -338,14 +339,14 @@
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
       "rewards/CosineReward": 0.049969930201768875,
       "rewards/RepetitionPenalty": -1.1864573679076784e-07,
       "step": 21,
-      "train_speed(iter/s)": 0.000408
+      "train_speed(iter/s)": 0.000407
     },
     {
       "clip_ratio": 5.869188044016482e-05,
@@ -354,7 +355,7 @@
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     }
diff --git a/checkpoint-22/training_args.bin b/checkpoint-22/training_args.bin
index a5c75ad76398d7f403ccc1a74c463d2dab6465ca..db6dc02fc187938d09e0a6626a08092ad8f42c54 100644
--- a/checkpoint-22/training_args.bin
+++ b/checkpoint-22/training_args.bin
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809
diff --git a/checkpoint-24/adapter_config.json b/checkpoint-24/adapter_config.json
index 3f8d06e83be137d4af154849ed1686625c42e280..9a6753254d3cb15865ffb290b9553d85b57dac9a 100644
--- a/checkpoint-24/adapter_config.json
+++ b/checkpoint-24/adapter_config.json
@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],
diff --git a/checkpoint-24/global_step24/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt b/checkpoint-24/global_step24/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..caf5c25526912f854fb1c8476b56aa42348ebdcf
--- /dev/null
+++ b/checkpoint-24/global_step24/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2f1ce7c6d168f48a2d4ae8bf8d4db51fbc5968431dbad080de810604a83f8496
+size 51616527
diff --git a/checkpoint-24/global_step24/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt b/checkpoint-24/global_step24/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..d4f433ec6664b21c2ab6b1c755702fb2911da629
--- /dev/null
+++ b/checkpoint-24/global_step24/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bc48213dc2a5846efaa310f37086959858f2d07d7fffdb21b4dd74a4752928bd
+size 51616015
diff --git a/checkpoint-24/global_step24/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt b/checkpoint-24/global_step24/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..8bfe008b4e52a6fab48546120295785d1a5cb4d2
--- /dev/null
+++ b/checkpoint-24/global_step24/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:90b10ef982d869eddd8faf6dd582ff3fca6d11e8197f37469834c71717d1a26c
+size 51616527
diff --git a/checkpoint-24/global_step24/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt b/checkpoint-24/global_step24/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..09d2df17ba1df7de0accddc861ebf75ee84ced13
--- /dev/null
+++ b/checkpoint-24/global_step24/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7ed42fb152569ec92d22ced78c8de0961b3d94332b147d44409e855014572f57
+size 51616015
diff --git a/checkpoint-24/global_step24/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt b/checkpoint-24/global_step24/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..21c382cc8020edc5981848b3137889c1eb0290b0
--- /dev/null
+++ b/checkpoint-24/global_step24/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7cea14d1c5fc4eb1d9c8652a24bf6a7889636ab464d00fa6ec5e648a4f1ae657
+size 51616527
diff --git a/checkpoint-24/global_step24/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt b/checkpoint-24/global_step24/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..a3e4bc091e5cdc394f70429124d1f41d002b163a
--- /dev/null
+++ b/checkpoint-24/global_step24/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bb77df59d457f9b36711e3ff119be934301266f168da301a4d187c4df3f94963
+size 51616015
diff --git a/checkpoint-24/global_step24/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt b/checkpoint-24/global_step24/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..ccc990543a37f116dd60d69db207f47cbd3d39ff
--- /dev/null
+++ b/checkpoint-24/global_step24/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:53e1444f36ea15b2d2c0c994cd877c85b0de2be88c2ff1463d0fa52a8d2c1b91
+size 51616527
diff --git a/checkpoint-24/global_step24/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt b/checkpoint-24/global_step24/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..d91f0a38ca4d9da70387589905d6aeb26b2f0ae9
--- /dev/null
+++ b/checkpoint-24/global_step24/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6b91aa8a0c8e11ce9d1aa6129d836f0c7b24dd7729a5a674b52e8bf080474327
+size 51616015
diff --git a/checkpoint-24/rng_state_16.pth b/checkpoint-24/rng_state_16.pth
new file mode 100644
index 0000000000000000000000000000000000000000..8f84642b60560f90c4b5c1452a7cdb4f8bd1fbf0
--- /dev/null
+++ b/checkpoint-24/rng_state_16.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:616be9e8a3eae49306c8ba89b3fa4920549be7fc23aba5a5cdee9f0726f7ac47
+size 16404
diff --git a/checkpoint-24/rng_state_17.pth b/checkpoint-24/rng_state_17.pth
new file mode 100644
index 0000000000000000000000000000000000000000..46ee583282716a19d245be6a100d9df61e9a9356
--- /dev/null
+++ b/checkpoint-24/rng_state_17.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f58a81039778621801cfd1de101effc65c9b1a9b944ccdbd486ba5b8b98d9c6e
+size 16404
diff --git a/checkpoint-24/rng_state_18.pth b/checkpoint-24/rng_state_18.pth
new file mode 100644
index 0000000000000000000000000000000000000000..30ae749e9fa44b96e9826e33ddb22e318507e3dd
--- /dev/null
+++ b/checkpoint-24/rng_state_18.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:62d0ef7722067dc2aeba6e50b9a2b3440698060d95efe8d0cc6a83ba19c70f9a
+size 16404
diff --git a/checkpoint-24/rng_state_19.pth b/checkpoint-24/rng_state_19.pth
new file mode 100644
index 0000000000000000000000000000000000000000..ae4d4ae447ea6ecc8356ea856bab16162b390b88
--- /dev/null
+++ b/checkpoint-24/rng_state_19.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:26016c17549cde5f4ea494d04003097ee37c6a8310ff49732eaf46c296f9e8da
+size 16340
diff --git a/checkpoint-24/rng_state_20.pth b/checkpoint-24/rng_state_20.pth
new file mode 100644
index 0000000000000000000000000000000000000000..4bd234c16ba68e22bb68f012ebadc7657e722657
--- /dev/null
+++ b/checkpoint-24/rng_state_20.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fee342e7f36e7419defc7ff67b9ffa8f8f4526fe929019e9b4c577e93eefa837
+size 16340
diff --git a/checkpoint-24/rng_state_21.pth b/checkpoint-24/rng_state_21.pth
new file mode 100644
index 0000000000000000000000000000000000000000..404c55b395b422c4490141b8507758793164ff79
--- /dev/null
+++ b/checkpoint-24/rng_state_21.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b88b8c460f80f0347a44f8c0f6fa9a8dfaf4b74aaf2e93a263c086c832865a39
+size 16340
diff --git a/checkpoint-24/rng_state_22.pth b/checkpoint-24/rng_state_22.pth
new file mode 100644
index 0000000000000000000000000000000000000000..634f067bc87fb04d0a332029ddc593793434e1dd
--- /dev/null
+++ b/checkpoint-24/rng_state_22.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:73bd13f24fb2dc94789c910d17a90789bee2a7c5d2f2664d98d2559f2f504e8c
+size 16468
diff --git a/checkpoint-24/rng_state_23.pth b/checkpoint-24/rng_state_23.pth
new file mode 100644
index 0000000000000000000000000000000000000000..3753e290535d6e42089c5201359cc83f98b86de0
--- /dev/null
+++ b/checkpoint-24/rng_state_23.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:723d8773d0dae07fe25d6556d66efaf9c60ae20c832afd883e0169d34e512e10
+size 16468
diff --git a/checkpoint-24/trainer_state.json b/checkpoint-24/trainer_state.json
index 28c98e01019184c604a3825cec4b497fc6482848..6882365a9f6cb165794d215b4d3e0b03b2c144aa 100644
--- a/checkpoint-24/trainer_state.json
+++ b/checkpoint-24/trainer_state.json
@@ -1,4 +1,5 @@
 {
+  "best_global_step": 24,
   "best_metric": 0.04339282959699631,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-24",
   "epoch": 5.842105263157895,
@@ -6,7 +7,7 @@
   "global_step": 24,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
+      "train_speed(iter/s)": 0.000466
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
@@ -44,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -60,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -72,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -86,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
@@ -101,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1127,
+      "eval_runtime": 1030.1126,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -114,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -130,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -142,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -158,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -170,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -184,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -199,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9041,
+      "eval_runtime": 1025.9048,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -212,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -228,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -240,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -256,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -268,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -282,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -297,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.231,
+      "eval_runtime": 1041.2321,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
@@ -310,7 +311,7 @@
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
@@ -326,7 +327,7 @@
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
@@ -338,14 +339,14 @@
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
       "rewards/CosineReward": 0.049969930201768875,
       "rewards/RepetitionPenalty": -1.1864573679076784e-07,
       "step": 21,
-      "train_speed(iter/s)": 0.000408
+      "train_speed(iter/s)": 0.000407
     },
     {
       "clip_ratio": 5.869188044016482e-05,
@@ -354,7 +355,7 @@
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     },
@@ -366,7 +367,7 @@
       "kl": 0.1796875,
       "learning_rate": 7.74754489035403e-05,
       "loss": -0.03423420712351799,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.583984375,
       "reward": 0.034468831261619925,
       "reward_std": 0.11841745302081108,
@@ -380,7 +381,7 @@
       "grad_norm": 0.014131724834442139,
       "learning_rate": 7.500000000000001e-05,
       "loss": -0.03426633030176163,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 24,
       "train_speed(iter/s)": 0.000427
     },
@@ -395,7 +396,7 @@
       "eval_reward_std": 0.10456253588199615,
       "eval_rewards/CosineReward": 0.04339282959699631,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1045.0632,
+      "eval_runtime": 1045.0642,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 24
diff --git a/checkpoint-24/training_args.bin b/checkpoint-24/training_args.bin
index a5c75ad76398d7f403ccc1a74c463d2dab6465ca..db6dc02fc187938d09e0a6626a08092ad8f42c54 100644
--- a/checkpoint-24/training_args.bin
+++ b/checkpoint-24/training_args.bin
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809
diff --git a/checkpoint-26/adapter_config.json b/checkpoint-26/adapter_config.json
index 3f8d06e83be137d4af154849ed1686625c42e280..9a6753254d3cb15865ffb290b9553d85b57dac9a 100644
--- a/checkpoint-26/adapter_config.json
+++ b/checkpoint-26/adapter_config.json
@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],
diff --git a/checkpoint-26/global_step26/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt b/checkpoint-26/global_step26/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..330bce43f2733b71e966b5a0b7de466a307230e4
--- /dev/null
+++ b/checkpoint-26/global_step26/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2865aff3c931a2fb4dc7fc31997520815da49bbe86f63be81fe034faa0e941f8
+size 51616527
diff --git a/checkpoint-26/global_step26/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt b/checkpoint-26/global_step26/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..6597b2a9184ee696c3aef4fe9c6657f75934d569
--- /dev/null
+++ b/checkpoint-26/global_step26/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4808ffda148f2787a7b88bfd93ac5e99ff60172ef6dce89ee44ea4f1b16490c7
+size 51616015
diff --git a/checkpoint-26/global_step26/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt b/checkpoint-26/global_step26/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..7c791d4d58c417f5aef9a7365076741781f95fa1
--- /dev/null
+++ b/checkpoint-26/global_step26/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d2c714322f2ff885536e5b35d1157315ab6e43a5663f32306d8fba7aa78b37e5
+size 51616527
diff --git a/checkpoint-26/global_step26/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt b/checkpoint-26/global_step26/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..94609032d8bcee5b590b615ac8516731086a30b3
--- /dev/null
+++ b/checkpoint-26/global_step26/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:51ed761a912a6f7694fbb23fbf8b21fea9bd8a71d993be8bd0d161113f46f627
+size 51616015
diff --git a/checkpoint-26/global_step26/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt b/checkpoint-26/global_step26/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..15e057b5e2617a3951001c94b147e03a0522075a
--- /dev/null
+++ b/checkpoint-26/global_step26/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:66137c6f3639e7efabd8c66ebe8da11f04fa9723c4d3f287c3b13323b5869f6e
+size 51616527
diff --git a/checkpoint-26/global_step26/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt b/checkpoint-26/global_step26/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..eafc41dee594f90735969a41bed31b8e6d685d15
--- /dev/null
+++ b/checkpoint-26/global_step26/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f46c32cc1f2e2843b8511e43f52efb816e4f616ca06e503f69f96c0cb450d79e
+size 51616015
diff --git a/checkpoint-26/global_step26/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt b/checkpoint-26/global_step26/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..f77abf1557b8811052c417749505b12d100b6872
--- /dev/null
+++ b/checkpoint-26/global_step26/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bbf2de1c3734480b7c348e193c2d13b7c97168cbabef68fd10e3cbdcc822f9de
+size 51616527
diff --git a/checkpoint-26/global_step26/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt b/checkpoint-26/global_step26/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..22575f23137005ac445399c821e55cfdd2283c82
--- /dev/null
+++ b/checkpoint-26/global_step26/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:53f4de64c30067db0b3cc872fa4283e91ba8ec6545b180e0e0c793fc18b4ab6a
+size 51616015
diff --git a/checkpoint-26/rng_state_16.pth b/checkpoint-26/rng_state_16.pth
new file mode 100644
index 0000000000000000000000000000000000000000..a8760abf78274224560fce5aaf526f84b01b3c4a
--- /dev/null
+++ b/checkpoint-26/rng_state_16.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e59f64898a77ea7af27da0cd53ec4388f2febdab10546955430656cc658cbb77
+size 16404
diff --git a/checkpoint-26/rng_state_17.pth b/checkpoint-26/rng_state_17.pth
new file mode 100644
index 0000000000000000000000000000000000000000..7d60620c382fd7feb5a2ba0cfd08a1dff3e96645
--- /dev/null
+++ b/checkpoint-26/rng_state_17.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:55726e4cf9f580763a32048911c946f69773f7babf411ab0f4259acab0459ebf
+size 16404
diff --git a/checkpoint-26/rng_state_18.pth b/checkpoint-26/rng_state_18.pth
new file mode 100644
index 0000000000000000000000000000000000000000..0028fd3830fa1afe484c32ef53e34b963e9c89c7
--- /dev/null
+++ b/checkpoint-26/rng_state_18.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d38ea686d0e901069873ee3638b5afaf4b10f3ba9120d14f9f841a6f2cb9168e
+size 16404
diff --git a/checkpoint-26/rng_state_19.pth b/checkpoint-26/rng_state_19.pth
new file mode 100644
index 0000000000000000000000000000000000000000..ccbb9d7be11fe40e59cf940b356e94cd593272b1
--- /dev/null
+++ b/checkpoint-26/rng_state_19.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4458af2bb9aa2efcddebdc143ae54775b9bd5f383386b6f8588396600426f5a7
+size 16340
diff --git a/checkpoint-26/rng_state_20.pth b/checkpoint-26/rng_state_20.pth
new file mode 100644
index 0000000000000000000000000000000000000000..d5c8914289d32dcc6ce25d6fc2519c7f37abb423
--- /dev/null
+++ b/checkpoint-26/rng_state_20.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9779b6e26dd2a47021ccdea681a65d9675403aca8529c7b449cd8fcc95a2552d
+size 16340
diff --git a/checkpoint-26/rng_state_21.pth b/checkpoint-26/rng_state_21.pth
new file mode 100644
index 0000000000000000000000000000000000000000..f407fd851d4d800531085c45d431ae2a85449416
--- /dev/null
+++ b/checkpoint-26/rng_state_21.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5efa4df4daa1fff29882d79bef5bab8070e2bfb178c8032088d9482d3365e64d
+size 16340
diff --git a/checkpoint-26/rng_state_22.pth b/checkpoint-26/rng_state_22.pth
new file mode 100644
index 0000000000000000000000000000000000000000..0bcbb7c63b2b8f9b0e76caae3e4f17936c7c92d7
--- /dev/null
+++ b/checkpoint-26/rng_state_22.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:18899692f0b7100a5fcde921f2a95b6f0c20751676197b2cf8ed256ef31505cc
+size 16468
diff --git a/checkpoint-26/rng_state_23.pth b/checkpoint-26/rng_state_23.pth
new file mode 100644
index 0000000000000000000000000000000000000000..52085d7a2577bab2bfe63ac135634ee54430ea14
--- /dev/null
+++ b/checkpoint-26/rng_state_23.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:feece26f3f2ade58ed43456918641b9e77b7cf7fc64a240d111b681c024382cb
+size 16468
diff --git a/checkpoint-26/trainer_state.json b/checkpoint-26/trainer_state.json
index 5b072b987db923c7897214c7f630cb7ed87c56ab..879395d69f8fcc796e0f0b4c11b379c5c04ad9cb 100644
--- a/checkpoint-26/trainer_state.json
+++ b/checkpoint-26/trainer_state.json
@@ -1,4 +1,5 @@
 {
+  "best_global_step": 24,
   "best_metric": 0.04339282959699631,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-24",
   "epoch": 6.421052631578947,
@@ -6,7 +7,7 @@
   "global_step": 26,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
+      "train_speed(iter/s)": 0.000466
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
@@ -44,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -60,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -72,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -86,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
@@ -101,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1127,
+      "eval_runtime": 1030.1126,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -114,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -130,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -142,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -158,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -170,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -184,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -199,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9041,
+      "eval_runtime": 1025.9048,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -212,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -228,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -240,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -256,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -268,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -282,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -297,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.231,
+      "eval_runtime": 1041.2321,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
@@ -310,7 +311,7 @@
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
@@ -326,7 +327,7 @@
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
@@ -338,14 +339,14 @@
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
       "rewards/CosineReward": 0.049969930201768875,
       "rewards/RepetitionPenalty": -1.1864573679076784e-07,
       "step": 21,
-      "train_speed(iter/s)": 0.000408
+      "train_speed(iter/s)": 0.000407
     },
     {
       "clip_ratio": 5.869188044016482e-05,
@@ -354,7 +355,7 @@
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     },
@@ -366,7 +367,7 @@
       "kl": 0.1796875,
       "learning_rate": 7.74754489035403e-05,
       "loss": -0.03423420712351799,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.583984375,
       "reward": 0.034468831261619925,
       "reward_std": 0.11841745302081108,
@@ -380,7 +381,7 @@
       "grad_norm": 0.014131724834442139,
       "learning_rate": 7.500000000000001e-05,
       "loss": -0.03426633030176163,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 24,
       "train_speed(iter/s)": 0.000427
     },
@@ -395,7 +396,7 @@
       "eval_reward_std": 0.10456253588199615,
       "eval_rewards/CosineReward": 0.04339282959699631,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1045.0632,
+      "eval_runtime": 1045.0642,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 24
@@ -408,7 +409,7 @@
       "kl": 0.1800537109375,
       "learning_rate": 7.243995901002312e-05,
       "loss": -0.02097315341234207,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.6171875,
       "reward": 0.03010205877944827,
       "reward_std": 0.10742511600255966,
@@ -424,7 +425,7 @@
       "kl": 0.18408203125,
       "learning_rate": 6.980398830195785e-05,
       "loss": -0.02103913575410843,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 26,
       "train_speed(iter/s)": 0.000421
     }
diff --git a/checkpoint-26/training_args.bin b/checkpoint-26/training_args.bin
index a5c75ad76398d7f403ccc1a74c463d2dab6465ca..db6dc02fc187938d09e0a6626a08092ad8f42c54 100644
--- a/checkpoint-26/training_args.bin
+++ b/checkpoint-26/training_args.bin
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809
diff --git a/checkpoint-28/adapter_config.json b/checkpoint-28/adapter_config.json
index 3f8d06e83be137d4af154849ed1686625c42e280..9a6753254d3cb15865ffb290b9553d85b57dac9a 100644
--- a/checkpoint-28/adapter_config.json
+++ b/checkpoint-28/adapter_config.json
@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],
diff --git a/checkpoint-28/global_step28/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt b/checkpoint-28/global_step28/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..6a201974bd79d01ecdd89a9addbc6c72ad025696
--- /dev/null
+++ b/checkpoint-28/global_step28/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c14eac5d2c90592ce17a3c4b77df717d292924bd403ed3cc65f52aa601509475
+size 51616527
diff --git a/checkpoint-28/global_step28/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt b/checkpoint-28/global_step28/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..a2fd6d64e14c920601e24ce519e96afcea3e9db9
--- /dev/null
+++ b/checkpoint-28/global_step28/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c2032b9022a5beb7eefe076a9e5e28f5b370b8a410340eea95ce40b1a6c06c90
+size 51616015
diff --git a/checkpoint-28/global_step28/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt b/checkpoint-28/global_step28/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..44f78a1421e1ad55ec91d508e7ae47e9e00af652
--- /dev/null
+++ b/checkpoint-28/global_step28/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a605229deb5a7719705db04b1d4fef177770bd1301768a765a06716370ba2bb0
+size 51616527
diff --git a/checkpoint-28/global_step28/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt b/checkpoint-28/global_step28/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..de5ad6e506694dc2943a2e14af9a00e8174e7639
--- /dev/null
+++ b/checkpoint-28/global_step28/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:93a98e7e50852279d16b7fa5599a3caf4195dc2540093a49b08ae19225913315
+size 51616015
diff --git a/checkpoint-28/global_step28/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt b/checkpoint-28/global_step28/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..7e3fe2709aa3ddef2fe31af98872cdfca6fe2771
--- /dev/null
+++ b/checkpoint-28/global_step28/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:be7e0cdebb85d13538b72ac40ff3e6a473de9e941b7ddee63b36566e4cdeec5d
+size 51616527
diff --git a/checkpoint-28/global_step28/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt b/checkpoint-28/global_step28/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..11aed8856a13079c479dc0e4a968f2e3f4b0131c
--- /dev/null
+++ b/checkpoint-28/global_step28/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f5ef232aa1d4c2725e786fe1ada86281104516a7e75d55c6d6707cb520a26cbe
+size 51616015
diff --git a/checkpoint-28/global_step28/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt b/checkpoint-28/global_step28/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..70267a37d7b3a3e5439748f1f0b2721be9481aa8
--- /dev/null
+++ b/checkpoint-28/global_step28/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4430819465627b664335a9c8cfa64d889b62dd083bfb1b46e3bbb0bcece3fece
+size 51616527
diff --git a/checkpoint-28/global_step28/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt b/checkpoint-28/global_step28/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..bc56862a5fde528fa175379116eb7ef09038343a
--- /dev/null
+++ b/checkpoint-28/global_step28/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1e881c25a210f9d91fd2f08b671f8e6e9ccf8a2894a7ff78b16d7e4a6231f662
+size 51616015
diff --git a/checkpoint-28/rng_state_16.pth b/checkpoint-28/rng_state_16.pth
new file mode 100644
index 0000000000000000000000000000000000000000..42c0a8c7c403a211bbdbf9eba80dfc7b27d4f84f
--- /dev/null
+++ b/checkpoint-28/rng_state_16.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dd4b8680a46cc1078b41132bd73194c1fcfb6938dff47396f118756991d3b95f
+size 16404
diff --git a/checkpoint-28/rng_state_17.pth b/checkpoint-28/rng_state_17.pth
new file mode 100644
index 0000000000000000000000000000000000000000..1f2dc4f11c7da5094d1b624829b101f2ef5a3454
--- /dev/null
+++ b/checkpoint-28/rng_state_17.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8d02d8cafd620d89bf5fffc18fcb23627a78a0e788656dce8dfd7fb277e400a2
+size 16404
diff --git a/checkpoint-28/rng_state_18.pth b/checkpoint-28/rng_state_18.pth
new file mode 100644
index 0000000000000000000000000000000000000000..034fb453f5adbdaedbed6116f74370313a177c77
--- /dev/null
+++ b/checkpoint-28/rng_state_18.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f89cd760d56a4ff15c2329e7d788034ada3e2b4db6faaafe3952e6fedf721b6d
+size 16404
diff --git a/checkpoint-28/rng_state_19.pth b/checkpoint-28/rng_state_19.pth
new file mode 100644
index 0000000000000000000000000000000000000000..fb0808e043800d2a1cc8a0bc9de2ba6b5af75269
--- /dev/null
+++ b/checkpoint-28/rng_state_19.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b92260b5edd95d4786a04b8d37f2c20c032b503647691dd6ee40d9f8ac85e979
+size 16340
diff --git a/checkpoint-28/rng_state_20.pth b/checkpoint-28/rng_state_20.pth
new file mode 100644
index 0000000000000000000000000000000000000000..053881edde59463d99a1a0be28d3686c76487ff6
--- /dev/null
+++ b/checkpoint-28/rng_state_20.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:783dfc71be6a82c8ab260de1e9f22751d70e0ab0f583aef2907fb2c4d6010c8d
+size 16340
diff --git a/checkpoint-28/rng_state_21.pth b/checkpoint-28/rng_state_21.pth
new file mode 100644
index 0000000000000000000000000000000000000000..3942d12bb50388be24c2181d1f3b811fd36669cd
--- /dev/null
+++ b/checkpoint-28/rng_state_21.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c03433a94780f0257e3724b8a394818e57e678dde4abc916aa21988e6115120d
+size 16340
diff --git a/checkpoint-28/rng_state_22.pth b/checkpoint-28/rng_state_22.pth
new file mode 100644
index 0000000000000000000000000000000000000000..1f01953deafae4a734ffb50ecd8db4fcc0f33623
--- /dev/null
+++ b/checkpoint-28/rng_state_22.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:90ad6c3a8cf287737e57b47eb2c93fff49637f00c9ade6c92efa3140f32d0ef2
+size 16468
diff --git a/checkpoint-28/rng_state_23.pth b/checkpoint-28/rng_state_23.pth
new file mode 100644
index 0000000000000000000000000000000000000000..b64b9ecdde76d6eda5fc1665abbd596e7d8e7ba5
--- /dev/null
+++ b/checkpoint-28/rng_state_23.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ce49132eb30223e7d1fec30e721ba4cc13d2d37b1c749b135b5ccfea3427f642
+size 16468
diff --git a/checkpoint-28/trainer_state.json b/checkpoint-28/trainer_state.json
index 148e40ed0b36a607a26cd48bcc7a44e47f551f9b..54f298b29417457381943a331bc7ae1242c31d16 100644
--- a/checkpoint-28/trainer_state.json
+++ b/checkpoint-28/trainer_state.json
@@ -1,4 +1,5 @@
 {
+  "best_global_step": 24,
   "best_metric": 0.04339282959699631,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-24",
   "epoch": 6.842105263157895,
@@ -6,7 +7,7 @@
   "global_step": 28,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
+      "train_speed(iter/s)": 0.000466
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
@@ -44,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -60,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -72,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -86,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
@@ -101,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1127,
+      "eval_runtime": 1030.1126,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -114,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -130,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -142,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -158,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -170,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -184,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -199,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9041,
+      "eval_runtime": 1025.9048,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -212,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -228,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -240,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -256,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -268,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -282,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -297,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.231,
+      "eval_runtime": 1041.2321,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
@@ -310,7 +311,7 @@
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
@@ -326,7 +327,7 @@
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
@@ -338,14 +339,14 @@
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
       "rewards/CosineReward": 0.049969930201768875,
       "rewards/RepetitionPenalty": -1.1864573679076784e-07,
       "step": 21,
-      "train_speed(iter/s)": 0.000408
+      "train_speed(iter/s)": 0.000407
     },
     {
       "clip_ratio": 5.869188044016482e-05,
@@ -354,7 +355,7 @@
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     },
@@ -366,7 +367,7 @@
       "kl": 0.1796875,
       "learning_rate": 7.74754489035403e-05,
       "loss": -0.03423420712351799,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.583984375,
       "reward": 0.034468831261619925,
       "reward_std": 0.11841745302081108,
@@ -380,7 +381,7 @@
       "grad_norm": 0.014131724834442139,
       "learning_rate": 7.500000000000001e-05,
       "loss": -0.03426633030176163,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 24,
       "train_speed(iter/s)": 0.000427
     },
@@ -395,7 +396,7 @@
       "eval_reward_std": 0.10456253588199615,
       "eval_rewards/CosineReward": 0.04339282959699631,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1045.0632,
+      "eval_runtime": 1045.0642,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 24
@@ -408,7 +409,7 @@
       "kl": 0.1800537109375,
       "learning_rate": 7.243995901002312e-05,
       "loss": -0.02097315341234207,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.6171875,
       "reward": 0.03010205877944827,
       "reward_std": 0.10742511600255966,
@@ -424,7 +425,7 @@
       "kl": 0.18408203125,
       "learning_rate": 6.980398830195785e-05,
       "loss": -0.02103913575410843,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 26,
       "train_speed(iter/s)": 0.000421
     },
@@ -436,7 +437,7 @@
       "kl": 0.174560546875,
       "learning_rate": 6.710100716628344e-05,
       "loss": -0.03593946248292923,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.513671875,
       "reward": 0.04752760287374258,
       "reward_std": 0.14935147762298584,
@@ -452,7 +453,7 @@
       "kl": 0.182373046875,
       "learning_rate": 6.434016163555452e-05,
       "loss": -0.03595500811934471,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 187.02,
       "step": 28,
       "train_speed(iter/s)": 0.000422
     }
diff --git a/checkpoint-28/training_args.bin b/checkpoint-28/training_args.bin
index a5c75ad76398d7f403ccc1a74c463d2dab6465ca..db6dc02fc187938d09e0a6626a08092ad8f42c54 100644
--- a/checkpoint-28/training_args.bin
+++ b/checkpoint-28/training_args.bin
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809
diff --git a/checkpoint-4/adapter_config.json b/checkpoint-4/adapter_config.json
index 3f8d06e83be137d4af154849ed1686625c42e280..9a6753254d3cb15865ffb290b9553d85b57dac9a 100644
--- a/checkpoint-4/adapter_config.json
+++ b/checkpoint-4/adapter_config.json
@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],
diff --git a/checkpoint-4/global_step4/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt b/checkpoint-4/global_step4/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..17348c7204f8e5ca7acf8e3465224a8c5a2c03fd
--- /dev/null
+++ b/checkpoint-4/global_step4/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:58c131e43e4fae48be8b11f3d49174e18d2e5a31d055e3147049615a3ccffa3d
+size 51616527
diff --git a/checkpoint-4/global_step4/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt b/checkpoint-4/global_step4/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..5f69a0fc26853539c101919ca1504285c4b5b7b0
--- /dev/null
+++ b/checkpoint-4/global_step4/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f21f2186789aa1d935f3c4e5dc585cef5b6189914d98b2bd3c389242ec108dd0
+size 51616015
diff --git a/checkpoint-4/global_step4/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt b/checkpoint-4/global_step4/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..780449f1ef5a13faf9d64ecd5c3a36a99bf47655
--- /dev/null
+++ b/checkpoint-4/global_step4/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:622b664b60696d05dbfce5dab44c83e139d3836b43ee4f694df059c736a9594c
+size 51616527
diff --git a/checkpoint-4/global_step4/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt b/checkpoint-4/global_step4/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..c3b3ee89e76388ba0bc3b02541442b63aa21bedc
--- /dev/null
+++ b/checkpoint-4/global_step4/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a3646f757895825cd1d9429322e961c8ff812c29d2703970e90a9d8d4ee2c0f0
+size 51616015
diff --git a/checkpoint-4/global_step4/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt b/checkpoint-4/global_step4/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..f6f52d334dbe70cddacb2193d3f03025d4fdd58c
--- /dev/null
+++ b/checkpoint-4/global_step4/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:059b5820e2207338929e2eb856a712fd395245a3507fbb16f2defda85ba19737
+size 51616527
diff --git a/checkpoint-4/global_step4/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt b/checkpoint-4/global_step4/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..8bc25865337e275fecd4c81d87000bfdefbf056e
--- /dev/null
+++ b/checkpoint-4/global_step4/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c585aabf76eda4bd0572d1ee0d074c9c28c7b29e1080357b978c77542e8f5bb8
+size 51616015
diff --git a/checkpoint-4/global_step4/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt b/checkpoint-4/global_step4/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..34c989dc1fa9e1e217b47859aa55be6c2b824a91
--- /dev/null
+++ b/checkpoint-4/global_step4/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b0e5d11c0ec8e0b53b0e83fba5161257bd5981898d05fc82d5f9963bc2837212
+size 51616527
diff --git a/checkpoint-4/global_step4/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt b/checkpoint-4/global_step4/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..330dee9d644e5913856bc2fc811b6ff0f9c95f4c
--- /dev/null
+++ b/checkpoint-4/global_step4/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bcc79eb8fec376787da7cf23e1c487618504c1e760d345c3442413eaf2cd2213
+size 51616015
diff --git a/checkpoint-4/rng_state_16.pth b/checkpoint-4/rng_state_16.pth
new file mode 100644
index 0000000000000000000000000000000000000000..4982ff220d1d249f6aabfb81644571c113d0887b
--- /dev/null
+++ b/checkpoint-4/rng_state_16.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:51c068b8dd98ab119cc6f6542c8bc5130a0f621b9102257563291fc518374c9c
+size 16404
diff --git a/checkpoint-4/rng_state_17.pth b/checkpoint-4/rng_state_17.pth
new file mode 100644
index 0000000000000000000000000000000000000000..019170e699996843ad63cbc5d20a93423244a8c0
--- /dev/null
+++ b/checkpoint-4/rng_state_17.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:551f10552005c026f7476ebfcfd51ec4c34a6afde76c576b070f8ff3644ec200
+size 16404
diff --git a/checkpoint-4/rng_state_18.pth b/checkpoint-4/rng_state_18.pth
new file mode 100644
index 0000000000000000000000000000000000000000..d7c9b80102e9210297d3b6c533e675178c9ab8d5
--- /dev/null
+++ b/checkpoint-4/rng_state_18.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7f048b42fa515f95c99bbb14324ad6ca464f277a48de65ce3d68feb6fdf1d307
+size 16404
diff --git a/checkpoint-4/rng_state_19.pth b/checkpoint-4/rng_state_19.pth
new file mode 100644
index 0000000000000000000000000000000000000000..a94d2724af8dadb526427c88b8189cab8c38e77d
--- /dev/null
+++ b/checkpoint-4/rng_state_19.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:baff817acad968b769a1c9ba2f22e5d297a1f0e1c473d4c07096cf8b1d36aa45
+size 16340
diff --git a/checkpoint-4/rng_state_20.pth b/checkpoint-4/rng_state_20.pth
new file mode 100644
index 0000000000000000000000000000000000000000..64c3cdc147cb45c18632dd04dd9043b0ebaff042
--- /dev/null
+++ b/checkpoint-4/rng_state_20.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9c235004c0a19149f4afd47ef9aaa668ef2ff3262519bce8d4ea725fd2ac611b
+size 16340
diff --git a/checkpoint-4/rng_state_21.pth b/checkpoint-4/rng_state_21.pth
new file mode 100644
index 0000000000000000000000000000000000000000..467cbe22a51701b10b4dc585dec32a950e41e7a1
--- /dev/null
+++ b/checkpoint-4/rng_state_21.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ba2f84273b508b8a2e6e56cda0803b332822560f4b3057722ebc45e218d3e2bf
+size 16340
diff --git a/checkpoint-4/rng_state_22.pth b/checkpoint-4/rng_state_22.pth
new file mode 100644
index 0000000000000000000000000000000000000000..3ebc049f7ff4ed4dfac94bead9759ca182ed6e84
--- /dev/null
+++ b/checkpoint-4/rng_state_22.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9d7cc776149eb0c5fbe03152a9b41a19bf129e414cf1e06eeeb20a837781886f
+size 16468
diff --git a/checkpoint-4/rng_state_23.pth b/checkpoint-4/rng_state_23.pth
new file mode 100644
index 0000000000000000000000000000000000000000..177fb79ced6612123642b3a2a310c9b46dc60348
--- /dev/null
+++ b/checkpoint-4/rng_state_23.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:79d8ee79ee2b5a8d9a84d34e05878476b7e3462a398309ff3d44b25c4c56cdb9
+size 16468
diff --git a/checkpoint-4/trainer_state.json b/checkpoint-4/trainer_state.json
index f595f5961ff8df694c28b2d941589615801e0294..b95d617400d7530f7b064a18f7bc7cdc945a2aef 100644
--- a/checkpoint-4/trainer_state.json
+++ b/checkpoint-4/trainer_state.json
@@ -1,4 +1,5 @@
 {
+  "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 0.8421052631578947,
@@ -6,7 +7,7 @@
   "global_step": 4,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
+      "train_speed(iter/s)": 0.000466
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
@@ -44,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -60,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     }
diff --git a/checkpoint-4/training_args.bin b/checkpoint-4/training_args.bin
index a5c75ad76398d7f403ccc1a74c463d2dab6465ca..db6dc02fc187938d09e0a6626a08092ad8f42c54 100644
--- a/checkpoint-4/training_args.bin
+++ b/checkpoint-4/training_args.bin
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809
diff --git a/checkpoint-6/adapter_config.json b/checkpoint-6/adapter_config.json
index 3f8d06e83be137d4af154849ed1686625c42e280..9a6753254d3cb15865ffb290b9553d85b57dac9a 100644
--- a/checkpoint-6/adapter_config.json
+++ b/checkpoint-6/adapter_config.json
@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],
diff --git a/checkpoint-6/global_step6/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt b/checkpoint-6/global_step6/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..fb787697ca1cdaa5230ee9ad13df89de239a90cf
--- /dev/null
+++ b/checkpoint-6/global_step6/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:07d9624ba90e2f061448e84630802c7a4ca49b95f5b72512c8c3393da1cba617
+size 51616527
diff --git a/checkpoint-6/global_step6/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt b/checkpoint-6/global_step6/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..42e3d2376b43137f5358c2d932665b70f2b4155c
--- /dev/null
+++ b/checkpoint-6/global_step6/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b465ca8c70fa39d2bd16397c3d3c25de55fded28a22e8f51d7f3c0ef6a0474de
+size 51616015
diff --git a/checkpoint-6/global_step6/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt b/checkpoint-6/global_step6/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..4f36c41cb332cdcea5930bc29afcdd1491c6ca09
--- /dev/null
+++ b/checkpoint-6/global_step6/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dd0a531dbc6b9c08ed742882677306205993501ae5c645d5e4fb3af2ee322ffc
+size 51616527
diff --git a/checkpoint-6/global_step6/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt b/checkpoint-6/global_step6/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..ba6e28e670ec01282edfa80c0064e29fd4d82b86
--- /dev/null
+++ b/checkpoint-6/global_step6/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e080ea55834ef67ce59eb5f1d6c3bfeb6cf7521bd764b5c4f94970544b89087b
+size 51616015
diff --git a/checkpoint-6/global_step6/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt b/checkpoint-6/global_step6/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..273b77a607f2a99674494bfee52dac6b2fd6b43b
--- /dev/null
+++ b/checkpoint-6/global_step6/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:74738cee329deabf461ffca2e54ed2a07b319dc88c8c052e0984df899d174c63
+size 51616527
diff --git a/checkpoint-6/global_step6/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt b/checkpoint-6/global_step6/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..4c0d6f36d296164c12dca1e83368ec35e2212040
--- /dev/null
+++ b/checkpoint-6/global_step6/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:48b8255fdecc2e92d9ecb59dd948da1fc19b8f3ca18a39e9fd1d25023aed1af4
+size 51616015
diff --git a/checkpoint-6/global_step6/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt b/checkpoint-6/global_step6/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..59c284647d28ed34564fb1f0e56a567d4b9f38ad
--- /dev/null
+++ b/checkpoint-6/global_step6/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:38e47272345d35b7e771c765a94f44b45b29ff0823a522c4cedb78d3822df67f
+size 51616527
diff --git a/checkpoint-6/global_step6/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt b/checkpoint-6/global_step6/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..f1d6752be7fcff7cb45ed18809d7e1e7d3c0f320
--- /dev/null
+++ b/checkpoint-6/global_step6/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:84429f51f402f142768fe65cde1a635c02f04b66b9b02a06db0834b23f6a69d3
+size 51616015
diff --git a/checkpoint-6/rng_state_16.pth b/checkpoint-6/rng_state_16.pth
new file mode 100644
index 0000000000000000000000000000000000000000..4b522e0e7fb8f9e7156f8e78731f4e4e7767b1e9
--- /dev/null
+++ b/checkpoint-6/rng_state_16.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e6241178ab53cfe776491e7a45783b43c60362723567eb2466d53e2967f3fcaf
+size 16404
diff --git a/checkpoint-6/rng_state_17.pth b/checkpoint-6/rng_state_17.pth
new file mode 100644
index 0000000000000000000000000000000000000000..d206c1767d6c9d9dff245510c4c8cb70585482d8
--- /dev/null
+++ b/checkpoint-6/rng_state_17.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8cc526a23e21b69ef09a8b715d06d2316a8c607a6da122c0cfcada2c4c347fd6
+size 16404
diff --git a/checkpoint-6/rng_state_18.pth b/checkpoint-6/rng_state_18.pth
new file mode 100644
index 0000000000000000000000000000000000000000..b1e9a9eb126e1f52c7f7ce2f2cec70af72bfc021
--- /dev/null
+++ b/checkpoint-6/rng_state_18.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9c0c770050f3fed2d7b9bcd3ec124b0cddc0385e1b24c538a1693ac8aa8b3c05
+size 16404
diff --git a/checkpoint-6/rng_state_19.pth b/checkpoint-6/rng_state_19.pth
new file mode 100644
index 0000000000000000000000000000000000000000..4a5f0c86f82b9e22601e99ae7251eb45317377aa
--- /dev/null
+++ b/checkpoint-6/rng_state_19.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:421d62ceaf31b7efe7436acf3692bf00f5a04e57808011d90a032add9b10b3b1
+size 16340
diff --git a/checkpoint-6/rng_state_20.pth b/checkpoint-6/rng_state_20.pth
new file mode 100644
index 0000000000000000000000000000000000000000..ec94bb648006a40944bb873f73aefb588e47f7de
--- /dev/null
+++ b/checkpoint-6/rng_state_20.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0a49b181748fb24ebe9d45c4eefc825e1d1b970442be093ead245389da711ed0
+size 16340
diff --git a/checkpoint-6/rng_state_21.pth b/checkpoint-6/rng_state_21.pth
new file mode 100644
index 0000000000000000000000000000000000000000..a5e1e1ebbb368eb47bc94cb813be0c3f9cbf7026
--- /dev/null
+++ b/checkpoint-6/rng_state_21.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:893a2635db765cb93de61e42f1b253b6842708b062239eb2f9c3ebff56b1a30f
+size 16340
diff --git a/checkpoint-6/rng_state_22.pth b/checkpoint-6/rng_state_22.pth
new file mode 100644
index 0000000000000000000000000000000000000000..487e4388cbff4595b1ec5864b9eba86be32d2ab8
--- /dev/null
+++ b/checkpoint-6/rng_state_22.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4f578a0534049b4093879f360fb13c8a6e224f49ce593430c2a6faf1982ecadb
+size 16468
diff --git a/checkpoint-6/rng_state_23.pth b/checkpoint-6/rng_state_23.pth
new file mode 100644
index 0000000000000000000000000000000000000000..8206f831b7529c78d2f8a2d54c873bbaf9cc2cd8
--- /dev/null
+++ b/checkpoint-6/rng_state_23.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:680b1e049b5325d5d05e05829875eedc3e7b0063c30f8785aa60e60d8eb7041b
+size 16468
diff --git a/checkpoint-6/trainer_state.json b/checkpoint-6/trainer_state.json
index 3667b41328b83c70faf4e00796621b5ccfe72baf..d4540222f113714a1953b0e161b891639c52298f 100644
--- a/checkpoint-6/trainer_state.json
+++ b/checkpoint-6/trainer_state.json
@@ -1,4 +1,5 @@
 {
+  "best_global_step": 6,
   "best_metric": 0.012996690347790718,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-6",
   "epoch": 1.4210526315789473,
@@ -6,7 +7,7 @@
   "global_step": 6,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
+      "train_speed(iter/s)": 0.000466
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
@@ -44,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -60,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -72,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -86,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
@@ -101,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1127,
+      "eval_runtime": 1030.1126,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
diff --git a/checkpoint-6/training_args.bin b/checkpoint-6/training_args.bin
index a5c75ad76398d7f403ccc1a74c463d2dab6465ca..db6dc02fc187938d09e0a6626a08092ad8f42c54 100644
--- a/checkpoint-6/training_args.bin
+++ b/checkpoint-6/training_args.bin
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809
diff --git a/checkpoint-8/adapter_config.json b/checkpoint-8/adapter_config.json
index 3f8d06e83be137d4af154849ed1686625c42e280..9a6753254d3cb15865ffb290b9553d85b57dac9a 100644
--- a/checkpoint-8/adapter_config.json
+++ b/checkpoint-8/adapter_config.json
@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],
diff --git a/checkpoint-8/global_step8/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt b/checkpoint-8/global_step8/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..6ce9d7922f55d99425b39d32bd81d9b16d6bce81
--- /dev/null
+++ b/checkpoint-8/global_step8/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0a46696404569075c52a1390680400ac47f16cbc1ef5e45b5f65d89b049b5a72
+size 51616527
diff --git a/checkpoint-8/global_step8/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt b/checkpoint-8/global_step8/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..c661b0d7192549aae09736e853e20ec55f03d6a0
--- /dev/null
+++ b/checkpoint-8/global_step8/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:11cbc9306ce969b0e8db99125e7894147964c9e39e4163a0a05b83c1418897cb
+size 51616015
diff --git a/checkpoint-8/global_step8/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt b/checkpoint-8/global_step8/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..c69f7f414ecfde2ecdbfad670acfb170c27785c0
--- /dev/null
+++ b/checkpoint-8/global_step8/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b5671049c27f68f645a58c07e1588bac40416d2049aa5996382bbe9c24b169a8
+size 51616527
diff --git a/checkpoint-8/global_step8/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt b/checkpoint-8/global_step8/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..95955b2858b23281b47ac0fda643bce7b58c42e3
--- /dev/null
+++ b/checkpoint-8/global_step8/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1722a0a0cb72a8441a0d8976ab5d59f231417b58d09336cdcf7cdd0a0ba9ceb9
+size 51616015
diff --git a/checkpoint-8/global_step8/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt b/checkpoint-8/global_step8/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..c23461a7ce40339442a1021542085ccc697c5828
--- /dev/null
+++ b/checkpoint-8/global_step8/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:710167cd08843e9c58ebc40c8460e5e22e37bb6bbb4bac60738353baff8463b4
+size 51616527
diff --git a/checkpoint-8/global_step8/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt b/checkpoint-8/global_step8/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..322169544f8f38d5491e234c08a2d664491a2974
--- /dev/null
+++ b/checkpoint-8/global_step8/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9430d08374d45a2064983007258c4218a319b4a977c5cafb5bcea8f624206a3f
+size 51616015
diff --git a/checkpoint-8/global_step8/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt b/checkpoint-8/global_step8/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..f6f4dcd914d98e893935e52ba905557927c7e512
--- /dev/null
+++ b/checkpoint-8/global_step8/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:efb9373226051c55a56a31ff64a47662fdf258315416691c9fbfd778cd4d232c
+size 51616527
diff --git a/checkpoint-8/global_step8/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt b/checkpoint-8/global_step8/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..afd90548623cb5a4b9bbe55b143cfec97d985020
--- /dev/null
+++ b/checkpoint-8/global_step8/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:716016e7ec8a7cdf054edc98aa66e92a83da95ba72de5def3ba20a61d937fed1
+size 51616015
diff --git a/checkpoint-8/rng_state_16.pth b/checkpoint-8/rng_state_16.pth
new file mode 100644
index 0000000000000000000000000000000000000000..7f80d8ab18f1120dadb5e4dd9ff8580dbdd0ed11
--- /dev/null
+++ b/checkpoint-8/rng_state_16.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1ab85419d2c3980ac9b3fce97163eaeb2ec95f55d75e4756afb000d5b75ff143
+size 16404
diff --git a/checkpoint-8/rng_state_17.pth b/checkpoint-8/rng_state_17.pth
new file mode 100644
index 0000000000000000000000000000000000000000..1b16ae4c50aa04e5e84e46b862032aa10f2a2393
--- /dev/null
+++ b/checkpoint-8/rng_state_17.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:436017d69ae9e2dc64c92c07e8f9c944f779afc47972127ac148f48b28e2c37a
+size 16404
diff --git a/checkpoint-8/rng_state_18.pth b/checkpoint-8/rng_state_18.pth
new file mode 100644
index 0000000000000000000000000000000000000000..b07ea3b2cb57fd947558b8223a476365b102c914
--- /dev/null
+++ b/checkpoint-8/rng_state_18.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d21cab9ae4ae460f64f0bec08b4591f96ea1e7634555686854d26e0e026b74de
+size 16404
diff --git a/checkpoint-8/rng_state_19.pth b/checkpoint-8/rng_state_19.pth
new file mode 100644
index 0000000000000000000000000000000000000000..c37f379f1f1965766d1af7eee438dfc5f9fd89b9
--- /dev/null
+++ b/checkpoint-8/rng_state_19.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5abe4580a7de46d59a23ea90d570c54d98a0ec13ddbb30730016d13b92da4d31
+size 16340
diff --git a/checkpoint-8/rng_state_20.pth b/checkpoint-8/rng_state_20.pth
new file mode 100644
index 0000000000000000000000000000000000000000..83ab2d781c9faa53f8aed2b0a2dca0d581e593f8
--- /dev/null
+++ b/checkpoint-8/rng_state_20.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a88952e0460773624545b654d7b02f940221d83368a969c95bcdd6136863e7b6
+size 16340
diff --git a/checkpoint-8/rng_state_21.pth b/checkpoint-8/rng_state_21.pth
new file mode 100644
index 0000000000000000000000000000000000000000..fe47f080063c5feb69ba335c630e8f7ee577151a
--- /dev/null
+++ b/checkpoint-8/rng_state_21.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b15b54dcb3a81971f04738266e193702704ced34ccea16a137eaa5b83f1bfd6b
+size 16340
diff --git a/checkpoint-8/rng_state_22.pth b/checkpoint-8/rng_state_22.pth
new file mode 100644
index 0000000000000000000000000000000000000000..a912e2b3fbc783c0057951303aa97b0d3af01fb3
--- /dev/null
+++ b/checkpoint-8/rng_state_22.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2306b950e4076864d78cdaab7832490ef9f9047ba3769e6c9e704b40cab82d8b
+size 16468
diff --git a/checkpoint-8/rng_state_23.pth b/checkpoint-8/rng_state_23.pth
new file mode 100644
index 0000000000000000000000000000000000000000..baae704d2cca8bd4175be777664f116a5a570d43
--- /dev/null
+++ b/checkpoint-8/rng_state_23.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8158d10af1db4b6a1409efa09f1307f1c1c6a33037df18b3fceecfa985bbfc9f
+size 16468
diff --git a/checkpoint-8/trainer_state.json b/checkpoint-8/trainer_state.json
index 1878466a3ed5546ada8088e46201029d0f48bef5..3a6b398642c37165b24d317105212cefd3a27a22 100644
--- a/checkpoint-8/trainer_state.json
+++ b/checkpoint-8/trainer_state.json
@@ -1,4 +1,5 @@
 {
+  "best_global_step": 6,
   "best_metric": 0.012996690347790718,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-6",
   "epoch": 1.8421052631578947,
@@ -6,7 +7,7 @@
   "global_step": 8,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
+      "train_speed(iter/s)": 0.000466
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
@@ -44,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -60,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -72,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -86,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
@@ -101,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1127,
+      "eval_runtime": 1030.1126,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -114,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -130,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 182.91,
+      "memory(GiB)": 176.98,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     }
diff --git a/checkpoint-8/training_args.bin b/checkpoint-8/training_args.bin
index a5c75ad76398d7f403ccc1a74c463d2dab6465ca..db6dc02fc187938d09e0a6626a08092ad8f42c54 100644
--- a/checkpoint-8/training_args.bin
+++ b/checkpoint-8/training_args.bin
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809