diff --git a/checkpoint-10/adapter_config.json b/checkpoint-10/adapter_config.json
index 5601e58d3aec7aef62bafb11ddb8a04c414c4f52..ff0f4cc95c39fe3def3378592de89aa4d14e7c68 100644
--- a/checkpoint-10/adapter_config.json
+++ b/checkpoint-10/adapter_config.json
@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "q_proj",
+    "gate_proj",
     "v_proj",
+    "k_proj",
     "up_proj",
-    "gate_proj",
-    "k_proj"
+    "down_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,
diff --git a/checkpoint-10/global_step10/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt b/checkpoint-10/global_step10/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..188e0a77ac87204368319a3994d71c7ac091cb3f
--- /dev/null
+++ b/checkpoint-10/global_step10/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:71abbcfbc1d91034bef919858008f09d982c64723e1a218893620a397a8c295d
+size 51616527
diff --git a/checkpoint-10/global_step10/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt b/checkpoint-10/global_step10/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..25b12b4f4fa1ad09c606badbc140c49b4d58faa0
--- /dev/null
+++ b/checkpoint-10/global_step10/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:83886d6ac740bb9d83d4b87fe96adeb4643f377e851eb098e73f297160c7d9d3
+size 51616015
diff --git a/checkpoint-10/global_step10/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt b/checkpoint-10/global_step10/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..3e729621d7571837cc5585441871436fca531289
--- /dev/null
+++ b/checkpoint-10/global_step10/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:179d5b03aaf5bcbf79ff20cc7f36df26058a6a1a4a05533e7e69a7279dfacdba
+size 51616527
diff --git a/checkpoint-10/global_step10/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt b/checkpoint-10/global_step10/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..b772c7bf328bee12f9eabf3c81d1c4a885a7f6c5
--- /dev/null
+++ b/checkpoint-10/global_step10/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:add54f3213c8b877111f4099a1d78457f9070f13a9094dcb4e7653bb995b7a20
+size 51616015
diff --git a/checkpoint-10/global_step10/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt b/checkpoint-10/global_step10/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..3bbd032c736ed5646e16397ac59388ad5b485f18
--- /dev/null
+++ b/checkpoint-10/global_step10/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3bd49f629473d2b2c09af335222472a1d5b60d7a227d271e7014f12d9b9aee1e
+size 51616527
diff --git a/checkpoint-10/global_step10/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt b/checkpoint-10/global_step10/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..e67002135594300e11da2c8a2826cc746795357e
--- /dev/null
+++ b/checkpoint-10/global_step10/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:102ac1e28d574e64fe98263d95c22438d89593c5950285c6b1e830f60736ffab
+size 51616015
diff --git a/checkpoint-10/global_step10/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt b/checkpoint-10/global_step10/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..be4212bf8a8ad487349479f7d47e7ff7aa284eed
--- /dev/null
+++ b/checkpoint-10/global_step10/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:25c15c6816382a6305f8b9059be2c57a836d7696c9dd169a5d13dfed758a45b0
+size 51616527
diff --git a/checkpoint-10/global_step10/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt b/checkpoint-10/global_step10/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..e822dbf6222b0b0e32dd61d2bf646fef7d720707
--- /dev/null
+++ b/checkpoint-10/global_step10/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1dd8c280e01b34990d01ca5e91b78639f9af57bc4e9e04e7fab3ffdd8f438f24
+size 51616015
diff --git a/checkpoint-10/rng_state_24.pth b/checkpoint-10/rng_state_24.pth
new file mode 100644
index 0000000000000000000000000000000000000000..944a811ff9e8d75687de896fe905f9fa13dd8c6d
--- /dev/null
+++ b/checkpoint-10/rng_state_24.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6de215273d87a18853a3f6d61d4ea2772d0ea0fc1cd40780b56559ffef7a5381
+size 16340
diff --git a/checkpoint-10/rng_state_25.pth b/checkpoint-10/rng_state_25.pth
new file mode 100644
index 0000000000000000000000000000000000000000..eab17acd4eb1118119f6649c86f7b81c9c0f2f12
--- /dev/null
+++ b/checkpoint-10/rng_state_25.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e690d832f31274be09cfd78854848c40cfdcdc026fbab9205d325e4a231d4ebb
+size 16340
diff --git a/checkpoint-10/rng_state_26.pth b/checkpoint-10/rng_state_26.pth
new file mode 100644
index 0000000000000000000000000000000000000000..7858ae7ec7b5bc7155c15b55f84ddbec081549d0
--- /dev/null
+++ b/checkpoint-10/rng_state_26.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:94de4917f0fe3a8f493274bc6e589ddc8fa928aee05177a9c7aab840caf3e610
+size 16404
diff --git a/checkpoint-10/rng_state_27.pth b/checkpoint-10/rng_state_27.pth
new file mode 100644
index 0000000000000000000000000000000000000000..25201055f56cdfa087a7c749f4a091552a264ea9
--- /dev/null
+++ b/checkpoint-10/rng_state_27.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ebc562feb7cecf6e3c157442a4e8bc340e3346a6c73928ae239b0b5be6721e98
+size 16404
diff --git a/checkpoint-10/rng_state_28.pth b/checkpoint-10/rng_state_28.pth
new file mode 100644
index 0000000000000000000000000000000000000000..50cfd79c31caafcc940a78e17747a4390158a3f5
--- /dev/null
+++ b/checkpoint-10/rng_state_28.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:49aa4273cffe5e146f520147f34d7430e3131b34109e5cd4adfba158a0427f23
+size 16404
diff --git a/checkpoint-10/rng_state_29.pth b/checkpoint-10/rng_state_29.pth
new file mode 100644
index 0000000000000000000000000000000000000000..bdef74d1945b3f1d3e266c564c3f02f469cecc5f
--- /dev/null
+++ b/checkpoint-10/rng_state_29.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:689f2f1de740cd7ac2ce1d8a93e7c129f63ccf2c5e16724bf7958f096b259a5d
+size 16340
diff --git a/checkpoint-10/rng_state_30.pth b/checkpoint-10/rng_state_30.pth
new file mode 100644
index 0000000000000000000000000000000000000000..cf5f72afaa5eb501e2be3a3991eacb4502f3907e
--- /dev/null
+++ b/checkpoint-10/rng_state_30.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8493cc7e1e56e19baaff651bb138b4536553d0fdd90351cb2b307080d4142d50
+size 16468
diff --git a/checkpoint-10/rng_state_31.pth b/checkpoint-10/rng_state_31.pth
new file mode 100644
index 0000000000000000000000000000000000000000..e06b85b40d30486ebd3a967efd864ab4ddb7d60c
--- /dev/null
+++ b/checkpoint-10/rng_state_31.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:15de90d412c8478ebd5e3119ab22306436b93749e32be50237ba8d59f51b6185
+size 16340
diff --git a/checkpoint-10/trainer_state.json b/checkpoint-10/trainer_state.json
index 0d8d96672052972cd01d7af2ed175e36d6f9d5e0..5a79924b2d245a8abca9496ead30bfe57b2b71eb 100644
--- a/checkpoint-10/trainer_state.json
+++ b/checkpoint-10/trainer_state.json
@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 6,
-      "train_speed(iter/s)": 0.000458
+      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1223,
+      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     }
diff --git a/checkpoint-10/training_args.bin b/checkpoint-10/training_args.bin
index 642b9465d1983574a63f0a9f23bf7996bf8a7eda..f36a7dd9bdc6cb2a2d931801db92f6b3a1142a0b 100644
--- a/checkpoint-10/training_args.bin
+++ b/checkpoint-10/training_args.bin
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
+oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809
diff --git a/checkpoint-12/adapter_config.json b/checkpoint-12/adapter_config.json
index 5601e58d3aec7aef62bafb11ddb8a04c414c4f52..ff0f4cc95c39fe3def3378592de89aa4d14e7c68 100644
--- a/checkpoint-12/adapter_config.json
+++ b/checkpoint-12/adapter_config.json
@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "q_proj",
+    "gate_proj",
     "v_proj",
+    "k_proj",
     "up_proj",
-    "gate_proj",
-    "k_proj"
+    "down_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,
diff --git a/checkpoint-12/global_step12/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt b/checkpoint-12/global_step12/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..81e57e004a4c652c8bae9faed14dd8184c4de902
--- /dev/null
+++ b/checkpoint-12/global_step12/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2921a649d4d836a585641dcd22939ac37dc9e0c9d0370a4e10c8e83179d1b4a2
+size 51616527
diff --git a/checkpoint-12/global_step12/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt b/checkpoint-12/global_step12/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..ede62e2a04d42257d28bfc775c0bfc7c6017030b
--- /dev/null
+++ b/checkpoint-12/global_step12/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:165bbaaf90b2562e316b6b96a1930fc31d8c519e2c106a13f35fd53eb318ad95
+size 51616015
diff --git a/checkpoint-12/global_step12/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt b/checkpoint-12/global_step12/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..2efa466b847cc9ad763339dd7bf8eb6d0b619d5e
--- /dev/null
+++ b/checkpoint-12/global_step12/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9326905b7b4f1404ae39d29fed6a682af03fa4051190b952f5769b819276db9e
+size 51616527
diff --git a/checkpoint-12/global_step12/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt b/checkpoint-12/global_step12/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..6b46355af4a74affee849d6dd38d6df5753bd9ef
--- /dev/null
+++ b/checkpoint-12/global_step12/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d0a202e9c0189a536f8f1ba2d8c65cd8b810b93c5fb9ff0f3d7b3d3187aeaec1
+size 51616015
diff --git a/checkpoint-12/global_step12/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt b/checkpoint-12/global_step12/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..3344bfd0beb2cff81a3b34025d9c37e8405c131d
--- /dev/null
+++ b/checkpoint-12/global_step12/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c21dda723beba3d3c3e1cf386b22d8135eae02f179b7e1203b964df70485eb70
+size 51616527
diff --git a/checkpoint-12/global_step12/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt b/checkpoint-12/global_step12/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..06eb3eda38f3369da0f78447b1c164524eab7e8c
--- /dev/null
+++ b/checkpoint-12/global_step12/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8e0fa132ab4bc4fb3a7fad138392ccce8eb68d17939ddda2401780f51a290964
+size 51616015
diff --git a/checkpoint-12/global_step12/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt b/checkpoint-12/global_step12/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..c8f7433ca27ae65440eafbe43b75f46f7023537e
--- /dev/null
+++ b/checkpoint-12/global_step12/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:88060c8357bd6875f498f9f37c20c6bb741294d03e9edd521f3d42ab81b0f759
+size 51616527
diff --git a/checkpoint-12/global_step12/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt b/checkpoint-12/global_step12/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..156169168243ab6954de9ef0513e076476cb92a3
--- /dev/null
+++ b/checkpoint-12/global_step12/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:29ab812e726cb366bb8b9b87f696c3b240c440803e24ab8a7217bbe836277700
+size 51616015
diff --git a/checkpoint-12/rng_state_24.pth b/checkpoint-12/rng_state_24.pth
new file mode 100644
index 0000000000000000000000000000000000000000..42a5de466392c30a479f9a4955ee7b93aefb0829
--- /dev/null
+++ b/checkpoint-12/rng_state_24.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4348c196f860de52942de2749ad741d5e57abaccaae216b023ead5fab6a12571
+size 16340
diff --git a/checkpoint-12/rng_state_25.pth b/checkpoint-12/rng_state_25.pth
new file mode 100644
index 0000000000000000000000000000000000000000..ff205eea159b0d4d3fe749f58e8f80f7c161cab8
--- /dev/null
+++ b/checkpoint-12/rng_state_25.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5cc2b2852efd811ec7d57f8ccc47c563842e50250fd34a97b672228e1a367e15
+size 16340
diff --git a/checkpoint-12/rng_state_26.pth b/checkpoint-12/rng_state_26.pth
new file mode 100644
index 0000000000000000000000000000000000000000..d184c96e0b488895395f93a5a54aea969ed2a3da
--- /dev/null
+++ b/checkpoint-12/rng_state_26.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:52f96369c5de4d7f6e142789cc18b82f7b4992764d47865f431a6d8b81f8a53a
+size 16404
diff --git a/checkpoint-12/rng_state_27.pth b/checkpoint-12/rng_state_27.pth
new file mode 100644
index 0000000000000000000000000000000000000000..36dd45b52060b288f2ca63f85667f71fe5ee70e6
--- /dev/null
+++ b/checkpoint-12/rng_state_27.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a343ecdf54d9ce1440155a0fa10c1c0c3f65314996617365f0a60ed936c9032c
+size 16404
diff --git a/checkpoint-12/rng_state_28.pth b/checkpoint-12/rng_state_28.pth
new file mode 100644
index 0000000000000000000000000000000000000000..988387771dd599974f696dd3c3bba7afad5dedac
--- /dev/null
+++ b/checkpoint-12/rng_state_28.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c4f84c89e31507050e75cba6f0110214f94a62a4ec0cc9addf80b8771909a5da
+size 16404
diff --git a/checkpoint-12/rng_state_29.pth b/checkpoint-12/rng_state_29.pth
new file mode 100644
index 0000000000000000000000000000000000000000..373a3562aeff5c65e3ea6a94b3a09c88be73467b
--- /dev/null
+++ b/checkpoint-12/rng_state_29.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:53b5a1e6aa1c88d2d75f038abf2ebaff82c20105adaffdb30527363dc9e2e714
+size 16340
diff --git a/checkpoint-12/rng_state_30.pth b/checkpoint-12/rng_state_30.pth
new file mode 100644
index 0000000000000000000000000000000000000000..a8c8d8a89f404083e90b54d9dd05fa3dd4b742d6
--- /dev/null
+++ b/checkpoint-12/rng_state_30.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f1eafe1cd2a9dea56bdbf5460daeb214954a443a45c8ba110d9835802604ca8a
+size 16468
diff --git a/checkpoint-12/rng_state_31.pth b/checkpoint-12/rng_state_31.pth
new file mode 100644
index 0000000000000000000000000000000000000000..c6043090b009c3249fdd58862f55765a51304622
--- /dev/null
+++ b/checkpoint-12/rng_state_31.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a68f3fa20f9955083f4b614e60109fd310fe33b3f03e641323dff4f15af2ee13
+size 16340
diff --git a/checkpoint-12/trainer_state.json b/checkpoint-12/trainer_state.json
index e2fc6f34722a82aeb5916c74ff2a4a44a712399b..e881a9a8919b536e9e280ccff4f8b90228fbfebb 100644
--- a/checkpoint-12/trainer_state.json
+++ b/checkpoint-12/trainer_state.json
@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 6,
-      "train_speed(iter/s)": 0.000458
+      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1223,
+      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -171,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -185,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -200,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9045,
+      "eval_runtime": 1025.9053,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
diff --git a/checkpoint-12/training_args.bin b/checkpoint-12/training_args.bin
index 642b9465d1983574a63f0a9f23bf7996bf8a7eda..f36a7dd9bdc6cb2a2d931801db92f6b3a1142a0b 100644
--- a/checkpoint-12/training_args.bin
+++ b/checkpoint-12/training_args.bin
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
+oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809
diff --git a/checkpoint-14/adapter_config.json b/checkpoint-14/adapter_config.json
index 5601e58d3aec7aef62bafb11ddb8a04c414c4f52..ff0f4cc95c39fe3def3378592de89aa4d14e7c68 100644
--- a/checkpoint-14/adapter_config.json
+++ b/checkpoint-14/adapter_config.json
@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "q_proj",
+    "gate_proj",
     "v_proj",
+    "k_proj",
     "up_proj",
-    "gate_proj",
-    "k_proj"
+    "down_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,
diff --git a/checkpoint-14/global_step14/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt b/checkpoint-14/global_step14/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..9945ea7910c80af9c68c236e6322af920418734e
--- /dev/null
+++ b/checkpoint-14/global_step14/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6da2f27fd4ab44feff8b85b8d6d02565abf211cd22247778427d57fb2a9945b1
+size 51616527
diff --git a/checkpoint-14/global_step14/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt b/checkpoint-14/global_step14/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..b6790602c8fce118bef720f756c7a94aa3cc0a9b
--- /dev/null
+++ b/checkpoint-14/global_step14/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cdccca4eb69bb1e478f34a2942e1a8890c53f490e6a933224cc41d8c12615b1b
+size 51616015
diff --git a/checkpoint-14/global_step14/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt b/checkpoint-14/global_step14/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..abd094cf1cfc82b3a09fac8a824354e0b9bee9fc
--- /dev/null
+++ b/checkpoint-14/global_step14/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0f3328f2c8971a0a11ef3eb7383a0050f44126ec59cb35fabbf5a939d5714f19
+size 51616527
diff --git a/checkpoint-14/global_step14/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt b/checkpoint-14/global_step14/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..85c543c49ec76016fad9094f9e3bc1d361151f4e
--- /dev/null
+++ b/checkpoint-14/global_step14/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8222c0bf57d6697f585f1a91b18ae04f641d86d076069f34b224d736aa28cb3d
+size 51616015
diff --git a/checkpoint-14/global_step14/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt b/checkpoint-14/global_step14/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..b5764f433f2bb17ef442e2a1d65b257df1a87b51
--- /dev/null
+++ b/checkpoint-14/global_step14/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:26960f3cb2f32d7ed2b2393dfc661cb4c8a45577ed75f218c59fc4ee2a313b12
+size 51616527
diff --git a/checkpoint-14/global_step14/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt b/checkpoint-14/global_step14/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..481d98e47fba693d014f841382c228858eb0797d
--- /dev/null
+++ b/checkpoint-14/global_step14/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9d995e9ce3b2c00b9730697ef0fdcaccfd15fbd642baca7c325641aba31e1bfe
+size 51616015
diff --git a/checkpoint-14/global_step14/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt b/checkpoint-14/global_step14/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..f13577216b115367a24568cf482a9e0645651af7
--- /dev/null
+++ b/checkpoint-14/global_step14/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:945e02bfb5bc5a91fe224606519a25d739d8217113a5956a27d000473c9debdf
+size 51616527
diff --git a/checkpoint-14/global_step14/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt b/checkpoint-14/global_step14/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..b118c44c83b5ab536559a77a87103375ebdf5e4f
--- /dev/null
+++ b/checkpoint-14/global_step14/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a53d07205f8ab28e533dccdcb73817c98ac455bc1388d40e3277ac277ed89761
+size 51616015
diff --git a/checkpoint-14/rng_state_24.pth b/checkpoint-14/rng_state_24.pth
new file mode 100644
index 0000000000000000000000000000000000000000..ffe685126c32fa7c7be54af711943e7f689707c6
--- /dev/null
+++ b/checkpoint-14/rng_state_24.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1ae0caca66644ba08044a94994e20548b0daa2c672adcbea3cd89870f9b6c7b8
+size 16340
diff --git a/checkpoint-14/rng_state_25.pth b/checkpoint-14/rng_state_25.pth
new file mode 100644
index 0000000000000000000000000000000000000000..6a13ed41e4619a24ad81e0e2fce1b58ac0adaaa9
--- /dev/null
+++ b/checkpoint-14/rng_state_25.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:aca46251807a6ae3597de2fc152227ad87800f1b7618974b146a86626c826e3b
+size 16340
diff --git a/checkpoint-14/rng_state_26.pth b/checkpoint-14/rng_state_26.pth
new file mode 100644
index 0000000000000000000000000000000000000000..d2503f91a5f7a460457d55c48a512661090d34d8
--- /dev/null
+++ b/checkpoint-14/rng_state_26.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5c1012021531d2e3961abb5fc01b81fe28951ea9c4efbd436ab3505893bfa5e2
+size 16404
diff --git a/checkpoint-14/rng_state_27.pth b/checkpoint-14/rng_state_27.pth
new file mode 100644
index 0000000000000000000000000000000000000000..95b165d6006af9b5a8ddc1f8c3abfde464ef0e81
--- /dev/null
+++ b/checkpoint-14/rng_state_27.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:98ef23adf34de2f6b475b1d54daed201eff67fc3a292076c3357b5a186b05167
+size 16404
diff --git a/checkpoint-14/rng_state_28.pth b/checkpoint-14/rng_state_28.pth
new file mode 100644
index 0000000000000000000000000000000000000000..c04220bfc9b18cafbdf2f1b3d822ced60ca90afe
--- /dev/null
+++ b/checkpoint-14/rng_state_28.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5bdeac20c7fc1dc8be35450cfe9c9bd436a5b2e4f9e3ade131e70c8443d36ad0
+size 16404
diff --git a/checkpoint-14/rng_state_29.pth b/checkpoint-14/rng_state_29.pth
new file mode 100644
index 0000000000000000000000000000000000000000..be5bd172c32bd38fccf0aaf9c3bc5154113f3d32
--- /dev/null
+++ b/checkpoint-14/rng_state_29.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:10e477266be9015d765f6dc7cb009c771936ad9a2ab94c4d360a35b15daf671a
+size 16340
diff --git a/checkpoint-14/rng_state_30.pth b/checkpoint-14/rng_state_30.pth
new file mode 100644
index 0000000000000000000000000000000000000000..ae612e48f21c301984587f156e642e20aa998521
--- /dev/null
+++ b/checkpoint-14/rng_state_30.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:73d81dcab50a6bd1c399c62d4aa6e69b1434ad4b3f153a92cee394da83518818
+size 16468
diff --git a/checkpoint-14/rng_state_31.pth b/checkpoint-14/rng_state_31.pth
new file mode 100644
index 0000000000000000000000000000000000000000..d4c7a2d413b97152a06d9b671d1cdd618510f93f
--- /dev/null
+++ b/checkpoint-14/rng_state_31.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:498a2f339c8c2890c2d57dfeb7bed8127b0360fe7882cadbcb1db42fd97d816e
+size 16340
diff --git a/checkpoint-14/trainer_state.json b/checkpoint-14/trainer_state.json
index bc72987d815f3ee4b46df1bd1a0e97cfd6670b2f..88fbf9becfb5d669da763a3d0ad753433363ad56 100644
--- a/checkpoint-14/trainer_state.json
+++ b/checkpoint-14/trainer_state.json
@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 6,
-      "train_speed(iter/s)": 0.000458
+      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1223,
+      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -171,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -185,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -200,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9045,
+      "eval_runtime": 1025.9053,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -213,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -229,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     }
diff --git a/checkpoint-14/training_args.bin b/checkpoint-14/training_args.bin
index 642b9465d1983574a63f0a9f23bf7996bf8a7eda..f36a7dd9bdc6cb2a2d931801db92f6b3a1142a0b 100644
--- a/checkpoint-14/training_args.bin
+++ b/checkpoint-14/training_args.bin
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
+oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809
diff --git a/checkpoint-16/adapter_config.json b/checkpoint-16/adapter_config.json
index 5601e58d3aec7aef62bafb11ddb8a04c414c4f52..ff0f4cc95c39fe3def3378592de89aa4d14e7c68 100644
--- a/checkpoint-16/adapter_config.json
+++ b/checkpoint-16/adapter_config.json
@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "q_proj",
+    "gate_proj",
     "v_proj",
+    "k_proj",
     "up_proj",
-    "gate_proj",
-    "k_proj"
+    "down_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,
diff --git a/checkpoint-16/global_step16/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt b/checkpoint-16/global_step16/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..d4c28628f678ffebff2a11e789b4b61e4639f637
--- /dev/null
+++ b/checkpoint-16/global_step16/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a998ae16d6039e52744a4a5fb723c0d3606b0fd97c84389e106814f3013a5d62
+size 51616527
diff --git a/checkpoint-16/global_step16/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt b/checkpoint-16/global_step16/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..d6fa56a7b69b8f3ed8c0d63023e3ce2aedff58e6
--- /dev/null
+++ b/checkpoint-16/global_step16/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:203db06e52033ea60b611b0ac005a2bb7ca608300a0ef11d2b78b860af749a42
+size 51616015
diff --git a/checkpoint-16/global_step16/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt b/checkpoint-16/global_step16/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..cfadbe0cb10cb15365d403f6aa4198a6a84f3b80
--- /dev/null
+++ b/checkpoint-16/global_step16/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:39ba2105970acab7bf7e0aeddfec82faa1f13f2cb19789eb0f9b17185dd47e12
+size 51616527
diff --git a/checkpoint-16/global_step16/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt b/checkpoint-16/global_step16/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..74192f9bd93b0565b2ff01c3c7b98571de6bdd9a
--- /dev/null
+++ b/checkpoint-16/global_step16/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:50631eba5e3112cfee6a2b4cad23962a71d3ad8760a6c9dc30311ca284cc0dac
+size 51616015
diff --git a/checkpoint-16/global_step16/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt b/checkpoint-16/global_step16/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..9b4e9cd1a126dc0da9e0688d0cc051094eb9a44a
--- /dev/null
+++ b/checkpoint-16/global_step16/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ad8099b0e4348fe3692db54d850b2a332bf60117d25efbd3dcaf182e85db16f3
+size 51616527
diff --git a/checkpoint-16/global_step16/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt b/checkpoint-16/global_step16/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..91300819baf6095b1ca37c2475fe18bcb9f814c3
--- /dev/null
+++ b/checkpoint-16/global_step16/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:29691f9be3870ed46d38415c3ce8c7d6569c2107a9c33267c3242ff89343e453
+size 51616015
diff --git a/checkpoint-16/global_step16/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt b/checkpoint-16/global_step16/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..4fa54e9ebaeef72ff4f44a0f91c8280d3db5d5d9
--- /dev/null
+++ b/checkpoint-16/global_step16/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9d71d13de6e90ad4ed79d3f9d2a4123e54f6d66c4bdcb8573e360cfd064593cd
+size 51616527
diff --git a/checkpoint-16/global_step16/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt b/checkpoint-16/global_step16/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..b60a0027037cbc2ed6925625cb639a09011733db
--- /dev/null
+++ b/checkpoint-16/global_step16/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:49dfdc341c6e8268ec33c8c08529b59d9de2420bf575afabe58137ce55c2fee9
+size 51616015
diff --git a/checkpoint-16/rng_state_24.pth b/checkpoint-16/rng_state_24.pth
new file mode 100644
index 0000000000000000000000000000000000000000..5de83447da9f4c09b19257ef5eb7ce437afa2b4a
--- /dev/null
+++ b/checkpoint-16/rng_state_24.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:66ac65aeb4d4649999c621464622100ae3e459b7ee3ae912ba1452f5e7c69c47
+size 16340
diff --git a/checkpoint-16/rng_state_25.pth b/checkpoint-16/rng_state_25.pth
new file mode 100644
index 0000000000000000000000000000000000000000..89b50227fb07f7a25b8c43c26e065f7e186d1569
--- /dev/null
+++ b/checkpoint-16/rng_state_25.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6cf66eca302ab519339b2797320acaceb7dfa3bebe30dc3987d469448b9bfe46
+size 16340
diff --git a/checkpoint-16/rng_state_26.pth b/checkpoint-16/rng_state_26.pth
new file mode 100644
index 0000000000000000000000000000000000000000..76fcf3d8cdca23ba419780013ff762fbdec4c917
--- /dev/null
+++ b/checkpoint-16/rng_state_26.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5c0966966c64a84263e0611ebcdb733babcc5c05d380d32f4900dc0caf8b786d
+size 16404
diff --git a/checkpoint-16/rng_state_27.pth b/checkpoint-16/rng_state_27.pth
new file mode 100644
index 0000000000000000000000000000000000000000..3544d3f293d31559a94fc5609e0c38f60a5769f4
--- /dev/null
+++ b/checkpoint-16/rng_state_27.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5b68aabe7c1ae1780e1a27745a5ae38a799c361f506d08916a452d9304cb8644
+size 16404
diff --git a/checkpoint-16/rng_state_28.pth b/checkpoint-16/rng_state_28.pth
new file mode 100644
index 0000000000000000000000000000000000000000..a3fd384e23afa981b98eaafa1601f53d074d3912
--- /dev/null
+++ b/checkpoint-16/rng_state_28.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f8e2a6632ae3931c3f6ce95b946919f7948efbba911855b114e111cc69c9799f
+size 16404
diff --git a/checkpoint-16/rng_state_29.pth b/checkpoint-16/rng_state_29.pth
new file mode 100644
index 0000000000000000000000000000000000000000..053177bbdc4f4e5d154b2697e0e756582df06538
--- /dev/null
+++ b/checkpoint-16/rng_state_29.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bc9496e93e126ec9fd5f3ac2c25e1cef8452e57bc66cb933284cbe3e917e5b61
+size 16340
diff --git a/checkpoint-16/rng_state_30.pth b/checkpoint-16/rng_state_30.pth
new file mode 100644
index 0000000000000000000000000000000000000000..1c0ee48b89d00d62f69436d91db62223f6ed7172
--- /dev/null
+++ b/checkpoint-16/rng_state_30.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7b4079433d15d7755f9f11ead41ff6392e02e7702c8ca0141b4baa3177253fed
+size 16468
diff --git a/checkpoint-16/rng_state_31.pth b/checkpoint-16/rng_state_31.pth
new file mode 100644
index 0000000000000000000000000000000000000000..c9aeecbcd79f5a074392e6871bf9225ecd89b65e
--- /dev/null
+++ b/checkpoint-16/rng_state_31.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:aad6e0b3b99769fd63892936a9564f57108373cf743b8da1829942e515df2061
+size 16340
diff --git a/checkpoint-16/trainer_state.json b/checkpoint-16/trainer_state.json
index 936f05557643f63325a6c93d12f959ac26c3cd7f..05d1f498967f7d2261705218aabc15ae6b24fdbb 100644
--- a/checkpoint-16/trainer_state.json
+++ b/checkpoint-16/trainer_state.json
@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 6,
-      "train_speed(iter/s)": 0.000458
+      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1223,
+      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -171,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -185,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -200,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9045,
+      "eval_runtime": 1025.9053,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -213,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -229,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -241,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -257,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     }
diff --git a/checkpoint-16/training_args.bin b/checkpoint-16/training_args.bin
index 642b9465d1983574a63f0a9f23bf7996bf8a7eda..f36a7dd9bdc6cb2a2d931801db92f6b3a1142a0b 100644
--- a/checkpoint-16/training_args.bin
+++ b/checkpoint-16/training_args.bin
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
+oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809
diff --git a/checkpoint-18/adapter_config.json b/checkpoint-18/adapter_config.json
index 5601e58d3aec7aef62bafb11ddb8a04c414c4f52..ff0f4cc95c39fe3def3378592de89aa4d14e7c68 100644
--- a/checkpoint-18/adapter_config.json
+++ b/checkpoint-18/adapter_config.json
@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "q_proj",
+    "gate_proj",
     "v_proj",
+    "k_proj",
     "up_proj",
-    "gate_proj",
-    "k_proj"
+    "down_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,
diff --git a/checkpoint-18/global_step18/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt b/checkpoint-18/global_step18/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..bc50226ce9162f4c098e89c4022f36dbf30d9bb0
--- /dev/null
+++ b/checkpoint-18/global_step18/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:db5df0bf261f7ac5cd35395d6362d0e0ae65147d109b9eb3574c593a26853bd4
+size 51616527
diff --git a/checkpoint-18/global_step18/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt b/checkpoint-18/global_step18/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..9c388f49afa47aea2545ac2731150ecd53659a43
--- /dev/null
+++ b/checkpoint-18/global_step18/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f09036604f6f47d177a26f6c2045e29a586052e640cec524c3b1b7ade1ee4199
+size 51616015
diff --git a/checkpoint-18/global_step18/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt b/checkpoint-18/global_step18/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..1257d7e2c24be9f9087937ae1ddc507a5df1d0c4
--- /dev/null
+++ b/checkpoint-18/global_step18/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9a89ed7b38f07e0fa6707934d0e5f557ff9e7b32b7034bd3cd28aef4cd321ecc
+size 51616527
diff --git a/checkpoint-18/global_step18/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt b/checkpoint-18/global_step18/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..1adcdc5eafd06d8f560e55f438f96bed7513386f
--- /dev/null
+++ b/checkpoint-18/global_step18/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:397fcb0498c3c9d29bf9a6f43dcf6cdbc4224f1bdcc848fe97192f2011268f26
+size 51616015
diff --git a/checkpoint-18/global_step18/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt b/checkpoint-18/global_step18/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..1b1962e72b7b032a690db83334bfb77b7a8f3fff
--- /dev/null
+++ b/checkpoint-18/global_step18/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:60cd71d87d52051618ddba3e7cf1a1a47fa952141ddf87776f6906cbb500e55c
+size 51616527
diff --git a/checkpoint-18/global_step18/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt b/checkpoint-18/global_step18/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..2b7b640e144ac5770d17da7e29291eb1f6637e30
--- /dev/null
+++ b/checkpoint-18/global_step18/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8b4e33b06bf4e3a4f6580befd1b6c40f2cab8e0ee726fc4be559c8a08db4d4a6
+size 51616015
diff --git a/checkpoint-18/global_step18/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt b/checkpoint-18/global_step18/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..ca3c3bdfd64ab635f7d211980b20519aac622184
--- /dev/null
+++ b/checkpoint-18/global_step18/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7bc576a810fbf0d5f4d2114218b66eb580758886a2f579935d46df5caf89bda5
+size 51616527
diff --git a/checkpoint-18/global_step18/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt b/checkpoint-18/global_step18/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..2382ce9583815bed3b8ec4038ac2cf2b57e4b8e8
--- /dev/null
+++ b/checkpoint-18/global_step18/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:79ee981907862553ed97d7461ae5e0f7d3005d094e37061bbad06a500d440da6
+size 51616015
diff --git a/checkpoint-18/rng_state_24.pth b/checkpoint-18/rng_state_24.pth
new file mode 100644
index 0000000000000000000000000000000000000000..faf8503acc83f5b90ea81d3d328e88861d1d8595
--- /dev/null
+++ b/checkpoint-18/rng_state_24.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3e731b3707febe6dc78fb158d5a41eeb35eaf771ef5ffff58233577f263053d3
+size 16340
diff --git a/checkpoint-18/rng_state_25.pth b/checkpoint-18/rng_state_25.pth
new file mode 100644
index 0000000000000000000000000000000000000000..933cbd323db90b5e56ae38a88a2763295ac9d266
--- /dev/null
+++ b/checkpoint-18/rng_state_25.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3029c9547304f5ca5b30be28edcb04dba7e734640c7cbf5649a27bb01c9eb087
+size 16340
diff --git a/checkpoint-18/rng_state_26.pth b/checkpoint-18/rng_state_26.pth
new file mode 100644
index 0000000000000000000000000000000000000000..768d1bad716d503b032dfa306057e2e487389785
--- /dev/null
+++ b/checkpoint-18/rng_state_26.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:69af9bfa731a6622550009b8d3886d0844a136edb34180083b20b4464195577f
+size 16404
diff --git a/checkpoint-18/rng_state_27.pth b/checkpoint-18/rng_state_27.pth
new file mode 100644
index 0000000000000000000000000000000000000000..0eaeca0e447e04635269fb8ed32dd6d795f391b0
--- /dev/null
+++ b/checkpoint-18/rng_state_27.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ea7b95f965ae6b4669edfc1747ebfc35095fff0ed3a11d59b64edee891235681
+size 16404
diff --git a/checkpoint-18/rng_state_28.pth b/checkpoint-18/rng_state_28.pth
new file mode 100644
index 0000000000000000000000000000000000000000..cff0e83e228d71f249d11bcc6cd67fca98f8ef26
--- /dev/null
+++ b/checkpoint-18/rng_state_28.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ff2836111c73d8267ff24ccb0706f970af6bf9bc40778a493af32b617f5cad21
+size 16404
diff --git a/checkpoint-18/rng_state_29.pth b/checkpoint-18/rng_state_29.pth
new file mode 100644
index 0000000000000000000000000000000000000000..087401c6206da101619cb3b7a3acb6027c43b7d7
--- /dev/null
+++ b/checkpoint-18/rng_state_29.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2ee1056067539765ab156b3c434f5b789449f0e7f03eeee2d76e0d2e53e6f27c
+size 16340
diff --git a/checkpoint-18/rng_state_30.pth b/checkpoint-18/rng_state_30.pth
new file mode 100644
index 0000000000000000000000000000000000000000..89ccee34c72330819bd3669e328e0ba700cc9ff5
--- /dev/null
+++ b/checkpoint-18/rng_state_30.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f0165270b0cc26762adb83ac85793a248eca8154f82cad562e7b87a2d06db41c
+size 16468
diff --git a/checkpoint-18/rng_state_31.pth b/checkpoint-18/rng_state_31.pth
new file mode 100644
index 0000000000000000000000000000000000000000..d33d705d28ec55b87c4d517340e3ce3e6b396c48
--- /dev/null
+++ b/checkpoint-18/rng_state_31.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0f2541dac6753a7ac0a9d87e8abfeec8789413d38fc63411b6ee14a7af070b1e
+size 16340
diff --git a/checkpoint-18/trainer_state.json b/checkpoint-18/trainer_state.json
index 4581e6296e397edb0e50965c1236e116214abdf4..68a886310dcb3a5fdd37c6f6e0a752b3deac1847 100644
--- a/checkpoint-18/trainer_state.json
+++ b/checkpoint-18/trainer_state.json
@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 6,
-      "train_speed(iter/s)": 0.000458
+      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1223,
+      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -171,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -185,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -200,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9045,
+      "eval_runtime": 1025.9053,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -213,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -229,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -241,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -257,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -269,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -283,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -298,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.2321,
+      "eval_runtime": 1041.2277,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
diff --git a/checkpoint-18/training_args.bin b/checkpoint-18/training_args.bin
index 642b9465d1983574a63f0a9f23bf7996bf8a7eda..f36a7dd9bdc6cb2a2d931801db92f6b3a1142a0b 100644
--- a/checkpoint-18/training_args.bin
+++ b/checkpoint-18/training_args.bin
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
+oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809
diff --git a/checkpoint-2/adapter_config.json b/checkpoint-2/adapter_config.json
index 5601e58d3aec7aef62bafb11ddb8a04c414c4f52..ff0f4cc95c39fe3def3378592de89aa4d14e7c68 100644
--- a/checkpoint-2/adapter_config.json
+++ b/checkpoint-2/adapter_config.json
@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "q_proj",
+    "gate_proj",
     "v_proj",
+    "k_proj",
     "up_proj",
-    "gate_proj",
-    "k_proj"
+    "down_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,
diff --git a/checkpoint-2/global_step2/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt b/checkpoint-2/global_step2/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..5675f3bbb0e8065021b5cedc0b0ec603b231dfd4
--- /dev/null
+++ b/checkpoint-2/global_step2/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a3151f69bb194f1a66b181f49294e394bf87f0499c7fae096005a9db0716f3fd
+size 51616527
diff --git a/checkpoint-2/global_step2/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt b/checkpoint-2/global_step2/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..495722259f37f8c2b249923a497984ec825325d7
--- /dev/null
+++ b/checkpoint-2/global_step2/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:749c998f11252c72149e430e125e0ac5d5e6e8e4b30a6abc8280e54477bd5514
+size 51616015
diff --git a/checkpoint-2/global_step2/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt b/checkpoint-2/global_step2/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..8ee4b5fb3f0af0d007b24d8fff363e2756f8cec8
--- /dev/null
+++ b/checkpoint-2/global_step2/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:69fd60f418f8783591c9e5a94c7ca6fdb69d45f1a8613f34efe6f65330db34da
+size 51616527
diff --git a/checkpoint-2/global_step2/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt b/checkpoint-2/global_step2/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..768571842a562eb1787dcc3088bb0e94033b1f65
--- /dev/null
+++ b/checkpoint-2/global_step2/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:791ac4d512325870b2f9157be625fd8ecb8ef45f41a479534778b88d71a792b2
+size 51616015
diff --git a/checkpoint-2/global_step2/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt b/checkpoint-2/global_step2/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..8bcf493ecbfc4092799fe36bb46dc7671dea3749
--- /dev/null
+++ b/checkpoint-2/global_step2/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e57d6817e1bf6ef9e46502b1e1f275768caf943418da5a48edca9bf56c0b7b78
+size 51616527
diff --git a/checkpoint-2/global_step2/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt b/checkpoint-2/global_step2/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..4ed39921b63adbbae392993620ade480a04b0f54
--- /dev/null
+++ b/checkpoint-2/global_step2/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5f724e4f5d5d99bc0916341522a5404f9e06861e41c78d2af03fec01fb5eaf0c
+size 51616015
diff --git a/checkpoint-2/global_step2/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt b/checkpoint-2/global_step2/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..0e3116ebe91654267c845d2074312ef7fdf17094
--- /dev/null
+++ b/checkpoint-2/global_step2/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f03522c1926a06e221f8abba039bb3498e6f3497843f80104936d0def47460cd
+size 51616527
diff --git a/checkpoint-2/global_step2/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt b/checkpoint-2/global_step2/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..bc6482bd63db773fc2ca84c4bd06e4f85302fe44
--- /dev/null
+++ b/checkpoint-2/global_step2/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:56dbe222083031982bc3d3ed47ca9e2884a754cb468a72a153bc096a5af484c6
+size 51616015
diff --git a/checkpoint-2/rng_state_24.pth b/checkpoint-2/rng_state_24.pth
new file mode 100644
index 0000000000000000000000000000000000000000..9eb0480c58874c0a6bceb3367dbfbe5600448951
--- /dev/null
+++ b/checkpoint-2/rng_state_24.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1bae5b085ac6120952890ee78990fec851d163b552a66b05a626a6d36716cbc0
+size 16340
diff --git a/checkpoint-2/rng_state_25.pth b/checkpoint-2/rng_state_25.pth
new file mode 100644
index 0000000000000000000000000000000000000000..99f31d5790bf57298bf1e498778df6a3ba7f9094
--- /dev/null
+++ b/checkpoint-2/rng_state_25.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0a10c9c96230562f8d87c0cf3a4ef7987a5134c0589befcf7b38d7be50671dca
+size 16340
diff --git a/checkpoint-2/rng_state_26.pth b/checkpoint-2/rng_state_26.pth
new file mode 100644
index 0000000000000000000000000000000000000000..f42fa25433579ae432798af0ee8160a227a8d04b
--- /dev/null
+++ b/checkpoint-2/rng_state_26.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:68f369564f0ec78b0aec0790e5a231f1074ee6ce93cab3be326db203aca96dca
+size 16404
diff --git a/checkpoint-2/rng_state_27.pth b/checkpoint-2/rng_state_27.pth
new file mode 100644
index 0000000000000000000000000000000000000000..c6a5a30e1447dfef7021f528c39bd2022852160c
--- /dev/null
+++ b/checkpoint-2/rng_state_27.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:aa7eda81eeaa56824e5e27d78035399c15807cbc50b0dad79dbda98a952f57e5
+size 16404
diff --git a/checkpoint-2/rng_state_28.pth b/checkpoint-2/rng_state_28.pth
new file mode 100644
index 0000000000000000000000000000000000000000..02d9182f065560783b03626d6fc098d1a535b2bc
--- /dev/null
+++ b/checkpoint-2/rng_state_28.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b88a74297d4d5a3c487f709a5f617af423aca83ee71eca350c8939944a3945fb
+size 16404
diff --git a/checkpoint-2/rng_state_29.pth b/checkpoint-2/rng_state_29.pth
new file mode 100644
index 0000000000000000000000000000000000000000..80765161e4ac0529de93c02e30b56185725943a1
--- /dev/null
+++ b/checkpoint-2/rng_state_29.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1b0954498e37b7abe6ba0c454f68f32487abffea7cbc809ac20b6b75aeace29a
+size 16340
diff --git a/checkpoint-2/rng_state_30.pth b/checkpoint-2/rng_state_30.pth
new file mode 100644
index 0000000000000000000000000000000000000000..443ef191ac85afa9fa261da195cdcf3ea7d6c972
--- /dev/null
+++ b/checkpoint-2/rng_state_30.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dc981b97ea5e1e57314b7b6b9927195e8b38e4c05f303d233fdd21bdbe5fe0dd
+size 16468
diff --git a/checkpoint-2/rng_state_31.pth b/checkpoint-2/rng_state_31.pth
new file mode 100644
index 0000000000000000000000000000000000000000..e5325c58c26817e148dc8c3420f23b87bf3368b3
--- /dev/null
+++ b/checkpoint-2/rng_state_31.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ac24804d6a19f0f02068dfc6649090edfc5d040d4d5017ee0e933ce203db88a1
+size 16340
diff --git a/checkpoint-2/trainer_state.json b/checkpoint-2/trainer_state.json
index cc36da2c33e4a28606796c2458a219824cd1bd43..bb52596552917fa1c4d3ad7571620d71c01afb13 100644
--- a/checkpoint-2/trainer_state.json
+++ b/checkpoint-2/trainer_state.json
@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     }
diff --git a/checkpoint-2/training_args.bin b/checkpoint-2/training_args.bin
index 642b9465d1983574a63f0a9f23bf7996bf8a7eda..f36a7dd9bdc6cb2a2d931801db92f6b3a1142a0b 100644
--- a/checkpoint-2/training_args.bin
+++ b/checkpoint-2/training_args.bin
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
+oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809
diff --git a/checkpoint-20/adapter_config.json b/checkpoint-20/adapter_config.json
index 5601e58d3aec7aef62bafb11ddb8a04c414c4f52..ff0f4cc95c39fe3def3378592de89aa4d14e7c68 100644
--- a/checkpoint-20/adapter_config.json
+++ b/checkpoint-20/adapter_config.json
@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "q_proj",
+    "gate_proj",
     "v_proj",
+    "k_proj",
     "up_proj",
-    "gate_proj",
-    "k_proj"
+    "down_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,
diff --git a/checkpoint-20/global_step20/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt b/checkpoint-20/global_step20/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..88a4cc1633599957f583c48fae42a5a84a062f39
--- /dev/null
+++ b/checkpoint-20/global_step20/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:760b9e072e0f649df9b7cf920b6802a961894d45ddf3329fd3df7c87370e20e8
+size 51616527
diff --git a/checkpoint-20/global_step20/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt b/checkpoint-20/global_step20/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..8fa4724869051f98cfc58396dd8987aaa3072806
--- /dev/null
+++ b/checkpoint-20/global_step20/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5a89efe4e88eed880fd1d92c08a584eedb628cd5d6fb4f59acb68b79be1dc737
+size 51616015
diff --git a/checkpoint-20/global_step20/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt b/checkpoint-20/global_step20/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..8affee2450e57ca381fe3cf655b6cd07b1982a16
--- /dev/null
+++ b/checkpoint-20/global_step20/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:61916eced89d27891c13668823e06e235f8476323127c9ff120f45aa4dc84490
+size 51616527
diff --git a/checkpoint-20/global_step20/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt b/checkpoint-20/global_step20/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..701b1b0027c2487a81d743eed1794ea8bf60fd3e
--- /dev/null
+++ b/checkpoint-20/global_step20/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:db28367919fa6970c0724163fa98f00dedd66859c785bacffaf874ea4f7e3693
+size 51616015
diff --git a/checkpoint-20/global_step20/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt b/checkpoint-20/global_step20/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..fa16dc583d304a303b42813073f70b446fee5496
--- /dev/null
+++ b/checkpoint-20/global_step20/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:40763902752701c6576f07f242af7804d8313c725627b7988752da199dff996c
+size 51616527
diff --git a/checkpoint-20/global_step20/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt b/checkpoint-20/global_step20/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..ed3b7691862d48f1d43f077b28ada33e80b12b5e
--- /dev/null
+++ b/checkpoint-20/global_step20/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bd984e5ebdaaea1629befba83669918ad4be7b5ba949bc2f644ad4e918dd630c
+size 51616015
diff --git a/checkpoint-20/global_step20/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt b/checkpoint-20/global_step20/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..fa3f81e608554c820fc9dbd1b8d47be44bf3ee50
--- /dev/null
+++ b/checkpoint-20/global_step20/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2b6c6a5e7bb559adf848de0636d86b3b4f0514c0d977297b85c46f1c27631668
+size 51616527
diff --git a/checkpoint-20/global_step20/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt b/checkpoint-20/global_step20/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..d01732edcd6d2f2b9d4259ca751096062034dd1e
--- /dev/null
+++ b/checkpoint-20/global_step20/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c5b5aa26e36bff8f169d89d95081e53fd98342c8c0b41c408640c5d5facf7296
+size 51616015
diff --git a/checkpoint-20/rng_state_24.pth b/checkpoint-20/rng_state_24.pth
new file mode 100644
index 0000000000000000000000000000000000000000..7e4b25e05cd4c114b08e10ba4ba2c673b594e744
--- /dev/null
+++ b/checkpoint-20/rng_state_24.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:eae48885e38cfd45a5bc49f71cdfb80a2cd15381f40e2079a2ec91c537b0fe35
+size 16340
diff --git a/checkpoint-20/rng_state_25.pth b/checkpoint-20/rng_state_25.pth
new file mode 100644
index 0000000000000000000000000000000000000000..cc158195cb2b1f384f742d967d405344a65d7dda
--- /dev/null
+++ b/checkpoint-20/rng_state_25.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:40e88567f31b20dd4b96b356e21d664c705d924ae4a9146b59ad159f1c370e3a
+size 16340
diff --git a/checkpoint-20/rng_state_26.pth b/checkpoint-20/rng_state_26.pth
new file mode 100644
index 0000000000000000000000000000000000000000..9384525cde3381d4a8ed830f41779db2b6aa006e
--- /dev/null
+++ b/checkpoint-20/rng_state_26.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8f62e3a37e7884a95fe0bc876dae55d5cb6cb8d4dfe39f558df2f8f33bbbdf74
+size 16404
diff --git a/checkpoint-20/rng_state_27.pth b/checkpoint-20/rng_state_27.pth
new file mode 100644
index 0000000000000000000000000000000000000000..a8e098a2f393d07d0ce1fe4f64f96ddcc0ef2e44
--- /dev/null
+++ b/checkpoint-20/rng_state_27.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:782acd6c2a2822075b4914f271f952d8ab9abee4c948c6845d17b0e761b9953b
+size 16404
diff --git a/checkpoint-20/rng_state_28.pth b/checkpoint-20/rng_state_28.pth
new file mode 100644
index 0000000000000000000000000000000000000000..f22266087caf0981b3c1a5fdfcbe7195f3fd370e
--- /dev/null
+++ b/checkpoint-20/rng_state_28.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f2cf18a30e4ad00d03205a88515b854f60778e4cf082d4e1113499c3d456741b
+size 16404
diff --git a/checkpoint-20/rng_state_29.pth b/checkpoint-20/rng_state_29.pth
new file mode 100644
index 0000000000000000000000000000000000000000..f23053e04ccecac2941b08cdc69ff338ddc969b6
--- /dev/null
+++ b/checkpoint-20/rng_state_29.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:21d0d40e609fc9d4d3ad39ea7f4839736384ee2fb2507f28418ad126eaf2ff34
+size 16340
diff --git a/checkpoint-20/rng_state_30.pth b/checkpoint-20/rng_state_30.pth
new file mode 100644
index 0000000000000000000000000000000000000000..ff82f6d32c313375385fb840d7c610469c7a5b29
--- /dev/null
+++ b/checkpoint-20/rng_state_30.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a33af0c875ad5b6d2eec478c87b36e2db203f83b58ddf82e39c5c6aad56e02e0
+size 16468
diff --git a/checkpoint-20/rng_state_31.pth b/checkpoint-20/rng_state_31.pth
new file mode 100644
index 0000000000000000000000000000000000000000..6da73edc3df5921da298252b0f521891e30bcc6a
--- /dev/null
+++ b/checkpoint-20/rng_state_31.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:be7c0946fea0f2e1cb6b2739ea0d200e0982ff811385c6c5dc9e7793476058fa
+size 16340
diff --git a/checkpoint-20/trainer_state.json b/checkpoint-20/trainer_state.json
index a6123962584e4b002aab697407126e40d2fc1302..917db439a8e53b0f8f659b78dc218b1c69f5106b 100644
--- a/checkpoint-20/trainer_state.json
+++ b/checkpoint-20/trainer_state.json
@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 6,
-      "train_speed(iter/s)": 0.000458
+      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1223,
+      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -171,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -185,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -200,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9045,
+      "eval_runtime": 1025.9053,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -213,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -229,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -241,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -257,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -269,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -283,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -298,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.2321,
+      "eval_runtime": 1041.2277,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
@@ -311,7 +311,7 @@
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
@@ -327,7 +327,7 @@
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     }
diff --git a/checkpoint-20/training_args.bin b/checkpoint-20/training_args.bin
index 642b9465d1983574a63f0a9f23bf7996bf8a7eda..f36a7dd9bdc6cb2a2d931801db92f6b3a1142a0b 100644
--- a/checkpoint-20/training_args.bin
+++ b/checkpoint-20/training_args.bin
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
+oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809
diff --git a/checkpoint-22/adapter_config.json b/checkpoint-22/adapter_config.json
index 5601e58d3aec7aef62bafb11ddb8a04c414c4f52..ff0f4cc95c39fe3def3378592de89aa4d14e7c68 100644
--- a/checkpoint-22/adapter_config.json
+++ b/checkpoint-22/adapter_config.json
@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "q_proj",
+    "gate_proj",
     "v_proj",
+    "k_proj",
     "up_proj",
-    "gate_proj",
-    "k_proj"
+    "down_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,
diff --git a/checkpoint-22/global_step22/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt b/checkpoint-22/global_step22/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..fa558219a96f9b6459104b28312e89ca8d779ec0
--- /dev/null
+++ b/checkpoint-22/global_step22/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4d09ac0e1716d6505b6082ff829ff1a8692a7b3660b4f6ad35c64d879fd16b6d
+size 51616527
diff --git a/checkpoint-22/global_step22/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt b/checkpoint-22/global_step22/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..224fc08c88c230f4023408c07da8ffabd11894f6
--- /dev/null
+++ b/checkpoint-22/global_step22/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9dcca902019ab0b87e41e8571c6f18782b8af0c4d69f2086ac1967ccb8f288ae
+size 51616015
diff --git a/checkpoint-22/global_step22/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt b/checkpoint-22/global_step22/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..d6201510b2090effe523ee7deddb62884999d6f0
--- /dev/null
+++ b/checkpoint-22/global_step22/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:adb6d7e2c6ee428c254d628ae3a83430847d6ed216827f831a2fecb31329fdeb
+size 51616527
diff --git a/checkpoint-22/global_step22/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt b/checkpoint-22/global_step22/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..436d98d90efa6774127e263af2f8fa5ddecee381
--- /dev/null
+++ b/checkpoint-22/global_step22/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6185b78ab5dc741e670db81bc30142b77f42cfe6633b32e7353b63aad94bf741
+size 51616015
diff --git a/checkpoint-22/global_step22/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt b/checkpoint-22/global_step22/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..108bf8bcc89be36b4cc278f5ec063c3c8657f89e
--- /dev/null
+++ b/checkpoint-22/global_step22/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:72154c5fc96ede531d6b52d4e0105b0ae5e8a68f3bec3da11e5bd7523b54b617
+size 51616527
diff --git a/checkpoint-22/global_step22/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt b/checkpoint-22/global_step22/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..84e884b2e28ac5c09fc8626d2b24f944ed1e4b26
--- /dev/null
+++ b/checkpoint-22/global_step22/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:93fa583cf2d7ce5c4be0126dad30b91e68351d6f1f2a7bb985f9526a677b71d0
+size 51616015
diff --git a/checkpoint-22/global_step22/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt b/checkpoint-22/global_step22/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..312c0319b3c3be58c083cd95340f56f4dc480fe5
--- /dev/null
+++ b/checkpoint-22/global_step22/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3183baecf1ebdacd83343ea020467521bea27f1f51b920a64e1406f30c5360ef
+size 51616527
diff --git a/checkpoint-22/global_step22/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt b/checkpoint-22/global_step22/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..463fe376bc93760d47e9c65a753a434feb1d856b
--- /dev/null
+++ b/checkpoint-22/global_step22/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2a1d3941163b0c49b026741b7a9f79c6deda008189158792fe7f1f76d532e002
+size 51616015
diff --git a/checkpoint-22/rng_state_24.pth b/checkpoint-22/rng_state_24.pth
new file mode 100644
index 0000000000000000000000000000000000000000..07071be3f9616a508f914505692cbba29697cf23
--- /dev/null
+++ b/checkpoint-22/rng_state_24.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:208370da1e57b63729448e428555d5da85e93ff3f16af526326a763c306a5f4e
+size 16340
diff --git a/checkpoint-22/rng_state_25.pth b/checkpoint-22/rng_state_25.pth
new file mode 100644
index 0000000000000000000000000000000000000000..c5ff951acbe3f27a59795ffa823bc514db853bde
--- /dev/null
+++ b/checkpoint-22/rng_state_25.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:99e83e91e6dab3af76b7b70440ca854330bc045168b74fa24c1777e4f67113dd
+size 16340
diff --git a/checkpoint-22/rng_state_26.pth b/checkpoint-22/rng_state_26.pth
new file mode 100644
index 0000000000000000000000000000000000000000..6cf49f2b464d2f487a05151ef4de04121179df9b
--- /dev/null
+++ b/checkpoint-22/rng_state_26.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9a7afc923c6b686aae15875f08e63bd911f5eae1780bf63c83be1c5626b36b9a
+size 16404
diff --git a/checkpoint-22/rng_state_27.pth b/checkpoint-22/rng_state_27.pth
new file mode 100644
index 0000000000000000000000000000000000000000..791a1c72c3645b44deef062756adc57a77f3ce03
--- /dev/null
+++ b/checkpoint-22/rng_state_27.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a9686a01942c451f85f8735f13bd158fd665f1465d94de0e09dea36eaa2702aa
+size 16404
diff --git a/checkpoint-22/rng_state_28.pth b/checkpoint-22/rng_state_28.pth
new file mode 100644
index 0000000000000000000000000000000000000000..e033d0c5c750a1619ec500f0dc44d2b46ef5797e
--- /dev/null
+++ b/checkpoint-22/rng_state_28.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:990e73b8a2b27d00de6064288a7f3e0336b9acaea81f8f4dcec58f62f3369758
+size 16404
diff --git a/checkpoint-22/rng_state_29.pth b/checkpoint-22/rng_state_29.pth
new file mode 100644
index 0000000000000000000000000000000000000000..eb55fdf51a19bb1990f6786c9604af4bd32f16ef
--- /dev/null
+++ b/checkpoint-22/rng_state_29.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5a5aaa9e539ba77ad27d365c8473b0d5491cc7217b124a942171d86998d1f552
+size 16340
diff --git a/checkpoint-22/rng_state_30.pth b/checkpoint-22/rng_state_30.pth
new file mode 100644
index 0000000000000000000000000000000000000000..e98f0c4b79e7d10da7b004cfd4f786039ef94f9b
--- /dev/null
+++ b/checkpoint-22/rng_state_30.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:81ac84525d305021274d789ae62c9f69996dff7d8451aa5b72d9c7a8ea74cdcb
+size 16468
diff --git a/checkpoint-22/rng_state_31.pth b/checkpoint-22/rng_state_31.pth
new file mode 100644
index 0000000000000000000000000000000000000000..f81bd2acf0d02706d15879abdb3efdc99a138ecb
--- /dev/null
+++ b/checkpoint-22/rng_state_31.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c4b54e1dcd380dc698ef16a51266bd6a6d30f77c8cb835b1f509894eb21d04bc
+size 16340
diff --git a/checkpoint-22/trainer_state.json b/checkpoint-22/trainer_state.json
index 00588ae573da776f25af27a488a14e7cc18fa07b..456d04aa7966a1cd12ff9f6c0086d744a460e3c7 100644
--- a/checkpoint-22/trainer_state.json
+++ b/checkpoint-22/trainer_state.json
@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 6,
-      "train_speed(iter/s)": 0.000458
+      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1223,
+      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -171,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -185,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -200,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9045,
+      "eval_runtime": 1025.9053,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -213,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -229,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -241,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -257,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -269,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -283,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -298,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.2321,
+      "eval_runtime": 1041.2277,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
@@ -311,7 +311,7 @@
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
@@ -327,7 +327,7 @@
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
@@ -339,7 +339,7 @@
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
@@ -355,7 +355,7 @@
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     }
diff --git a/checkpoint-22/training_args.bin b/checkpoint-22/training_args.bin
index 642b9465d1983574a63f0a9f23bf7996bf8a7eda..f36a7dd9bdc6cb2a2d931801db92f6b3a1142a0b 100644
--- a/checkpoint-22/training_args.bin
+++ b/checkpoint-22/training_args.bin
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
+oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809
diff --git a/checkpoint-24/adapter_config.json b/checkpoint-24/adapter_config.json
index 5601e58d3aec7aef62bafb11ddb8a04c414c4f52..ff0f4cc95c39fe3def3378592de89aa4d14e7c68 100644
--- a/checkpoint-24/adapter_config.json
+++ b/checkpoint-24/adapter_config.json
@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "q_proj",
+    "gate_proj",
     "v_proj",
+    "k_proj",
     "up_proj",
-    "gate_proj",
-    "k_proj"
+    "down_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,
diff --git a/checkpoint-24/global_step24/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt b/checkpoint-24/global_step24/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..50ed1fb95eeeb4dd3b2cb15335146cad577b047d
--- /dev/null
+++ b/checkpoint-24/global_step24/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cb1a279188b085e8bbdc78b7e3251d576c903ee0fda584eed3b77580bb7075e8
+size 51616527
diff --git a/checkpoint-24/global_step24/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt b/checkpoint-24/global_step24/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..ce8cd1826256b14bce526696953c7683f62afdf8
--- /dev/null
+++ b/checkpoint-24/global_step24/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d1d7c22cbc57e7b529fef73842f6de63a6e1c98f0ddb2a3143e2ec208248836d
+size 51616015
diff --git a/checkpoint-24/global_step24/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt b/checkpoint-24/global_step24/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..f4dd6a24ddd62eeee47f09d2d1d03338be5884ac
--- /dev/null
+++ b/checkpoint-24/global_step24/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:979f72f3561629ca3ca9fd0e65858c2cf1f8aa35f4c32bc005fd3b0055b790d2
+size 51616527
diff --git a/checkpoint-24/global_step24/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt b/checkpoint-24/global_step24/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..be242200fe73ea565c1ec985064be779ff9f339d
--- /dev/null
+++ b/checkpoint-24/global_step24/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4db9c348993e2593d549d08bad54cfdc223d81f8531a6a6a878ee6ba8556f499
+size 51616015
diff --git a/checkpoint-24/global_step24/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt b/checkpoint-24/global_step24/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..5deafd48f1ea076ca9bb441b1ca6ed9d6a1da473
--- /dev/null
+++ b/checkpoint-24/global_step24/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:597b67f556e883843f7ec31261bf5f8e8a2068dce6c3d647764d7cc5be019dc2
+size 51616527
diff --git a/checkpoint-24/global_step24/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt b/checkpoint-24/global_step24/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..1b557db0c287a5836d55e62a700c0714d4a9a098
--- /dev/null
+++ b/checkpoint-24/global_step24/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a094a2a34f2fa9c9049ae432c2433bb9447b35fbad49cfbd49f60d13ea2de5a4
+size 51616015
diff --git a/checkpoint-24/global_step24/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt b/checkpoint-24/global_step24/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..c6137304cf8bd8f02dbb774194eb3c55f472a543
--- /dev/null
+++ b/checkpoint-24/global_step24/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:77b61914823bf685964c92d5a878909b802ef02b76034aa61717cb09f9f13640
+size 51616527
diff --git a/checkpoint-24/global_step24/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt b/checkpoint-24/global_step24/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..e9ee3379635fbf94b3faec7c5bd7a71b72b200a7
--- /dev/null
+++ b/checkpoint-24/global_step24/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c51185fe79ee97c76d33111ae0cbe2520302acf976bf5571181f6ed8e8b25be0
+size 51616015
diff --git a/checkpoint-24/rng_state_24.pth b/checkpoint-24/rng_state_24.pth
new file mode 100644
index 0000000000000000000000000000000000000000..f15bd86d5cd83a25b4f1ab3e314d94ae73c8517f
--- /dev/null
+++ b/checkpoint-24/rng_state_24.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7302d96201307887663f3c37c82b3c08be605a83c7dca260382c850f72adea00
+size 16340
diff --git a/checkpoint-24/rng_state_25.pth b/checkpoint-24/rng_state_25.pth
new file mode 100644
index 0000000000000000000000000000000000000000..3428d67736c98a6720b7d3f1147a87828ab6001e
--- /dev/null
+++ b/checkpoint-24/rng_state_25.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:caf57150d3726de1127fec0b4ece2cc01fec1ea938ddee95a5638d60d02a4bf5
+size 16340
diff --git a/checkpoint-24/rng_state_26.pth b/checkpoint-24/rng_state_26.pth
new file mode 100644
index 0000000000000000000000000000000000000000..090efaf12f20db9f62f022da45be72394b1ce7ef
--- /dev/null
+++ b/checkpoint-24/rng_state_26.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:daa535a9f3ca468136fd21458e836fb2317f4d23f656251a69f7edd2f9cec386
+size 16404
diff --git a/checkpoint-24/rng_state_27.pth b/checkpoint-24/rng_state_27.pth
new file mode 100644
index 0000000000000000000000000000000000000000..8c58d60a85c548ba4515efed7b848dbc5f74646c
--- /dev/null
+++ b/checkpoint-24/rng_state_27.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d9a85ca1aeb86308f20cdc26d5780ee8e7adec4104a479d1e168b467dd7b5fc5
+size 16404
diff --git a/checkpoint-24/rng_state_28.pth b/checkpoint-24/rng_state_28.pth
new file mode 100644
index 0000000000000000000000000000000000000000..fce0bb4aba501975bafaf7da28d82ab8f1352d06
--- /dev/null
+++ b/checkpoint-24/rng_state_28.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b869f692591302c32079d0490cdf572a5076b40cbfec51cbe0397dbce8c4ca85
+size 16404
diff --git a/checkpoint-24/rng_state_29.pth b/checkpoint-24/rng_state_29.pth
new file mode 100644
index 0000000000000000000000000000000000000000..05b3c46a61d62bb335628387cb6201833914763c
--- /dev/null
+++ b/checkpoint-24/rng_state_29.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0a2e0b20cff1818525b5f2877aa5a19fab131498fb556918edc60c2c121891d4
+size 16340
diff --git a/checkpoint-24/rng_state_30.pth b/checkpoint-24/rng_state_30.pth
new file mode 100644
index 0000000000000000000000000000000000000000..2a3ead4405f159794dbc095da300a0250b3e6acb
--- /dev/null
+++ b/checkpoint-24/rng_state_30.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6bb7ce04c8fd4a109312dbf33497ec0e39415997855593685aae58fea2cae8cc
+size 16468
diff --git a/checkpoint-24/rng_state_31.pth b/checkpoint-24/rng_state_31.pth
new file mode 100644
index 0000000000000000000000000000000000000000..880ec98a561789195f4fc4b37007238fd8ae3d8e
--- /dev/null
+++ b/checkpoint-24/rng_state_31.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:af2e6a974a75b9d6ccf8f9a64977b5369ec59b2887e9b0d382e2137be65ecaac
+size 16340
diff --git a/checkpoint-24/trainer_state.json b/checkpoint-24/trainer_state.json
index 71fe7f2e41930e700b7ad6623db68a42930e3853..bb1be19c6a2805c0e9655eb7f7fec3076a704e14 100644
--- a/checkpoint-24/trainer_state.json
+++ b/checkpoint-24/trainer_state.json
@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 6,
-      "train_speed(iter/s)": 0.000458
+      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1223,
+      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -171,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -185,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -200,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9045,
+      "eval_runtime": 1025.9053,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -213,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -229,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -241,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -257,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -269,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -283,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -298,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.2321,
+      "eval_runtime": 1041.2277,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
@@ -311,7 +311,7 @@
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
@@ -327,7 +327,7 @@
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
@@ -339,7 +339,7 @@
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
@@ -355,7 +355,7 @@
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     },
@@ -367,7 +367,7 @@
       "kl": 0.1796875,
       "learning_rate": 7.74754489035403e-05,
       "loss": -0.03423420712351799,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.583984375,
       "reward": 0.034468831261619925,
       "reward_std": 0.11841745302081108,
@@ -381,7 +381,7 @@
       "grad_norm": 0.014131724834442139,
       "learning_rate": 7.500000000000001e-05,
       "loss": -0.03426633030176163,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 24,
       "train_speed(iter/s)": 0.000427
     },
@@ -396,7 +396,7 @@
       "eval_reward_std": 0.10456253588199615,
       "eval_rewards/CosineReward": 0.04339282959699631,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1045.0616,
+      "eval_runtime": 1045.0653,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 24
diff --git a/checkpoint-24/training_args.bin b/checkpoint-24/training_args.bin
index 642b9465d1983574a63f0a9f23bf7996bf8a7eda..f36a7dd9bdc6cb2a2d931801db92f6b3a1142a0b 100644
--- a/checkpoint-24/training_args.bin
+++ b/checkpoint-24/training_args.bin
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
+oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809
diff --git a/checkpoint-26/adapter_config.json b/checkpoint-26/adapter_config.json
index 5601e58d3aec7aef62bafb11ddb8a04c414c4f52..ff0f4cc95c39fe3def3378592de89aa4d14e7c68 100644
--- a/checkpoint-26/adapter_config.json
+++ b/checkpoint-26/adapter_config.json
@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "q_proj",
+    "gate_proj",
     "v_proj",
+    "k_proj",
     "up_proj",
-    "gate_proj",
-    "k_proj"
+    "down_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,
diff --git a/checkpoint-26/global_step26/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt b/checkpoint-26/global_step26/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..104e9b098ba835422526e6adcef36932de76124a
--- /dev/null
+++ b/checkpoint-26/global_step26/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8c3268ade495503221c00839940003f96d71175302f2873a014b14233ace044f
+size 51616527
diff --git a/checkpoint-26/global_step26/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt b/checkpoint-26/global_step26/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..901a61ab7e5647ea0668eb4aa3f796b655fe75e9
--- /dev/null
+++ b/checkpoint-26/global_step26/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1e8db9d7a32e88bdaff60d5db498f376b4fac5f7226fe76c7038cb93a94dae5a
+size 51616015
diff --git a/checkpoint-26/global_step26/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt b/checkpoint-26/global_step26/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..5f3142a86781714241c25e35a6590de226dae3ae
--- /dev/null
+++ b/checkpoint-26/global_step26/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1e0afd5039e9c83da52f733d004daf8493ca34f46956d85fff7c59e76bb8bb8c
+size 51616527
diff --git a/checkpoint-26/global_step26/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt b/checkpoint-26/global_step26/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..15446f8df118d1e981e60ab345df1825f43d1d54
--- /dev/null
+++ b/checkpoint-26/global_step26/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7a96890c5ff6744306906b20ca74625a1c1738619d826828409eeb55a9443876
+size 51616015
diff --git a/checkpoint-26/global_step26/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt b/checkpoint-26/global_step26/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..774ae9d36dec4897cce3f997610b4f0e1f03de6f
--- /dev/null
+++ b/checkpoint-26/global_step26/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a63f566adac0e11417a17dcd9c7ba310af7dd17a48c52d9a7c3ca49fba215525
+size 51616527
diff --git a/checkpoint-26/global_step26/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt b/checkpoint-26/global_step26/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..b403423c6319830d9272e3a139139d21a8808b38
--- /dev/null
+++ b/checkpoint-26/global_step26/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:583d5bda27fc2ad46fc7cd8120d8a0994832ce37d440b8d0b33dc08c6183216a
+size 51616015
diff --git a/checkpoint-26/global_step26/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt b/checkpoint-26/global_step26/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..5e144ea28eef46d31ed84c872a565223a3d7f7a1
--- /dev/null
+++ b/checkpoint-26/global_step26/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7d90188d91681263de14e1519a06eb9469fd7cf0f07e013a6f1ed93279053545
+size 51616527
diff --git a/checkpoint-26/global_step26/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt b/checkpoint-26/global_step26/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..87ba4e42133faf585f7ef6104f5af2c2773cce5c
--- /dev/null
+++ b/checkpoint-26/global_step26/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e29f3d362d1d55d9abe51058754fb01b1917c198c193f42661132310ec1fbed1
+size 51616015
diff --git a/checkpoint-26/rng_state_24.pth b/checkpoint-26/rng_state_24.pth
new file mode 100644
index 0000000000000000000000000000000000000000..64495a8c8cd61aa51faa9167dc921ef2e819af1b
--- /dev/null
+++ b/checkpoint-26/rng_state_24.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c6a36f560cd228f371ca107ef26413437ba69c5c5f1820c36b730ceebbbcb2f8
+size 16340
diff --git a/checkpoint-26/rng_state_25.pth b/checkpoint-26/rng_state_25.pth
new file mode 100644
index 0000000000000000000000000000000000000000..9dd032fda6193dac76082b0ae583a13bfccd0e4e
--- /dev/null
+++ b/checkpoint-26/rng_state_25.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4abf92078629e1526c1a333f5f55552b0c6446cbc425504a1088676a72b50215
+size 16340
diff --git a/checkpoint-26/rng_state_26.pth b/checkpoint-26/rng_state_26.pth
new file mode 100644
index 0000000000000000000000000000000000000000..908e26ae39cc4bda1ce5b6e7e134f5c293739132
--- /dev/null
+++ b/checkpoint-26/rng_state_26.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6030a8182be9be8389850112b269af5c6a53d5327d9e553e8a1e84e6d762336b
+size 16404
diff --git a/checkpoint-26/rng_state_27.pth b/checkpoint-26/rng_state_27.pth
new file mode 100644
index 0000000000000000000000000000000000000000..bb464983eb20f69557e35ce5c9d1b3071ce2a239
--- /dev/null
+++ b/checkpoint-26/rng_state_27.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:46ccf2f62b67447f52be14b2a2442ae6a3486cbfdab3bcee828ce9354b2970fb
+size 16404
diff --git a/checkpoint-26/rng_state_28.pth b/checkpoint-26/rng_state_28.pth
new file mode 100644
index 0000000000000000000000000000000000000000..98c01ad2cdb088c0b92f6f4f22bea201a8ebd972
--- /dev/null
+++ b/checkpoint-26/rng_state_28.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0d111146c8288331bc275bcca0444062376ebe38aa74821fe6949fbd96096e2d
+size 16404
diff --git a/checkpoint-26/rng_state_29.pth b/checkpoint-26/rng_state_29.pth
new file mode 100644
index 0000000000000000000000000000000000000000..80fccb408a0bc3e39713ed02409bda346807f618
--- /dev/null
+++ b/checkpoint-26/rng_state_29.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5088e67fef739aff0b5430e4b140821c966d016c02e972d31ef41877e7c3845e
+size 16340
diff --git a/checkpoint-26/rng_state_30.pth b/checkpoint-26/rng_state_30.pth
new file mode 100644
index 0000000000000000000000000000000000000000..da430b8bdbc52519c0749a8264b5962cfa96f6dd
--- /dev/null
+++ b/checkpoint-26/rng_state_30.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:84ebb5331992b663940780540fe92a44504e464de76c73115600e36fcc6713ab
+size 16468
diff --git a/checkpoint-26/rng_state_31.pth b/checkpoint-26/rng_state_31.pth
new file mode 100644
index 0000000000000000000000000000000000000000..a05730e08e55a96c7fc66759a73f30c479120565
--- /dev/null
+++ b/checkpoint-26/rng_state_31.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:763407580ec5f52a1e25ecc2b38e03157510eb4236eee03d8bed5a31b66b372e
+size 16340
diff --git a/checkpoint-26/trainer_state.json b/checkpoint-26/trainer_state.json
index 001905ec4de0241ac02cb975479cb8b9bb85f854..602a6c1309f1ee6b6bfc89540ccc6ada6b1d2e89 100644
--- a/checkpoint-26/trainer_state.json
+++ b/checkpoint-26/trainer_state.json
@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 6,
-      "train_speed(iter/s)": 0.000458
+      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1223,
+      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -171,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -185,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -200,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9045,
+      "eval_runtime": 1025.9053,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -213,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -229,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -241,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -257,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -269,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -283,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -298,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.2321,
+      "eval_runtime": 1041.2277,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
@@ -311,7 +311,7 @@
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
@@ -327,7 +327,7 @@
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
@@ -339,7 +339,7 @@
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
@@ -355,7 +355,7 @@
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     },
@@ -367,7 +367,7 @@
       "kl": 0.1796875,
       "learning_rate": 7.74754489035403e-05,
       "loss": -0.03423420712351799,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.583984375,
       "reward": 0.034468831261619925,
       "reward_std": 0.11841745302081108,
@@ -381,7 +381,7 @@
       "grad_norm": 0.014131724834442139,
       "learning_rate": 7.500000000000001e-05,
       "loss": -0.03426633030176163,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 24,
       "train_speed(iter/s)": 0.000427
     },
@@ -396,7 +396,7 @@
       "eval_reward_std": 0.10456253588199615,
       "eval_rewards/CosineReward": 0.04339282959699631,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1045.0616,
+      "eval_runtime": 1045.0653,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 24
@@ -409,7 +409,7 @@
       "kl": 0.1800537109375,
       "learning_rate": 7.243995901002312e-05,
       "loss": -0.02097315341234207,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.6171875,
       "reward": 0.03010205877944827,
       "reward_std": 0.10742511600255966,
@@ -425,7 +425,7 @@
       "kl": 0.18408203125,
       "learning_rate": 6.980398830195785e-05,
       "loss": -0.02103913575410843,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 26,
       "train_speed(iter/s)": 0.000421
     }
diff --git a/checkpoint-26/training_args.bin b/checkpoint-26/training_args.bin
index 642b9465d1983574a63f0a9f23bf7996bf8a7eda..f36a7dd9bdc6cb2a2d931801db92f6b3a1142a0b 100644
--- a/checkpoint-26/training_args.bin
+++ b/checkpoint-26/training_args.bin
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
+oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809
diff --git a/checkpoint-28/adapter_config.json b/checkpoint-28/adapter_config.json
index 5601e58d3aec7aef62bafb11ddb8a04c414c4f52..ff0f4cc95c39fe3def3378592de89aa4d14e7c68 100644
--- a/checkpoint-28/adapter_config.json
+++ b/checkpoint-28/adapter_config.json
@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "q_proj",
+    "gate_proj",
     "v_proj",
+    "k_proj",
     "up_proj",
-    "gate_proj",
-    "k_proj"
+    "down_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,
diff --git a/checkpoint-28/global_step28/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt b/checkpoint-28/global_step28/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..2df749d0fa0b9288e7e45ab14d59f7f0c05e0ac1
--- /dev/null
+++ b/checkpoint-28/global_step28/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3f82de595e683a60f2a9d03e0b2ea2095d083136d5455b41c1b2c65c66e597d6
+size 51616527
diff --git a/checkpoint-28/global_step28/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt b/checkpoint-28/global_step28/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..db179a297a353629226217c21b6fcc7ddb15e1b6
--- /dev/null
+++ b/checkpoint-28/global_step28/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5dbb5daf2f0c6a5eb67e32e9de4ffe10b0faa368b1c4d983ef8b23c28c64a8f6
+size 51616015
diff --git a/checkpoint-28/global_step28/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt b/checkpoint-28/global_step28/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..f81d3ead54390ee694999edc6e6f11982149e8d2
--- /dev/null
+++ b/checkpoint-28/global_step28/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:09f12abefad2d0423e594e3b8b98cc891bec84bb832b134bf630b07dbf2764ed
+size 51616527
diff --git a/checkpoint-28/global_step28/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt b/checkpoint-28/global_step28/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..311b19f2ecf0fecafd5fa184f7bcb2ebbb4e2cd4
--- /dev/null
+++ b/checkpoint-28/global_step28/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d90786086f03cadd016e3175b3f7b9ddde4df672e704f921e680522a86e303b4
+size 51616015
diff --git a/checkpoint-28/global_step28/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt b/checkpoint-28/global_step28/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..ed862fc437c4db433ae58a5b9848fcc4d1299970
--- /dev/null
+++ b/checkpoint-28/global_step28/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:44557738d1f26e0e26cb0523ee100face6f68613563856d76e94bb1a3d4dd15f
+size 51616527
diff --git a/checkpoint-28/global_step28/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt b/checkpoint-28/global_step28/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..7d932b04b3326e044f04a3535ec739102bdcc6aa
--- /dev/null
+++ b/checkpoint-28/global_step28/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0fb71c4a87ea0e0eb85a249230e77653899a72a921a1054dd622c8176a5f18af
+size 51616015
diff --git a/checkpoint-28/global_step28/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt b/checkpoint-28/global_step28/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..7255a27abb41d3331c5e17a27782470dc943f9cb
--- /dev/null
+++ b/checkpoint-28/global_step28/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e6c9aa043c9d3fd2b49bc3918fa7eb261b6ec6d67dfa1c2236e32abb1f834996
+size 51616527
diff --git a/checkpoint-28/global_step28/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt b/checkpoint-28/global_step28/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..d0ea33b8ac5f97eed0eeb67f966d9d00d0878d10
--- /dev/null
+++ b/checkpoint-28/global_step28/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:eeecad2be323603a86cea35f4bb69b37ba5499bd2d145b008c4ba0e351e508c7
+size 51616015
diff --git a/checkpoint-28/rng_state_24.pth b/checkpoint-28/rng_state_24.pth
new file mode 100644
index 0000000000000000000000000000000000000000..10b69ac315f756c5350362917fdf1ac2c4eabbc5
--- /dev/null
+++ b/checkpoint-28/rng_state_24.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f88c58634038a5bb4007b0eebb7260626a206e8a652d56c27871d33ada728b09
+size 16340
diff --git a/checkpoint-28/rng_state_25.pth b/checkpoint-28/rng_state_25.pth
new file mode 100644
index 0000000000000000000000000000000000000000..27d6a22d074b639d5eb8f352a6b3e3e2c68739d8
--- /dev/null
+++ b/checkpoint-28/rng_state_25.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:86fb8ba44ab4a7a485e3e1950ffd4ba899382a0375e3d8d06a71120bd1aee6d5
+size 16340
diff --git a/checkpoint-28/rng_state_26.pth b/checkpoint-28/rng_state_26.pth
new file mode 100644
index 0000000000000000000000000000000000000000..7dad55e2caf529465939d0bcb8dc582b1a747aad
--- /dev/null
+++ b/checkpoint-28/rng_state_26.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:901ab828b7ec5cea470b3a8b61d910fb71a8922b04e3073909c56091d965f573
+size 16404
diff --git a/checkpoint-28/rng_state_27.pth b/checkpoint-28/rng_state_27.pth
new file mode 100644
index 0000000000000000000000000000000000000000..89eed2117a9d443d1b2477c2d26b3c0da8bdb0d8
--- /dev/null
+++ b/checkpoint-28/rng_state_27.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:999c9ab140215bbc6aec3d815735f8bbea4784d0339e47f938a5b267f201c633
+size 16404
diff --git a/checkpoint-28/rng_state_28.pth b/checkpoint-28/rng_state_28.pth
new file mode 100644
index 0000000000000000000000000000000000000000..dfba6b8c961d1875932c05dbcb662cfaa4a985dd
--- /dev/null
+++ b/checkpoint-28/rng_state_28.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f2122928e94933328b5b3d7b2677b091dd5196aaae587944a8164d7e7ecc4dad
+size 16404
diff --git a/checkpoint-28/rng_state_29.pth b/checkpoint-28/rng_state_29.pth
new file mode 100644
index 0000000000000000000000000000000000000000..c3407eaf0bca99f213990d5623a2886964ff884b
--- /dev/null
+++ b/checkpoint-28/rng_state_29.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:02eec8b48b9c3662ebac7669e33ac131788ceb5daa83d2048a52c7477213e37c
+size 16340
diff --git a/checkpoint-28/rng_state_30.pth b/checkpoint-28/rng_state_30.pth
new file mode 100644
index 0000000000000000000000000000000000000000..f10cd670fbb6bde3105e493274d628f57ebd109c
--- /dev/null
+++ b/checkpoint-28/rng_state_30.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a9af4e502edbab997c6fb406df7b4e435a4139945586f91158a44def6429e255
+size 16468
diff --git a/checkpoint-28/rng_state_31.pth b/checkpoint-28/rng_state_31.pth
new file mode 100644
index 0000000000000000000000000000000000000000..c5260a407edb7b139e1546b93958214e2fcd9e5e
--- /dev/null
+++ b/checkpoint-28/rng_state_31.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:08c530353b29c07eb4ab0d6c71abe96a5a25ef2e08bb6ea869989d007bd5d88d
+size 16340
diff --git a/checkpoint-28/trainer_state.json b/checkpoint-28/trainer_state.json
index 5ffa656555aedc46214a3328f7b650204c2802b0..1ecbac39b96cd3bf5b99ae1c405479b2290145ec 100644
--- a/checkpoint-28/trainer_state.json
+++ b/checkpoint-28/trainer_state.json
@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 6,
-      "train_speed(iter/s)": 0.000458
+      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1223,
+      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -171,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -185,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -200,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9045,
+      "eval_runtime": 1025.9053,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -213,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -229,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -241,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -257,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -269,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -283,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -298,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.2321,
+      "eval_runtime": 1041.2277,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
@@ -311,7 +311,7 @@
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
@@ -327,7 +327,7 @@
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
@@ -339,7 +339,7 @@
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
@@ -355,7 +355,7 @@
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     },
@@ -367,7 +367,7 @@
       "kl": 0.1796875,
       "learning_rate": 7.74754489035403e-05,
       "loss": -0.03423420712351799,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.583984375,
       "reward": 0.034468831261619925,
       "reward_std": 0.11841745302081108,
@@ -381,7 +381,7 @@
       "grad_norm": 0.014131724834442139,
       "learning_rate": 7.500000000000001e-05,
       "loss": -0.03426633030176163,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 24,
       "train_speed(iter/s)": 0.000427
     },
@@ -396,7 +396,7 @@
       "eval_reward_std": 0.10456253588199615,
       "eval_rewards/CosineReward": 0.04339282959699631,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1045.0616,
+      "eval_runtime": 1045.0653,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 24
@@ -409,7 +409,7 @@
       "kl": 0.1800537109375,
       "learning_rate": 7.243995901002312e-05,
       "loss": -0.02097315341234207,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.6171875,
       "reward": 0.03010205877944827,
       "reward_std": 0.10742511600255966,
@@ -425,7 +425,7 @@
       "kl": 0.18408203125,
       "learning_rate": 6.980398830195785e-05,
       "loss": -0.02103913575410843,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 26,
       "train_speed(iter/s)": 0.000421
     },
@@ -437,7 +437,7 @@
       "kl": 0.174560546875,
       "learning_rate": 6.710100716628344e-05,
       "loss": -0.03593946248292923,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.513671875,
       "reward": 0.04752760287374258,
       "reward_std": 0.14935147762298584,
@@ -453,7 +453,7 @@
       "kl": 0.182373046875,
       "learning_rate": 6.434016163555452e-05,
       "loss": -0.03595500811934471,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 28,
       "train_speed(iter/s)": 0.000422
     }
diff --git a/checkpoint-28/training_args.bin b/checkpoint-28/training_args.bin
index 642b9465d1983574a63f0a9f23bf7996bf8a7eda..f36a7dd9bdc6cb2a2d931801db92f6b3a1142a0b 100644
--- a/checkpoint-28/training_args.bin
+++ b/checkpoint-28/training_args.bin
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
+oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809
diff --git a/checkpoint-4/adapter_config.json b/checkpoint-4/adapter_config.json
index 5601e58d3aec7aef62bafb11ddb8a04c414c4f52..ff0f4cc95c39fe3def3378592de89aa4d14e7c68 100644
--- a/checkpoint-4/adapter_config.json
+++ b/checkpoint-4/adapter_config.json
@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "q_proj",
+    "gate_proj",
     "v_proj",
+    "k_proj",
     "up_proj",
-    "gate_proj",
-    "k_proj"
+    "down_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,
diff --git a/checkpoint-4/global_step4/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt b/checkpoint-4/global_step4/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..e69e655c121e6aed687029f120512c15aeb9e01e
--- /dev/null
+++ b/checkpoint-4/global_step4/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1070324c4651f01b3a289a9f2ab9c5387aa7bc756e197a932e5a97b19ac013c0
+size 51616527
diff --git a/checkpoint-4/global_step4/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt b/checkpoint-4/global_step4/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..8dbb6903dbf3f61306dbd577900529cba0e59a70
--- /dev/null
+++ b/checkpoint-4/global_step4/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:82449353c0c1f1968f22b6fba71c469a3605db49a4fcaf6a1aea0941f297ffa2
+size 51616015
diff --git a/checkpoint-4/global_step4/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt b/checkpoint-4/global_step4/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..7d6d359e5cce311bfedcab11de3bdd83f1315fa9
--- /dev/null
+++ b/checkpoint-4/global_step4/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:14c1fe360d29e134bf0bb58d7c7d5e5ed76edb50ada96bb56c933a259ee716f2
+size 51616527
diff --git a/checkpoint-4/global_step4/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt b/checkpoint-4/global_step4/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..3858c2508b413c80fd8d8d212a033ae18ccc3d29
--- /dev/null
+++ b/checkpoint-4/global_step4/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c02b89e42f017cba71508d40b6bb820eb324a2cdb2f5086ede8f5ecc4f13cb90
+size 51616015
diff --git a/checkpoint-4/global_step4/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt b/checkpoint-4/global_step4/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..c2e47ad9959fe324f89edd51df4a6a8fb3f5039f
--- /dev/null
+++ b/checkpoint-4/global_step4/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b5a356c2a1597052a59b9f069e31e70a8fc10f7ca4340b2d457d3637965d0ec4
+size 51616527
diff --git a/checkpoint-4/global_step4/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt b/checkpoint-4/global_step4/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..30c60ac4947f0fe12c663eae75b3ebfff333c72f
--- /dev/null
+++ b/checkpoint-4/global_step4/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a2518646d932751b12b25ffd8631e0172c34b72cb998cdb5bd9c59d2198a9bbd
+size 51616015
diff --git a/checkpoint-4/global_step4/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt b/checkpoint-4/global_step4/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..6a5b36a881df17ffb2a6e675d89f0b821478c858
--- /dev/null
+++ b/checkpoint-4/global_step4/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9b3fa640ddafc87eab960f751c1186b95511396788b93767b999332f5a234d31
+size 51616527
diff --git a/checkpoint-4/global_step4/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt b/checkpoint-4/global_step4/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..849a5192e26f65a805db006cbdd64759d9480a4a
--- /dev/null
+++ b/checkpoint-4/global_step4/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e85810dd4fd42e10341dbea917ee2f05411f5c7f0ddead6b37366cdb6f9e5c39
+size 51616015
diff --git a/checkpoint-4/rng_state_24.pth b/checkpoint-4/rng_state_24.pth
new file mode 100644
index 0000000000000000000000000000000000000000..97eccc4c0190a4505df2e8fb4d02e55e7b73bd27
--- /dev/null
+++ b/checkpoint-4/rng_state_24.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4ccbd835e9e3df0fa381469e830411e5b3f03fc0b17d3a9152757d9c71077427
+size 16340
diff --git a/checkpoint-4/rng_state_25.pth b/checkpoint-4/rng_state_25.pth
new file mode 100644
index 0000000000000000000000000000000000000000..59ab982891d31062d44a2395b6797dfd96332920
--- /dev/null
+++ b/checkpoint-4/rng_state_25.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1971e5f0d7e1d29c6b5e7aab393ccd8af659a7bad7aaf0ed24a5d6e5892e40a2
+size 16340
diff --git a/checkpoint-4/rng_state_26.pth b/checkpoint-4/rng_state_26.pth
new file mode 100644
index 0000000000000000000000000000000000000000..1be39ed74ab52ef7de9d1f4ced7e64e17955028f
--- /dev/null
+++ b/checkpoint-4/rng_state_26.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:25795ec58e574daff5c14c3d301be5b6fcebead35791853dbc06e4c1f9d042da
+size 16404
diff --git a/checkpoint-4/rng_state_27.pth b/checkpoint-4/rng_state_27.pth
new file mode 100644
index 0000000000000000000000000000000000000000..84717ad329c876b40e9a4344bb12d8d1c82f629e
--- /dev/null
+++ b/checkpoint-4/rng_state_27.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f10ef313c3d8f57798bee5f6f99f3d88a20fe3651922033ec5d6afb0ec79bb2e
+size 16404
diff --git a/checkpoint-4/rng_state_28.pth b/checkpoint-4/rng_state_28.pth
new file mode 100644
index 0000000000000000000000000000000000000000..860d68656ee0e646f590ac460f5e648497d153bf
--- /dev/null
+++ b/checkpoint-4/rng_state_28.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:76eb31c43d13de29a78c9bb19bcde208b6a4b0ad442d91466ca7b442879fd33c
+size 16404
diff --git a/checkpoint-4/rng_state_29.pth b/checkpoint-4/rng_state_29.pth
new file mode 100644
index 0000000000000000000000000000000000000000..b13d99919cd28b3a367038ff35af98117bf7c986
--- /dev/null
+++ b/checkpoint-4/rng_state_29.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fd647b5043924c5b53b07bd159e2258f0ea866dfd0db185b6b545859ddd7a355
+size 16340
diff --git a/checkpoint-4/rng_state_30.pth b/checkpoint-4/rng_state_30.pth
new file mode 100644
index 0000000000000000000000000000000000000000..83055321cbc7b8342ff97ce0d413bd4d92636a11
--- /dev/null
+++ b/checkpoint-4/rng_state_30.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:82837898697512ede9e0d6181118bb0adc99551b3c07d35cccd98da0a1fa6e03
+size 16468
diff --git a/checkpoint-4/rng_state_31.pth b/checkpoint-4/rng_state_31.pth
new file mode 100644
index 0000000000000000000000000000000000000000..846b6c75fe5aae0c2d93f64eff9035b0d28ae8cf
--- /dev/null
+++ b/checkpoint-4/rng_state_31.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:471f20a0d71fe9baf71e7e5bd20a5d4fd453c428ca4d368e10ce66e8f2209009
+size 16340
diff --git a/checkpoint-4/trainer_state.json b/checkpoint-4/trainer_state.json
index dc9c3073d2c9e1b5260f61f624b6fe4dc378bcd3..b9e6e0a1939e20ff64b2c526958f9071d2092ce6 100644
--- a/checkpoint-4/trainer_state.json
+++ b/checkpoint-4/trainer_state.json
@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     }
diff --git a/checkpoint-4/training_args.bin b/checkpoint-4/training_args.bin
index 642b9465d1983574a63f0a9f23bf7996bf8a7eda..f36a7dd9bdc6cb2a2d931801db92f6b3a1142a0b 100644
--- a/checkpoint-4/training_args.bin
+++ b/checkpoint-4/training_args.bin
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
+oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809
diff --git a/checkpoint-6/adapter_config.json b/checkpoint-6/adapter_config.json
index 5601e58d3aec7aef62bafb11ddb8a04c414c4f52..ff0f4cc95c39fe3def3378592de89aa4d14e7c68 100644
--- a/checkpoint-6/adapter_config.json
+++ b/checkpoint-6/adapter_config.json
@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "q_proj",
+    "gate_proj",
     "v_proj",
+    "k_proj",
     "up_proj",
-    "gate_proj",
-    "k_proj"
+    "down_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,
diff --git a/checkpoint-6/global_step6/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt b/checkpoint-6/global_step6/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..443dc141eecdf761590e44c7231b90b19dd0d817
--- /dev/null
+++ b/checkpoint-6/global_step6/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:81daa2921311dd8a98d0d5eb9137f435298771d687ab6e9d226f4d3185e87e7f
+size 51616527
diff --git a/checkpoint-6/global_step6/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt b/checkpoint-6/global_step6/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..05c7c08bd1c3619bb4bef5fcfce1246e4c8d6615
--- /dev/null
+++ b/checkpoint-6/global_step6/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:890f2616f0679fa3a51e6c9319ae3b37a4818c03134f2516e457081ba179723c
+size 51616015
diff --git a/checkpoint-6/global_step6/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt b/checkpoint-6/global_step6/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..d4416301b38dced5baece5dc05b8883d48f5169a
--- /dev/null
+++ b/checkpoint-6/global_step6/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c51759e80cbd142235d9b845b82157efc372b428a1df6dfee23580040cce56fc
+size 51616527
diff --git a/checkpoint-6/global_step6/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt b/checkpoint-6/global_step6/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..aaefb81689d5052d6329fdd7408ab9da45e71c0c
--- /dev/null
+++ b/checkpoint-6/global_step6/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a7a0aafaf0653b94d1bdaca8a5760b2e96a4590918d45d919bf1625c7a5ea499
+size 51616015
diff --git a/checkpoint-6/global_step6/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt b/checkpoint-6/global_step6/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..92aa541d5d16324025cf88af312f39374378d10d
--- /dev/null
+++ b/checkpoint-6/global_step6/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f3d081e1c15760d72c9fa97d35e44616f82d425ed02acc95131b3ada2803d1f9
+size 51616527
diff --git a/checkpoint-6/global_step6/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt b/checkpoint-6/global_step6/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..5b3fa8f1f661d496db11cd483d38983b840504bf
--- /dev/null
+++ b/checkpoint-6/global_step6/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b2c3f9c6f190869b22e1d1e8c76fb4658ad017c21afc6bc889638c8e5fc2fc45
+size 51616015
diff --git a/checkpoint-6/global_step6/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt b/checkpoint-6/global_step6/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..51b8d1c2a72299788272acc8a9c961b3765a3708
--- /dev/null
+++ b/checkpoint-6/global_step6/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5f0736cd18aaecced551fea450d2da28280cea8c98c42648018e7e6f2044b658
+size 51616527
diff --git a/checkpoint-6/global_step6/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt b/checkpoint-6/global_step6/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..33d2344393e771f4c9a858cb8650309be082c94a
--- /dev/null
+++ b/checkpoint-6/global_step6/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:38907b63e572642c1370a57b033974537fee6ac003ae0f2df0b6b5b37674ee25
+size 51616015
diff --git a/checkpoint-6/rng_state_24.pth b/checkpoint-6/rng_state_24.pth
new file mode 100644
index 0000000000000000000000000000000000000000..e2a12ef485fa8344e9181f1b282d1d29e76c8c18
--- /dev/null
+++ b/checkpoint-6/rng_state_24.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f69612129434ff31016f4d0122d338daafe74c2f636be884e99315db28c62ca9
+size 16340
diff --git a/checkpoint-6/rng_state_25.pth b/checkpoint-6/rng_state_25.pth
new file mode 100644
index 0000000000000000000000000000000000000000..5268e02d536d18fdf56d18e54c50c73829d0b78f
--- /dev/null
+++ b/checkpoint-6/rng_state_25.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:247b3ad8d0d5e624550ee6598ac097af1fe09681bded3b70122b8950f686c568
+size 16340
diff --git a/checkpoint-6/rng_state_26.pth b/checkpoint-6/rng_state_26.pth
new file mode 100644
index 0000000000000000000000000000000000000000..982d0533733651710667c2d12bc38579dfa69b43
--- /dev/null
+++ b/checkpoint-6/rng_state_26.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a7da4ce4fb5c1640ecd0be4bccb8a380feca6b8bec551e3e90b2b59520fcb745
+size 16404
diff --git a/checkpoint-6/rng_state_27.pth b/checkpoint-6/rng_state_27.pth
new file mode 100644
index 0000000000000000000000000000000000000000..0e90e01fffe34bd0e5d1c8606c53bf04015cc060
--- /dev/null
+++ b/checkpoint-6/rng_state_27.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8da3d0030069354b8c0272ff95c7c3992eaf40facbb09e8cbd18b5ab42c90a5b
+size 16404
diff --git a/checkpoint-6/rng_state_28.pth b/checkpoint-6/rng_state_28.pth
new file mode 100644
index 0000000000000000000000000000000000000000..4578c94231aee7519721de9f92e721d0a8ac8771
--- /dev/null
+++ b/checkpoint-6/rng_state_28.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1302cb89f010188b2c2a98bd88ef99859f43e7e58339843a104e4f659ea837b5
+size 16404
diff --git a/checkpoint-6/rng_state_29.pth b/checkpoint-6/rng_state_29.pth
new file mode 100644
index 0000000000000000000000000000000000000000..22767dab49641b26c6269d1c68b29e0c002bb873
--- /dev/null
+++ b/checkpoint-6/rng_state_29.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e33c349f3180f0f8b2212ea0816981f5235c7110ba1e17ee6bd62767407117ea
+size 16340
diff --git a/checkpoint-6/rng_state_30.pth b/checkpoint-6/rng_state_30.pth
new file mode 100644
index 0000000000000000000000000000000000000000..1db28b39b71d7eb2fa14275fb3a84f99712fe10f
--- /dev/null
+++ b/checkpoint-6/rng_state_30.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:24953e931277dd729a042a68f8178c729e28d824cfe2e44156d1f4d52164e7cf
+size 16468
diff --git a/checkpoint-6/rng_state_31.pth b/checkpoint-6/rng_state_31.pth
new file mode 100644
index 0000000000000000000000000000000000000000..742f97f2d508d38fa89ed23fb7da3ccaeb37aa06
--- /dev/null
+++ b/checkpoint-6/rng_state_31.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:569d68e9549fbb3c8d9d0cad324f87563a43c97f385c64a53977753b7e7068b2
+size 16340
diff --git a/checkpoint-6/trainer_state.json b/checkpoint-6/trainer_state.json
index b3b3cc55dc3b19e5b194f4b07b4f5db7d73b0de8..788be4857b9899abbfb479f3a84793787ed74e90 100644
--- a/checkpoint-6/trainer_state.json
+++ b/checkpoint-6/trainer_state.json
@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 6,
-      "train_speed(iter/s)": 0.000458
+      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1223,
+      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
diff --git a/checkpoint-6/training_args.bin b/checkpoint-6/training_args.bin
index 642b9465d1983574a63f0a9f23bf7996bf8a7eda..f36a7dd9bdc6cb2a2d931801db92f6b3a1142a0b 100644
--- a/checkpoint-6/training_args.bin
+++ b/checkpoint-6/training_args.bin
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
+oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809
diff --git a/checkpoint-8/adapter_config.json b/checkpoint-8/adapter_config.json
index 5601e58d3aec7aef62bafb11ddb8a04c414c4f52..ff0f4cc95c39fe3def3378592de89aa4d14e7c68 100644
--- a/checkpoint-8/adapter_config.json
+++ b/checkpoint-8/adapter_config.json
@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "q_proj",
+    "gate_proj",
     "v_proj",
+    "k_proj",
     "up_proj",
-    "gate_proj",
-    "k_proj"
+    "down_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,
diff --git a/checkpoint-8/global_step8/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt b/checkpoint-8/global_step8/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..b2dd3fcc3d7d8fb35bc1b36917d52d16730871a2
--- /dev/null
+++ b/checkpoint-8/global_step8/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:21ff9f945c1da711ea3e6f9be710688b5a9a2f3ab9676e09a0ba61746a4d53ec
+size 51616527
diff --git a/checkpoint-8/global_step8/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt b/checkpoint-8/global_step8/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..da1671f3f37f3b563f05537fcfe1b3995efffcf0
--- /dev/null
+++ b/checkpoint-8/global_step8/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0795054d3e9ab1e8c4749b6bcf004bd8ad3ef55632c03a43a54198c73132fe6d
+size 51616015
diff --git a/checkpoint-8/global_step8/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt b/checkpoint-8/global_step8/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..0dd6a449a20fe82511c02bade72c4a5134c18b4c
--- /dev/null
+++ b/checkpoint-8/global_step8/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5834989173575af816a3d3a839971a32124d94d867f3cb5dfdff05a1ade60915
+size 51616527
diff --git a/checkpoint-8/global_step8/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt b/checkpoint-8/global_step8/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..39642b2f5fbc998e163ba110c1a1d1a09e6799a1
--- /dev/null
+++ b/checkpoint-8/global_step8/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9f2722ad7a1c8e9592218978199414c23ad11b0c46e0aa9c4f4174bb9f1efc10
+size 51616015
diff --git a/checkpoint-8/global_step8/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt b/checkpoint-8/global_step8/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..2bc380e3c759e6418ad4434c695b6fa5a0b43638
--- /dev/null
+++ b/checkpoint-8/global_step8/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fc1ad7de7ab7952ebd0f32f9ed704f39ea4def5d17258beb3697825ea4357774
+size 51616527
diff --git a/checkpoint-8/global_step8/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt b/checkpoint-8/global_step8/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..6a85a598c00ee7abe372c3f678ef0199c4f91e66
--- /dev/null
+++ b/checkpoint-8/global_step8/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f13f256131728816d5ebfd5f5c1caf198bde0b7e05176c0620ce4e15bcf1ef30
+size 51616015
diff --git a/checkpoint-8/global_step8/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt b/checkpoint-8/global_step8/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..27d7a15b50a19495802382f3422c9182ffd52ac3
--- /dev/null
+++ b/checkpoint-8/global_step8/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5d103d8bfd44e7f181799c44bfdd380fa7be5748683e81bbaab50238de163929
+size 51616527
diff --git a/checkpoint-8/global_step8/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt b/checkpoint-8/global_step8/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..4d71cbda6d2a7e1f761ece7f912051d8bf42b073
--- /dev/null
+++ b/checkpoint-8/global_step8/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d7dfe4abda169e90b2c1593713102411ac38ba0ad4b73387a4039cbe960996ec
+size 51616015
diff --git a/checkpoint-8/rng_state_24.pth b/checkpoint-8/rng_state_24.pth
new file mode 100644
index 0000000000000000000000000000000000000000..0feae86d21f81543cd51c17a6be9d4b8572f731d
--- /dev/null
+++ b/checkpoint-8/rng_state_24.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c6f2ff42e6537fa02bf716a420a7ff6122edad6badf69b448cb99e0b0b4361ab
+size 16340
diff --git a/checkpoint-8/rng_state_25.pth b/checkpoint-8/rng_state_25.pth
new file mode 100644
index 0000000000000000000000000000000000000000..c0e2da2be50dff191d4b1ec428d3ef9b5f323657
--- /dev/null
+++ b/checkpoint-8/rng_state_25.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:72e0d3c010f914b3e3b7d302750ebd493a4bb89b0f9ecc571160d75a412cdde6
+size 16340
diff --git a/checkpoint-8/rng_state_26.pth b/checkpoint-8/rng_state_26.pth
new file mode 100644
index 0000000000000000000000000000000000000000..9fc571e8798b144f1ff55e4cfe7c6b783dd378ea
--- /dev/null
+++ b/checkpoint-8/rng_state_26.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:56469bbf0bcdad6624007103a59107e014fc0fcaecd52c8b3b5df6c9cc864e39
+size 16404
diff --git a/checkpoint-8/rng_state_27.pth b/checkpoint-8/rng_state_27.pth
new file mode 100644
index 0000000000000000000000000000000000000000..e18456996c3d991b47de3527f6161f609667aa8a
--- /dev/null
+++ b/checkpoint-8/rng_state_27.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:09b99d0445f808a177938c2b3b361133bdd2b22f6774b3545e436d6c93be5591
+size 16404
diff --git a/checkpoint-8/rng_state_28.pth b/checkpoint-8/rng_state_28.pth
new file mode 100644
index 0000000000000000000000000000000000000000..0b0aaeab710230c370884b101659c5820fb42e64
--- /dev/null
+++ b/checkpoint-8/rng_state_28.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a9a6695163761f8ce0dc725d3f7ea48ab32aaa338f11122bae45160abcf38256
+size 16404
diff --git a/checkpoint-8/rng_state_29.pth b/checkpoint-8/rng_state_29.pth
new file mode 100644
index 0000000000000000000000000000000000000000..35f47396aae1c7d260f6a5f6312ab3f22330e212
--- /dev/null
+++ b/checkpoint-8/rng_state_29.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e7a07b9edaf5383c912b774e38d8c9c9ed455297053e9aa309b3e1065dde6938
+size 16340
diff --git a/checkpoint-8/rng_state_30.pth b/checkpoint-8/rng_state_30.pth
new file mode 100644
index 0000000000000000000000000000000000000000..5240d4df6f1fb70af00495d8e42395a617a500b0
--- /dev/null
+++ b/checkpoint-8/rng_state_30.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f19772476373db08156926531a674b73f0c3fae54b6542b29df144258d8d885d
+size 16468
diff --git a/checkpoint-8/rng_state_31.pth b/checkpoint-8/rng_state_31.pth
new file mode 100644
index 0000000000000000000000000000000000000000..2d51ddc1f55183bb9da96042c926ca5716dd59b3
--- /dev/null
+++ b/checkpoint-8/rng_state_31.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6e19767e0a8c692734ff74fbafc988006e84806c38d7e0d448217510f0ca0a45
+size 16340
diff --git a/checkpoint-8/trainer_state.json b/checkpoint-8/trainer_state.json
index 60713415d250188c737244a7e24c1300414b789f..ff8b0e6b148baae81697b538a5071347d6601c0c 100644
--- a/checkpoint-8/trainer_state.json
+++ b/checkpoint-8/trainer_state.json
@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 6,
-      "train_speed(iter/s)": 0.000458
+      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1223,
+      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 180.29,
+      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     }
diff --git a/checkpoint-8/training_args.bin b/checkpoint-8/training_args.bin
index 642b9465d1983574a63f0a9f23bf7996bf8a7eda..f36a7dd9bdc6cb2a2d931801db92f6b3a1142a0b 100644
--- a/checkpoint-8/training_args.bin
+++ b/checkpoint-8/training_args.bin
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
+oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809