radna commited on Mar 31, 2025

Commit

ecdfec9

verified ·

1 Parent(s): d29ec2c

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

checkpoint-10/adapter_config.json +2 -2
checkpoint-10/global_step10/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt +3 -0
checkpoint-10/global_step10/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt +3 -0
checkpoint-10/global_step10/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt +3 -0
checkpoint-10/global_step10/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt +3 -0
checkpoint-10/global_step10/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt +3 -0
checkpoint-10/global_step10/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt +3 -0
checkpoint-10/global_step10/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt +3 -0
checkpoint-10/global_step10/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt +3 -0
checkpoint-10/rng_state_16.pth +3 -0
checkpoint-10/rng_state_17.pth +3 -0
checkpoint-10/rng_state_18.pth +3 -0
checkpoint-10/rng_state_19.pth +3 -0
checkpoint-10/rng_state_20.pth +3 -0
checkpoint-10/rng_state_21.pth +3 -0
checkpoint-10/rng_state_22.pth +3 -0
checkpoint-10/rng_state_23.pth +3 -0
checkpoint-10/trainer_state.json +16 -15
checkpoint-10/training_args.bin +1 -1
checkpoint-12/adapter_config.json +2 -2
checkpoint-12/global_step12/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt +3 -0
checkpoint-12/global_step12/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt +3 -0
checkpoint-12/global_step12/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt +3 -0
checkpoint-12/global_step12/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt +3 -0
checkpoint-12/global_step12/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt +3 -0
checkpoint-12/global_step12/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt +3 -0
checkpoint-12/global_step12/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt +3 -0
checkpoint-12/global_step12/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt +3 -0
checkpoint-12/rng_state_16.pth +3 -0
checkpoint-12/rng_state_17.pth +3 -0
checkpoint-12/rng_state_18.pth +3 -0
checkpoint-12/rng_state_19.pth +3 -0
checkpoint-12/rng_state_20.pth +3 -0
checkpoint-12/rng_state_21.pth +3 -0
checkpoint-12/rng_state_22.pth +3 -0
checkpoint-12/rng_state_23.pth +3 -0
checkpoint-12/trainer_state.json +19 -18
checkpoint-12/training_args.bin +1 -1
checkpoint-14/adapter_config.json +2 -2
checkpoint-14/global_step14/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt +3 -0
checkpoint-14/global_step14/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt +3 -0
checkpoint-14/global_step14/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt +3 -0
checkpoint-14/global_step14/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt +3 -0
checkpoint-14/global_step14/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt +3 -0
checkpoint-14/global_step14/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt +3 -0
checkpoint-14/global_step14/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt +3 -0
checkpoint-14/global_step14/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt +3 -0
checkpoint-14/rng_state_16.pth +3 -0
checkpoint-14/rng_state_17.pth +3 -0
checkpoint-14/rng_state_18.pth +3 -0

checkpoint-10/adapter_config.json CHANGED Viewed

@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
     "k_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],

   "revision": null,
   "target_modules": [
     "v_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
     "q_proj",
     "down_proj"
   ],

checkpoint-10/global_step10/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b5e0c4d0d8ca773e1777b1c1e16af020993d22551ebcb2adf7ea67ef8f375907
+size 51616527

checkpoint-10/global_step10/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f47b10f14b06374d68fb3756cc8b6cd77dffb1391fc04529515fd4d49deb3bf7
+size 51616015

checkpoint-10/global_step10/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f1e86a3a53100c463ed130b6a93ce58e45e73d7d9fbfa2a7af6b26c8c5fa6c2
+size 51616527

checkpoint-10/global_step10/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f4d1d7f35387b368824418346713afcf0a735451c94078768eafb567f9875bfc
+size 51616015

checkpoint-10/global_step10/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b916d2e992e1c8b8c1742bb867ae3c769323ba0e94c43c22fcd66fb0c079b96
+size 51616527

checkpoint-10/global_step10/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f4ac51130567df50a5fa8c77c89e0d2ca250bfee52edd2b2f5719efb2ff36025
+size 51616015

checkpoint-10/global_step10/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6c62c5fb4b96163a311d4179e475297fe6ec1cf43cab95fd8d3c518d26357ac6
+size 51616527

checkpoint-10/global_step10/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:92df35f58ecc684b528fa303509abfbed79e2846e9d2b9fb16276adb90774df8
+size 51616015

checkpoint-10/rng_state_16.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c1b407998b525b66bd58428611f35c2bcee3839aa1591cad9eb396102a75d9a3
+size 16404

checkpoint-10/rng_state_17.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a3f1ee09d6bd6278d3475a8d7f654e2e7ab24e0f4347cea12b35fde685694d11
+size 16404

checkpoint-10/rng_state_18.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:832de3be768fb57af62af75a77169dac73e185fb164da68db43d911b80b993e2
+size 16404

checkpoint-10/rng_state_19.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7244b45e8524a60c2b661a2b80e2222715b34db86bc6e26e52ebf2f73ba9ab3f
+size 16340

checkpoint-10/rng_state_20.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:da62553da56900d0a290bd3696bb3510f07ae2c803a5bbe8e38a1d1a9af68f9b
+size 16340

checkpoint-10/rng_state_21.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8c7be6022296f7fe848e5c9739de0e948e47c94c2fd582920669a74a3f417f61
+size 16340

checkpoint-10/rng_state_22.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45c2624e1cb099cd6788d65dd85a009386b8943d056ecafae70be7e564b94b66
+size 16468

checkpoint-10/rng_state_23.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2ae46f07c7c82831665b01e967d9f53c4263d35b0043e55d0abecab6d18fb581
+size 16468

checkpoint-10/trainer_state.json CHANGED Viewed

@@ -1,4 +1,5 @@
 {
   "best_metric": 0.012996690347790718,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-6",
   "epoch": 2.4210526315789473,
@@ -6,7 +7,7 @@
   "global_step": 10,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
@@ -44,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -60,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 182.91,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -72,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -86,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 182.91,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -101,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1127,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -114,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -130,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 182.91,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -142,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -158,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 182.91,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     }

 {
+  "best_global_step": 6,
   "best_metric": 0.012996690347790718,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-6",
   "epoch": 2.4210526315789473,
   "global_step": 10,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "step": 2,
+      "train_speed(iter/s)": 0.000466
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 176.98,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 176.98,
       "step": 6,
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1126,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 176.98,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 176.98,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     }

checkpoint-10/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809

checkpoint-12/adapter_config.json CHANGED Viewed

@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
     "k_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],

   "revision": null,
   "target_modules": [
     "v_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
     "q_proj",
     "down_proj"
   ],

checkpoint-12/global_step12/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2bd0227e86cfa3a81c73db4156871e17a6b1c24313e6d6ffbcc435aef76b65fb
+size 51616527

checkpoint-12/global_step12/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:00fee1025300c4be32a71428d645d217dd877f4c4e2025f4d8dc86dfde602a11
+size 51616015

checkpoint-12/global_step12/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e312e427ff6bd3b12f7c96cbe20aa4ad739c91ce076c0df6f0bbfcc2a6f5b29
+size 51616527

checkpoint-12/global_step12/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:907c8fe038878cb9bc36c90b9f84b55ad238879a85caa93b684f850861b26720
+size 51616015

checkpoint-12/global_step12/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f96b95334ab00b824837fe37b1c856d308d6de83bdb23904228ea1806e606e2
+size 51616527

checkpoint-12/global_step12/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e122318d8256d9c002d012f93d137ee3776de45e41053b5a5c708b6713c7db26
+size 51616015

checkpoint-12/global_step12/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c343402a0e9b88311d79d2662bbf9309541944289b864369f9c50b8f422266ba
+size 51616527

checkpoint-12/global_step12/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:75b0fa393d6387a17fba2b052c770f27c183d6c94b5e9986a0a06aba0d5f34a8
+size 51616015

checkpoint-12/rng_state_16.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:62801652da7bb7998504dee1271843df4ed71ed6d734848c4f9b907228445fb8
+size 16404

checkpoint-12/rng_state_17.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:18cd9119c5d34b9ee7e516544a59dd814b9a3256d261250524ec75c9cadc31a3
+size 16404

checkpoint-12/rng_state_18.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc2c3f80c6accb5324f8f6fc70ceda29815877d430783249b05dfef8a4de0082
+size 16404

checkpoint-12/rng_state_19.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:13ed3ef9748edd204f4c0f8c55f7183358e3201779080ed05d1776ec253d9d6e
+size 16340

checkpoint-12/rng_state_20.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df2446d98b74607d5086a9337f99092c7637cc524dd36756c24a17112a02afc0
+size 16340

checkpoint-12/rng_state_21.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7cbf14b3f1cda4c5d327abe5858e749c8e3e7539654f891bfa98dae142e2a5f1
+size 16340

checkpoint-12/rng_state_22.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:74629e3ba1b24c62a30a12c5d18c1f67e3f6a52d02e45bfd5625c3db5cd3ee98
+size 16468

checkpoint-12/rng_state_23.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c1660fe1c86d36b187818def78122b1c82cd7b56b1b91b35897e6214503f7dc8
+size 16468

checkpoint-12/trainer_state.json CHANGED Viewed

@@ -1,4 +1,5 @@
 {
   "best_metric": 0.03234308212995529,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-12",
   "epoch": 2.8421052631578947,
@@ -6,7 +7,7 @@
   "global_step": 12,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
-  "is_world_process_zero": true,
   "log_history": [
     {
       "clip_ratio": 0.0,
@@ -16,14 +17,14 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
-      "train_speed(iter/s)": 0.000242
     },
     {
       "clip_ratio": 0.0,
@@ -32,9 +33,9 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 182.91,
       "step": 2,
-      "train_speed(iter/s)": 0.000467
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
@@ -44,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -60,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 182.91,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -72,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -86,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 182.91,
       "step": 6,
-      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
@@ -101,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1127,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -114,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -130,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 182.91,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -142,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -158,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 182.91,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -170,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 182.91,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -184,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 182.91,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -199,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9041,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12

 {
+  "best_global_step": 12,
   "best_metric": 0.03234308212995529,
   "best_model_checkpoint": "/mnt/nvme5n1p1/trained_grpo_distill_14b_rl_70_s3/v3-20250330-200345/checkpoint-12",
   "epoch": 2.8421052631578947,
   "global_step": 12,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
+  "is_world_process_zero": false,
   "log_history": [
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "rewards/CosineReward": -0.0026579967816360295,
       "rewards/RepetitionPenalty": -3.8975886695880035e-07,
       "step": 1,
+      "train_speed(iter/s)": 0.000241
     },
     {
       "clip_ratio": 0.0,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 176.98,
       "step": 2,
+      "train_speed(iter/s)": 0.000466
     },
     {
       "clip_ratio": 1.3441811461234465e-05,
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 176.98,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 176.98,
       "step": 6,
+      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1126,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 176.98,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 176.98,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 176.98,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
+      "memory(GiB)": 187.02,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
+      "memory(GiB)": 187.02,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1025.9048,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12

checkpoint-12/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1207fcb9d91c7deb13a80104f3ca89016b4cff3ef13ebd136ee6320d5a9888bb
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:09cdf21dfd9faa218b7fd99e3f3dc0ef681c4e3fd3b905e7348f5467b0198044
 size 9809

checkpoint-14/adapter_config.json CHANGED Viewed

@@ -24,10 +24,10 @@
   "revision": null,
   "target_modules": [
     "v_proj",
-    "gate_proj",
     "k_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj"
   ],

   "revision": null,
   "target_modules": [
     "v_proj",
+    "up_proj",
     "k_proj",
+    "gate_proj",
     "o_proj",
     "q_proj",
     "down_proj"
   ],

checkpoint-14/global_step14/bf16_zero_pp_rank_16_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d0582b13ce2bea3a18df7b26c719cd0004488f486d8ae9583d5daf80d4ed897b
+size 51616527

checkpoint-14/global_step14/bf16_zero_pp_rank_17_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ba0ff89afd35d3229ab9baf52fbe54c6eb8d2a060490c99679294172d1b398be
+size 51616015

checkpoint-14/global_step14/bf16_zero_pp_rank_18_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:062c8b969c5bf45384e64ab7c7075d2e2c3f94c9033f685ab032c794db7df520
+size 51616527

checkpoint-14/global_step14/bf16_zero_pp_rank_19_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9997949f600b69ead3be0acb5766b9a57f987e0637153446bebf5afe99ccf24b
+size 51616015

checkpoint-14/global_step14/bf16_zero_pp_rank_20_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8c840ea51b03be2c2807a3fff2f59fe9ff212f79551e415314348227714ca42d
+size 51616527

checkpoint-14/global_step14/bf16_zero_pp_rank_21_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f165f270b45fc392a56019942ff0090f901eacb197b225db74fc2c0a943122a
+size 51616015

checkpoint-14/global_step14/bf16_zero_pp_rank_22_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7392ded59260dfd58da3dd886ff43616633625a757815568c03deab0b9f2cb76
+size 51616527

checkpoint-14/global_step14/bf16_zero_pp_rank_23_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a132cb9ca836ba4cca2f97c715e34ad55464f19ca87edc3da52d092cc975bf5
+size 51616015

checkpoint-14/rng_state_16.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3d840b0364c1a570779728649f1039d445383c4edac5486e3a66c94317e1916b
+size 16404

checkpoint-14/rng_state_17.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:510dc95c4f2633cbc2b86c5ed1c9c1d7e471489f547625ceb3669eb644d31848
+size 16404

checkpoint-14/rng_state_18.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:93bdcb0f7609107d8eb7565bedf4a35aec622814b359b9877dff7cad7e714b95
+size 16404