Upload checkpoint 280

Browse files

Files changed (7) hide show

README.md +4 -4
adapter_model.safetensors +1 -1
loss.png +2 -2
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +152 -2

README.md CHANGED Viewed

@@ -2,7 +2,7 @@
 base_model: InfiniAILab/OpenR1-Qwen-3B-SFT-Instruct
 library_name: peft
 ---
-# T2 3B Instruct (Step 270 Checkpoint)
 > [!NOTE]
 > Training in progress...
@@ -15,11 +15,11 @@ library_name: peft
 </head>
 <body>
 <div style="width: 100%; background-color: #e0e0e0; border-radius: 25px; overflow: hidden; margin: 20px 0;">
-  <div style="height: 30px; width: 1.05%; background-color: #44965a; text-align: center; line-height: 30px; color: white; border-radius: 25px 0 0 25px;">
-    <!-- 1.0% -->
   </div>
 </div>
-<p style="font-family: Arial, sans-serif; font-size: 16px;">Progress: 270 out of 25777 steps</p>
 </body>
 </html>

 base_model: InfiniAILab/OpenR1-Qwen-3B-SFT-Instruct
 library_name: peft
 ---
+# T2 3B Instruct (Step 280 Checkpoint)
 > [!NOTE]
 > Training in progress...
 </head>
 <body>
 <div style="width: 100%; background-color: #e0e0e0; border-radius: 25px; overflow: hidden; margin: 20px 0;">
+  <div style="height: 30px; width: 1.09%; background-color: #44965a; text-align: center; line-height: 30px; color: white; border-radius: 25px 0 0 25px;">
+    <!-- 1.1% -->
   </div>
 </div>
+<p style="font-family: Arial, sans-serif; font-size: 16px;">Progress: 280 out of 25777 steps</p>
 </body>
 </html>

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cead17a5320a5c10b0ee5baeba1d641c6c10a68e5d970453a2cbed210ee53b29
 size 479005064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca5639c61434b5424c12ee16bfbe51d66f817bd4df5ff7049cf60b085dad1ecd
 size 479005064

loss.png CHANGED Viewed

Git LFS Details

SHA256: 38011a186526d309a979cbbc9103fc5162ddbe3dbdf7b3cb22ecf844bb808cff
Pointer size: 131 Bytes
Size of remote file: 211 kB

Git LFS Details

SHA256: 41f46ac94d35c21de189e9baec797d2b1c3b140dadad7dff474529f4e737904c
Pointer size: 131 Bytes
Size of remote file: 212 kB

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:151b8d066052ab8bb868fadd063ee847dc88b3b683dbaefde906c2e5374189be
 size 245114786

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac998e1563beef6662160cf16512dfa25fbf99df69d5a028b3632edb2e9a02c6
 size 245114786

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb0d8036cd5c96e1082e04c12d9688b102c1f8baf27b3ecd2fa3377a49f35d43
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d81ef059592c6db0605efffbc0d8f87f2bd2b94e94791b4f00555c956e60895a
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:360a0666da510367350d878a2bfe8217b58d367d1e0cf34a572f489a33333dfa
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:89e86502432482f478783166257eb71f4b4a191074493563cc72671ac0a92593
 size 1064

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.01047425080011638,
   "eval_steps": 500,
-  "global_step": 270,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4058,6 +4058,156 @@
       "rewards/strict_format_reward_func": 0.025000000139698386,
       "rewards/thinkcount_reward_func": 0.03750000149011612,
       "step": 270
     }
   ],
   "logging_steps": 1,

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.010862186014935505,
   "eval_steps": 500,
+  "global_step": 280,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/strict_format_reward_func": 0.025000000139698386,
       "rewards/thinkcount_reward_func": 0.03750000149011612,
       "step": 270
+    },
+    {
+      "completion_length": 8108.25,
+      "epoch": 0.010513044321598292,
+      "grad_norm": 5.077273845672607,
+      "kl": 0.0350515958853066,
+      "learning_rate": 5.236617532971297e-07,
+      "loss": 0.0014,
+      "reward": 0.7935546757653356,
+      "reward_std": 0.832713857293129,
+      "rewards/correctness_reward_func": 0.6904296875,
+      "rewards/soft_format_reward_func": 0.03125,
+      "rewards/strict_format_reward_func": 0.043750000186264515,
+      "rewards/thinkcount_reward_func": 0.028125000651925802,
+      "step": 271
+    },
+    {
+      "completion_length": 8054.5,
+      "epoch": 0.010551837843080206,
+      "grad_norm": 3.678874969482422,
+      "kl": 0.016557272523641586,
+      "learning_rate": 5.256012412723042e-07,
+      "loss": 0.0007,
+      "reward": 0.27392577938735485,
+      "reward_std": 0.29840535297989845,
+      "rewards/correctness_reward_func": 0.20361328125,
+      "rewards/soft_format_reward_func": 0.010937500046566129,
+      "rewards/strict_format_reward_func": 0.018750000279396772,
+      "rewards/thinkcount_reward_func": 0.04062500083819032,
+      "step": 272
+    },
+    {
+      "completion_length": 8114.75,
+      "epoch": 0.010590631364562118,
+      "grad_norm": 2.8407578468322754,
+      "kl": 0.014166628941893578,
+      "learning_rate": 5.275407292474787e-07,
+      "loss": 0.0006,
+      "reward": 0.7014647871255875,
+      "reward_std": 0.9922140687704086,
+      "rewards/correctness_reward_func": 0.61865234375,
+      "rewards/soft_format_reward_func": 0.017187500139698386,
+      "rewards/strict_format_reward_func": 0.03125000046566129,
+      "rewards/thinkcount_reward_func": 0.034374999813735485,
+      "step": 273
+    },
+    {
+      "completion_length": 8095.0,
+      "epoch": 0.01062942488604403,
+      "grad_norm": 3.4110143184661865,
+      "kl": 0.023500604555010796,
+      "learning_rate": 5.294802172226533e-07,
+      "loss": 0.0009,
+      "reward": 0.6369484011083841,
+      "reward_std": 0.5855994820594788,
+      "rewards/correctness_reward_func": 0.5556640625,
+      "rewards/soft_format_reward_func": 0.018749999813735485,
+      "rewards/strict_format_reward_func": 0.02500000037252903,
+      "rewards/thinkcount_reward_func": 0.0375343756750226,
+      "step": 274
+    },
+    {
+      "completion_length": 8111.75,
+      "epoch": 0.010668218407525944,
+      "grad_norm": 8.018135070800781,
+      "kl": 0.028027109568938613,
+      "learning_rate": 5.314197051978278e-07,
+      "loss": 0.0011,
+      "reward": 0.9537233952432871,
+      "reward_std": 0.4720949064940214,
+      "rewards/correctness_reward_func": 0.8564453125,
+      "rewards/soft_format_reward_func": 0.025000000605359674,
+      "rewards/strict_format_reward_func": 0.03750000102445483,
+      "rewards/thinkcount_reward_func": 0.03477812418714166,
+      "step": 275
+    },
+    {
+      "completion_length": 8068.75,
+      "epoch": 0.010707011929007856,
+      "grad_norm": 6.280547142028809,
+      "kl": 0.021743500605225563,
+      "learning_rate": 5.333591931730024e-07,
+      "loss": 0.0009,
+      "reward": 0.7119140401482582,
+      "reward_std": 0.8066249378025532,
+      "rewards/correctness_reward_func": 0.6259765625,
+      "rewards/soft_format_reward_func": 0.02031250041909516,
+      "rewards/strict_format_reward_func": 0.03125000046566129,
+      "rewards/thinkcount_reward_func": 0.034374999813735485,
+      "step": 276
+    },
+    {
+      "completion_length": 8114.25,
+      "epoch": 0.010745805450489768,
+      "grad_norm": 4.923548221588135,
+      "kl": 0.03391407220624387,
+      "learning_rate": 5.352986811481769e-07,
+      "loss": 0.0014,
+      "reward": 1.096439028158784,
+      "reward_std": 0.7743532722815871,
+      "rewards/correctness_reward_func": 0.9931640625,
+      "rewards/soft_format_reward_func": 0.03125000046566129,
+      "rewards/strict_format_reward_func": 0.04374999995343387,
+      "rewards/thinkcount_reward_func": 0.028275000513531268,
+      "step": 277
+    },
+    {
+      "completion_length": 8110.75,
+      "epoch": 0.010784598971971681,
+      "grad_norm": 1.8306553363800049,
+      "kl": 0.011716888286173344,
+      "learning_rate": 5.372381691233515e-07,
+      "loss": 0.0005,
+      "reward": 0.4777343515306711,
+      "reward_std": 0.5657017529010773,
+      "rewards/correctness_reward_func": 0.412109375,
+      "rewards/soft_format_reward_func": 0.007812500232830644,
+      "rewards/strict_format_reward_func": 0.015625000465661287,
+      "rewards/thinkcount_reward_func": 0.04218750074505806,
+      "step": 278
+    },
+    {
+      "completion_length": 8072.25,
+      "epoch": 0.010823392493453593,
+      "grad_norm": 5.824916839599609,
+      "kl": 0.01762935658916831,
+      "learning_rate": 5.39177657098526e-07,
+      "loss": 0.0007,
+      "reward": 0.8440061956644058,
+      "reward_std": 1.054400384426117,
+      "rewards/correctness_reward_func": 0.73828125,
+      "rewards/soft_format_reward_func": 0.029687500558793545,
+      "rewards/strict_format_reward_func": 0.04375000158324838,
+      "rewards/thinkcount_reward_func": 0.03228750033304095,
+      "step": 279
+    },
+    {
+      "completion_length": 8096.25,
+      "epoch": 0.010862186014935505,
+      "grad_norm": 7.30731725692749,
+      "kl": 0.034460997907444835,
+      "learning_rate": 5.411171450737006e-07,
+      "loss": 0.0014,
+      "reward": 0.5892468765377998,
+      "reward_std": 0.691438059322536,
+      "rewards/correctness_reward_func": 0.474609375,
+      "rewards/soft_format_reward_func": 0.035937500186264515,
+      "rewards/strict_format_reward_func": 0.05937500111758709,
+      "rewards/thinkcount_reward_func": 0.01932500023394823,
+      "step": 280
     }
   ],
   "logging_steps": 1,