Kwai-Klear
/

Klear-Reasoner-8B

Model card Files Files and versions

Suu commited on Aug 12, 2025

Commit

4b85a24

·

verified ·

1 Parent(s): 626667e

Update README.md

Files changed (1) hide show

README.md +3 -0

README.md CHANGED Viewed

@@ -11,6 +11,9 @@ metrics:
 - accuracy
 ---
 # ✨ Klear-Reasoner-8B
 We present Klear-Reasoner, a model with long reasoning capabilities that demonstrates careful deliberation during problem solving, achieving outstanding performance across multiple benchmarks. We investigate two key issues with current clipping mechanisms in RL: Clipping suppresses critical exploration signals and ignores suboptimal trajectories. To address these challenges, we propose **G**radient-**P**reserving clipping **P**olicy **O**ptimization (**GPPO**) that gently backpropagates gradients from clipped tokens.

 - accuracy
 ---
+### Evaluation
+**Evaluation is coming soon, stay tuned.**
 # ✨ Klear-Reasoner-8B
 We present Klear-Reasoner, a model with long reasoning capabilities that demonstrates careful deliberation during problem solving, achieving outstanding performance across multiple benchmarks. We investigate two key issues with current clipping mechanisms in RL: Clipping suppresses critical exploration signals and ignores suboptimal trajectories. To address these challenges, we propose **G**radient-**P**reserving clipping **P**olicy **O**ptimization (**GPPO**) that gently backpropagates gradients from clipped tokens.