SpiceRL
/

DRA-DR.GRPO

Model card Files Files and versions

Add metadata

#1

by nielsr HF Staff - opened Jun 18, 2025

base: refs/heads/main

←

from: refs/pr/1

Discussion Files changed

Files changed (1) hide show

README.md +4 -0

README.md CHANGED Viewed

@@ -1,5 +1,9 @@
 ---
 license: cc-by-4.0
 ---
 This model is described in the paper [DRA-GRPO: Exploring Diversity-Aware Reward Adjustment for R1-Zero-Like Training of Large Language Models](https://arxiv.org/abs/2505.09655).

 ---
 license: cc-by-4.0
+library_name: transformers
+pipeline_tag: text-generation
+base_model:
+- Qwen/Qwen2.5-1.5B-Instruct
 ---
 This model is described in the paper [DRA-GRPO: Exploring Diversity-Aware Reward Adjustment for R1-Zero-Like Training of Large Language Models](https://arxiv.org/abs/2505.09655).